Работать с реальным набором данных не так просто, как мы видим во время обучения. Работать с данными Kaggle, с данными Zindi очень легко по сравнению с получением данных самостоятельно.

Когда вы работаете с реальной проблемой, у вас не всегда есть готовый набор данных. Первый шаг здесь - это анализ ваших данных. Данные поступают в разных форматах, поэтому у нас есть несколько методов интеллектуального анализа данных.

Сбор данных

Сбор данных - самая важная часть науки о данных, сбор данных играет большую роль в определении того, насколько хорошо идет анализ данных. Данные бывают разных форматов, например csv, tsv, xlsx, html и т. Д.

Методы сбора данных

  • Интервью
  • Анкеты и опросы
  • Наблюдения
  • Фокус группы
  • Этнографии, устная история и тематические исследования
  • Документы и записи
  • Веб-парсинг

Вот ссылка, где вы можете узнать больше о нескольких методах сбора данных https://cyfar.org/data-collection-techniques

Очистка данных

Когда ваши данные будут готовы, вам нужно будет очистить их. Очистка данных - это процесс выявления и удаления из данных нежелательных наблюдений. Процесс очистки данных может заключаться в удалении нежелательных наблюдений, удалении выбросов, заполнении недостающих строк, создании вычисляемого столбца, символов.

Определите свой вопрос

При анализе данных вопросы должны быть измеримыми, ясными и краткими. Вопросы должны быть разработаны таким образом, чтобы квалифицировать или дисквалифицировать потенциальное решение проблемы. В рекламной индустрии такие вопросы, как «Влияет ли возраст на количество подписчиков на эту услугу», «Как пол влияет на тип рекламы, который хотели бы видеть?». Это сделано для того, чтобы лучше понять решение, над которым мы работаем. Это может помочь ориентироваться на людей, которые могут использовать определенный продукт, людей, которые могут подписаться на определенный канал.

Установите четкий приоритет измерения

Это может происходить двумя разными способами:

  • Решите, что измерять
  • Решите, как измерить.

Одна из ключевых проблем при управлении производительностью - это выбор того, что нужно измерять. Приоритет здесь - сосредоточиться на измеримых факторах, которые четко связаны с драйверами успеха в бизнесе.

Анализируйте свои данные

Данными можно манипулировать различными способами, такими как построение графика, создание сводных таблиц, группировка по определенной категории. Такие инструменты, как pandas, excel, tableau, power bi очень полезны при анализе данных.

Интерпретировать результат

Следующим шагом после анализа данных является интерпретация анализа, на этом этапе делаются выводы о том, ошибочна ли гипотеза или принята ли она.

Вывод

Как видите, данные доступны не всегда. Вы должны быть осторожны с конфиденциальностью и лицензиями. Зашифруйте все личные данные перед отправкой в ​​открытый доступ, прочтите файл robot.txt с веб-сайтов перед очисткой, удалите все токены доступа или ключи, прежде чем делиться своим кодом и данными с публикой.

Спасибо за прочтение.

Ваше здоровье!