НАУКА О ДАННЫХ!

Когда это слово приходит нам в голову, все кажется волшебным.

С ним связано так много терминов, например:

  • Инженерия данных
  • Большие данные
  • ETL
  • Анализ данных
  • Машинное обучение
  • Глубокое обучение
  • Перенос обучения
  • Обучение с подкреплением
  • Искусственный интеллект

Для каждого жаргона, о котором я говорил выше, характерно одно, а именно: ДАННЫЕ.

Знаете ли вы, что Разработка программного обеспечения играет очень важную роль. Вы спросите, почему?

Ответ в том, откуда мы можем получить данные или средства сбора данных. Именно через это поле все становится возможным.

Сначала данные генерируются через разные платформы, такие как

  • Веб-сайты
  • Мобильные приложения
  • Приложения для ПК
  • Камеры движения
  • Социальные сети (большая рыба в пруду)
  • Устройства IOT
  • и этот список продолжается…

На данном этапе данные находятся в младенческой форме.

Данные в основном представлены в трех форматах:

  1. Структурированный → SQL
  2. Полуструктурированный → JSON
  3. Неструктурированный → Mongo DB

До сих пор очень важную роль играет программная инженерия.

Теперь поле ИНЖЕНЕРНЫЕ ДАННЫЕ переходит в .

Data-инженеры, чем они занимаются?

С точки зрения непрофессионала, они создают базы данных и обрабатывают данные, теперь вы можете спросить, это звучит очень странно, это похоже на то, что делают инженеры-программисты. Хм!

В определенной степени вы правы и неправы. Я могу сказать.

Инженеры-программисты создают пользовательские базы данных и обрабатывают в них данные. Но то же самое нельзя сказать о дата-инженерах.

Инженеры по обработке данных в основном берут данные из всех источников, например, из баз данных веб-сайтов, баз данных приложений, социальных сетей, Интернета вещей и т. Д., И собирают их в одном месте под названием DATALAKE, а процесс сбора данных из различных источников называется ПОГЛОЩЕНИЕ ДАННЫХ. (Kafka - один из инструментов, используемых для этого)

На данном этапе данные, представленные в DATALAKE, имеют все форматы, такие как структурированная, полуструктурированная и неструктурированная. Данные огромны что сейчас это называется БОЛЬШИЕ ДАННЫЕ и бессмысленно. (HADOOP, HDFS, MAPREDUCE, APACHE SPARK - некоторые из технологий, используемых в этой области)

Чтобы понять смысл данных и сделать их «полезными» для понимания, для моделей машинного обучения, чтобы вернуть данные на платформы взаимодействия с пользователем.

Эти данные теперь обрабатываются по конвейеру в DATAWAREHOUSE.

Используемый для этого процесс называется ETL (EXTRACT TRANSFORM LOAD).

Как следует из названия, данные сначала извлекаются, а затем обрабатываются или преобразовываются, поэтому полезные данные должны передаваться только через конвейер и загрузку данных.

Из этого ОБОРУДОВАНИЯ ДАННЫХ данные отправляются на различные платформы для АНАЛИЗА ДАННЫХ, МАШИННОГО ОБУЧЕНИЯ, ГЛУБОКОГО ОБУЧЕНИЯ (которое является подмножеством машинного обучения), а также в пользовательский интерфейс.

Теперь процесс обработки данных для инженеров по данным подошел к концу ☹.

А вот и поле АНАЛИЗ ДАННЫХ 🙂, выполненное аналитиком данных, что они делают?

Они извлекают информацию из полезных данных, собранных с помощью различных инструментов и библиотек, и помогают в бизнес-аналитике и бизнес-решениях. Вот некоторые инструменты: Tableau, Power BI, QlikView и библиотеки, такие как Matplotlib и Seaborne, и это лишь некоторые из них.

После этого этапа следующим этапом является машинное обучение, или глубокое обучение, или обучение с передачей, или обучение с подкреплением, где данные берутся и передаются в модели или классификаторы, которые, в свою очередь, дают прогноз на основе данных.

Иногда для машинного обучения или глубокого обучения данные приложений также могут быть взяты из Datalake.

На этом история данных не заканчивается, но для простоты мы на этом остановимся.

Фух!

Столько всего здесь переварить 😄.

Писатель:

  • Абид Анджум Ансари

Linkedin: https://www.linkedin.com/in/abid-anjum-ansari-402154159

GitHub:

Https://github.com/Abid-AnjumAnsari/MachineLearner