Что такое наука о данных?

Наука о данных - это широкий термин, объединяющий различные инструменты, алгоритмы и принципы машинного обучения с целью обнаружения скрытых закономерностей в необработанных данных ( Германт Шарма, 2018)

Наука о данных имеет очень большие области, которые производят впечатление и влияют на бизнес и общественную жизнь.

Наука о данных - это процесс предоставления решения вопроса или проблемы с помощью данных (обработка данных) для получения знаний.

«Данные» - один из наиболее важных аспектов выполнения любой обработки данных. Если вы когда-нибудь слышали о пирамиде DIKW или пирамиде данных, мы можем видеть, что «данные» - это основа мудрости. Мы можем сказать, что мудрость - это все, что у нас есть, прежде чем принимать какое-либо важное решение. Итак, цель каждой обработки данных - получить знания после обнаружения данных.

Что такое машинное обучение?

Машинное обучение (ML) - это всего лишь одна часть науки о данных, где Data Science является большим зонтом, охватывающим все аспекты обработки данных .

Машинное обучение как подмножество науки о данных самоочевидно означает, что машины автоматически учатся и совершенствуются на основе опыта, чтобы выполнять задачи, для выполнения которых специально не запрограммированы.

Машинное обучение фокусируется на разработке программ, которые могут учиться на данных путем наблюдения за данными, чтобы обнаруживать скрытые закономерности из данных, а затем принимать более обоснованные решения на основе этих данных.

Основная цель машинного обучения - компьютеры могут автоматически обучаться без вмешательства человека или помощи и соответствующим образом корректировать действия.

Методы машинного обучения

Обычно мы разделяем машинное обучение на 2 подхода: контролируемое и неконтролируемое обучение.

  • Контролируемое обучение - это подход машинного обучения, который требует обучения маркированного набора данных (маркированных данных), чтобы компьютер контролировал обучение для прогнозирования метки / класса / категории будущие события. Его также можно протестировать с помощью тестового набора данных и использовать для классификации или прогнозирования.
  • Неконтролируемое обучение - это подход машинного обучения, который использует немаркированные данные для описания скрытой структуры данных. Обычно используется для категоризации / группировки / кластеризации неизвестной группы данных (немаркированных данных) на основе сходства или структурных атрибутов каждой характеристики группы.

Из двух подходов мы видим, что эти алгоритмы машинного обучения можно использовать для прогнозирования и обнаружения шаблонов в основном наши реальные проблемы также подразделяются на две основные проблемы, решаемые с помощью алгоритмов машинного обучения.

Методология CRISP-DM

CRISP - DM означает межотраслевой процесс интеллектуального анализа данных. Эта методология обеспечивает структурированный подход или структуру для планирования проекта интеллектуального анализа данных.

Эта надежная и хорошо зарекомендовавшая себя методология состоит из нескольких этапов:

  1. Этап Понимание бизнеса / Определение проблемы - это понимание проблемы и того, чего вы хотите достичь с точки зрения бизнеса. Определение проблемы, которую необходимо решить. Это может быть проблема прогнозирования или классификации, а также может быть проблема кластеризации.
  2. Этап понимания данных требует, чтобы вы приобрели или собрали данные (также известные как загрузка данных), которые используются, чтобы помочь вам построить модель машинного обучения или помочь вам решить определенную проблему. Этот этап также может помочь вам найти исходную гипотезу, задав вопросы о данных.
  3. Этап Подготовка данных / Предварительная обработка данных поможет вам определиться с данными, которые вы собираетесь использовать для анализа. Этот этап включает очистку данных, интеграцию данных, сокращение данных и преобразование данных.
  4. Этап анализа / моделирования может быть EDA (исследовательский анализ данных) или выбрать фактическую технику моделирования для решения первых определенных проблем. Выбор метода моделирования заключается в определении конкретных алгоритмов машинного обучения для вашей исходной проблемы.
  5. На этапе оценки учитывались такие факторы, как точность и универсальность модели. Этот этап предназначен для измерения того, что ваша модель удовлетворена достаточно, чтобы решить вашу первоначальную проблему или удовлетворить потребности бизнеса и может ли она использоваться в производственной среде. Этот этап включает в себя процесс проверки для рассмотрения вопросов обеспечения качества.
  6. Этап презентации / визуализации / развертывания - это конец процесса, чтобы сообщить или развернуть ваше решение проблемы, если оно достаточно удовлетворительно, и пройти этап оценки.

Эти фреймворки часто встречаются в записных книжках специалистов по данным для решения многих проблем машинного обучения. На практике многие задачи можно выполнять в другом порядке и часто возвращаться к предыдущим задачам и повторять определенные действия.