СОДЕРЖАНИЕ

"Предисловие"

"Введение"

Что такое наука о данных?

Что такое машинное обучение?

Что такое глубокое обучение?

Что такое искусственный интеллект?

Сравнение науки о данных (DS), машинного обучения (ML), глубокого обучения (DL) и искусственного интеллекта (AI)

"Резюме"

Предисловие

Основная идея этого блога — сравнить и связать науку о данных, машинное обучение, глубокое обучение и искусственный интеллект на основе их определений.

Чтобы прояснить ситуацию, давайте дадим определение каждому из больших причудливых терминов и разберем их, чтобы кратко понять, что означает каждый из компонентов в определениях.

Введение

В эту эпоху такие термины, как наука о данных, машинное обучение и искусственный интеллект, используются взаимозаменяемо. Даже организация, предлагающая новые технологии, смешивает операции/процессы, задействованные в этих методах, и может говорить о своих передовых методах обработки данных, не имея о них особых знаний. Определим и свяжем эти термины.

Что такое наука о данных?

Наука о данных – это систематический и научный подход, определяющий процессы, необходимые для извлечения знаний и идей из структурированных или неструктурированных данных. .

Структурированные и неструктурированные данные

В эту цифровую эпоху сложность больших данных представляет как возможности, так и проблемы для организаций. Большинству организаций тяжело обрабатывать и анализировать данные, которые генерируются с экспоненциальной скоростью. По статистике, 80% неструктурированных данных создаются со скоростью около 45% эксабайт в год, тогда как структурированные данные составляют 20%, создаваемые со скоростью около 25% эксабайт в год.

Структурированные данные хорошо организованы и отформатированы, поэтому их можно легко анализировать и обрабатывать с помощью реляционных баз данных. Структурированные данные чаще всего относятся к категории количественных данных. Примеры структурированных данных включают пол, адреса, номера кредитных карт, биржевую информацию, геолокацию и многое другое.

Неструктурированные данные не имеют заранее определенного формата, что значительно усложняет их сбор, обработку и анализ с использованием обычных инструментов и методов. Чаще всего их относят к категории качественных данных, которые концептуально хранятся в озерах данных (базах данных NoSQL). Примеры неструктурированных данных включают текст, видео, аудио, социальные сети, спутниковые изображения и этот список можно продолжить.

Системный и научный подход

Систематический и научный подход — это процесс, в котором теории и методологии отрабатываются на сложных проблемах для изучения наблюдений и прогнозирования результатов.

Теории представляют собой набор предположений, принципов и отношений для набора данных для объяснения определенного явления, тогда как методы включают наблюдения, интервью и опросы, исследования и эксперименты. Эта модель предполагает, что результат проверки гипотезы или теории помогает принять решение о необходимых действиях.

Извлекайте знания и идеи

В то время как необработанные данные обрабатываются с использованием систематических и научных методологий, они дают информацию. Когда получено достаточно информации (изучение и исследование), она становится знанием, и она прямо пропорциональна количеству обработанных данных.

С другой стороны, понимание приобретается, когда знания согласовываются и наблюдаются с формулировкой проблемы в действии. Более того, итеративно опытные идеи способствуют дальнейшему развитию наших знаний.

Это взбалтывание данных, дающее понимание, — это то, чего хотят и практикуют организации, чтобы помочь им принимать эффективные решения. Кроме того, эти идеи (по данным) выводятся с помощью описательных методов и методов вывода.

Вкратце, в описательной статистике данные используются для описания генеральной совокупности с помощью числовых расчетов, таблиц или простых методов визуализации. Принимая во внимание, что выводная статистика делает выводы и прогнозы на выборке данных, взятых из рассматриваемой совокупности.

Что такое машинное обучение?

Машинное обучение – это процесс, который начинается с обучения на основе данных, поиска закономерностей с использованием алгоритмов и статистических данных методов, помогающих предпринимать действия. с минимальным вмешательством человека.

Обучение на основе данных

Обучение (на основе данных) — это процесс получения новых или изменения существующих знаний посредством исследований, обучения или опыта. Это итеративный процесс чувства/переживания —> наблюдения —> размышления —> делания.

Применение этого базового метода обучения к данным может помочь извлечь различные идеи, которые помогут нам измерить качество данных, придать объем и контекст набору данных, анализировать и моделировать данные, выдвигать гипотезы о постановке задачи, сообщать о показателях успеха.

Важно отметить, что модель обучения Дэвида Колба может быть идеальной моделью для приложений расширенного машинного обучения, включая искусственный интеллект (ИИ).

Поиск закономерностей

Поиск шаблонов — один из важных шагов в машинном обучении. Если на основе данных не наблюдаются какие-либо определенные закономерности, очень сложно построить такую ​​модель для прогнозирования. Это способность идентифицировать характеристики данных, которые дают информацию о данном наборе данных.

Паттерны возникают через равные промежутки времени и повторяются предсказуемым образом. Как только они обнаруживаются в наборе данных, становится легче классифицировать и отделять данные для анализа.

Алгоритм и статистические методы

Алгоритм — это конечная последовательность четко определенных инструкций для решения проблемы или выполнения вычислений. Алгоритмический метод — это общий подход к реализации процесса или вычисления. Одним из наиболее важных аспектов алгоритма является его производительность. Это помогает оптимизировать процесс в соответствии с доступными ресурсами.

Статистика — это дисциплина, которая занимается сбором, организацией, анализом, интерпретацией и представлением данных. Статистические методы помогают лучше понять данные. Например, экстремальные значения, среднее, медиана, стандартные отклонения полезны при изучении, обобщении и визуализации данных.

Статистика в основном делится на две категории

Машинное обучение также называют прикладной статистикой или статистическим обучением. Основное различие между машинным обучением и статистикой заключается в их назначении. Модели машинного обучения предназначены для максимально точного прогнозирования. Статистические модели предназначены для вывода о взаимосвязях между переменными.

Что такое глубокое обучение?

Глубокое обучение — это метод машинного обучения, который учит компьютеры учиться и совершенствоваться на собственном примере. Глубокое обучение основано на концепции клеток нашего мозга, называемых нейронами, которые обрабатывают и передают информацию в сложной цепи, и в конечном итоге наш мозг руководит действием. С научной точки зрения, проводя эту аналогию с глубоким обучением, нейроны называются узлами; сложные схемы называются искусственными нейронными сетями (ИНС); действие — это предсказуемый результат.

Узлы

Узел или нейрон — это вычислительная единица, имеющая одно или несколько взвешенных входных соединений, передаточную функцию, которая логически объединяет входы, и выходное соединение. Затем узлы организуются в слои, чтобы составить сеть, которая называется искусственной нейронной сетью.

X1 и X2 — числовые входы; w1 и w2 — веса; 1 вход с весом b в качестве смещения

Искусственная нейронная сеть

Искусственные нейронные сети (ИНС) состоят из слоев узлов. Узлы внутри отдельных слоев связаны с соседними слоями. Сеть считается более глубокой в ​​зависимости от количества слоев, которые она имеет. В искусственной нейронной сети данные/информация перемещаются между узлами и присваивают соответствующие веса. Последний слой компилирует взвешенные входные данные для получения выходных данных.

Одной из основных проблем ANN является функция активации. Функция активации решает, должен ли нейрон быть активирован или нет, вычисляя взвешенную сумму и дополнительно добавляя к ней смещение. Цель состоит в том, чтобы ввести нелинейность в выходные данные узла, поскольку нелинейные функции принимают сложную природу нейронных сетей.

Способность обрабатывать большое количество входных данных (функций) делает глубокое обучение очень эффективным при работе с неструктурированными данными. Однако алгоритмы глубокого обучения могут оказаться излишними для решения менее сложных задач, поскольку для их эффективности требуется доступ к огромному количеству данных.

Исход

Каждый узел в отдельных слоях генерирует выходные данные, пропорциональные весу узла, который, в свою очередь, становится входными данными для следующего слоя и так далее. Это повторяется неоднократно, пока результат не будет достигнут. Затем фактический результат сравнивается с ожидаемым и оценивается производительность сети. Если разница между фактическим и ожидаемым результатом велика, тогда реализуется метод ИНС, называемый обратным распространением, который регулирует вес узлов, чтобы минимизировать эту разницу.

Что такое искусственный интеллект?

Искусственный интеллект (ИИ) — это способность машины или компьютерной программы думать, действовать и учиться, как люди. ИИ достигается путем изучения того, как человеческий мозг думает, действует и учится, пытаясь решить проблему, а затем с использованием результатов этого исследования разрабатываются интеллектуальные программы и системы. Некоторые из областей, в которых ИИ занимает видное место, показаны на рисунке ниже.

Сравнение науки о данных (DS), машинного обучения (ML), глубокого обучения (DL) и искусственного интеллекта (AI)

После краткого введения каждого из этих столпов давайте разберемся в их общих чертах. AI ML DL не является частью или подмножеством DS, хотя некоторые задачи, связанные с DS, пересекаются с AI, ML и DL. DS — это метод, управляемый данными, и каждый из DS, ML и DL имеет процессы, которые связаны с данными или большими данными в контексте.

DS, ML, DL и AI для начала нуждаются в большом количестве данных. Каждый из них обрабатывает данные в своем собственном контексте и с помощью своих методов и предоставляет результат, который затем проверяется на предмет интересов человека. Следует отметить, что DS, ML, DL и AI являются итеративными методами, то есть, если фактический результат сильно отличается от ожидаемого, соответствующие процессы повторяются.

При внимательном рассмотрении процессы содержат сходство между DS, ML, DL и AI. Связь выше двух рисунков, можно сделать следующие выводы

Точка отсчета: DS

  • DS пересекается с ML на основании очистки и моделирования данных
  • Шаги очистки и очистки справки DS — это извлечение функций и группировка информации в DL.
  • Этапы вмешательства и принятия решения являются расширенной версией описания и моделирования шагов DS.

Точка отсчета: машинное обучение

  • Очистка и подготовка данных в ML — это предшествующий этап извлечения признаков в DL; кроме того, оценка, представленная в ML, выступает в качестве прототипа для оценки производительности нейронной сети в DL.
  • Проще говоря, ИИ применяется на основе ML, или ML можно назвать подмножеством AI.

Точка отсчета: DL

  • Этапы оценки и самосовершенствования DL помогают в разработке превосходных моделей ИИ.

Резюме

Хотя DS предоставляет методы моделирования для использования данных с помощью статистики и алгоритмов, в конечном итоге, для извлечения признаков и получения информации. Кроме того, ML, DL и AI разрабатывают функциональное решение в своей области с использованием этих методов. Но главное отличие заключается в том, что DS охватывает весь спектр обработки данных, а не только алгоритмические или статистические ее аспекты. В частности, DS также охватывает

  • интеграция данных
  • распределенная архитектура
  • автоматизация машинного обучения
  • визуализация данных
  • дашборды и BI
  • разработка данных
  • развертывание в рабочем режиме
  • автоматизированные решения на основе данных