Статистика - главное в машинном обучении

За последние 5 лет наблюдался экспоненциальный рост количества выпущенных приложений для машинного обучения. Технология улучшилась не по дням, а по часам - в первую очередь, качество программного обеспечения для распознавания речи на наших смартфонах. Использование голосовых команд для вызова друга больше не направляет звонок в какое-то курьерское агентство или сердитому бывшему. Фактически, голосовые команды находятся на грани того, чтобы стать основным способом взаимодействия с машинами.

Машинное обучение добилось ошеломляющих успехов во множестве приложений, от языковых переводов до распознавания и рендеринга изображений. И кто может игнорировать IBM Watson, последнее чудо машинного обучения? Технологии находятся на пути к следующему этапу эволюции машин, и машинное обучение, вероятно, играет самую большую роль.

Принимая во внимание тот факт, что наклон машины существует с 1950-х годов, мы, безусловно, заинтригованы тем, что пошло правильно в последние несколько лет, когда в этой области появилось так много инноваций. Ответ на этот вопрос - данные.

Мы живем в эпоху изобилия данных - около 90% мировых данных было создано только за последние три года. И это подводит нас к актуальной теме - статистике.

Статистика является неотъемлемой частью систем машинного обучения. Фактически, вы можете даже назвать машинное обучение третичной отраслью статистики. Статистический анализ может быть очень полезным при установлении мотивации системы машинного обучения и при проверке результатов, полученных системой.

В этом посте мы рассмотрим четыре основных статистических концепции, которые помогут вам начать работу с машинным обучением.

Статистический вывод

Статистический вывод - это процесс анализа данных для понимания лежащего в основе распределения вероятностей. Проще говоря, статистический вывод - это то, что вы применяете, когда хотите разобраться в случайных данных.

Возьмем, к примеру, поведение покупателя на веб-сайте электронной коммерции. Данные, связанные с клиентом, пронизаны несколькими переменными и неопределенностями, что, в свою очередь, делает практически невозможным понимание того, что в первую очередь привело клиента к покупке продукта. Методы, которые вы применяете для проведения наблюдений и повторной выборки данных, вводят множество переменных в уже случайные данные.

Здесь в игру вступает статистический вывод. Собранные данные преобразуются в аккуратные модели, основанные на общих свойствах, на основе которых делаются прогнозы относительно имеющейся проблемы (в данном случае - поведения покупателя).

Статистическая популяция

Статистическая совокупность - это набор сущностей, которые совместно используют свойство или набор свойств; то есть это набор похожих (не идентичных, заметьте) предметов или событий. Когда мы работаем с данными, мы фактически работаем с выборкой, взятой из совокупности данных. Работая над проблемой прогнозирования, мы работаем с выборочными данными таким образом, чтобы характеризовать всю совокупность данных, так что есть минимальные отклонения в прогнозе при работе с другими выборочными данными из генеральной совокупности.

Это означает, что отбор и выборка данных должны выполняться с особой тщательностью, поскольку размер и качество выборки могут повлиять на общую характеристику совокупности данных и последующие результаты. Кроме того, не забудьте принять во внимание случайность, введенную на этапе сбора данных, и соответствующим образом управлять, исправлять или даже манипулировать ею.

Большие данные

Существует распространенное заблуждение, что большие данные устраняют процесс выборки данных, что можно работать со всей совокупностью данных. Однако это опасное мышление. Представьте, что вы моделируете данные о сотрудниках производственного предприятия. Данные, над которыми вы будете работать, конечно, являются выборкой, а не всей генеральной совокупностью, поскольку ваше моделирование не помешает новым сотрудникам присоединиться к бизнесу, тем самым уменьшив ваше хранилище данных до простой выборки.

Вот почему вы всегда должны избегать чрезмерного обобщения результатов и заявлений, выходящих за рамки данных, над которыми вы работали. Например, тенденции всех пользователей Facebook не могут отражать тенденции всех людей.

А вот с чем помогают большие данные - это совсем другое дело. Он помогает моделировать отдельные объекты (один клиент, один сотрудник и т. Д.) С использованием всех данных, собранных до настоящего времени по этому объекту. Это, в свою очередь, открывает новые захватывающие возможности в мире исследований и анализа.

Статистические модели

Статистическая модель - это уменьшенная репрезентативная версия фактических данных. Он наполнен предположениями и представляет собой довольно грубое упрощение совокупности данных. Это всегда неверно, как и миниатюрные модели мостов или зданий, но оно дает вам общее представление о том, как выглядят фактические данные. Он описывает отношения между несколькими атрибутами данных, поэтому вы, по крайней мере, знаете, как смотреть на фактические данные и понимать их.

Статистические модели различаются по степени сложности; чем сложнее модель, тем она ближе к реальным данным и тем труднее ее понять. По этой причине всегда рекомендуется начинать с более простой модели и увеличивать сложность в соответствии с вашими требованиями.

Статистика машинного обучения

Если эта статья вызвала у вас интерес и заставила использовать статистику для построения эффективных и гибких моделей машинного обучения, Статистика для машинного обучения - это то, что вам нужно. Он проведет вас через все, что вам нужно знать для выполнения сложных статистических вычислений, необходимых для машинного обучения, включая обучение с учителем, обучение без учителя, обучение с подкреплением и многое другое.

Написанная Пратапом Дангети, книга следует практическому пошаговому подходу к объяснению основ статистики и машинного обучения. Пратап Дангети - эксперт по машинному обучению, который большую часть своего времени тратит на разработку решений машинного обучения и глубокого обучения для структурированных, графических и текстовых данных.

Итак, если вы разработчик, стремящийся обновить свою статистику и внедрить машинное обучение в свои системы, Статистика для машинного обучения - это то, что вам нужно!

Удачного (машинного) обучения!

За другими обновлениями вы можете следить за мной в Твиттере на моем твиттере @NavRudraSambyal

Спасибо за чтение, поделитесь, если вы сочли полезным :)

Статистика - главное в машинном обучении

Похожие вопросы