Статьи по тематике data-scientist

Публикации по теме 'data-scientist'

Регрессия в Python с использованием Sklearn, XGBoost и PySpark

Машинное обучение обычно используется для решения задач регрессии. В частности, применение алгоритма регрессии к многомерному кадру данных - это метод, обычно используемый для измерения степени, в которой одна (или несколько) независимая переменная (предикторы) и более одной зависимой переменной (ответы) , связаны линейно. Если вы только собираетесь приступить к настройке своей модели машинного обучения, я полагаю, что вы, должно быть, уже выполнили свой исследовательский анализ..

Тенденции в области науки о данных (апрель 2020 г.)

Тенденции в области науки о данных (апрель 2020 г.) Ниже приведены тенденции трудоустройства, которые я наблюдал в области науки о данных/машинного обучения/искусственного интеллекта, когда ежедневно обновлял доску объявлений в течение апреля. Данные были взяты из LinkedIn и Amazon, списков вакансий Facebook и Google. Я ежедневно собирал 1000 результатов из LinkedIn (я понимаю, что это могут быть не все вакансии, опубликованные в апреле, но я чувствовал, что этого достаточно, чтобы..

Логистическая регрессия с нуля

Я попытался собрать простой подход к написанию логистической регрессии с нуля. Вышеприведенное изображение обобщает довольно много информации. Мы переходим к логистической регрессии с ограничением, что y_pred должно быть в {0,1}. Наиболее очевидная интуиция состоит в том, чтобы иметь функцию вероятности (обозначенную p на изображении выше) и называть значения ниже 0,5 как 0 и 1 в противном случае. Значение p = 0,5 подразумевает, что b0+b1.x = 0, что становится границей решения для..

Лучшие сертификаты Data Science для профессионалов в области науки о данных в 2021 году!

В условиях глобального кризиса, если и были хорошие новости, то они были для профессионалов в области науки о данных, которые заметили резкий рост спроса. Кризис COVID явился для отрасли науки о данных множеством ярких моментов, которые не только встряхнули системы, но и подорвали накопившееся доверие, завоеванное за десятилетие успехов. Многочисленные неудачи во время кризиса - растущий 🔗 спрос на профессионалов в области науки о данных - явились серебряной подкладкой для..

Полное руководство по кластеризации

Полное руководство по кластеризации Кластеризация - это алгоритм машинного обучения без учителя, в котором задача состоит в том, чтобы разделить точки данных на несколько групп, чтобы точки данных в одних и тех же группах были более похожи на другие точки данных в тех же группах, чем на точки в других группах. Проще говоря, он направлен на разделение групп со схожими чертами и их распределение в разные кластеры. Например, предположим, что у вас есть много данных о посетителях вашего..

Введение в машинное обучение

Модели машинного обучения можно разделить на следующие три типа в зависимости от выполняемой задачи и характера выходных данных: Регрессия : прогнозируемая выходная переменная представляет собой непрерывную переменную , например, балл учащегося по предмету. Классификация . Прогнозируемая выходная переменная — это категориальная переменная , например классификация входящих электронных писем как спама или нежелательной почты. Кластеризация : сформированным группам/кластерам не..

Как сделать платформы машинного обучения простыми в использовании для специалистов по данным и удобными в сопровождении для инженеров

Одна из мантр товарного маркетинга, которую вы, возможно, слышали, звучит так: «Создано X для X». Во многих случаях это имеет смысл, но когда мы говорим о платформе машинного обучения, чтобы преодолеть разрыв между артефактом модели и его обслуживанием в производстве, такие платформы не могут создаваться исключительно специалистами по данным, поскольку они не обязательно являются инженерами-программистами. Хотя они очень хорошо знают, какими должны быть интерфейс и функции, они не являются..