Приключения в смене метафорического головного убора

Наука о данных - странное существо, гибридное химерное детище машинного обучения и статистики. Его случаи многочисленны, но сбивают с толку, потому что они часто нечетко определены и принимают разные формы в зависимости от данных и задействованных людей.

В контексте бизнес-проблем «наука» в науке о данных на самом деле сводится к простому «узнать больше» в духе Scientia - «знать». Это хорошо согласуется с моим личным стремлением к открытиям. Я хочу раскрыть ранее неизвестные закономерности в работе процессов, будь то физические, биологические или социологические.

Во время моей работы в качестве специалиста по данным я чередовал три разные роли на разных этапах проектов, ориентированных на данные, которые можно охарактеризовать следующим образом:

Собиратель / Охотник

Каждая задача в области науки о данных начинается с поиска необходимых данных. В идеальном мире он живет в хранилищах данных или базах данных, таких как аккуратно маркированные проходы и полки продуктовых магазинов. (Слава богу архитекторам данных и инженерам!) В неидеальном случае он растет на труднодоступных горных вершинах или болтается на дне темного озера данных. В большинстве случаев это где-то посередине.

В хорошие дни вы можете написать короткие запросы SQL SELECT для извлечения данных из базы данных. В другие дни вам может потребоваться вызвать API-интерфейсы и бороться с токенами доступа и сертификатами. Иногда просто раскрытие данных может очень помочь - если раньше никто не имел к ним доступа. Разные команды могут по-разному использовать один и тот же набор данных, и простое извлечение его в центральное место - отличный инструмент, будь то база данных AWS или Google Sheet.

Шеф

Как и в случае с приготовлением пищи, перед применением какого-либо статистического алгоритма или алгоритма машинного обучения часто требуется подготовить много данных. Чтобы обеспечить наилучший возможный результат, необработанные данные необходимо очистить и обрезать до наиболее актуальной сущности.

В любом конкретном случае использования существует гораздо больше способов, чтобы данные имели неправильные форматы, чем правильные. Хорошие наборы данных в большинстве своем похожи; Плохие наборы данных по-своему проблематичны, например неправильно написанные или отсутствующие имена, адреса электронной почты, запятые в файлах CSV, несогласованные временные метки из-за часовых поясов или перехода на летнее время.

Для таблиц данных следующий шаг - нарезать и нарезать кубиками или объединить и объединить, используя SQL, Python или R. Для более сложных структур данных, таких как вложенные файлы JSON, их нужно очищать, как лук, пока они жгут глаза.

Наиболее часто используемые алгоритмы машинного обучения или статистические алгоритмы сейчас хорошо разработаны. Они варьируются от простых в использовании и объяснимых, таких как регрессии (подумайте о горшках и сковородках), до простых в использовании, но трудно объяснимых, таких как нейронные сети и случайные леса ( думаю микроволны).

Хотя эти алгоритмы часто реализуются в упакованных библиотеках, настройки по умолчанию не всегда работают хорошо. Вы не можете просто подключать и работать, потому что у алгоритмов есть много входных параметров, которые необходимо настраивать для решения различных задач. Для жарки рыбы требуются другие приправы, чем для обжаривания брюссельской капусты, помимо разного времени приготовления и различных режимов нагрева.

Когда вы будете довольны результатами анализа (блюдо на тарелке), следующим шагом будет презентация.

Официантка

Блюда из местных закусочных, такие как бутерброды или мясной рулет, могут быть доставлены как есть, потому что большинство людей знают, что они из себя представляют. Официанту (обычно) не нужно объяснять, откуда взялись ингредиенты. Они эквивалентны таблице Excel с заголовком и заголовками или столбчатой ​​диаграмме с метками осей. Информация должна быть легко усваиваемой, тенденции должны быть очевидны, а элементы, требующие принятия мер, должны быть очевидны.

Более сложные визуализации, такие как карты кластеров или множественные гистограммы с логарифмическими шкалами, требуют большей тонкости, чтобы сделать их понятными - например, когда метрдотель описывает блюдо как идеальное сочетание альпийской пены из мха и глубоководного морского окуня. Сложные графики могут отображать более подробную информацию, но ключевые моменты все же необходимо выделить, чтобы аудитория не была перегружена сенсорной перегрузкой.

Цели представления данных могут представлять собой сочетание важных открытий или призывов к действию. Заинтересованные стороны должны видеть точные представления данных, из которых они могут извлечь уроки и ясно интерпретировать, чтобы принимать оптимальные решения в будущем.

Если вы хотите присоединиться к нашей команде, ознакомьтесь с вакансиями в Soluto Nashville и отправьте мне сообщение!