Это рассказ каждого студента о том, что экзамен полностью отличается от того, чему его учили в классе.

В этой статье я попытаюсь сократить разрыв между обучением на онлайн-курсах и работой над профессиональными проектами.

Я за 15 секунд - Вот уже около полугода я работаю специалистом по анализу данных, и это было довольно сложной кривой обучения. Для меня это было довольно сложной кривой обучения, так как я получил опыт работы в области патентной аналитики (2 года). Там мой интерес вызвали проекты по оценке патентных тенденций, с тех пор я начал больше узнавать о Data Science вместе со своей работой. В нерабочее время я буду проходить онлайн-курсы и выходные…? участие в Hack-A-Thons.

Однако после 8 месяцев самообучения, когда я стал специалистом по анализу данных, я не мог применить свои знания на практике. Существует разрыв между курсовой работой и реальной проектной работой в организациях. Навыки, которым не учат на курсах и которые можно освоить только после того, как вы войдете в поле.

Итак, я записал 6 основных вещей, которые я усвоил за последние 6 месяцев.

1. Сбор и подготовка данных

В любой типичной аналитической задаче, доступной в Интернете или на хакатонах, данные уже доступны, и наша задача - просто подготовить данные (очистка данных, вменение недостающих значений и т. Д.). Однако у бизнеса есть несколько источников сбора и хранения данных (Oracle, SAS, MongoDB). Будучи специалистом по данным, вам нужно будет определять соответствующие переменные из этих источников данных. Так что, если вы начинаете какой-либо проект с нуля, этот процесс отнимет у вас много времени.

Участвуя в проекте, потратьте много времени на ознакомление с данными и подготовку данных. Часто вы стремитесь построить лучшую модель, а не улучшать данные, на которых вы ее строили. Однако есть предел, до которого вы можете улучшить модель на основе доступных данных / переменных. Так что, если вы потратили достаточно времени и усилий на улучшение входных данных модели, это определенно поможет вам в долгосрочной перспективе.

Подсказка: потратьте много времени на ознакомление с данными.

2. Производственная модель (развертывание модели)

Как правило, структура машинного обучения состоит из 7 этапов:
1. Сбор данных
2. Подготовка данных
3. Выбор модели
4. Обучение модели
5. Модель Оценка
6. Настройка параметров
7. Прогнозирование

В процессе разработки мы проводим исследовательский анализ данных (EDA), рисуем графики, проверяем гипотезы и используем различные модели. Однако, когда код попадает в производственный конвейер, он должен быть полностью автоматизирован. Между запусками трубопровода производственной модели не должно требоваться никакого ручного вмешательства.

3. Кошмар инженера: сбой производственного кода.

Я усвоил этот шаг на собственном горьком опыте, когда мой производственный код не удался. Иногда мы пропускаем тестирование нашего кода для некоторых случаев использования. В таких сценариях на помощь приходит обработка ошибок, и ваш производственный код не останавливается внезапно при сбое кода.

Try-catch = Спасатель.

Помимо обработки ошибок, также необходимо ведение журнала. Журналы используются для отладки точки отказа при сбое кода.

4. Коммуникационные навыки

Умелое общение требует двух аспектов: один - собрать правильные и выполнимые технические требования от клиента, а другой - сообщить клиенту, что вы сделали.

  • Общение с клиентом очень важно. Объясните им, какие модели могут предложить и каковы их ограничения. Иногда ожидания клиента не совпадают с техническими предложениями моделей.
  • Ваш технический опыт является обязательным, но навыки представления данных и визуализации имеют большое значение. Клиент и руководство, как правило, не будут техническими специалистами. Помимо расчетных цифр, используйте креативную визуализацию для продажи своей модели. Даже если вы проделали какую-то ультрасовременную работу, но не смогли передать ее влияние на клиента, вся эта работа будет напрасной. Суровая правда!

5. Критерии оценки

При решении задач онлайн-аналитики мы не обращаем особого внимания на фактор оценки, который является одним из факторов, отражающих фактическую эффективность модели.

Подсказка: выбирайте метрику оценки с умом, чтобы сделать ее более эффективной.

Например, у нас есть набор данных, показанный ниже.
Всего пациентов: 100
Диабетиков: 5
Здоровых: 95
Здесь, даже если наша модель предсказывает только класс большинства, то есть все 100 человек здоровы, у нас точность классификации 95%. Обратитесь к этой статье для выбора критериев оценки в случае возникновения проблем с классификацией.

6. Влияние на бизнес

Будучи специалистом по обработке данных, вы должны сосредоточиться не только на построении моделей, но и на том влиянии, которое модели оказывают на бизнес. Кроме того, довольно интересно узнать статистику.

Бонусный балл. Правило 20%: учись новому

Хотя работа в области науки о данных будет занимать вас в течение дня, постарайтесь выделить некоторое время (например, 10–20%), чтобы быть в курсе последних событий, связанных с основной работой. Остальные 80% времени в любом случае будут потрачены на основные проекты.

Заключение

Я обсудил в основном 6 пунктов, которые

1. Сбор и подготовка данных
2. Критерии оценки
3. Производственная модель (развертывание модели)
4. Обработка ошибок
5. Навыки презентации
6. Бизнес Влияние

Если у вас есть какие-либо комментарии или вопросы, не стесняйтесь оставлять свои отзывы ниже. Для получения дополнительных статей посетите KeytoDataSicence. Вы всегда можете связаться со мной в LinkedIn.