Это рассказ каждого студента о том, что экзамен полностью отличается от того, чему его учили в классе.
В этой статье я попытаюсь сократить разрыв между обучением на онлайн-курсах и работой над профессиональными проектами.
Я за 15 секунд - Вот уже около полугода я работаю специалистом по анализу данных, и это было довольно сложной кривой обучения. Для меня это было довольно сложной кривой обучения, так как я получил опыт работы в области патентной аналитики (2 года). Там мой интерес вызвали проекты по оценке патентных тенденций, с тех пор я начал больше узнавать о Data Science вместе со своей работой. В нерабочее время я буду проходить онлайн-курсы и выходные…? участие в Hack-A-Thons.
Однако после 8 месяцев самообучения, когда я стал специалистом по анализу данных, я не мог применить свои знания на практике. Существует разрыв между курсовой работой и реальной проектной работой в организациях. Навыки, которым не учат на курсах и которые можно освоить только после того, как вы войдете в поле.
Итак, я записал 6 основных вещей, которые я усвоил за последние 6 месяцев.
1. Сбор и подготовка данных
В любой типичной аналитической задаче, доступной в Интернете или на хакатонах, данные уже доступны, и наша задача - просто подготовить данные (очистка данных, вменение недостающих значений и т. Д.). Однако у бизнеса есть несколько источников сбора и хранения данных (Oracle, SAS, MongoDB). Будучи специалистом по данным, вам нужно будет определять соответствующие переменные из этих источников данных. Так что, если вы начинаете какой-либо проект с нуля, этот процесс отнимет у вас много времени.
Участвуя в проекте, потратьте много времени на ознакомление с данными и подготовку данных. Часто вы стремитесь построить лучшую модель, а не улучшать данные, на которых вы ее строили. Однако есть предел, до которого вы можете улучшить модель на основе доступных данных / переменных. Так что, если вы потратили достаточно времени и усилий на улучшение входных данных модели, это определенно поможет вам в долгосрочной перспективе.
Подсказка: потратьте много времени на ознакомление с данными.
2. Производственная модель (развертывание модели)
Как правило, структура машинного обучения состоит из 7 этапов:
1. Сбор данных
2. Подготовка данных
3. Выбор модели
4. Обучение модели
5. Модель Оценка
6. Настройка параметров
7. Прогнозирование
В процессе разработки мы проводим исследовательский анализ данных (EDA), рисуем графики, проверяем гипотезы и используем различные модели. Однако, когда код попадает в производственный конвейер, он должен быть полностью автоматизирован. Между запусками трубопровода производственной модели не должно требоваться никакого ручного вмешательства.
3. Кошмар инженера: сбой производственного кода.
Я усвоил этот шаг на собственном горьком опыте, когда мой производственный код не удался. Иногда мы пропускаем тестирование нашего кода для некоторых случаев использования. В таких сценариях на помощь приходит обработка ошибок, и ваш производственный код не останавливается внезапно при сбое кода.
Try-catch = Спасатель.
Помимо обработки ошибок, также необходимо ведение журнала. Журналы используются для отладки точки отказа при сбое кода.
4. Коммуникационные навыки
Умелое общение требует двух аспектов: один - собрать правильные и выполнимые технические требования от клиента, а другой - сообщить клиенту, что вы сделали.
- Общение с клиентом очень важно. Объясните им, какие модели могут предложить и каковы их ограничения. Иногда ожидания клиента не совпадают с техническими предложениями моделей.
- Ваш технический опыт является обязательным, но навыки представления данных и визуализации имеют большое значение. Клиент и руководство, как правило, не будут техническими специалистами. Помимо расчетных цифр, используйте креативную визуализацию для продажи своей модели. Даже если вы проделали какую-то ультрасовременную работу, но не смогли передать ее влияние на клиента, вся эта работа будет напрасной. Суровая правда!
5. Критерии оценки
При решении задач онлайн-аналитики мы не обращаем особого внимания на фактор оценки, который является одним из факторов, отражающих фактическую эффективность модели.
Подсказка: выбирайте метрику оценки с умом, чтобы сделать ее более эффективной.
Например, у нас есть набор данных, показанный ниже.
Всего пациентов: 100
Диабетиков: 5
Здоровых: 95
Здесь, даже если наша модель предсказывает только класс большинства, то есть все 100 человек здоровы, у нас точность классификации 95%. Обратитесь к этой статье для выбора критериев оценки в случае возникновения проблем с классификацией.
6. Влияние на бизнес
Будучи специалистом по обработке данных, вы должны сосредоточиться не только на построении моделей, но и на том влиянии, которое модели оказывают на бизнес. Кроме того, довольно интересно узнать статистику.
Бонусный балл. Правило 20%: учись новому
Хотя работа в области науки о данных будет занимать вас в течение дня, постарайтесь выделить некоторое время (например, 10–20%), чтобы быть в курсе последних событий, связанных с основной работой. Остальные 80% времени в любом случае будут потрачены на основные проекты.
Заключение
Я обсудил в основном 6 пунктов, которые
1. Сбор и подготовка данных
2. Критерии оценки
3. Производственная модель (развертывание модели)
4. Обработка ошибок
5. Навыки презентации
6. Бизнес Влияние
Если у вас есть какие-либо комментарии или вопросы, не стесняйтесь оставлять свои отзывы ниже. Для получения дополнительных статей посетите KeytoDataSicence. Вы всегда можете связаться со мной в LinkedIn.