Наука о данных — это относительно новая область, в которой большинство из нас не разбирается, согласны? На самом деле, это настолько обширная область, что компаниям трудно определить предпосылки, необходимые для хорошего кандидата. Наем и собеседование с ними - это вызов, который, безусловно, следует.

Поэтому мы решили взять интервью у нашего главного эксперта по науке о данных Сайката Саркара, который работает и преподает в этой области последние 10 лет. В настоящее время он выступает в качестве предметного эксперта Python в Aegis School of Data Science. В откровенной беседе с AirCTO он советует, как оценить кандидата в науку о данных, а также дает хаки для поиска таких кандидатов. Он также говорит о важности области науки о данных сегодня и в ближайшие годы.

Как началось ваше путешествие в области науки о данных?

Наука о данных нашла меня еще до того, как я узнал это определение, примерно в 2002–2003 годах, когда я окончил колледж и пытался создать чат-бота. Я использовал C для этого. Так как материалов, на которые я мог бы сослаться, было не так много, да и Интернет был не так доступен, получился хороший академический проект, но не живой. Я попробовал другой проект, использующий IoT, который также не смог взлететь из-за недоступности аппаратных материалов.

После этого я переехал в Мумбаи в отдел бизнес-процессов, где обнаружил огромные объемы данных и постоянно обрабатывал их либо с помощью Excel, либо с помощью языков программирования и т. д. Я обнаружил, что обычных инструментов недостаточно для поиска ответов, которые я искал, вроде того, что ожидается в ближайшие три месяца.

Из любопытства я случайно наткнулся на Python и начал использовать его в сочетании с ML для прогнозной аналитики. Около двух с лишним лет назад я получил предложение преподавать Python, и мне сказали, что конечной целью является подготовка Data Scientist. Именно тогда я познакомился с различными алгоритмами машинного обучения и тем, как их можно использовать в НЛП.

Насколько важна наука о данных для организации?

Видите ли, каждый в организации знает, что происходит сегодня, это не имеет большого значения. Но если я скажу вам, что произойдет в ближайшие три месяца, это добавит ценности. Предположим, если я могу предсказать негативное влияние на организацию, скажем, с точки зрения продаж, и в дополнение к этому, если я также могу сказать генеральному директору, что ему нужно сделать, чтобы гарантировать, что в меняющихся обстоятельствах, чтобы поток заказов не уменьшался, а наоборот увеличивался, я бы добавил реальную ценность. Итак, это не только прогнозная аналитика, но и предписывающая аналитика; в этом прелесть науки о данных или больших данных.

Какие общие профили науки о данных востребованы в настоящее время?

Есть две перспективы, индийская и глобальная перспективы, мы фактически отстаем с точки зрения глобальной перспективы. С глобальной точки зрения я ожидаю, что кандидат будет знаком с концепциями глубокого обучения, которое является вторым этапом машинного обучения, таким как искусственные нейронные сети, оно быстро используется в США и во всех других частях мира.

Как правило, компания должна рассматривать кандидатов с достаточно сильными навыками программирования и статистическим пониманием машинного обучения. Дополнительным бонусом будет знакомство с платформами больших данных, такими как Hadoop и Spark. Принятие решений, случайный лес — другие темы. Я смотрю, есть ли у кандидатов понимание того, что в них происходит, и знание того, какую проблему не следует в них помещать. Я не ищу, чтобы они реализовали алгоритм, но, учитывая некоторые базовые данные, которые доступны, могут ли они сделать выбор в пользу правильных инструментов и алгоритма? Могут ли они определить, какие из них стоит попробовать, а какие нет? Это дало бы мне представление об их способности использовать алгоритм в реальном сценарии.

В чем разница при собеседовании с новичком, специалистом среднего и старшего звена в этой области? Какие типичные наборы навыков оцениваются для каждого из них?

Чем выше вы поднимаетесь по управленческой лестнице, тем меньше требуется технических навыков, поэтому, чем старше человек, тем меньше кода я прошу у него. Вместо этого я давал ему ситуацию с характеристиками данных и спрашивал его об алгоритме, этапах предварительной обработки и т. д. Он должен быть в состоянии дать мне концепцию и путь вперед.

Кодирование здесь не является большой проблемой, но решить, что делать. Если я оцениваю парня с 3–5-летним опытом, я ожидаю, что он поймет, какой путь выбрать, а не попросит его написать код. Но если бы я оценивал младшего парня, я бы сказал ему, что он должен выбрать путь А, и он ответил бы мне с точки зрения языка программирования или кода. Так что такая дифференциация должна быть.

Как можно держать себя в курсе?

Это поле, где каждый день появляются новые вещи, которые нужно тщательно обновлять. Я говорю своим ученикам, что если я учу их какому-то подходу и они реализуют его в задании даже самым лучшим образом, то они получат только 50% баллов, остальные 50% баллов даются, если они смогут найти более новаторский подход к проблеме.

Если у кого-то есть намерение проводить непрерывные исследования и находить новые пути, он тот человек, который будет учиться. Поскольку эта область постоянно развивается, каждый день подаются новые патенты, новые реализации, версии, алгоритмы также появляются каждый день. Каждые 2–3 месяца появляются новые версии и инструменты. Вы должны быть очень быстрыми, чтобы обновить себя. Это еще более важно на более высоком уровне, вы не должны повторять свой мирской опыт использования одних и тех же инструментов в течение 365 дней в году, вместо этого исследуйте и внедряйте инновации.

Насколько важны исследовательские работы/проекты с открытым исходным кодом кандидатов?

Если я рекрутер, если я найду кого-то, работающего над похожим проектом, и если после разговора с ним я почувствую, что все, что он написал в резюме, соответствует действительности, это будет самым большим плюсом для меня.

Здесь большое значение имеет проектный опыт, потому что я многое ставлю на карту. Заработная плата в области Data Science очень высока, а ставки очень высоки. Здесь мы не можем допустить ни одной ошибки, одна ошибка может привести к огромным потерям. Дело не только в том, что написано в вашем сертификате. Как только вы говорите, что были там и сделали это, вам действительно нужно убедить интервьюера в том, что вы это сделали.

Люди говорят, что знают толк, но случалось так, что когда я действительно начинал их бурить, они не могли убедить меня купить проект. Итак, если вы утверждаете, что работали над проектом, вы должны понимать свою роль и профиль, а также все, что можно подвергнуть сомнению в отношении этой роли и профиля. Нет места сомнениям.

Как нанять хороших специалистов по данным?

Я предложу другую альтернативу традиционным способам охоты за головами. Такие веб-сайты, как Kaggle, Analytics Vidya, проводят конкурсы и предлагают огромные денежные призы тем, кто занимает высокие места в этих конкурсах. Это может быть так же хорошо, как опыт работы. Как получается этот конкурс, предположим, я компания, и я хочу построить систему рекомендаций для себя. Я могу нанять, скажем, 4 специалистов по данным, которые могут построить это для меня, но задним числом, что, если система рекомендаций не сработает после того, как я заплачу им зарплату за один год. Так что я подвергаюсь огромному риску, верно?

Вместо этого я объявляю конкурс на 1 миллион долларов и плачу эту сумму только тому парню, который может предоставить мне удовлетворительное решение. Поскольку это глобальный конкурс, я также могу выбрать лучших из лучших. Эти конкурсы являются огромным стимулом для специалистов по данным.

Для стартапа, когда человек понимает, что должен нанять в команду Data Scientist?

Это должно начаться, когда они изначально планируют стартап, как только у них будет финансовая поддержка. Например, в системе электронной коммерции, где 70% моих продаж приходится на систему рекомендаций, он, вероятно, является ключевым элементом в организации.

Так что, даже если вы не собираетесь нанимать на полный рабочий день, подключите его, и он будет давать вам советы и направлять вас. Сегодня мир фактически управляется данными; мы отстаем в отслеживании этих данных и заканчиваем тем, что говорим, что мир хаотичен, вместо того, чтобы следовать и анализировать эти источники данных. Таким образом, чем раньше вы начнете планировать, тем лучше.

Как можно совершить переход в области науки о данных?

Data Scientist — это человек, который разбирается в статистике больше, чем программист, и в программировании больше, чем статистик. Значит, он должен иметь какую-то квалификацию. Базовым должно быть либо программирование, либо статистика, либо их комбинация. Здесь квалификация не имеет большого значения, но курсы по ML, проекты, которые он сделал, конкурсы, в которых он участвовал, держат настоящий ключ, и я говорю здесь о более свежем. Ни один из институтов не может дать полный курс, последний курс, с которым я взаимодействовал, был подготовлен ИИТ, ИИМ и ИСТ. Представьте, что для создания такого курса требуется три крупнейших института в стране. Такова важность и глубина этой области.

Примеры статистических и вероятностных вопросов, которые можно задать?

Когда я преподавал полный рабочий день и пытался протолкнуть своих кандидатов в организацию, я нашел это препятствием. Современные концепции машинного обучения не известны высшим руководителям организации, они работали со статистикой старой школы, так что это та область, в которой они пытаются обучать кандидатов. Если я провожу собеседование, я обычно пытаюсь задать им алгоритм, дайте им набор данных и спросите их о статистических характеристиках из него. Итак, я смотрю на прикладную статистику здесь.

Итак, если я сообщаю им определенные характеристики данных, я вижу, могут ли они сказать мне, нормализованы ли данные или если я рассказываю им о структуре графика, могут ли они определить ключевые характеристики, которые я бы вывел статистически. этого графика. Таким образом, такого рода подходы важны при оценке кандидатов.

Наука о данных станет одной из самых востребованных областей в ближайшие годы, и будет много переходов и сдвигов парадигмы, которые можно будет наблюдать. Поэтому, как кандидат или менеджер по найму, крайне важно быть в курсе последних тенденций. Надеюсь, эта статья будет для вас конструктивной при найме следующего Data Scientist.