Демистификация науки о данных

Наука о данных, область, заваленная модными словечками, касающимися самого ее существования. Я был полностью озадачен, когда пошел на второй год колледжа. Идея использования новейших технологий машинного обучения для решения сложных бизнес-задач казалась совершенно потрясающей, но после прохождения соответствующих курсов, участия в соревнованиях по интеллектуальному анализу данных на Kaggle и подписки на Towards Data Science on Medium - я все еще понятия не имел что на самом деле делают специалисты по анализу данных, чтобы применить эти знания в своих компаниях.

Именно тогда я начал искать возможности для стажировки, и после десятков приглашений от различных технологических компаний я наконец нашел работу в стартапе под названием PAYFAZZ. PAYFAZZ - финтех-компания, работающая над изобретением финансового доступа в Индонезии. Они также являются первым в истории индонезийским стартапом, созданным на базе y комбинатора, который является одним из самых престижных ускорителей стартапов в Кремниевой долине. Короче говоря, это очень быстрая, амбициозная и технически подкованная компания, идеально подходящая для таких подражателей, как я. В этой статье я расскажу о трех месяцах, которые я провел там.

Первые мысли о работе

Когда я пришел, команда Data Science в PAYFAZZ была еще новичком. Они буквально создали позицию за несколько месяцев до моего прихода, и у них был только один специалист по анализу данных. Это означает, что я на собственном опыте узнаю о компании, внедряющей решения на основе данных на ранней стадии - весело!

Еще мне понравилась свобода, которую они мне дали. На моем предыдущем рабочем месте я постоянно чувствовал себя просто еще одним винтиком в машине, мне всегда говорили, что и как делать. Здесь все наоборот, они искренне заботятся о наших идеях и адаптируют всю программу стажировок к нашим потребностям.

Работать в самой компании было здорово! Сотрудники отдела кадров действительно приложили все усилия, чтобы оживить это место. Время от времени в офисе проводились семинары, развлекательные мероприятия, гулянья по случаю национальных праздников и даже послечасовые вечера кино. Все были очень открыты, и мы могли поговорить с кем угодно. Первые две недели я буквально сидел рядом с техническим директором и даже не понимал, кто он такой.

Что я сделал за три месяца

Когда меня спросили о моей цели, я сказал им, что хочу узнать, как машинное обучение реализовано в компаниях; так что мне поручили выполнить проект полного непрерывного машинного обучения за три месяца (больше удовольствия !!). К концу моей программы я закончил работу над одним полностью развернутым проектом и двумя дополнительными из чистого любопытства. Вот пик

Прогнозирование оттока

Моим основным проектом было построение модели прогнозирования оттока. Отток - это в основном маркетинговый термин, используемый, когда пользователь прекращает использовать продукт на определенное время. «Модель» - это, по сути, программа, которая получает данные на входе и выдает прогноз на выходе. Как он делает эти прогнозы? Вы используете волшебные алгоритмы машинного обучения. Нас также попросили предоставить простую панель инструментов для использования маркетинговой командой.

Поскольку на это у нас было всего три месяца, мы мало экспериментировали с разными алгоритмами. В итоге мы использовали базовую модель линейной регрессии, которая набрала 80% по общему отзыву; так что это было довольно хорошо. Мои три основных вывода из этого проекта:

Наука о данных - это не только построение прогнозных моделей. Разработка наиболее точной модели машинного обучения - это лишь половина работы, вторая половина - это понимание бизнес-процесса и того, как ваши прогнозы могут его оптимизировать. Это означает, что вы должны быть одновременно специалистом, когда дело касается машинного обучения и статистики, И универсалом, когда дело касается бизнеса. Допустим, вы хотите построить модель для прогнозирования оттока клиентов, вам нужно хотя бы знать, как ведут себя клиенты и какие факторы влияют на их эффективность. Это конкретные знания в предметной области, которые вы можете получить, только исследуя и разговаривая с другими командами в компании.
Ваша задача - убедить людей в том, что все это работает. Знаю, знаю. Великий фокусник никогда не раскрывает своих уловок, но люди, которые будут использовать ваши модели, не друзья волшебников. Расскажите им, как устроена ваша модель изнутри. Вы также сможете улучшить свои коммуникативные навыки.
Привыкайте работать с большим объемом данных. Это означает создание хороших запросов и построение правильных графиков для визуализации. Самое приятное в этом то, что вы действительно можете поваляться и иногда находить интересные идеи.

Система рекомендаций купонов

Вы когда-нибудь получали рекомендации от YouTube для канала, который никогда раньше не смотрели? Затем вы нажимаете на него, и у вас внезапно появляется новый любимый канал! Жутко, правда? YouTube, Spotify, Netflix и любые другие медиа-гиганты используют так называемые рекомендательные системы, чтобы проникнуть в наш мозг. Я тоже должен сделать!

Меня попросили порекомендовать купоны. Это продолжение моего проекта оттока. Что вы делаете после того, как предскажете, когда пользователь уйдет? Вы забрасываете их промо-акциями, пока они не вернутся! Однако когда мы начали анализировать бизнес-процесс, возникла небольшая проблема.

PAYFAZZ - это платформа интернет-банка для пунктов приема платежей. Это означает, что наше приложение используется не такими потребителями, как вы и я, а людьми, которых мы называем «агентами», которые хотят вести бизнес по продаже цифровых продуктов. Примером цифрового продукта может быть мобильный кредит, электрические жетоны или пополнения счета Go-Pay. Допустим, вы агент, который в основном продает мобильные кредиты, и внезапно получаете купон на электроэнергию. Вы, наверное, не будете этим пользоваться?

В PAYFAZZ я узнал, что, хотя теоретически вы МОЖЕТЕ создать супер-умный интеллектуальный искусственный интеллект, это не означает, что вы должны. Применять машинное обучение к каждой проблеме - все равно что пытаться убить муху кувалдой. Вы не поймаете его, и это будет стоить больших денег

Извлечение текста удостоверения личности

Последний был скорее забавным побочным проектом, пока мы ждем новых требований от маркетинговой команды. То, что мы хотели сделать, было простым. Автоматическое извлечение информации из изображений удостоверений личности. PAYFAZZ по-прежнему вручную вводит данные о людях, поэтому мы посчитали, что должны оптимизировать их с помощью компьютерного зрения!

Проблема в том, что большинство фотографий, отправленных нашими пользователями, отстойны! Модели машинного обучения похожи на испорченные. Если вы не дадите ему то, что он истерит и разрушит все, что вы построили. По сути, изображение должно быть правильного размера, правильной экспозиции и без беспорядка на заднем фоне. Мы получили вот это.

Вот где на помощь приходит YOLO. Это нейронная сеть, которую вы можете обучить обнаруживать и распознавать изображения. Идея состоит в том, чтобы использовать его для обнаружения краев карточек и обрезки их, чтобы отбросить фон. К сожалению, мы как-то испортили тренировочный процесс. Карты не обнаружились, но работа еще не завершена.

Последние мысли

В целом эти последние три месяца были очень положительными. Я не просто узнал, что такое Data Science, но я встретил действительно амбициозных и невероятных людей в отрасли. Я чувствовал, что вся программа стажировки была действительно хорошо спланирована и полностью ориентирована на наше личное и профессиональное развитие. Если вы ищете место, где можно продуктивно провести свой трехмесячный отпуск, PAYFAZZ определенно вам подойдет, а Data Science - абсолютно рекомендуемая работа.

Демистификация науки о данных - взгляд стажеров