Мы побеседовали с Шри Кришнамурти, основателем QuantUniversity.com — компании, занимающейся данными и количественным анализом, — и адъюнкт-профессором данных в Северо-восточном университете. наука о данных + машинное обучение, а также его взгляд на опыт IBM в области науки о данных.

  • Во второй части этой публикации мы опубликуем записную книжку DSX, которую Шри и его ученики использовали в рамках своего курса по науке о данных!

1. Расскажите немного о себе — кто вы, Шри?

На самом деле у меня две роли — моя первая роль — предпринимателя. Я возглавляю Quant University, консультационную компанию по аналитике, которая впервые открылась в 2013 году. До Quant University я руководил финансовыми разработками в Matworks (и занимался этим в течение 5 лет). Оттуда я работал над созданием собственной консалтинговой компании, где мы сосредоточились на таких вертикалях, как финансы и энергетика. Наши клиенты имеют в виду такие вещи, как масштаб и удобство использования, но среди всей шумихи ни у кого пока нет хорошего бизнес-приложения для машинного обучения и искусственного интеллекта. Итак, что мы делаем, так это тесно сотрудничаем с клиентами и транслируем бизнес-ценность внедрения этих вещей в игру.

Наши клиенты спрашивают: «Как мы применяем эти вещи?» Поэтому мы проводим обучение B2B и фактически используем этот опыт для развития подхода B2C с помощью этих 2–3-дневных семинаров. Во время этих семинаров мы привлекаем профессионалов и обучаем их, делясь опытом в этих новых областях машинного обучения для прогнозной аналитики с точки зрения технологий и бизнеса.

Мы выбрали Data Science Experience в качестве платформы для проведения этих семинаров, потому что не хотим устанавливать с нуля, чтобы участники наших семинаров могли понять, что требуется для создания искрового приложения или приложения для обработки данных. их для создания контента и обмена им.

2. Эти семинары звучат действительно круто — когда будут следующие предстоящие сессии? У нас есть два семинара в Бостоне и Нью-Йорке, посвященные глубокому обучению и обнаружению аномалий: один в Бостоне пройдет 27 марта и продлится до 28 марта, а другой один в Нью-Йорке - 5 + 6 апреля.

Узнайте больше и зарегистрируйтесь на предстоящие Семинары по глубокому обучению и Семинары по обнаружению аномалий в Бостоне и Нью-Йорке

У нас будет еще много семинаров по таким темам, как искра, когнитивные вычисления и искусственный интеллект. Мы также собираемся выпустить программу сертификации Analytics (полная летняя программа) и сертификацию Deep Learning на вторую половину года.

Для получения дополнительной информации о QuantUniversity посетите веб-сайт QuantUniversity

3. А как насчет другой роли, Шри?

Помимо моей профессиональной роли, я также являюсь адъюнкт-профессором в Северо-восточном университете по науке о данных, где я преподаю курс по когнитивным вычислениям и искусственному интеллекту. Курс обучает аспирантов тому, как создавать эффективные и практичные приложения для обработки данных, использовать API и структурировать приложения ИИ в облаке. В классе мы просим студентов также поработать над Data Science Experience.

Чтобы помочь учащимся понять, как на самом деле создавать вещи, мы предоставляем им шаблоны через DSX. DSX позволяет им делиться решениями со всем классом и получать отзывы. DSX помогает им сотрудничать в классе и делиться результатами анализа.

4. Хороший! Что вам больше всего нравится в науке о данных как области науки? А как насчет некоторых разочаровывающих аспектов науки о данных?

Раньше в отрасли науки о данных основное внимание уделялось вопросу «можем ли мы использовать данные и извлекать из них информацию?» Теперь, с революцией открытого исходного кода, такими языками, как R и Python, и растущим числом проектов Hadoop + Apache, существует признание того, что вы должны полагаться на данные и использовать всю информацию, которую вы собираете. Было интересно наблюдать за тем, как машинное обучение влияет на получение информации из важных исследований и вдохновляет на новые бизнес-инновации.

Наукой о данных больше не занимается кто-то с докторской степенью, поскольку компании ищут людей, которые имеют опыт работы с большими наборами потоковых данных. Происходит специализация, а также возможность развиваться и придавать значение различным приложениям — все эти разработки привели к крупным революциям в новых продуктах и ​​услугах.

Во многих школах и университетах нет курсов по прикладной науке о данных и машинному обучению. Это создает огромный пробел в знаниях, потому что, даже со всеми онлайн-ресурсами на YouTube и других сайтах, у многих студентов нет времени курировать, чтобы учиться. К счастью, университеты начинают понимать, что студенты выбирают эти профессии и получают от них удовольствие. Затем эти студенты оставляют отзывы группам по набору персонала и отделам карьеры колледжей о своей роли, чтобы университеты получали отзывы о таких курсах.

Университеты теперь привлекают отраслевых преподавателей, которые больше склоняются к практикам, а студентам нравится слушать о своем реальном опыте и работать над тем, как они могут реалистично применять данные в своих проектах.

5. Как использование DSX изменило ваш подход к науке о данных?

С DSX вы можете просто запустить его, не тратя время на установку и настройку нескольких разных систем по отдельности. На наших семинарах в университетах мы используем DSX, чтобы научить, как использовать эти технологии для решения реальных задач, масштабировать вещи на apache spark и проводить машинное обучение на apache spark. Когда мы собираем эти семинары, мы не хотим тратить так много времени на установку пакетов — вместо этого мы можем использовать DSX, чтобы сосредоточиться на том, что мы делаем лучше всего, поскольку инфраструктура предназначена для совместной работы.

С помощью DSX мы также можем объединить весь контент (например, материалы курса и задания) для этих участников, а затем просто добавить участников в качестве соавторов. Людям понравилось, как они могли получить доступ ко всему на DSX, потому что они не хотели создавать что-то с нуля, используя ноутбуки с разными операционными системами и сталкиваясь с неизбежными ошибками. Нам, как организаторам семинара, DSX помог вносить динамические изменения, исправлять ошибки и упрощать предоставление участникам возможности делиться своими решениями с остальной группой.

6. Для чего DSX был полезен (для вас и/или людей, с которыми вы работаете)? Что можно улучшить?

Особенно со всей работой, которую мы хотим проделать с глубоким обучением и обучением действительно больших сетей, возможность использования графических процессоров была бы серьезным улучшением. Кроме того, мы с нетерпением ждем возможности увидеть машинное обучение Watson и задаемся вопросом, когда оно станет частью продукта!

Также было бы здорово иметь возможность структурировать мой мыслительный процесс в графическом интерфейсе и иметь целую студию узлов перетаскивания и возможности использовать это в качестве конвейера и получать остальные API для кодирования. Один вариант использования, который меня действительно интересует, — это возможность опубликовать свой блокнот как REST API (и развернуть его в Bluemix).

7. Последний вопрос! Какую интересную и НЕДООЦЕНЕННУЮ тенденцию вы видите в науке о данных?

Перекрестная проверка моделей: люди выбирают первое решение, которое они создают. Такие платформы, как DSX, помогают сделать перекрестную проверку более интуитивной (более распараллеливаемой, с использованием нескольких экземпляров Python, многопроцессорной обработки). Выполнение действий на ноутбуке ограничено, но использование облака может масштабироваться и позволяет пользователям настраивать параметры соответствующим образом. Кроме того, проверка и обновление работоспособности моделей по мере поступления новых данных также сильно недооценивается.

Первоначально опубликовано на datascience.ibm.com 27 марта 2017 г.