На прошлой неделе я посетил Strata London, чтобы ознакомиться с состоянием инженерии данных и аналитики в Великобритании. Конечно, это просто техническая конференция, и пока вы там, это своего рода искусственная реальность. Но я был к этому готов, я знал, что технические конференции могут разочаровывать. Вот что я узнал.

Глубокое обучение - это новейший маркетинг

Некоторые пожилые люди до сих пор называют это «искусственным интеллектом». Для других это «Машинное обучение» или «Машинное обучение». Теперь кажется, что маркетинговые машины превратили это в «глубокое обучение».

В основных докладах был сделан акцент на машинном обучении и науке о данных. Сегодня большая часть приложений ML по-прежнему ориентирована на распознавание: распознавание изображений, распознавание речи и распознавание вождения. Вот почему глобальные интернет-компании доминируют в этом пространстве: чтобы сделать ML эффективным, необходимы огромные объемы данных.

Один ключевой доклад академика показал, что когда наука о данных объединилась с машинным обучением, мы смогли выйти за рамки распознавания изображений и сделать выводы о красоте и чувствах. Интересно, но все же просто распознавание изображений.

Мне очень хотелось увидеть, где ML применяется до неузнаваемости. McKinsey сообщила, что они встречаются со все большим количеством технически подкованных руководителей, которые имеют глубокое понимание и пытаются понять, как его применить. Помимо этого, я не видел, чтобы многие ораторы кричали об интеграции машинного обучения в их пользовательские сервисы.

AWS скромно присутствовал на конференции, но был там, чтобы продвигать Apache MXNet в качестве предпочтительной платформы для искусственного интеллекта на AWS. У Google есть TensorFlow, а у AWS - MXNet. И TensorFlow, и MXNet, похоже, ориентированы на нефункциональные улучшения, такие как производительность и масштабирование.

Большие данные только начинаются

«Большие данные только начались»

Убер

Uber собирает данные датчиков из своей программы беспилотных автомобилей, чтобы проверить свои автомобили, принимает правильные решения, когда сталкивается с реальными данными. Сегодня каждая машина собирает 250Гб в час. То есть для 1000 убер-каров это до 6000 Тб в сутки.

Я подозреваю, что те организации, которые занимаются программами по созданию беспилотных автомобилей, станут лидерами в области технологий экосистемы hadoop. Все остальные будут последователями.

Учитывая все это, пора перестать использовать словосочетание «большие данные», оно теряет смысл.

Тим О'Рейли делает лучшие доклады

Выступление Тима было кульминационным моментом конференции. Он технологический футуролог, думающий о вещах, которые на годы опережают всех остальных. И хотя это был Страта, он больше говорил о социально-экономическом влиянии и ответственности технологов, а не столько о данных или технологиях.

Тим настаивал на том, чтобы автоматизация, включая машинное обучение, дополняла людей, а не заменяла людей. Следует использовать автоматизацию, чтобы мы могли делать больше, помогая людям не производить то же самое с меньшим количеством людей. Это урок промышленной революции, когда мы стали богаче, чем когда-либо прежде, с большей продолжительностью жизни.

Он также бросил нам вызов. Технологии - мощный инструмент для достижения добра, и их следует использовать для улучшения жизненного опыта многих, а не только избранных. Это заставило меня задуматься, должна ли социальная сторона нашей индустрии быть сильнее?

Data Engineering и Data Science - разные племена

Strata объединяет три разные темы, связанные с данными:

  1. Инженерия данных. Это hasoop и вся технология для поддержки крупномасштабной обработки данных.
  2. Наука о данных. Это больше ориентировано на данные, а не на технологии и производственный анализ. Многие поставщики инструментов были на выставке для поддержки аналитики, такие как Arcadia Data и Trifacta.
  3. ML. Речь идет об изучении алгоритмов с популярными фреймворками, чтобы упростить задачу, такими как TensorFlow и MXNet. Все это требует значительных наборов данных, чтобы иметь возможность учиться.

Я пытался подавить желание потратить время на изучение деталей того, как масштабировать Kafka / Spark / Cloudera, чтобы справиться с n миллионами транзакций. Вместо этого я хотел больше узнать о продвинутой аналитике. Что меня поразило, так это совершенно иная аудитория для лекций по науке и машинному обучению по сравнению с лекциями по глубокой инженерии.

Инженерия данных - это все еще Дикий Запад

Инженерия данных - это обработка больших объемов данных и их где-то хранить. Это хранилище может быть реляционным хранилищем, хранилищем данных NoSQL, Hadoop или файловой системой.

Обработка может выполняться в режиме реального времени, почти в реальном времени или партиями. На заре Hadoop все было связано с пакетной обработкой. Однако потоковая передача данных (почти в реальном времени) в настоящее время становится все более популярной, чтобы поддерживать предполагаемую потребность в более быстрой обработке.

Пытаться выбрать технологии для конвейера данных - все равно что ребенок в кондитерской. Слишком большой выбор и слишком много зацикленности на мелочах. А поскольку рынок еще не сформировался, технологии меняются так быстро. Даже среди содедущих были разные мнения. Я забрал,

  1. Кафка выигрывает за производство и буферизацию.
  2. Spark выигрывает в потоковой передаче и выполнении запросов.

Инжиниринг данных сложен и часто терпит неудачу

Джесси Андерсон провел одну из немногих бесед о культуре инженерии данных. Он сказал нам, что 85% проектов с большими данными терпят неудачу. По его опыту, это произошло из-за недостатка навыков и опыта в большинстве групп инженерии данных. Он настоятельно призывает специалистов по обработке данных противостоять этому.

Мне также было интересно услышать, как Джесси говорит об экспоненциальной сложности крупномасштабной обработки данных по сравнению с SQL или хранилищами данных. Это нашло отклик у меня, когда я увидел технологический ландшафт. Таким образом, технические архитекторы должны противостоять побуждению к развертыванию крупномасштабных технологий обработки данных, когда объем данных и пропускная способность обработки не требуют этого.

2017 год - год облака для обработки данных

Решения Hadoop уступили другим решениям в своем переходе в облако. Часто это делалось из соображений безопасности или производительности. Но теперь Cloudera запустила Altus, и я ожидаю, что облако станет стандартным для hadoop.

С Cloudera Altus вы сохраняете свои данные в AWS, например в S3, в то время как ваш кластер автоматически инициализируется Altus на основе определенных заданий конвейера данных. После этого он деинициализируется. Сегодня он сосредоточен только на инженерии данных, но ожидается, что за ним последует аналитика.

Так кто же конкуренты Клодеры? Что ж, у Google было большое присутствие в Strata, продвигая свое облако, инструменты и глубокое обучение. У Microsoft был стенд на выставке, но он не выделялся. А AWS в основном отсутствовали. Я ожидал, что Microsoft Azure и AWS резко активизируют свои услуги PAAS для больших данных в этом году на своих конференциях.

Очевидно, что Hadoop - это просто инфраструктура для больших данных. Если организации могут забыть об управлении серверами, установка hadoop и управление кластерами с использованием данных PAAS имеют больше шансов на успех. Этот переход к PAAS для служб данных одновременно продвинет проекты данных вверх по стеку в сторону более ценных и позволит рынку созреть.

Хотите работать в Kainos инженером или специалистом по данным? Узнайте больше здесь.