Оценка и сравнение рекомендаций по проектированию Hadoop для бизнес-аналитики

Я рассматриваю различные технологии для хранилищ данных и бизнес-аналитики и наткнулся на этот радикальный инструмент под названием Hadoop. Кажется, что Hadoop не совсем создан для целей бизнес-аналитики, но есть упоминания о его потенциале в этой области. (http://www.infoworld.com/d/data-explosion/hadoop-pitched-business-intelligence-488).

Как бы мало информации я ни получил из Интернета, мое чутье подсказывает мне, что hadoop может стать прорывной технологией в пространстве традиционных решений бизнес-аналитики. По этой теме действительно мало информации, и поэтому я хотел собрать здесь все мысли гуру о потенциале Hadoop как инструмента бизнес-аналитики по сравнению с традиционной внутренней инфраструктурой бизнес-аналитики, такой как Oracle Exadata, vertica и т. Д.. Для начала я хотел бы задать следующий вопрос -

  • Рекомендации по проектированию. Чем разработка решения бизнес-аналитики с помощью Hadoop будет отличаться от традиционных инструментов? Я знаю, что все должно быть по-другому, поскольку я читал, что в Hadoop нельзя создавать схемы. Я также читал, что основным преимуществом будет полное устранение инструментов ETL для Hadoop (это правда?). Нужен ли нам Hadoop + pig + mahout для получения решения BI?

С уважением!

Изменить - разбить на несколько вопросов. Начну с того, что я считаю наиболее импозантным.


person Jai    schedule 18.06.2011    source источник
comment
там слишком много вопросов.   -  person Mat    schedule 18.06.2011
comment
@ Мат - согласился. Начнем с самого бесхитростного.   -  person Jai    schedule 18.06.2011


Ответы (4)


Hadoop - отличный инструмент, который может стать частью решения бизнес-аналитики. Само по себе это не решение бизнес-аналитики. Hadoop принимает Data_A и выводит Data_B. Все, что необходимо для Bi, но не в полезной форме, можно обработать с помощью MapReduce и вывести данные в полезной форме. Будь то CSV, HIVE, HBase, MSSQL или что-нибудь еще, используемое для просмотра данных.

Я считаю, что Hadoop должен быть инструментом ETL. Вот для чего мы это используем. Мы обрабатываем гиговые файлы журналов каждый час и сохраняем их в Hive, а также выполняем ежедневные агрегаты, которые загружаются на сервер MSSQL и просматриваются через слой визуализации.

Я столкнулся с основными соображениями при проектировании:
- Гибкость данных: хотите ли вы, чтобы ваши пользователи просматривали предварительно агрегированные данные или могли гибко настраивать запрос и смотреть на данные, как они хотят
- Скорость: Как долго вы хотите, чтобы пользователи ждали данные? Улей (например) медленный. На получение результатов уходит несколько минут, даже на относительно небольших наборах данных. Чем больше пройденные данные, тем больше времени потребуется для получения результата.
- Визуализация: Какой тип визуализации вы хотите использовать? Вы хотите создать множество деталей по индивидуальному заказу или иметь возможность использовать что-то готовое? Какие ограничения и гибкость необходимы для вашей визуализации? Насколько гибкой и изменчивой должна быть визуализация?

hth

Обновление: в ответ на комментарий @Bhat об отсутствии визуализации ...
Отсутствие инструмента визуализации, который позволил бы нам эффективно использовать данные, хранящиеся в HBase, было основным фактором в переоценка нашего решения. Мы сохранили необработанные данные в Hive, предварительно агрегировали данные и сохранили их в HBase. Чтобы использовать это, нам нужно было написать настраиваемый соединитель (выполнив эту часть) и слой визуализации. Мы рассмотрели, что мы сможем производить и что есть в продаже, и пошли по коммерческому пути.
Мы по-прежнему используем Hadoop в качестве инструмента ETL для обработки наших сетевых журналов, для этого это просто фантастика. Мы просто отправляем необработанные данные ETL в коммерческую базу данных больших данных, которая заменит в нашем проекте Hive и HBase.

Hadoop нельзя сравнивать с MSSQL или другим хранилищем данных. Hadoop не выполняет никакого хранения (игнорируя HDFS), он обрабатывает данные. Запуск MapReduces (который выполняет Hive) будет медленнее, чем MSSQL (или что-то подобное).

person QuinnG    schedule 20.06.2011
comment
Это интересно. Спасибо. Было ли отсутствие инструмента визуализации серьезной причиной отказа от использования исходных данных Hadoop и, следовательно, использования его в качестве инструмента ETL? Всегда ли Hadoop будет медленным по сравнению с данными или хранилищами MSSQL? - person Jai; 21.06.2011
comment
Вопрос скорости действительно зависит от многих вещей. Задержка, связанная с запуском задания MapReduce, относительно высока, поэтому даже самый простой запрос Hive (например) не будет мгновенным, если он должен запустить задание MapReduce. Однако, если у вас есть терабайты данных, что-то вроде MSSQL не будет хорошо масштабироваться, тогда как Hadoop / Hive будет (путем добавления машин). Тем не менее, у Hive нет хорошей поддержки в некоторых областях, таких как индексы. Что-то вроде Vertica или Teradata могло бы работать лучше, но это $$$. - person ajduff574; 22.06.2011
comment
@ ajduff574: Скорость - это «самый простой» аспект, который можно изменить с помощью Hadoop / Hive, просто добавьте к нему больше машин. :) Мы переходим с HStack на использование Hadoop / Vertica / Tableau по трем причинам, перечисленным выше. - person QuinnG; 22.06.2011
comment
Вы делаете важные соображения. Сейчас буду оценивать решение Hadoop BI от Pentaho. Кажется, есть много возможностей для улучшения использования Hadoop в качестве решения для бизнес-аналитики из коробки. Но мне нравятся новые разработки! - person Jai; 22.06.2011

Hadoop очень хорошо подходит для хранения огромных файлов, которые могут представлять таблицы фактов. Эти таблицы можно разделить, поместив отдельные файлы, представляющие таблицу, в отдельные каталоги. Hive понимает такие файловые структуры и позволяет запрашивать их как многораздельные таблицы. Вы можете сформулировать свои вопросы бизнес-аналитики к данным Hadoop в форме SQL-запросов через Hive, но вам все равно придется писать и время от времени выполнять задание MapReduce.

person Olaf    schedule 20.06.2011

С точки зрения бизнеса вам следует рассмотреть Hadoop, если у вас много малоценных данных. Есть много случаев, когда решения RDBMS / MPP не являются рентабельными. Вам также следует рассматривать Hadoop как серьезный вариант, если ваши данные не структурированы (например, HTML).

person David Gruzman    schedule 22.06.2011

Мы создаем матрицу сравнения для инструментов бизнес-аналитики для больших данных / Hadoop http://hadoopilluminated.com/hadoop_book/BI_Tools_For_Hadoop.html

Работа над ним продолжается, и мы будем благодарны за любой вклад.

(отказ от ответственности: я являюсь автором этой онлайн-книги)

person Sujee Maniyam    schedule 29.10.2013