AWS Data Lake Dynamo против ElasticSearch

Я действительно изо всех сил пытаюсь понять, как Dynamo / ElasticSearch следует использовать для поддержки усилий по озеру данных AWS (метаданные / каталоги). Кажется, что вы должны регистрировать отдельные местоположения S3 ваших zip-архивов для ваших источников в Dynamo и любых дополнительных метаданных / атрибутов, по которым вы хотите выполнять поиск в ES. Если это так, как бы вы использовали их вместе, чтобы поддержать это? Я пытался найти более подробную информацию о том, как правильно соединить их вместе, но безуспешно. Любая информация / документация, которые есть у других, были бы замечательными. Хороший шанс, что я упускаю из виду некоторые очевидные примеры / документацию.

Я представляю себе что-то вроде следующего:

  • Пользователь может искать метаданные / атрибуты в ES, которые будут указывать на соответствующие сегменты / разделы S3 высокого уровня.
  • Поиск в DynamoDB будет по части ключа (раздел / ведро) из результата ES
  • Поиск, скорее всего, приведет к множеству отдельных объектов / ключей, которые затем можно будет обработать, извлечь и т. Д.

person scarpacci    schedule 09.10.2017    source источник
comment
Да, звучит правильно. Используйте каждую службу по назначению. S3 - надежное хранилище. DynamoDB - быстрый поиск по ключам разделов. Elasticsearch - возможность быстрого точного поиска. Вы просто должны использовать уникальный идентификатор (uuid) для всех трех сервисов, чтобы связать записи вместе.   -  person John Veldboom    schedule 09.10.2017


Ответы (1)


Я поговорил с одним из наших представителей AWS, который направил меня на эту статью. Это была отличная отправная точка. AWS Data Lake . Похоже, это ответило на некоторые из моих вопросов о пользователе компонентов и подходе, которые ранее были мне непонятны.

Особенности:

  • Схема реализации озера данных. Комбинирование S3 / DynamoDB / ES - обычное дело.
  • Есть много вариантов реализации. Замена RDS на ES / DynamoDB, использование только ES и т. Д.
  • Скорее всего, мы начнем с RDS для отработки процесса, а затем перейдем к DyanmoDB / ES.
person scarpacci    schedule 31.10.2017