Я некоторое время присматривался к MapReduce, и мне кажется, что это очень хороший способ реализации отказоустойчивых распределенных вычислений. Я прочитал много документов и статей на эту тему, установил Hadoop на массив виртуальных машин и провел несколько очень интересных тестов. Я действительно думаю, что понимаю шаги Map и Reduce.
Но вот моя проблема: Я не могу понять, как это может помочь с анализом журналов HTTP-сервера.
Насколько я понимаю, крупные компании (например, Facebook) используют MapReduce для вычисления своих http-логов, чтобы ускорить процесс извлечения из них статистики аудитории. Компания, в которой я работаю, хотя и меньше, чем Facebook, имеет большой объем веб-журналов для ежедневного вычисления (100Go растет на 5–10 процентов каждый месяц). Сейчас мы обрабатываем эти журналы на одном сервере, и он отлично работает. Но сразу же приходит на ум распределение вычислительных заданий как полезная оптимизация.
Вот вопросы, на которые я не могу ответить прямо сейчас, любая помощь будет принята с благодарностью:
- Можно ли действительно применить концепцию MapReduce к анализу веб-блогов?
- Является ли MapReduce самым умным способом сделать это?
- Как бы вы разделили файлы веб-журнала между различными вычислительными экземплярами?
Спасибо.
Николай