Публикации по теме 'hadoop'


Введение в Apache HBase (часть 2)
Это вторая часть сообщения в блоге, посвященная основам Apache HBase. Первую часть можно найти здесь . Эта глава будет посвящена темам администрирования HBase, например Кластерная архитектура HBase, репликация, формат хранения данных и т. Д. Это будет полезно системным администраторам, а также разработчикам, которые хотят знать, как HBase работает внутри. Архитектура HBase Мы начнем с компонентов, которые есть в кластере HBase, и с того, как они взаимодействуют друг с другом...

Расчет TF-IDF с использованием алгоритма Map-Reduce в PySpark
В этой статье мы рассмотрим практическую реализацию вычисления оценок частоты термина-обратной частоты документов (TF-IDF) для соответствующих слов в каждом документе с использованием алгоритма Map-Reduce в Pyspark. Введение Тем не менее, Spark MLlib имеет встроенную функцию для вычисления оценки TD-IDF, которая использует алгоритм сопоставления / сокращения для выполнения кода распределенным образом. В этой статье мы будем использовать устойчивые распределенные наборы данных (RDD)..

Hadoop 3: сравнение с Hadoop 2 и Spark
Выпуск Hadoop 3 в декабре 2017 года ознаменовал начало новой эры в науке о данных. Фреймворк Hadoop является ядром всей экосистемы Hadoop, и различные другие библиотеки сильно зависят от него. В этой статье мы обсудим основные изменения в Hadoop 3 по сравнению с Hadoop 2. Мы также объясним различия между Hadoop и Apache Spark и посоветуем, как выбрать лучший инструмент для вашей конкретной задачи. Общая информация Hadoop 2 и Hadoop 3 - это механизмы обработки данных, разработанные..

Вопросы по теме 'hadoop'

Справка по запросам Hbase/Hadoop
Я работаю над проектом с другом, который будет использовать Hbase для хранения своих данных. Есть ли хорошие примеры запросов? Кажется, я пишу тонну Java-кода для перебора списков RowResult, когда в мире SQL я мог написать простой запрос. Я что-то...
19445 просмотров
schedule 22.09.2022

Жизнь без СОЕДИНЕНИЙ понимание и общие практики
Многие "BAW" (большие задницы) используют методы хранения и извлечения данных, которые полагаются на огромные таблицы с индексами, и используют запросы, которые не будут / не могут использовать JOIN в своих запросах (BigTable, HQL и т. Д.) чтобы...
3184 просмотров
schedule 25.11.2022

Распределенное планирование заданий, управление и отчетность
Недавно я поэкспериментировал с Hadoop и был впечатлен его планированием, управлением и отчетностью по заданиям MapReduce. Кажется, что распределение и выполнение новых заданий происходит довольно плавно, что позволяет разработчику...
11219 просмотров

Hadoop или Hadoop Streaming для MapReduce на AWS
Я собираюсь начать проект mapreduce, который будет работать на AWS, и мне предоставляется выбор: использовать Java или C++. Я понимаю, что написание проекта на Java предоставило бы мне больше функциональных возможностей, однако C++ также мог бы...
1426 просмотров

Amazon MapReduce без редукторной работы
Я пытаюсь создать задание только для картографа через AWS (потоковое задание). Поле редуктора является обязательным, поэтому я даю фиктивный исполняемый файл и добавляю -jobconf mapred.map.tasks=0 в поле дополнительных аргументов. В среде Hadoop...
3990 просмотров

Любые протестированные платформы/решения, похожие на Apache Hadoop?
Меня интересует проект Apache Hadoop, но я хотел бы знать, существуют ли какие-либо другие протестированные (обратите внимание на «протестированные») проекты/фреймворки. Ценим любую информацию/ссылки на проекты, похожие на Apache Hadoop, и любые...
1657 просмотров
schedule 06.09.2022

Синхронизация данных между Hadoop и PostgreSql с помощью SymmetricDs
Я использую Hadoop для хранения данных нашего приложения. Как я могу синхронизировать данные между PostgreSql и Hadoop? Я использую SymmetricDS в качестве инструмента репликации.
899 просмотров
schedule 17.12.2022

Идея проекта компьютерной лингвистики с использованием Hadoop MapReduce
Мне нужно сделать проект по курсу компьютерной лингвистики. Есть ли какая-нибудь интересная «лингвистическая» проблема, которая требует больших объемов данных, чтобы работать над сокращением карты Hadoop. Решение или алгоритм должны попытаться...
1991 просмотров
schedule 28.03.2022

Hadoop — статистика работы
Я использовал hadoop для запуска приложений уменьшения карты в нашем кластере. Работа занимает около 10 часов в день. Я хочу знать время, затраченное на каждую работу, и время, затраченное на самую длинную работу и т. д., чтобы я мог оптимизировать...
5646 просмотров
schedule 07.09.2023

Гарантировано ли, что при использовании Hadoop мои редукторы получат все записи с одним и тем же ключом?
Я запускаю задание Hadoop с использованием Hive, которое должно содержать uniq строки во многих текстовых файлах. На этапе сокращения он выбирает для каждого ключа самую последнюю запись с отметкой времени. Гарантирует ли Hadoop, что каждая...
5984 просмотров
schedule 09.04.2022

Как я могу загрузить файл в DataBag из UDF Yahoo PigLatin?
У меня есть программа Pig, в которой я пытаюсь вычислить минимальный центр между двумя сумками. Я обнаружил, что для того, чтобы это работало, мне нужно ГРУППИРОВАТЬ сумки в один набор данных. Вся операция занимает много времени. Я хочу либо...
871 просмотров
schedule 08.11.2023

Hadoop на Amazon EC2: средство отслеживания вакансий не запускается должным образом
Мы запускаем Hadoop в кластере Amazon EC2. Мы запускаем ведущее устройство, ведомые устройства и присоединяем тома ebs и, наконец, ждем, пока запустится программа отслеживания заданий hadoop, tasktracker и т. Д., И у нас есть тайм-аут 3600 секунд....
1034 просмотров

С чего начать работу с распределенными вычислениями?
Я заинтересован в изучении методов распределенных вычислений. Как разработчик Java я, вероятно, захочу начать с Hadoop . Не могли бы вы порекомендовать какие-нибудь книги/учебники/статьи для начала?
1689 просмотров
schedule 09.07.2022

Управление зависимостями с помощью Hadoop Streaming?
У меня небольшой вопрос о потоковой передаче Hadoop. Если я использую потоковую передачу Python и у меня есть пакеты Python, которые требуются моим преобразователям/редукторам, но не установлены по умолчанию, нужно ли мне устанавливать их также на...
1006 просмотров
schedule 30.08.2022

Статическая инициализация Hadoop Mapper
У меня есть фрагмент кода, в котором я использую статический блок кода для инициализации переменной. public static class JoinMap extends Mapper<IntWritable, MbrWritable, LongWritable, IntWritable> { ..........
1807 просмотров
schedule 10.03.2023

Запуск периодических заданий Hadoop (рекомендуемая практика)
Клиенты, которые могут в любое время загружать URL-адреса в базу данных, и приложение должны обрабатывать URL-адреса как можно скорее. Поэтому мне нужно периодически запускать задания Hadoop или автоматически запускать задание Hadoop из другого...
1071 просмотров
schedule 21.03.2022

FileNotFoundException при использовании распределенного кэша Hadoop
на этот раз кто-то должен ответить, пожалуйста, я борюсь с запуском моего кода с использованием распределенного кэша. у меня уже есть файлы на hdfs, но когда я запускаю этот код: import java.awt.image.BufferedImage; import...
4073 просмотров
schedule 10.11.2022

Расчет расстояния mapreduce в Hadoop
Есть ли реализация расчета расстояния с использованием карты/уменьшения Hadoop. Я пытаюсь рассчитать расстояние между заданным набором точек. Ищем любые ресурсы. Изменить Это очень разумное решение. Я попробовал что-то вроде первого...
5107 просмотров

Как хранить сложные объекты в Hadoop Hbase?
У меня есть сложные объекты с полями коллекции, которые необходимо сохранить в Hadoop. Я не хочу просматривать все дерево объектов и явно сохранять каждое поле. Поэтому я просто думаю о сериализации сложных полей и храню их как одну большую часть....
5318 просмотров
schedule 14.12.2022

Hadoop MapReduce — Pig/Cassandra — невозможно создать разделение ввода
Я пытаюсь запустить задание MapReduce с помощью Pig и Cassandra и всегда получаю сообщение об ошибке: ОШИБКА 2118: невозможно создать разделение входных данных для: cassandra://constellation/logs [РЕШЕНО] Были некоторые переменные среды, которые...
1352 просмотров
schedule 21.02.2023