Статьи по тематике hadoop

Публикации по теме 'hadoop'

Введение в Apache HBase (часть 2)

Это вторая часть сообщения в блоге, посвященная основам Apache HBase. Первую часть можно найти здесь . Эта глава будет посвящена темам администрирования HBase, например Кластерная архитектура HBase, репликация, формат хранения данных и т. Д. Это будет полезно системным администраторам, а также разработчикам, которые хотят знать, как HBase работает внутри. Архитектура HBase Мы начнем с компонентов, которые есть в кластере HBase, и с того, как они взаимодействуют друг с другом...

Расчет TF-IDF с использованием алгоритма Map-Reduce в PySpark

В этой статье мы рассмотрим практическую реализацию вычисления оценок частоты термина-обратной частоты документов (TF-IDF) для соответствующих слов в каждом документе с использованием алгоритма Map-Reduce в Pyspark. Введение Тем не менее, Spark MLlib имеет встроенную функцию для вычисления оценки TD-IDF, которая использует алгоритм сопоставления / сокращения для выполнения кода распределенным образом. В этой статье мы будем использовать устойчивые распределенные наборы данных (RDD)..

Hadoop 3: сравнение с Hadoop 2 и Spark

Выпуск Hadoop 3 в декабре 2017 года ознаменовал начало новой эры в науке о данных. Фреймворк Hadoop является ядром всей экосистемы Hadoop, и различные другие библиотеки сильно зависят от него. В этой статье мы обсудим основные изменения в Hadoop 3 по сравнению с Hadoop 2. Мы также объясним различия между Hadoop и Apache Spark и посоветуем, как выбрать лучший инструмент для вашей конкретной задачи. Общая информация Hadoop 2 и Hadoop 3 - это механизмы обработки данных, разработанные..

Вопросы по теме 'hadoop'

Справка по запросам Hbase/Hadoop

Я работаю над проектом с другом, который будет использовать Hbase для хранения своих данных. Есть ли хорошие примеры запросов? Кажется, я пишу тонну Java-кода для перебора списков RowResult, когда в мире SQL я мог написать простой запрос. Я что-то...

19445 просмотров

hadoop hbase

22.09.2022

Жизнь без СОЕДИНЕНИЙ понимание и общие практики

Многие "BAW" (большие задницы) используют методы хранения и извлечения данных, которые полагаются на огромные таблицы с индексами, и используют запросы, которые не будут / не могут использовать JOIN в своих запросах (BigTable, HQL и т. Д.) чтобы...

3184 просмотров

nosql hadoop join orm bigtable

25.11.2022

Распределенное планирование заданий, управление и отчетность

Недавно я поэкспериментировал с Hadoop и был впечатлен его планированием, управлением и отчетностью по заданиям MapReduce. Кажется, что распределение и выполнение новых заданий происходит довольно плавно, что позволяет разработчику...

11219 просмотров

java hadoop job-scheduling distributed-computing

22.03.2022

Hadoop или Hadoop Streaming для MapReduce на AWS

Я собираюсь начать проект mapreduce, который будет работать на AWS, и мне предоставляется выбор: использовать Java или C++. Я понимаю, что написание проекта на Java предоставило бы мне больше функциональных возможностей, однако C++ также мог бы...

1426 просмотров

amazon-web-services streaming hadoop mapreduce

15.06.2022

Amazon MapReduce без редукторной работы

Я пытаюсь создать задание только для картографа через AWS (потоковое задание). Поле редуктора является обязательным, поэтому я даю фиктивный исполняемый файл и добавляю -jobconf mapred.map.tasks=0 в поле дополнительных аргументов. В среде Hadoop...

3990 просмотров

amazon-web-services reducers hadoop mapreduce

12.04.2022

Любые протестированные платформы/решения, похожие на Apache Hadoop?

Меня интересует проект Apache Hadoop, но я хотел бы знать, существуют ли какие-либо другие протестированные (обратите внимание на «протестированные») проекты/фреймворки. Ценим любую информацию/ссылки на проекты, похожие на Apache Hadoop, и любые...

1657 просмотров

hadoop

06.09.2022

Синхронизация данных между Hadoop и PostgreSql с помощью SymmetricDs

Я использую Hadoop для хранения данных нашего приложения. Как я могу синхронизировать данные между PostgreSql и Hadoop? Я использую SymmetricDS в качестве инструмента репликации.

899 просмотров

postgresql hadoop symmetricds

17.12.2022

Идея проекта компьютерной лингвистики с использованием Hadoop MapReduce

Мне нужно сделать проект по курсу компьютерной лингвистики. Есть ли какая-нибудь интересная «лингвистическая» проблема, которая требует больших объемов данных, чтобы работать над сокращением карты Hadoop. Решение или алгоритм должны попытаться...

1991 просмотров

nlp hadoop mapreduce

28.03.2022

Hadoop — статистика работы

Я использовал hadoop для запуска приложений уменьшения карты в нашем кластере. Работа занимает около 10 часов в день. Я хочу знать время, затраченное на каждую работу, и время, затраченное на самую длинную работу и т. д., чтобы я мог оптимизировать...

5646 просмотров

java performance hadoop

07.09.2023

Гарантировано ли, что при использовании Hadoop мои редукторы получат все записи с одним и тем же ключом?

Я запускаю задание Hadoop с использованием Hive, которое должно содержать uniq строки во многих текстовых файлах. На этапе сокращения он выбирает для каждого ключа самую последнюю запись с отметкой времени. Гарантирует ли Hadoop, что каждая...

5984 просмотров

hadoop hive mapreduce uniq

09.04.2022

Как я могу загрузить файл в DataBag из UDF Yahoo PigLatin?

У меня есть программа Pig, в которой я пытаюсь вычислить минимальный центр между двумя сумками. Я обнаружил, что для того, чтобы это работало, мне нужно ГРУППИРОВАТЬ сумки в один набор данных. Вся операция занимает много времени. Я хочу либо...

871 просмотров

hadoop apache-pig

08.11.2023

Hadoop на Amazon EC2: средство отслеживания вакансий не запускается должным образом

Мы запускаем Hadoop в кластере Amazon EC2. Мы запускаем ведущее устройство, ведомые устройства и присоединяем тома ebs и, наконец, ждем, пока запустится программа отслеживания заданий hadoop, tasktracker и т. Д., И у нас есть тайм-аут 3600 секунд....

1034 просмотров

amazon-web-services amazon-ec2 cloud hadoop

12.06.2022

С чего начать работу с распределенными вычислениями?

Я заинтересован в изучении методов распределенных вычислений. Как разработчик Java я, вероятно, захочу начать с Hadoop . Не могли бы вы порекомендовать какие-нибудь книги/учебники/статьи для начала?

1689 просмотров

hadoop mapreduce distributed-computing

09.07.2022

Управление зависимостями с помощью Hadoop Streaming?

У меня небольшой вопрос о потоковой передаче Hadoop. Если я использую потоковую передачу Python и у меня есть пакеты Python, которые требуются моим преобразователям/редукторам, но не установлены по умолчанию, нужно ли мне устанавливать их также на...

1006 просмотров

python hadoop mapreduce hadoop-streaming

30.08.2022

Статическая инициализация Hadoop Mapper

У меня есть фрагмент кода, в котором я использую статический блок кода для инициализации переменной. public static class JoinMap extends Mapper<IntWritable, MbrWritable, LongWritable, IntWritable> { ..........

1807 просмотров

java hadoop mapreduce

10.03.2023

Запуск периодических заданий Hadoop (рекомендуемая практика)

Клиенты, которые могут в любое время загружать URL-адреса в базу данных, и приложение должны обрабатывать URL-адреса как можно скорее. Поэтому мне нужно периодически запускать задания Hadoop или автоматически запускать задание Hadoop из другого...

1071 просмотров

cloud hadoop

21.03.2022

FileNotFoundException при использовании распределенного кэша Hadoop

на этот раз кто-то должен ответить, пожалуйста, я борюсь с запуском моего кода с использованием распределенного кэша. у меня уже есть файлы на hdfs, но когда я запускаю этот код: import java.awt.image.BufferedImage; import...

4073 просмотров

java caching hadoop distributed

10.11.2022

Расчет расстояния mapreduce в Hadoop

Есть ли реализация расчета расстояния с использованием карты/уменьшения Hadoop. Я пытаюсь рассчитать расстояние между заданным набором точек. Ищем любые ресурсы. Изменить Это очень разумное решение. Я попробовал что-то вроде первого...

5107 просмотров

java hadoop mapreduce parallel-processing

20.05.2022

Как хранить сложные объекты в Hadoop Hbase?

У меня есть сложные объекты с полями коллекции, которые необходимо сохранить в Hadoop. Я не хочу просматривать все дерево объектов и явно сохранять каждое поле. Поэтому я просто думаю о сериализации сложных полей и храню их как одну большую часть....

5318 просмотров

hadoop serialization hbase

14.12.2022

Hadoop MapReduce — Pig/Cassandra — невозможно создать разделение ввода

Я пытаюсь запустить задание MapReduce с помощью Pig и Cassandra и всегда получаю сообщение об ошибке: ОШИБКА 2118: невозможно создать разделение входных данных для: cassandra://constellation/logs [РЕШЕНО] Были некоторые переменные среды, которые...

1352 просмотров

cassandra hadoop mapreduce apache-pig

21.02.2023

Публикации по теме 'hadoop'

Введение в Apache HBase (часть 2)

Расчет TF-IDF с использованием алгоритма Map-Reduce в PySpark

Hadoop 3: сравнение с Hadoop 2 и Spark

Вопросы по теме 'hadoop'

Похожие вопросы