Статьи по тематике bigdata

Вопросы по теме 'bigdata'

Solr подходит к переиндексации больших массивов документов

Мы ищем некоторые рекомендации по систематической переиндексации в Solr постоянно растущего корпуса документов (десятки миллионов сейчас, сотни миллионов через год) без закрытия текущего индекса. Переиндексация необходима на периодической основе,...

1276 просмотров

25.05.2023

Хранилище данных для больших данных астрофизического моделирования

Я аспирант факультета астрофизики. Я запускаю большие симуляции, используя коды, в основном разработанные другими за десятилетие или около того. Примеры этих кодов можно найти на гаджете http://www.mpa-garching.mpg.de/gadget/ и enzo...

536 просмотров

file-io database bigdata filesystems

11.04.2023

Pyrocache против Memcached

Я использовал PyroCMS для некоторых проектов, мне это очень нравится. В настоящее время я разрабатываю еще один веб-сайт на его основе. На моем веб-сайте мне нужно работать с большой базой данных, она не очень большая, но достаточно большая, чтобы...

683 просмотров

bigdata memcached pyrocms

16.02.2023

сортировка больших текстовых данных

У меня есть большой файл (100 миллионов строк значений, разделенных табуляцией, размером около 1,5 ГБ). Каков самый быстрый известный способ сортировки на основе одного из полей? Я пробовал улей. Я хотел бы посмотреть, можно ли это сделать...

12000 просмотров

python sorting bigdata

06.09.2022

Чтение буферизованного файла C++

Интересно, можно ли чтение большого текстового файла построчно (например, std::getline или fgets) буферизовать с предопределенным размером буфера чтения или нужно использовать специальные побайтовые функции? Я имею в виду чтение очень больших...

5216 просмотров

c++ bigdata ifstream

17.05.2022

Параллельные вычисления: распределенные системы или многоядерные процессоры?

Мне просто интересно, зачем нужно преодолевать все трудности с созданием распределенных систем для массовой параллельной обработки, когда мы могли бы просто создавать отдельные машины, поддерживающие сотни или тысячи ядер/ЦП (или даже GPGPU) на...

1493 просмотров

bigdata

28.08.2022

NumPy: 3-байтовые, 6-байтовые типы (также известные как uint24, uint48)

NumPy, похоже, не имеет встроенной поддержки 3-байтовых и 6-байтовых типов, также известных как uint24 и uint48 . У меня есть большой набор данных, использующий эти типы, и я хочу передать его в numpy. Что я сейчас делаю (для uint24): import...

5525 просмотров

python numpy bigdata

21.12.2022

Инкрементальное обновление миллионов записей, проиндексированное или объединенное

В настоящее время я разрабатываю стратегию постепенного обновления наших пользовательских данных. Мы предполагаем, что в нашей базе данных 100_000_000 записей, из которых примерно 1_000_000 записей обновляются за рабочий процесс. Идея состоит в...

282 просмотров

cassandra mapreduce bigdata apache-pig full-table-scan

20.12.2022

Прозрачный способ работы с файлами данных, размер которых превышает размер памяти?

Возможный дубликат: Обрезка огромного (3,5 ГБ) файла CSV для чтения в R Есть ли у R хороший способ прозрачно работать с данными, которые не помещаются в память? Есть несколько пакетов для работы с большими данными, но я не хочу...

133 просмотров

r bigdata

12.02.2023

Возможность обработки штормовых данных

Для случая использования в бизнесе, когда нам приходится иметь дело с минимум «2-3 терабайтами» данных в день, я проводил анализ «Hadoop & Storm». Излишне говорить, что «Шторм» выглядит впечатляюще из-за своей эффективности в обработке входящих...

281 просмотров

hadoop bigdata apache-storm

04.07.2022

Непересекающиеся множества для действительно больших данных

Существует ли какой-либо усовершенствованный алгоритм непересекающихся множеств для действительно больших данных (например, более 2^32 элементов и более 2^32 пар для объединения)? Очевидно, самая большая проблема заключается в том, что я не могу...

383 просмотров

bigdata algorithm disjoint-sets union-find

06.03.2022

Почему Hadoop не использует другие жесткие диски?

это мой первый раз, когда я играю с кластером Hadoop, поэтому я очень новичок в этом. У меня есть небольшой кластер из 3 узлов с 5 жесткими дисками по 2 ТБ на каждом компьютере. Все работают под управлением Ubuntu, имеют одинаковые характеристики...

3958 просмотров

hadoop mapreduce bigdata

05.05.2022

Выходной каталог Hadoop Pig не задан

Я пишу свой собственный класс Pig Store, где я не хочу хранить его в файле, я планирую отправить его в какое-то стороннее хранилище данных (за исключением вызовов API). примечание: я запускаю его на образе Cloudera VirtualBox. Я написал свои...

1117 просмотров

hadoop bigdata apache-pig

30.03.2024

Как хранить разреженную матрицу смежности

Прочитал несколько тем, но запутался. Я совсем новичок в этом. Я хочу хранить огромную разреженную матрицу и иметь несколько идей, но могу выбирать между ними. Вот мои потребности: Матрица смежности ок. 50 миллионов вершин. Максимальное...

1944 просмотров

nosql sql database bigdata sparse-matrix

13.07.2022

Понимание и построение алгоритма социальной сети

Я не уверен, что это подходящая платформа, чтобы задать этот вопрос. Но моя формулировка проблемы такова: у меня есть книжный магазин и x нет клиентов (x огромен). Клиент может сказать мне, хорошая книга или плохая (не рекомендуется). У меня есть...

6141 просмотров

bigdata algorithm social-networking graph-algorithm

24.03.2023

Масштабируемость SVG с количеством элементов

У меня возникла небольшая проблема с визуализацией, которую мне нужно реализовать. Это двумерная матрица, которая до сих пор имела максимальный размер 100 x 100. До сих пор это делалось с помощью HTML + javascript. Нам также нужно было иметь...

214 просмотров

canvas svg bigdata

11.11.2022

Как хранить большие данные для использования в вычислениях?

Недавно я начал работать с большими данными. В частности, у меня есть несколько ГБ данных, и мне приходится часто выполнять вычисления (добавление, изменение) с ними. Поскольку любые вычисления с данными занимают много времени, я думал о том, как...

771 просмотров

bigdata

01.02.2024

Агрегирование 100 миллионов строк в новый набор

У меня есть приложение, которое переросло себя, и производительность начинает быстро ухудшаться. У меня есть таблица базы данных со 100 миллионами строк. Мне нужно найти набор этих данных между двумя датами. Примените некоторый алгоритм к...

181 просмотров

nosql database bigdata

01.09.2022

ClassCastException: kafka.message.Message не может быть приведен к java.lang.String на kafka Producer

Я пытаюсь написать какой-нибудь простой производитель, который пишет сообщения в kafka. Я скачал kafka0.7. Запустите сервер kafka, производителя и потребителя > bin/kafka-server-start.sh config/server.properties >...

9360 просмотров

apache-kafka scala bigdata

11.08.2022

Сколько серверов HBase должно быть на каждый сервер Hadoop?

У меня есть система, которая будет передавать файлы изображений меньшего размера, которые хранятся в таблице HBase, которая использует файловую систему hadoop. В настоящее время у меня есть 2 экземпляра Hadoop и 1 экземпляр HBase, но мой вопрос:...

73 просмотров

hadoop bigdata hbase

06.06.2023

Вопросы по теме 'bigdata'

Похожие вопросы