Вопросы по теме 'bigdata'

Solr подходит к переиндексации больших массивов документов
Мы ищем некоторые рекомендации по систематической переиндексации в Solr постоянно растущего корпуса документов (десятки миллионов сейчас, сотни миллионов через год) без закрытия текущего индекса. Переиндексация необходима на периодической основе,...
1276 просмотров
schedule 25.05.2023

Хранилище данных для больших данных астрофизического моделирования
Я аспирант факультета астрофизики. Я запускаю большие симуляции, используя коды, в основном разработанные другими за десятилетие или около того. Примеры этих кодов можно найти на гаджете http://www.mpa-garching.mpg.de/gadget/ и enzo...
536 просмотров
schedule 11.04.2023

Pyrocache против Memcached
Я использовал PyroCMS для некоторых проектов, мне это очень нравится. В настоящее время я разрабатываю еще один веб-сайт на его основе. На моем веб-сайте мне нужно работать с большой базой данных, она не очень большая, но достаточно большая, чтобы...
683 просмотров
schedule 16.02.2023

сортировка больших текстовых данных
У меня есть большой файл (100 миллионов строк значений, разделенных табуляцией, размером около 1,5 ГБ). Каков самый быстрый известный способ сортировки на основе одного из полей? Я пробовал улей. Я хотел бы посмотреть, можно ли это сделать...
12000 просмотров
schedule 06.09.2022

Чтение буферизованного файла C++
Интересно, можно ли чтение большого текстового файла построчно (например, std::getline или fgets) буферизовать с предопределенным размером буфера чтения или нужно использовать специальные побайтовые функции? Я имею в виду чтение очень больших...
5216 просмотров
schedule 17.05.2022

Параллельные вычисления: распределенные системы или многоядерные процессоры?
Мне просто интересно, зачем нужно преодолевать все трудности с созданием распределенных систем для массовой параллельной обработки, когда мы могли бы просто создавать отдельные машины, поддерживающие сотни или тысячи ядер/ЦП (или даже GPGPU) на...
1493 просмотров
schedule 28.08.2022

NumPy: 3-байтовые, 6-байтовые типы (также известные как uint24, uint48)
NumPy, похоже, не имеет встроенной поддержки 3-байтовых и 6-байтовых типов, также известных как uint24 и uint48 . У меня есть большой набор данных, использующий эти типы, и я хочу передать его в numpy. Что я сейчас делаю (для uint24): import...
5525 просмотров
schedule 21.12.2022

Инкрементальное обновление миллионов записей, проиндексированное или объединенное
В настоящее время я разрабатываю стратегию постепенного обновления наших пользовательских данных. Мы предполагаем, что в нашей базе данных 100_000_000 записей, из которых примерно 1_000_000 записей обновляются за рабочий процесс. Идея состоит в...
282 просмотров

Прозрачный способ работы с файлами данных, размер которых превышает размер памяти?
Возможный дубликат: Обрезка огромного (3,5 ГБ) файла CSV для чтения в R Есть ли у R хороший способ прозрачно работать с данными, которые не помещаются в память? Есть несколько пакетов для работы с большими данными, но я не хочу...
133 просмотров
schedule 12.02.2023

Возможность обработки штормовых данных
Для случая использования в бизнесе, когда нам приходится иметь дело с минимум «2-3 терабайтами» данных в день, я проводил анализ «Hadoop & Storm». Излишне говорить, что «Шторм» выглядит впечатляюще из-за своей эффективности в обработке входящих...
281 просмотров
schedule 04.07.2022

Непересекающиеся множества для действительно больших данных
Существует ли какой-либо усовершенствованный алгоритм непересекающихся множеств для действительно больших данных (например, более 2^32 элементов и более 2^32 пар для объединения)? Очевидно, самая большая проблема заключается в том, что я не могу...
383 просмотров

Почему Hadoop не использует другие жесткие диски?
это мой первый раз, когда я играю с кластером Hadoop, поэтому я очень новичок в этом. У меня есть небольшой кластер из 3 узлов с 5 жесткими дисками по 2 ТБ на каждом компьютере. Все работают под управлением Ubuntu, имеют одинаковые характеристики...
3958 просмотров
schedule 05.05.2022

Выходной каталог Hadoop Pig не задан
Я пишу свой собственный класс Pig Store, где я не хочу хранить его в файле, я планирую отправить его в какое-то стороннее хранилище данных (за исключением вызовов API). примечание: я запускаю его на образе Cloudera VirtualBox. Я написал свои...
1117 просмотров
schedule 30.03.2024

Как хранить разреженную матрицу смежности
Прочитал несколько тем, но запутался. Я совсем новичок в этом. Я хочу хранить огромную разреженную матрицу и иметь несколько идей, но могу выбирать между ними. Вот мои потребности: Матрица смежности ок. 50 миллионов вершин. Максимальное...
1944 просмотров
schedule 13.07.2022

Понимание и построение алгоритма социальной сети
Я не уверен, что это подходящая платформа, чтобы задать этот вопрос. Но моя формулировка проблемы такова: у меня есть книжный магазин и x нет клиентов (x огромен). Клиент может сказать мне, хорошая книга или плохая (не рекомендуется). У меня есть...
6141 просмотров

Масштабируемость SVG с количеством элементов
У меня возникла небольшая проблема с визуализацией, которую мне нужно реализовать. Это двумерная матрица, которая до сих пор имела максимальный размер 100 x 100. До сих пор это делалось с помощью HTML + javascript. Нам также нужно было иметь...
214 просмотров
schedule 11.11.2022

Как хранить большие данные для использования в вычислениях?
Недавно я начал работать с большими данными. В частности, у меня есть несколько ГБ данных, и мне приходится часто выполнять вычисления (добавление, изменение) с ними. Поскольку любые вычисления с данными занимают много времени, я думал о том, как...
771 просмотров
schedule 01.02.2024

Агрегирование 100 миллионов строк в новый набор
У меня есть приложение, которое переросло себя, и производительность начинает быстро ухудшаться. У меня есть таблица базы данных со 100 миллионами строк. Мне нужно найти набор этих данных между двумя датами. Примените некоторый алгоритм к...
181 просмотров
schedule 01.09.2022

ClassCastException: kafka.message.Message не может быть приведен к java.lang.String на kafka Producer
Я пытаюсь написать какой-нибудь простой производитель, который пишет сообщения в kafka. Я скачал kafka0.7. Запустите сервер kafka, производителя и потребителя > bin/kafka-server-start.sh config/server.properties >...
9360 просмотров
schedule 11.08.2022

Сколько серверов HBase должно быть на каждый сервер Hadoop?
У меня есть система, которая будет передавать файлы изображений меньшего размера, которые хранятся в таблице HBase, которая использует файловую систему hadoop. В настоящее время у меня есть 2 экземпляра Hadoop и 1 экземпляр HBase, но мой вопрос:...
73 просмотров
schedule 06.06.2023