Вопросы по теме 'data-partitioning'

справедливое разбиение множества S на k разделов
Существует множество S, содержащее N целых чисел, каждое из которых имеет значение 1‹=X‹=10^6. Задача состоит в том, чтобы разбить множество S на k разделов. Значение раздела представляет собой сумму присутствующих в нем элементов. Разбиение должно...
3294 просмотров

Разделение на месте, когда массив может содержать или не содержать сводный элемент
Существует ли алгоритм локального разделения (из вид, используемый в реализации Quicksort ), который не полагается на элемент сводной таблицы, присутствующий в массиве ? Другими словами, элементы массива нужно расположить в таком порядке:...
1470 просмотров

Поиск решения или эвристического приближения для комбинаторной ситуации с тремя разделами
Как распределить 48 предметов, каждый со своей стоимостью в долларах, каждому из 3 наследников, чтобы значение, данное каждому, было равным или почти равным? Это форма проблемы разбиения с NP-полностью (или что-то в этом роде), и поэтому невозможно...
100 просмотров

Найдите все возможные пары между подмножествами N множеств с помощью Erlang
У меня есть набор S . Он содержит N подмножеств (которые, в свою очередь, содержат несколько подмножеств различной длины): 1. [[a,b],[c,d],[*]] 2. [[c],[d],[e,f],[*]] 3. [[d,e],[f],[f,*]] N. ... У меня также есть список L "уникальных"...
928 просмотров

Сколько различных разделов, состоящих ровно из n частей, можно составить из множества, состоящего из k элементов?
Сколько различных разделов, состоящих ровно из двух частей, можно составить из набора {1,2,3,4}? В этом списке 4 элемента, которые нужно разделить на 2 части. Я записал их и получил в общей сложности 7 различных возможностей: {{1},{2,3,4}}...
12817 просмотров

R: Выборка в ячейки предопределенных размеров (вектор выборки разделения)
Я работаю над набором данных, состоящим из ~ 10 ^ 6 значений, которые сгруппированы в переменное количество ячеек. В ходе моего анализа я пытаюсь рандомизировать свою кластеризацию, но сохраняю постоянный размер ячейки. В качестве игрушечного...
1780 просмотров
schedule 21.11.2022

Как Apache Spark разделяет данные большого файла
Допустим, у меня есть кластер из 4 nodes , каждый из которых имеет 1 core . У меня есть большой файл размером 600 Petabytes , который я хочу обработать через Spark . Файл может быть сохранен в HDFS . Я думаю, что так определить нет....
2136 просмотров
schedule 25.05.2022

jq: Как я могу передать объекты из массива в разные файлы на основе данных в объекте?
У меня есть большой массив объектов, хранящихся в главном файле JSON. Я хочу пройти через этот массив, взять каждый объект и добавить его в новый файл на основе поля в объекте (в данном случае имени состояния). Другими словами, в наборе данных,...
963 просмотров
schedule 20.02.2023

Удалить совпадающие/не совпадающие элементы вложенного массива с помощью jq
Мне нужно разделить результаты истории анализа сонарка на отдельные файлы. Предполагая начальный ввод ниже, { "paging": { "pageIndex": 1, "pageSize": 100, "total": 3 }, "measures": [ { "metric": "coverage",...
369 просмотров
schedule 07.03.2024

Создайте хеш с несколькими значениями из 2 массивов в powershell
Я хочу создать хеш с несколькими значениями для каждого ключа из 2 массивов A и B, которые неравны по размеру. $A = @('usr1','usr2', 'usr3', 'usr4') $B = @('INC1','INC2','INC3','INC4','INC5','INC6') $h = [ordered]@{} for($i=0; $i -lt $B.Count;...
192 просмотров
schedule 02.12.2022

Поддерживается ли секционирование на основе выражений в улье?
У меня есть таблица со столбцом, могу ли я создать раздел на основе выражения, использующего этот столбец? Я читал, что технология IBM Big SQL имеет эту функцию. Я также знаю, что мы можем разделить куст по столбцу, но как насчет выражения? В...
162 просмотров
schedule 22.07.2022

Как создать среднее значение для разделов, содержащих не более 5 элементов, зависящих от времени?
Моя цель — выбрать в среднем ровно 5 записей, только если они соответствуют критериям левого соединения с другой таблицей. Допустим, у нас есть таблица 1 (слева) с записями: RECNUM ID DATE JOB 1 | cat | 2019.01.01 | meow 2...
61 просмотров

Выбор ключа раздела, когда у сообщения нет нужного свойства для разнообразия документов
У меня есть одно приложение, которое отправляет сообщения в Cosmos DB, читая сообщения из другой базы данных приложения. Единственная информация, которую я могу получить из другого приложения, - это documentId, то есть первичный ключ из базы данных...
47 просмотров

значения столбцов меняются между загрузкой двух секционированных таблиц в KDB (q)
У меня на диске есть две разбитые на разделы таблицы kdb (одна называется trades, другая — books). Я создал данные, используя .Q.dpft[`:I:/check/trades/;2020.01.01;`symTrade;`trades] и .Q.dpft[`:I:/check/books/;2020.01.01;`sym;`books]...
104 просмотров

Исправление объединений, приводящих к NULL для запроса с использованием трех разных операций ROW_NUMBER() OVER(PARTITION BY ORDER BY
Я надеюсь, что этот вопрос содержит достаточно деталей и контекста, но дайте мне знать, если какая-либо дополнительная информация облегчит понимание, и я постараюсь предоставить. Я использую MSSMS 2016. В частности, Microsoft SQL Server Management...
51 просмотров

Рекурсивное разбиение для проблемы факторов/символов
В настоящее время я работаю с набором данных predictions . В этих данных я преобразовал переменные ясного символьного типа в факторы, потому что я думаю, что факторы работают лучше, чем символы для кода glmtree() (скажите, если я ошибаюсь):...
52 просмотров
schedule 21.03.2023

чтение секционированных наборов данных, хранящихся как csv, с помощью pyarrow.dataset
Есть ли способ в pyarrow, как читать в секционированном наборе данных, состоящем из файлов csv, у которых нет имен столбцов, хранящихся в первой строке? То, что я пытаюсь сделать, по сути: from pyarrow import dataset as ds from pyarrow import fs...
48 просмотров

Динамическое разделение
Я создал внешнюю таблицу в улье, используя: create external table if not exists summary( `Restaurant ID` INT, `Restaurant Name` STRING) PARTITIONED BY (p_filedate INT, p_country_name STRING) stored as ORC; Теперь, когда я пытаюсь...
19 просмотров

Таблица разделов поверх папок, содержащих подпапки, содержащие файлы json в spark
Я работаю над искрой в Databricks. У меня есть точка монтирования для моего хранилища, указывающая на мой каталог. Назовем каталог как /mnt/abc1/abc2 — путь. Допустим, в этом каталоге abc2 у меня есть 10 папок с именами xyz1 .. xyz10. Все эти...
29 просмотров