Вопросы по теме 'data-partitioning'
справедливое разбиение множества S на k разделов
Существует множество S, содержащее N целых чисел, каждое из которых имеет значение 1‹=X‹=10^6. Задача состоит в том, чтобы разбить множество S на k разделов. Значение раздела представляет собой сумму присутствующих в нем элементов. Разбиение должно...
3294 просмотров
schedule
26.03.2022
Разделение на месте, когда массив может содержать или не содержать сводный элемент
Существует ли алгоритм локального разделения (из вид, используемый в реализации Quicksort ), который не полагается на элемент сводной таблицы, присутствующий в массиве ?
Другими словами, элементы массива нужно расположить в таком порядке:...
1470 просмотров
schedule
26.07.2022
Поиск решения или эвристического приближения для комбинаторной ситуации с тремя разделами
Как распределить 48 предметов, каждый со своей стоимостью в долларах, каждому из 3 наследников, чтобы значение, данное каждому, было равным или почти равным?
Это форма проблемы разбиения с NP-полностью (или что-то в этом роде), и поэтому невозможно...
100 просмотров
schedule
16.11.2022
Найдите все возможные пары между подмножествами N множеств с помощью Erlang
У меня есть набор S . Он содержит N подмножеств (которые, в свою очередь, содержат несколько подмножеств различной длины):
1. [[a,b],[c,d],[*]]
2. [[c],[d],[e,f],[*]]
3. [[d,e],[f],[f,*]]
N. ...
У меня также есть список L "уникальных"...
928 просмотров
schedule
14.06.2022
Сколько различных разделов, состоящих ровно из n частей, можно составить из множества, состоящего из k элементов?
Сколько различных разделов, состоящих ровно из двух частей, можно составить из набора {1,2,3,4}? В этом списке 4 элемента, которые нужно разделить на 2 части. Я записал их и получил в общей сложности 7 различных возможностей:
{{1},{2,3,4}}...
12817 просмотров
schedule
28.07.2022
R: Выборка в ячейки предопределенных размеров (вектор выборки разделения)
Я работаю над набором данных, состоящим из ~ 10 ^ 6 значений, которые сгруппированы в переменное количество ячеек. В ходе моего анализа я пытаюсь рандомизировать свою кластеризацию, но сохраняю постоянный размер ячейки. В качестве игрушечного...
1780 просмотров
schedule
21.11.2022
Как Apache Spark разделяет данные большого файла
Допустим, у меня есть кластер из 4 nodes , каждый из которых имеет 1 core . У меня есть большой файл размером 600 Petabytes , который я хочу обработать через Spark . Файл может быть сохранен в HDFS .
Я думаю, что так определить нет....
2136 просмотров
schedule
25.05.2022
jq: Как я могу передать объекты из массива в разные файлы на основе данных в объекте?
У меня есть большой массив объектов, хранящихся в главном файле JSON. Я хочу пройти через этот массив, взять каждый объект и добавить его в новый файл на основе поля в объекте (в данном случае имени состояния). Другими словами, в наборе данных,...
963 просмотров
schedule
20.02.2023
Удалить совпадающие/не совпадающие элементы вложенного массива с помощью jq
Мне нужно разделить результаты истории анализа сонарка на отдельные файлы. Предполагая начальный ввод ниже,
{
"paging": {
"pageIndex": 1,
"pageSize": 100,
"total": 3
},
"measures": [
{
"metric": "coverage",...
369 просмотров
schedule
07.03.2024
Создайте хеш с несколькими значениями из 2 массивов в powershell
Я хочу создать хеш с несколькими значениями для каждого ключа из 2 массивов A и B, которые неравны по размеру.
$A = @('usr1','usr2', 'usr3', 'usr4')
$B = @('INC1','INC2','INC3','INC4','INC5','INC6')
$h = [ordered]@{}
for($i=0; $i -lt $B.Count;...
192 просмотров
schedule
02.12.2022
Поддерживается ли секционирование на основе выражений в улье?
У меня есть таблица со столбцом, могу ли я создать раздел на основе выражения, использующего этот столбец?
Я читал, что технология IBM Big SQL имеет эту функцию.
Я также знаю, что мы можем разделить куст по столбцу, но как насчет выражения?
В...
162 просмотров
schedule
22.07.2022
Как создать среднее значение для разделов, содержащих не более 5 элементов, зависящих от времени?
Моя цель — выбрать в среднем ровно 5 записей, только если они соответствуют критериям левого соединения с другой таблицей. Допустим, у нас есть таблица 1 (слева) с записями:
RECNUM ID DATE JOB
1 | cat | 2019.01.01 | meow
2...
61 просмотров
schedule
14.04.2023
Выбор ключа раздела, когда у сообщения нет нужного свойства для разнообразия документов
У меня есть одно приложение, которое отправляет сообщения в Cosmos DB, читая сообщения из другой базы данных приложения. Единственная информация, которую я могу получить из другого приложения, - это documentId, то есть первичный ключ из базы данных...
47 просмотров
schedule
03.08.2023
значения столбцов меняются между загрузкой двух секционированных таблиц в KDB (q)
У меня на диске есть две разбитые на разделы таблицы kdb (одна называется trades, другая — books). Я создал данные, используя
.Q.dpft[`:I:/check/trades/;2020.01.01;`symTrade;`trades]
и
.Q.dpft[`:I:/check/books/;2020.01.01;`sym;`books]...
104 просмотров
schedule
25.05.2022
Исправление объединений, приводящих к NULL для запроса с использованием трех разных операций ROW_NUMBER() OVER(PARTITION BY ORDER BY
Я надеюсь, что этот вопрос содержит достаточно деталей и контекста, но дайте мне знать, если какая-либо дополнительная информация облегчит понимание, и я постараюсь предоставить. Я использую MSSMS 2016. В частности, Microsoft SQL Server Management...
51 просмотров
schedule
10.08.2022
Рекурсивное разбиение для проблемы факторов/символов
В настоящее время я работаю с набором данных predictions . В этих данных я преобразовал переменные ясного символьного типа в факторы, потому что я думаю, что факторы работают лучше, чем символы для кода glmtree() (скажите, если я ошибаюсь):...
52 просмотров
schedule
21.03.2023
чтение секционированных наборов данных, хранящихся как csv, с помощью pyarrow.dataset
Есть ли способ в pyarrow, как читать в секционированном наборе данных, состоящем из файлов csv, у которых нет имен столбцов, хранящихся в первой строке?
То, что я пытаюсь сделать, по сути:
from pyarrow import dataset as ds
from pyarrow import fs...
48 просмотров
schedule
14.07.2023
Динамическое разделение
Я создал внешнюю таблицу в улье, используя:
create external table if not exists summary(
`Restaurant ID` INT,
`Restaurant Name` STRING)
PARTITIONED BY (p_filedate INT, p_country_name STRING)
stored as ORC;
Теперь, когда я пытаюсь...
19 просмотров
schedule
20.08.2022
Таблица разделов поверх папок, содержащих подпапки, содержащие файлы json в spark
Я работаю над искрой в Databricks. У меня есть точка монтирования для моего хранилища, указывающая на мой каталог. Назовем каталог как /mnt/abc1/abc2 — путь. Допустим, в этом каталоге abc2 у меня есть 10 папок с именами xyz1 .. xyz10. Все эти...
29 просмотров
schedule
07.12.2022