инициировать эффективное распределение по парам для сравнения когорт

Как я могу эффективно сравнивать совпадающие когорты в искре?

В python для каждого наблюдения класса меньшинства в сильно несбалансированном наборе данных выборка k наблюдений из класса большинства может быть реализована довольно простым способом (т. е. сопоставление здорового человека с каждым больным человеком по возрасту и полу):

Повысить производительность, вычисляя случайную выборку, соответствующую конкретным условия в pandas или стратифицированная выборка python 1:1 для каждой группы< /а>

Но как масштабировать это в Spark? Наивно самосоединение с фильтром должно работать. Но это не удается из-за того, что создается слишком много кортежей.

Существуют ли более разумные стратегии? Может быть, какое-то умное хэширование, такое как LSH?


person Georg Heiler    schedule 03.09.2019    source источник
comment
Это может быть sparkhub.databricks. ком/видео/   -  person MikiBelavista    schedule 03.09.2019