Как я могу эффективно сравнивать совпадающие когорты в искре?
В python для каждого наблюдения класса меньшинства в сильно несбалансированном наборе данных выборка k
наблюдений из класса большинства может быть реализована довольно простым способом (т. е. сопоставление здорового человека с каждым больным человеком по возрасту и полу):
Повысить производительность, вычисляя случайную выборку, соответствующую конкретным условия в pandas или стратифицированная выборка python 1:1 для каждой группы< /а>
Но как масштабировать это в Spark? Наивно самосоединение с фильтром должно работать. Но это не удается из-за того, что создается слишком много кортежей.
Существуют ли более разумные стратегии? Может быть, какое-то умное хэширование, такое как LSH?