val df1 = Seq(("Brian", 29, "0-A-1234")).toDF("name", "age", "client-ID")
val df2 = Seq(("1234", 555-5555, "1234 anystreet")).toDF("office-ID", "BusinessNumber", "Address")
Я пытаюсь запустить функцию в каждой строке кадра данных (в потоковом режиме). Эта функция будет содержать комбинацию кода Scala и API-кода Spark dataframe. например, я хочу взять 3 функции из df и использовать их для фильтрации второго фрейма данных с именем df2. Насколько я понимаю, UDF не может этого сделать. Теперь у меня весь код фильтрации работает просто отлично, без возможности применить его к каждой строке df.
Моя цель - сделать что-то вроде
df.select("ID","preferences").map(row => ( //filter df2 using row(0), row(1) and row(3) ))
Фреймы данных не могут быть объединены, между ними нет соединяемых отношений.
Хотя я использую Scala, ответ на Java или Python, вероятно, подойдет.
Я также в порядке с альтернативными способами достижения этого. Если бы я мог извлечь данные из строк в отдельные переменные (имейте в виду, что это потоковая передача), это тоже нормально.