Это мой текущий способ после вызова сеанса Sparklyr:
dbGetQuery(sparkContext, "USE DB_1")
df_1 <- tbl(sparkContext, "table_1")
dbGetQuery(sparkContext, "USE DB_2")
df_2 <- tbl(sparkContext, "table_2")
df <- df_1 %>% inner_join(df_2, by = c("col_1" = "col_2"))
nrow(df))
Ошибки, с которыми я столкнулся:
"Error: org.apache.spark.sql.AnalysisException: Table or view not found: table_1"
Я считаю, что Sparklyr не поддерживает (напрямую) объединение таблиц из двух баз данных. Мне интересно, есть ли у кого-нибудь элегантное решение этой проблемы