Я выполняю запрос в своем приложении Spark, который возвращает существенно большой объем данных. Я хотел бы знать, сколько строк данных запрашивается для ведения журнала. Кажется, я не могу найти способ получить количество строк, не подсчитывая их вручную или не вызывая метод для подсчета для меня, поскольку данные довольно большие, это становится дорогостоящим для ведения журнала. Есть ли место, где количество строк сохраняется и доступно для захвата?
Я прочитал здесь, что коннектор Python сохраняет rowcount в объектную модель, но я не могу найти эквивалента для Spark Connector или его базового JDBC.
Самый оптимальный способ, который я могу найти, - это rdd.collect().size
в RDD, который предоставляет Spark. Это примерно на 15% быстрее, чем звонок rdd.count()
Любая помощь приветствуется ????
sqlContext.read .format(SNOWFLAKE_SOURCE_NAME) .options(sfOptions) .option("query", "SELECT COUNT(1) FROM table") .load()
- person undefined_variable   schedule 12.08.2019count(column) FROM table
в этом запросе?select column1, column2 from table where...
- person Abram   schedule 12.08.2019