PrestoDB v0.125 SELECT возвращает только подмножество записей Cassandra

Операторы SELECT в PrestoDB v0.125 с соединителем Cassandra с кластером Datastax Cassandra возвращают только 200 строк, даже если таблица содержит намного больше строк. Агрегированные запросы, такие как SELECT COUNT () по той же таблице, также возвращают результат всего 200.

(Это поведение идентично при запросе с помощью соединителя pyhive и базового интерфейса командной строки presto).

Документация не очень помогает, но я предполагаю, что проблема заключается в разбивке на страницы и необходимости устанавливать переменные среды (что в документации не объясняется): https://prestodb.io/docs/current/installation/cli.html

Кто-нибудь знает, как я могу удалить это ограничение в 200 возвращаемых строк? Какая конкретная настройка переменной среды мне нужна?


person Jon Rout    schedule 15.11.2015    source источник


Ответы (1)


Для тех, кто придет после - решение в конфигурации коннектора cassandra.properties для presto. Ключевой параметр:

  • cassandra.limit-for-partition-key-select

Это должно быть установлено больше, чем общее количество строк в запрашиваемой таблице, в противном случае запросы выбора будут отвечать только частью сохраненных данных (не найдя всех ключей секций).

Полная копия моего файла конфигурации (что может помочь!):

connector.name=cassandra
# Comma separated list of contact points
cassandra.contact-points=host1,host2
# Port running the native Cassandra protocol
cassandra.native-protocol-port=9042
# Limit of rows to read for finding all partition keys.
cassandra.limit-for-partition-key-select=2000000000
# maximum number of schema cache refresh threads, i.e. maximum number of parallel requests
cassandra.max-schema-refresh-threads=10
# schema cache time to live
cassandra.schema-cache-ttl=1h
# schema refresh interval
cassandra.schema-refresh-interval=2m
# Consistency level used for Cassandra queries (ONE, TWO, QUORUM, ...)
cassandra.consistency-level=ONE
# fetch size used for Cassandra queries
cassandra.fetch-size=5000
# fetch size used for partition key select query
cassandra.fetch-size-for-partition-key-select=20000
person Jon Rout    schedule 22.11.2015