Я загружаю все географические записи (Q56061) из дампа wikidata json. По данным страницы Викиданные: Статистика, весь дамп содержит около 16 миллионов записей.
При использовании python3.4 + ijson + libyajl2 для анализа файла требуется около 93 часов процессора (AMD Phenom II X4 945 3 ГГц). Использование последовательных онлайн-запросов элементов для 2,3 млн интересующих записей занимает около 134 часов.
Есть ли более оптимальный способ выполнить эту задачу? (возможно, что-то вроде формата pdf openstreetmap и инструмента осмоса)
curl https://dumps.wikimedia.org/wikidatawiki/entities/latest-all.json.gz |gzip -d |wikidata-filter --claim P31:Q5 > humans.ndjson
. Точно не могу вспомнить, но это заняло определенно меньше 5 часов - person maxlath   schedule 12.01.2017