У меня есть дамп википедии, сжатый с помощью bzip2 (загружен с http://dumps.wikimedia.org/enwiki/), но я не хочу его распаковывать: я хочу обработать его, распаковывая на лету.
Я знаю, что это можно сделать на простой Java (см., например, Java — чтение файла BZ2 и распаковка/анализ на лету), но мне интересно, как это сделать в Apache Flink? Мне, вероятно, нужно что-то вроде https://github.com/whym/wikihadoop, но для Flink, не Хадуп.