Многострочный текстовый набор данных в Tensorflow

tf.data. * имеет классы наборов данных. Существует TextLineDataset, но мне нужен один для многострочного текста (между начальным / конечным токенами). Есть ли способ использовать другой разделитель разрыва строки для tf.data.TextLineDataset?

Я опытный разработчик, но неофит по питону. Я умею читать, но пишу ограниченно. Я изменяю существующий учебник Tensorflow NMT к моему собственному набору данных. В большинстве руководств по TFRecord используются файлы в формате JPEG или другие структурированные данные.

python tensorflow tensorflow-datasets

lazybones 18.11.2017 источник

comment

Попробуйте опубликовать то, что вы сделали до сих пор. Это поможет сообществу ответить вам - Abe 18.11.2017

comment

Я думаю, вам придется создать собственный подкласс Dataset. Если вам интересно, определение класса TextLineDataset находится в github.com/tensorflow/tensorflow/blob/r1.4/tensorflow/python/. - MatthewScarpino 18.11.2017

Ответы (1)

arrow_upward
0
arrow_downward

Вы можете попробовать два варианта:

Напишите генератор, а затем используйте Dataset.from_generator: в своем генераторе вы можете читать свой файл построчно, добавлять в свой пример при этом, а затем уступать, когда вы встречаетесь со своим настраиваемым разделителем.
Сначала проанализируйте свой файл, создайте tf.train.SequenceExample с несколькими строками, а затем сохраните свой набор данных как TFRecordDataset (на мой взгляд, более громоздкий вариант)

Nitin Yadav 28.08.2018

Многострочный текстовый набор данных в Tensorflow

Ответы (1)

Похожие вопросы