Многострочный текстовый набор данных в Tensorflow

tf.data. * имеет классы наборов данных. Существует TextLineDataset, но мне нужен один для многострочного текста (между начальным / конечным токенами). Есть ли способ использовать другой разделитель разрыва строки для tf.data.TextLineDataset?

Я опытный разработчик, но неофит по питону. Я умею читать, но пишу ограниченно. Я изменяю существующий учебник Tensorflow NMT к моему собственному набору данных. В большинстве руководств по TFRecord используются файлы в формате JPEG или другие структурированные данные.


person lazybones    schedule 18.11.2017    source источник
comment
Попробуйте опубликовать то, что вы сделали до сих пор. Это поможет сообществу ответить вам   -  person Abe    schedule 18.11.2017
comment
Я думаю, вам придется создать собственный подкласс Dataset. Если вам интересно, определение класса TextLineDataset находится в github.com/tensorflow/tensorflow/blob/r1.4/tensorflow/python/.   -  person MatthewScarpino    schedule 18.11.2017


Ответы (1)


Вы можете попробовать два варианта:

  1. Напишите генератор, а затем используйте Dataset.from_generator: в своем генераторе вы можете читать свой файл построчно, добавлять в свой пример при этом, а затем уступать, когда вы встречаетесь со своим настраиваемым разделителем.

  2. Сначала проанализируйте свой файл, создайте tf.train.SequenceExample с несколькими строками, а затем сохраните свой набор данных как TFRecordDataset (на мой взгляд, более громоздкий вариант)

person Nitin Yadav    schedule 28.08.2018