Я пытаюсь выполнить классификацию двоичного текста для пользовательских данных (которые находятся в формате csv) с использованием различных архитектур трансформаторов, которые предлагает библиотека Hugging Face 'Transformers'. Я использую это сообщение в блоге Tensorflow в качестве ссылки.
Я загружаю настраиваемый набор данных в формат tf.data.Dataset, используя следующий код:
def get_dataset(file_path, **kwargs):
dataset = tf.data.experimental.make_csv_dataset(
file_path,
batch_size=5, # Artificially small to make examples easier to show.
na_value="",
num_epochs=1,
ignore_errors=True,
**kwargs)
return dataset
После этого, когда я попытался использовать 'glue_convert_examples_to_features" rel>' glue_convert_examples_to_features" rel>"noreferrer_examples" rel>"noreferrer_examples" rel> ' для токенизации, как показано ниже:
train_dataset = glue_convert_examples_to_features(
examples = train_data,
tokenizer = tokenizer,
task = None,
label_list = ['0', '1'],
max_length = 128
)
что вызывает ошибку «UnboundLocalError: локальная переменная 'processor', на которую ссылалась перед присваиванием '» по адресу:
if is_tf_dataset:
example = processor.get_example_from_tensor_dict(example)
example = processor.tfds_map(example)
Во всех примерах я вижу, что они используют такие задачи, как «mrpc» и т. Д., Которые предопределены и имеют glue_processor для обработки. Ошибка возникает в "строке 85" в исходном коде.
Может ли кто-нибудь помочь с решением этой проблемы с использованием «пользовательских данных»?