Я использую Bert для задачи классификации текста, когда пытаюсь токенизировать один образец данных, используя код:
encoded_sent = tokenizer.encode(
sentences[7],
add_special_tokens = True)
все идет хорошо, но когда я пытаюсь токенизировать все данные, используя код:
# For every sentence...
for sent in sentences:
encoded_sent = tokenizer.encode(
sent,
add_special_tokens = True)
это дает мне ошибку:
"ValueError: Input nan is not valid. Should be a string, a list/tuple of strings or a list/tuple of integers."
Я попробовал данные на английском языке, которые были кем-то успешно токенизированы, и получил ту же ошибку. Вот как я загружаю свои данные:
import pandas as pd
df=pd.read_csv("/content/DATA.csv",header=0,dtype=str)
DATA_COLUMN = 'sentence'
LABEL_COLUMN = 'label'
df.columns = [DATA_COLUMN, LABEL_COLUMN]
df["sentence"].head
и вот как я загружаю токенизатор:
# Load the BERT tokenizer.
print('Loading BERT tokenizer...')
tokenizer = AutoTokenizer.from_pretrained('aubmindlab/bert-base-arabert')
образец моих данных:
Оригинал: مساعد نائب رئيس المنزل: لم نر حتى رسالة كومي حتى غردها جيسون تشافيتز
Токенизировано: ['مساعد', 'نائب', 'رئيس', 'ال', '##منزل', ':', 'لم', 'نر', 'حتى', 'رسال', '##ة' , 'كومي', 'حتى', 'غرد', '##ها', 'جيسون', 'تشافي', '##ت', '##ز']
любые предложения, пожалуйста?!
print (sent)
иprint (type(sent))
в цикл for и сообщите о результатах. Наверное, там что-то не так. - person Stefano Fiorucci - anakin87   schedule 05.11.2020