Я новичок в R и в настоящее время работаю с пакетом Quanteda для анализа текста. Для тематических моделей с течением времени мне нужны метаданные в текстовых файлах, с которыми я работаю. Первая строка каждого из моих документов содержит дату, которую я хотел бы извлечь таким образом, чтобы она была связана с документом. Я могу извлечь дату из первой строки документа, которая имеет следующую структуру «дата: 23/04/1980», используя следующий код:
fileName <- "C:/Users/fischer/project/_Los_Angeles_Times_The_New_York_Times_The_Was2018-01-14_01-01.txt"
mytxt <- readChar(fileName, file.info(fileName)$size)
regmatches(extracted_texts, regexec("date:",extracted_texts))
date<-regmatches(extracted_texts, gregexpr(
"date:[0-9]{2}/[0-9]{2}/[0-9]{4}", extracted_texts))
R возвращает "дата: 23.04.1980"
Чего я не могу добиться, так это применить это к нескольким документам в моем каталоге и сохранить вывод в виде переменной/вектора, что позволяет мне использовать его в качестве метаданных для функций пакета quenteda.