У меня есть корпус, содержащий два текстовых файла, которые я импортировал как:
temp = list.files(pattern = ".txt")
mydata = lapply(temp, read.delim, sep ="\t", quote = "")
mydata
выходным классом был список, но я преобразовал его в символ следующим образом:
class(mydata)
list
mydata <- as.character(mydata)
тексты относятся к классу символов:
class(mydata)
[1] "character"
но кажется, что это строки символов, как сначала показывает вывод:
[[1]]ï..We.give.the.observer.as.much.time.as.he.wants.to.make.his.response..we.simply.increase.the.number.of.alternative.stimuli.among.which.he.must.
(вышеприведенная строка является лишь примером одного из текстов); затем он печатает фактические тексты, поскольку каждое предложение находится в отдельной строке, например:
ï..this.is.just.a.bunch.of.crab.to.analyse.
1 I need to understand how this R package works.
2 lexical diversity needs to be analysed for two texts for now.
3 In this document I am typing each sentence on a separate line.
Мне нужно преобразовать эти тексты как вектор символов для следующего шага анализа, чтобы преобразовать их в ASCII с помощью пакета stringi в R, например:
stri_enc_toascii(mydata)
--данный пакет только преобразует вектор символов в кодировку ascii. Итак, вопрос:
--Как преобразовать набор строк символов в вектор?
P.S. Я уже рассмотрел все остальные вопросы в StackOverflow, чтобы избежать дублирования вопроса. Спасибо за вашу помощь!
Спасибо, ребята, за вашу помощь! Я просто использовал as.vector для преобразования строки символов в вектор символов:
as.vector(mydata)
is.vector(mydata)
TRUE
Но основная проблема остается: мне нужен вектор символов в качестве входных данных для пакета stringi и функция stri_enc_toascii(mydata) для преобразования моих данных в кодировку ASCII (проверьте здесь, но кодировка по-прежнему показывает неизвестно. Есть ли простой способ преобразовать «неизвестную» кодировку в «ascii»?
mydata
является результатом вызоваlapply
, тоclass(mydata)
должен возвращать список, а не символ. Кроме того,read.delim
предназначена для чтения таблиц и не подходит для чтения нетабличных текстовых файлов. - person Ryan C. Thompson   schedule 26.05.2018