Читать текст юникода с помощью tm в R?

Я работаю с текстом в формате Unicode в R, используя пакет интеллектуального анализа текста tm. Я бы хотел, чтобы символы Юникода не уничтожались, когда они считываются в программу, но я не могу найти отсутствующее ключевое слово. Вот пример текста в Юникоде, который мгновенно портится при чтении в виде корпуса.

library(tm)
u <- VectorSource("The great Chāṇakya (350–283 BC).",encoding = "UTF-8")
v <- Corpus(u)
inspect(v)
## [[1]]
## The great Chaṇakya (350–283 BC).  <--The ā has been coerced to "a"

writeCorpus(v,'test.txt')
## yields: The great Cha<U+1E47>akya (350–283 BC).

Я также пытался использовать UTF-16 с теми же результатами. Есть ли способ передать этот текст через tm, не уничтожая его?

r unicode tm

Michael K 21.02.2014 источник

comment

Одним из способов было бы сохранить его в текстовом файле с кодировкой UTF-8 и прочитать его вместо строки копирования/вставки, например. inspect(Corpus(VectorSource(readLines("my.txt", n=1, encoding="UTF-8")))). Это дает правильный вывод на моем компьютере с Windows. - lukeA 21.02.2014

comment

Хм, я получаю правильный вывод для inspect(), но когда я пытаюсь написать ответ, я получаю тот же вывод, что и в вопросе. Это всего лишь шаг, и я посмотрю, смогу ли я пройти остаток пути. Спасибо! - Michael K 21.02.2014

comment

Таким образом, запись в файл кажется разорванной. Однако решение stackoverflow.com/questions /10675360/utf-8-file-output-in-r обеспечивает способ правильной записи текста в кодировке utf-8 в файл. - Michael K 21.02.2014

Читать текст юникода с помощью tm в R?

Похожие вопросы