Я работаю с текстом в формате Unicode в R, используя пакет интеллектуального анализа текста tm. Я бы хотел, чтобы символы Юникода не уничтожались, когда они считываются в программу, но я не могу найти отсутствующее ключевое слово. Вот пример текста в Юникоде, который мгновенно портится при чтении в виде корпуса.
library(tm)
u <- VectorSource("The great Chāṇakya (350–283 BC).",encoding = "UTF-8")
v <- Corpus(u)
inspect(v)
## [[1]]
## The great Chaṇakya (350–283 BC). <--The ā has been coerced to "a"
writeCorpus(v,'test.txt')
## yields: The great Cha<U+1E47>akya (350–283 BC).
Я также пытался использовать UTF-16 с теми же результатами. Есть ли способ передать этот текст через tm, не уничтожая его?
inspect(Corpus(VectorSource(readLines("my.txt", n=1, encoding="UTF-8"))))
. Это дает правильный вывод на моем компьютере с Windows. - person lukeA   schedule 21.02.2014