У меня есть пары данных отзывов клиентов в CSV, обозначающие, рекомендовал ли клиент полученную услугу (1 или 0), «rec» и связанный комментарий «comment». Я пытаюсь сравнить отзывы клиентов между теми, кто рекомендовал услугу, и теми, кто этого не сделал.
Я использовал пакет tm, чтобы просто прочитать все строки в CSV с комментариями only и выполнить дополнительный анализ текста для всех комментариев, что сработало:
>file_loc <- "C:/Users/..(etc)...file.csv"
x <- read.csv(file_loc, header = TRUE)
require(tm)
fdbk <- Corpus(DataframeSource(x))
Теперь я пытаюсь сравнить комментарии тех клиентов, которые рекомендуют, и тех, кто не делает, включая столбец "rec", но мне не удалось создать корпус из одного столбца CSV - я пробовал следующее:
>file_loc <- "C:/Users/..(etc)...file.csv"
x <- read.csv(file_loc, header = TRUE)
require(tm)
fdbk <- Corpus(DataframeSource(x$comment))
Но я получаю сообщение об ошибке
"Error in if (vectorized && (length <= 0))
stop("vectorized sources must have positive length") :
missing value where TRUE/FALSE needed"
Я также пытался привязать коды «rec» к комментариям после создания тематической модели, но некоторые комментарии в конечном итоге фильтруются функцией «topic», поэтому столбец «rec» длиннее, чем количество документов в результирующей тематической модели.
Если это что-то, что я могу просто сделать с пакетом tm? Я вообще не работал с пакетом qdap, но подходит ли он здесь?
VectorSource
вместоDataframeSource
? - person Ben   schedule 05.08.2013head(dput(x))
- person Ben   schedule 05.08.2013comments$rec
и вашей тематической моделью. Попробуйте удалить этот вопрос и задать другой, более целенаправленный и конкретный вопрос с воспроизводимым примером. - person Ben   schedule 05.08.2013