У меня очень разреженные многомерные (40 тыс. наблюдений, 20 тыс. измерений) текстовые данные в формате ARFF. сгенерировано WEKA.
В R доступны 2 средства чтения ARFF через RWeka и иностранные пакеты. Проблема с обоими этими считывателями arff заключается в том, что они считывают данные arff во фрейм данных (и, следовательно, вы переходите от разреженных данных к неразреженному способу хранения), и, поскольку мой набор данных довольно велик, ни то, ни другое, если это практический путь. На самом деле у меня начинает заканчиваться память, пока RWeka пытается прочитать файл arff.
Итак, вопросы:
(1) Как лучше всего хранить и обрабатывать мои данные в R? Обратите внимание, что я читаю помеченные текстовые данные, так как хочу выполнить классификацию текста. Таким образом, любое разреженное представление должно (в идеале) использоваться классификаторами как есть.
(2) Что еще более важно, как мне тогда читать в моем файле arff в этом формате (как в вопросе 1)?
Заранее спасибо.
--Редактирует--
Извлечение моего файла ARFF, как запрошено в одном из комментариев:
@relation train.arff-weka.filters.unsupervised.attribute.StringToWordVector-R1-W100000-prune-rate-1.0-I-N1-L-stemmerweka.core.stemmers.LovinsStemmer-M1-tokenizerweka.core.tokenizers.AlphabeticTokenizer
@attribute myclasses {alpha, beta, gamma, delta}
@attribute aardvark numeric
@attribute abbrevi numeric
@attribute abduc numeric
@data
{102 7.686363,166 6.302574,791 9.204264,1854 1.370962,2830 5.907602}
{1727 14.842519}
{103 0.774816,289 2.874456,413 3.729545,517 4.723478,1286 1.417374,1531 3.23805,1637 4.534334,1708 3.544581,1854 0.961008,1878 3.731564,2105 7.701038,2209 4.83372,2466 5.663894}
{1 1.368628,103 0.582774,225 5.61684,954 5.792294,1082 5.194097,1160 5.792294,1799 4.367975,1854 0.722817,2220 4.114164,2304 2.967602,2456 3.186834,2564 0.701145,2839 6.039582}