Предварительная информация ОС: Windows XP Professional Version 2002 Service Pack 3; Версия R: R 2.12.2 (2011-02-25)
Я пытаюсь прочитать 30 000 строк на 80 столбцов, текстовый файл с разделителями табуляции в R, используя функцию read.delim()
. В этом файле есть заголовки столбцов со следующим соглашением об именах: "_". Код, который я использую, чтобы попытаться прочитать данные:
cc <- c("integer", "character", "integer", rep("character", 3),
rep("integer", 73))
example_data <- read.delim(file = 'C:/example.txt', row.names = FALSE,
col.names = TRUE, as.is = TRUE, colClasses = cc)
После отправки этой команды я получаю следующее сообщение об ошибке:
Error in read.table(file = file, header = header, sep = sep, quote = quote, :
more columns than column names
In addition: Warning message:
In read.table(file = file, header = header, sep = sep, quote = quote, :
header and 'col.names' are of different lengths
Информация, которая может быть важной - от столбца 8 до столбца 80 количество нулей в каждом столбце следующее:
column 08: 29,000 zeros
column 13: 15,000 zeros
column 19: 500 zeros
column 43: 15,000 zeros
columns 65-80: 29,000 zeros for each column
Может ли кто-нибудь помочь определить причины, по которым я получаю вышеуказанные сообщения об ошибках? Любая помощь будет оценена.
count.fields(file = 'C:/example.txt', sep="\t")[1:10]
? - person IRTFM   schedule 02.09.2011count.fields()
. - person Jubbles   schedule 02.09.2011count.fields
важной частью набора инструментов для ввода данных. Это также полезно для определения того, в каких строках есть такие странные биты, как несопоставленные кавычки или неожиданные символы комментариев. - person IRTFM   schedule 02.09.2011