Я ищу простое решение для чтения текстового файла, который выглядит так при открытии в Excel:
IDmaster By_uspto App_date Grant_date Applicant Cited
2 1 19671106 19700707 Motorola Inc 1052446
2 1 19740909 19751028 Gen Motors Corp 1062884
2 1 19800331 19820817 Amp Incorporated 1082369
2 1 19910515 19940719 Dell Usa L.P. 389546
2 1 19940210 19950912 Schueman Transfer Inc. 1164239
2 1 19940217 19950912 Spacelabs Medical Inc. 1164336
РЕДАКТИРОВАТЬ: Открытие txt файла в блокноте выглядит так (с запятыми). Последние две строки демонстрируют проблему.
IDmaster,By_uspto,App_date,Grant_date,Applicant,Cited
2,1,19671106,19700707,Motorola Inc,1052446
2,1,19740909,19751028,Gen Motors Corp,1062884
2,1,19800331,19820817,Amp Incorporated,1082369
2,1,19910515,19940719,Dell Usa L.P.,389546
2,1,19940210,19950912,Schueman Transfer, Inc.,1164239
2,1,19940217,19950912,Spacelabs Medical, Inc.,1164336
Проблема в том, что некоторые из имен Applicant
содержат запятые, так что они читаются так, как будто они принадлежат другому столбцу, чего на самом деле нет.
Есть ли простой способ а) «научить» R хранить строковые переменные вместе, независимо от запятых между ними б) читать в первых 4 столбцах, а затем добавить дополнительный столбец для всего, что находится за последней запятой?
Учитывая длину данных, я не могу полностью открыть их в Excel, что в противном случае было бы простой альтернативой.
read.fwf
. - person   schedule 18.02.2016gsub
, а я этого не понимаю ;( - person SJDS   schedule 18.02.2016sed
, вы можете сделать что-то вродеsed 's/,/,"/4' file.csv | sed 's/\(.*\),/\1",/' > newfile.csv
, которое по существу заключает в кавычки все после 4-й запятой и до последней запятой и выводит в новый файл.csv. Затем вы можете легко использоватьread.csv
для чтения. - person fishtank   schedule 18.02.2016