извлечение значений из столбца с помощью tidyr

У меня есть data.frame annot, определенный как:

annot <- structure(list(Name = c("dd_1", "dd_2", "dd_3","dd_4", "dd_5", "dd_6","dd_7"), GOs = 
c("C:extracellular space; C:cell body; P:cell migration process; P:NF/ß pathway", 
   "C:Signal transduction; C:nucleus; F:positive regulation; P:single organism; P:positive(+) regulation",
   "C:cardiomyceltes; C:intracellular pace; F:putative; F:magnesium ion binding; F:calcium ion binding; P:visual perception; P:blood coagulation",
   "F:poly(A) RNA binding; P:DNA-templated transcription, initiation",
    "C:ULK1-ATG13-FIP200 complex; F:histone-arginine N-methyltransferase activity; P:single-organism cellular process",
    "F:3'-5' DNA helicase activity; P:acetate-CoA ligase activity",
    "F:UDP-N-acetylmuramoylalanyl-D-glutamyl-2,6-diaminopimelate-D-alanyl-D-alanine ligase activity; P:oxidoreductase activity, acting on the aldehyde or oxo group of donors, NAD or NADP as acceptor"
)), .Names = c("Name", "GOs"), class = "data.frame", row.names = c(NA, 
-7L))

Data.frame выглядит так:

Name     GOs
dd_1     C:extracellular space; C:cell body; P:cell migration process; P:NF/ß pathway 
dd_2     C:Signal transduction; C:nucleus; F:positive regulation; P:single organism; P:positive(+) regulation
dd_3     C:cardiomyceltes; C:intracellular pace; F:putative; F:magnesium ion binding; F:calcium ion binding; P:visual perception; P:blood coagulation
dd_4     F:poly(A) RNA binding; P:DNA-templated transcription, initiation
dd_5     C:ULK1-ATG13-FIP200 complex; F:histone-arginine N-methyltransferase activity; P:single-organism cellular process
dd_6     F:3'-5' DNA helicase activity; P:acetate-CoA ligase activity
dd_7     F:UDP-N-acetylmuramoylalanyl-D-glutamyl-2,6-diaminopimelate-D-alanyl-D-alanine ligase activity; P:oxidoreductase activity, acting on the aldehyde or oxo group of donors, NAD or NADP as acceptor

Каждая запись содержит слова, специальный символ, буквенно-цифровые символы в C, F, P. Я хотел бы разделить все значения, которые соответствуют C:xxx;F:yyy:P:zzz, на отдельные столбцы с соответствующими значениями, как показано ниже:

Name   Component                             Function                  P
dd_1   C:extracellular space;C:cell body     F:transport carrier       P:cell migration process;P:NF/ß pathway  
dd_2   C:Signal transduction;C:nucleus       F:positive regulation     P:single organism;P:positive regulation 
dd_3   C:cardiomyceltes;C:intracellular pace F:magnesium ion           P:visual perception;P:blood coagulationbinding;F:calcium ion binding; 
dd_4                                         F:poly(A) RNA binding;    P:DNA-templated transcription, initiation
dd_5   C:ULK1-ATG13-FIP200 complex           F:histone-arginine N-methyltransferase activity               P:single-organism cellular process
dd_6                                         F:3'-5' DNA helicase activity; P:acetate-CoA ligase activity
dd_7                                         F:UDP-N-acetylmuramoylalanyl-D-glutamyl-2,6-diaminopimelate-D-alanyl-D-alanine ligase activity P:oxidoreductase activity, acting on the aldehyde or oxo group of donors, NAD or NADP as acceptor

Я пробовал следующую команду в R, используя tidyr

separate(annot, GOs, into = c("P", "F", "C"), sep = "[a-z]+=")

но он вернул следующую ошибку:

Error: Values not split into 3 pieces at 1, 2, 3,4

person Dinesh    schedule 15.02.2015    source источник
comment
Пожалуйста, проверьте, работает ли обновленное решение.   -  person akrun    schedule 16.02.2015
comment
@akrun, ваш предыдущий tidyr отлично работал с данными примера, которые я предоставил. Но в моем исходном файле много специальных символов, таких как (), /, 0-9``, а также в строке May будут только P, F или C, поэтому tidyr выкинул мне ошибку не может регулярное выражение для многих записей, но отлично работал для строк, которые были похожи на данные, которые я давал ранее. теперь я обновил набор данных, добавив как можно больше возможных типов. Я также поделюсь с вами этим файлом в ближайшее время   -  person Dinesh    schedule 16.02.2015
comment
Ваш новый набор данных отлично работает с обновленным решением strsplit.   -  person akrun    schedule 16.02.2015


Ответы (2)


Вы можете попробовать strsplit

res <- do.call(rbind.data.frame,lapply(strsplit(annot$GOs, ";"), 
      function(x) tapply(x, sub(':.*', '', x), FUN=paste, collapse=";")))

res1 <-  data.frame(Name=annot[,1], setNames(res, c('Component',
     'Function', 'P')), stringsAsFactors=FALSE)

res1
#   Name                             Component
#1 dd_1     C:extracellular space;C:cell body
#2 dd_2       C:Signal transduction;C:nucleus
#3 dd_3 C:cardiomyceltes;C:intracellular pace
#                                                 Function
#1                                      F:transport carrier
#2                                    F:positive regulation
#3 F:putative;F:magnesium ion binding;F:calcium ion binding
#                                       P
#1 P:cell migration process;P:NF/ß pathway
#2 P:single organism;P:positive regulation
#3 P:visual perception;P:blood coagulation

Или вы можете попробовать extract из tidyr

library(tidyr)
extract(annot, GOs, c('C', 'F', 'P'), '(C:[^F]+);(F:[^P]+);(P:.*)')
# Name                                      C
#1 dd_1     C:extracellular space;C:cell body
#2 dd_2       C:Signal transduction;C:nucleus
#3 dd_3 C:cardiomyceltes;C:intracellular pace
#                                                        F
#1                                      F:transport carrier
#2                                    F:positive regulation
#3 F:putative;F:magnesium ion binding;F:calcium ion binding
#                                       P
#1 P:cell migration process;P:NF/ß pathway
#2 P:single organism;P:positive regulation
#3 P:visual perception;P:blood coagulation

Обновлять

В новом наборе данных отсутствуют некоторые элементы (например, «C», «F» и т. Д.) Для каждой строки. Вы можете изменить первое решение

res <- do.call(rbind.data.frame,lapply(strsplit(annot$GOs, "; "),function(x){
      x1 <- tapply(x, sub(':.*', '', x), FUN=paste, collapse=";")
      x1[match(c('C', 'F', 'P'),  names(x1))]}))
 res1 <-  data.frame(Name=annot[,1], setNames(res, c('Component',
          'Function', 'P')), stringsAsFactors=FALSE)
 head(res1,2)
 #  Name                         Component              Function
 #1 dd_1 C:extracellular space;C:cell body                  <NA>
 #2 dd_2   C:Signal transduction;C:nucleus F:positive regulation
 #                                          P
 #1    P:cell migration process;P:NF/ß pathway
 #2 P:single organism;P:positive(+) regulation
person akrun    schedule 15.02.2015
comment
Я попробовал функцию ur strsplit. Но когда я запустил команду, я получил ошибку, указав, что ошибка в strsplit (annot $ GOs,;): несимвольный аргумент - person Dinesh; 15.02.2015
comment
Извините за путаницу - я добавил к вопросу dput и подумал, что столбец будет символьным .. - person talat; 15.02.2015
comment
@docendodiscimus Ничего страшного. - person akrun; 15.02.2015
comment
@docendodiscimus Я попробовал код tidyr в моем фактическом наборе данных. Это дало мне ошибку Ошибка в UseMethod (extract_): нет применимого метода для 'extract_', примененного к объекту фактора класса. Как я могу это исправить - person Dinesh; 15.02.2015
comment
@akrun Я попробовал, но он дал следующую ошибку Ошибка в UseMethod (extract_): нет применимого метода для 'extract_', примененного к объекту символа класса - person Dinesh; 15.02.2015
comment
@Thileepan Мой код основан на показанном вами примере. Это сработало. Вы пробовали strsplit - person akrun; 15.02.2015
comment
@akrun Я попробовал ваш strsplit, но он дал мне следующую ошибку Ошибка в setNames (res, c (Component, Function, P)): атрибут 'names' [3] должен иметь ту же длину, что и вектор [1] .. I не знаю, что случилось ... пожалуйста, помогите мне - person Dinesh; 15.02.2015
comment
Позвольте нам продолжить это обсуждение в чате. - person Dinesh; 15.02.2015
comment
@akrun Мой Rstudio использует tidyr 0.2.0. Это вызывает ошибку? Мой исходный файл находится в том же формате .. Я могу поделиться файлом .. Но как я могу поделиться файлом ... Пожалуйста, помогите мне - person Dinesh; 15.02.2015

Думаю, вам лучше выбрать такой аккуратный формат:

library(tidyr)
library(dplyr)
annot %>%
  tbl_df() %>%
  mutate(GOs = strsplit(GOs, "; ")) %>% # split each GO into a vector
  unnest(GOs) %>%  # unnest the vectors into multiple rows
  separate(GOs, c("type", "value"), ":") 
#> Source: local data frame [25 x 3]
#> 
#>    Name type                  value
#> 1  dd_1    C    extracellular space
#> 2  dd_1    C              cell body
#> 3  dd_1    P cell migration process
#> 4  dd_1    P           NF/ß pathway
#> 5  dd_2    C    Signal transduction
#> 6  dd_2    C                nucleus
#> 7  dd_2    F    positive regulation
#> 8  dd_2    P        single organism
#> 9  dd_2    P positive(+) regulation
#> 10 dd_3    C         cardiomyceltes
#> ..  ...  ...                    ...
person hadley    schedule 18.02.2015