В R у меня есть искровое соединение и DataFrame как ddf
.
library(sparklyr)
library(tidyverse)
sc <- spark_connect(master = "foo", version = "2.0.2")
ddf <- spark_read_parquet(sc, name='test', path="hdfs://localhost:9001/foo_parquet")
Поскольку это не так много строк, я хотел бы вытащить это в память, чтобы применить магию машинного обучения. Однако кажется, что некоторые строки не могут быть собраны.
df <- ddf %>% head %>% collect # works fine
df <- ddf %>% collect # doesn't work
Вторая строка кода выдает Error in rawToChar(raw) : embedded nul in string:
ошибку. Столбец / строка, в которой происходит сбой, содержит некоторые строковые данные. Поскольку head %>% collect
работает, это означает, что некоторые строки не работают, а другие работают должным образом.
Как я могу обойти эту ошибку, есть ли способ исправить ошибку? Что на самом деле означает ошибка?