Sparklyr встроил нуль в строку при сборе

В R у меня есть искровое соединение и DataFrame как ddf.

library(sparklyr)
library(tidyverse)
sc <- spark_connect(master = "foo", version = "2.0.2")
ddf <- spark_read_parquet(sc, name='test', path="hdfs://localhost:9001/foo_parquet")

Поскольку это не так много строк, я хотел бы вытащить это в память, чтобы применить магию машинного обучения. Однако кажется, что некоторые строки не могут быть собраны.

df <- ddf %>% head %>% collect # works fine
df <- ddf %>% collect # doesn't work

Вторая строка кода выдает Error in rawToChar(raw) : embedded nul in string: ошибку. Столбец / строка, в которой происходит сбой, содержит некоторые строковые данные. Поскольку head %>% collect работает, это означает, что некоторые строки не работают, а другие работают должным образом.

Как я могу обойти эту ошибку, есть ли способ исправить ошибку? Что на самом деле означает ошибка?


person Tim    schedule 20.02.2017    source источник
comment
Какие типы данных у столбцов в Spark? А вы можете предоставить образцы данных?   -  person Wil    schedule 23.08.2020