Я читаю H2OFrame
из файла CSV:
val h2oFrame = new H2OFrame(new File(inputCsvFilePath))
Как я могу выполнить эквивалент операции .filter()
(доступной для Spark DataFrame
или RDD
). Например, как мне получить новый H2OFrame
, где "метка" (имя столбца) равна >1
?
Я попытался преобразовать в org.apache.spark.sql.DataFrame
, как показано ниже (упрощенный пример):
val df = asDataFrame(h2oFrame)
val dff = df.filter(s"label > 1")
print(dff.toString(0,15))
Но это, кажется, выдает OutOfMemoryError
, как показано ниже:
Исключение: ошибка java.lang.OutOfMemoryError, выброшенная из UncaughtExceptionHandler в потоке «Запуск исполнителя задачи-2»
OutOfMemoryError
можно решить, увеличив-XX:MaxPermSize=92m
до большего значения. Еще хотелось бы получить ответ на изначальный вопрос, как это сделать прямо наH2OFrame
. - person S.P.   schedule 18.05.2016