Mahout LDA выдает исключение FileNotFound

Я создал свои векторы терминов, как указано здесь, вот так:

~/Scripts/Mahout/trunk/bin/mahout seqdirectory --input /home/ben/Scripts/eipi/files --output /home/ben/Scripts/eipi/mahout_out -chunk 1
~/Scripts/Mahout/trunk/bin/mahout seq2sparse -i /home/ben/Scripts/eipi/mahout_out -o /home/ben/Scripts/eipi/termvecs -wt tf -seq

Затем я бегу

~/Scripts/Mahout/trunk/bin/mahout lda -i /home/ben/Scripts/eipi/termvecs -o /home/ben/Scripts/eipi/lda_working -k 2 -v 100

и я получаю:

Правильно, этого файла не существует. Как я должен его создать?

Векторы могут быть пустыми, так как при их создании может возникнуть проблема. Проверьте, успешно ли ваши векторы созданы в своих папках (имеют размер файла не 0 байт). Эта ошибка может возникнуть, если в папке ввода отсутствуют некоторые файлы. В этом случае эти два шага будут работать, хотя и не создадут действительный результат.


person Xodarap    schedule 05.09.2011    source источник


Ответы (1)


MAHOUT-JOB: /home/ben/Scripts/Mahout/trunk/examples/target/mahout-examples-0.6-SNAPSHOT-job.jar 09.11.04 16:28:59 INFO common.AbstractJob: Аргументы командной строки: { --endPhase=2147483647, --input=/home/ben/Scripts/eipi/termvecs, --maxIter=-1, --numTopics=2, --numWords=100, --output=/home/ben/Scripts /eipi/lda_working, --startPhase=0, --tempDir=temp, --topicSmoothing=-1.0} 09.11.04 16:29:00 INFO lda.LDADriver: LDA Iteration 1 09.11.04 16:29 :01 INFO input.FileInputFormat: Всего входных путей для обработки: 4 09.11.04 16:29:01 INFO mapred.JobClient: Очистка файла промежуточной области: /tmp/hadoop-ben/mapred/staging/ben692167368/. staging/job_local_0001 Исключение в потоке "основной" java.io.FileNotFoundException: файл file:/home/ben/Scripts/eipi/termvecs/tokenized-documents/data не существует. в org.apache.hadoop.fs.RawLocalFileSystem.getFileStatus(RawLocalFileSystem.java:371) в org.apache.hadoop.fs.FilterFileSystem.getFileStatus(FilterFileSystem.java:245) в org.apache.hadoop.mapreduce.lib.input .SequenceFileInputFormat.listStatus(SequenceFileInputFormat.java:63) в org.apache.hadoop.mapreduce.lib.input.FileInputFormat.getSplits(FileInputFormat.java:252) в org.apache.hadoop.mapred.JobClient.writeNewSplits(JobClient.java :902) по адресу org.apache.hadoop.mapred.JobClient.writeSplits(JobClient.java:919) по адресу org.apache.hadoop.mapred.JobClient.access$500(JobClient.java:170) по адресу org.apache.hadoop.mapred .JobClient$2.run(JobClient.java:838) в org.apache.hadoop.mapred.JobClient$2.run(JobClient.java:791) в java.security.AccessController.doPrivileged(собственный метод) в javax.security.auth .Subject.doAs(Subject.java:396) в org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1059) в org.apache. hadoop.mapred.JobClient.submitJobInternal(JobClient.java:791) в org.apache.hadoop.mapreduce.Job.submit(Job.java:465) в org.apache.hadoop.mapreduce.Job.waitForCompletion(Job.java: 494) на org.apache.mahout.clustering.lda.LDADriver.runIteration(LDADriver.java:426) на org.apache.mahout.clustering.lda.LDADriver.run(LDADriver.java:226) на org.apache.mahout .clustering.lda.LDADriver.run(LDADriver.java:174) в org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:65) в org.apache.mahout.clustering.lda.LDADriver.main(LDADriver .java:90) в sun.reflect.NativeMethodAccessorImpl.invoke0 (собственный метод) в sun.reflect. NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:39) в sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:25) в java.lang.reflect.Method.invoke(Method.java:597) в org.apache.hadoop.util .ProgramDriver$ProgramDescription.invoke(ProgramDriver.java:68) в org.apache.hadoop.util.ProgramDriver.driver(ProgramDriver.java:139) в org.apache.mahout.driver.MahoutDriver.main(MahoutDriver.java:188) ) в sun.reflect.NativeMethodAccessorImpl.invoke0(собственный метод) в sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:39) в sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:25) в java.lang.reflect. Method.invoke(Method.java:597) в org.apache.hadoop.util.RunJar.main(RunJar.java:156)

person Pankaj Jindal    schedule 28.06.2012