импорт csv с помощью dataimporthandler solr

Я пытаюсь использовать solr с DIH для индексации CSV-файлов. Я пропатчил свою библиотеку DIH, используя патч SOLR-2549, упомянутый в вики solr (см. http://wiki.apache.org/solr/DataImportHandler#Configuration_in_data-config.xml-1), чтобы импортировать CSV-файлы без использования Transformers вместе с LineEntityProcessor.

К сожалению, мне не удалось выполнить импорт, и у меня есть следующий стек ошибок:

INFO: [csv] webapp=/solr path=/dataimport params={command=full-import&optimize=false&clean=true&commit=true&verbose=true} status=0 QTime=33 {deleteByQuery=*:*} 0 33
7 nov. 2012 14:16:03 org.apache.solr.common.SolrException log
GRAVE: Full Import failed:java.lang.RuntimeException: java.lang.RuntimeException: org.apache.solr.handler.dataimport.DataImportHandlerException: java.lang.NullPointerException
        at org.apache.solr.handler.dataimport.DocBuilder.execute(DocBuilder.java:273)
        at org.apache.solr.handler.dataimport.DataImporter.doFullImport(DataImporter.java:382)
        at org.apache.solr.handler.dataimport.DataImporter.runCmd(DataImporter.java:448)
        at org.apache.solr.handler.dataimport.DataImporter$1.run(DataImporter.java:429)
Caused by: java.lang.RuntimeException: org.apache.solr.handler.dataimport.DataImportHandlerException: java.lang.NullPointerException
        at org.apache.solr.handler.dataimport.DocBuilder.buildDocument(DocBuilder.java:413)
        at org.apache.solr.handler.dataimport.DocBuilder.doFullDump(DocBuilder.java:326)
        at org.apache.solr.handler.dataimport.DocBuilder.execute(DocBuilder.java:234)
        ... 3 more
Caused by: org.apache.solr.handler.dataimport.DataImportHandlerException: java.lang.NullPointerException
        at org.apache.solr.handler.dataimport.DocBuilder.buildDocument(DocBuilder.java:542)
        at org.apache.solr.handler.dataimport.DocBuilder.buildDocument(DocBuilder.java:411)
        ... 5 more
Caused by: java.lang.NullPointerException
        at org.apache.solr.handler.dataimport.LineEntityProcessor.initDelimitedOrFixedWidth(LineEntityProcessor.java:142)
        at org.apache.solr.handler.dataimport.LineEntityProcessor.init(LineEntityProcessor.java:115)
        at org.apache.solr.handler.dataimport.EntityProcessorWrapper.init(EntityProcessorWrapper.java:74)
        at org.apache.solr.handler.dataimport.DocBuilder.buildDocument(DocBuilder.java:430)
        at org.apache.solr.handler.dataimport.DocBuilder.buildDocument(DocBuilder.java:498)
        ... 6 more

Я думаю, что это связано с моей конфигурацией данных. Это мой файл data-config.xml:

<dataConfig>
    <dataSource name="dfs" type="FileDataSource"/>
    <document>
        <entity name="sourcefile"
                processor="FileListEntityProcessor"
                fileName="rocinter.csv"
                rootEntity="false"
                baseDir="/user/xxx/work/solr/example/example-DIH/solr/csv/inputfolder"
        >

            <entity name="entryline"
                    processor="LineEntityProcessor"
                    url="${sourcefile.fileAbsolutePath}"
                    rootEntity="true"
                    dataSource="fds"
                    separator=","
            >
            </entity>
        </entity>
    </document>
</dataConfig>

Может ли кто-нибудь помочь мне разобраться с этой проблемой или предоставить четкий файл конфигурации с использованием исправленной версии LineEntityProcessor для импорта файлов csv?


person zaki benz    schedule 07.11.2012    source источник


Ответы (1)


Наконец-то я получил ответ из списка рассылки пользователей. На самом деле это был баг патча.

Более новая версия патча прикреплена к задаче jira.

см.: SOLR-2549

person zaki benz    schedule 09.11.2012