Solr Regex - вкладка синтаксического анализа, разделенная CSV

Здравствуйте, у меня есть CSV, который разделен вкладками для каждого поля:

id  name    subject description comments
c4e 10181   Hello1  d1  1
741 10181   Hello2  d2  2
b62 10181   Hello3  d3  3
fd4 10181   Hello4  d4  4
2fb 10181   Hello5  d5  5

Я хотел использовать регулярное выражение с помощью solr Regextransformer, чтобы импортировать его через Dataimporthandler (DIH), но в итоге регулярное выражение не работает:

 <field column="id" sourceColName="rawLine" regex="^(.*)\t(.*)\t(.*)\t(.*)\t"/>
 <field column="name" sourceColName="rawLine" regex="\t(.*)\t(.*)\t(.*)\t(.*)$"/>
 <field column="subject" sourceColName="rawLine" regex="\t(.*)\t(.*)\t(.*)$"/>
 <field column="description" sourceColName="rawLine" regex="\t(.*)\t(.*)$"/>
 <field column="comments" sourceColName="rawLine" regex="\t(.*)$"/>

Тема, описание и комментарии неверны, они дополнительно занимают предыдущие поля, что не так с регулярным выражением?


person Jeldin    schedule 06.06.2016    source источник
comment
Возможный дубликат Solr DIH regextransformer - обрабатывает только одну строку CSV   -  person Alexandre Rafalovitch    schedule 07.06.2016


Ответы (1)


Судя по твоему описанию, я бы сказал, что это проблема жадности. Помогает ли заменить каждое вхождение .* в последних 3 строках на .*?

person BlueM    schedule 06.06.2016