Stanford CoreNLP не работает со многими общепринятыми европейскими форматами даты (см. Обозначение даты и времени в Европе (Википедия) а>).
Все мы знаем, что синтаксический анализ даты - это беспорядок, в частности, сумасшедший формат мм-дд-гггг, который используется в США < / а>. Тем не менее, CoreNLP не может обрабатывать даже основные европейские форматы даты, потому что он слишком агрессивно разбивает данные по точкам.
Тем не менее, информация о дате часто представлена, например в виде:
Die Terroranschläge 11 сентября 2001 г., einem Dienstag, waren vier koordinierte Flugzeugentführungen mit anschließenden Selbstmordattentaten ... (Википедия)
Что бы я ни пытался, CoreNLP разбивает это на:
1. Die Terroranschläge am 11.
2. September 2001, einem Dienstag, waren vier [...]
что делает CoreNLP в значительной степени непригодным для немецкого НЛП. Точка просто отмечает это как порядковые числа, то есть это немецкое написание «11 сентября 2001 года». Вы также часто будете видеть обозначение «11. 9. 2001» на немецком языке, CoreNLP считает, что 9.
- это еще одно предложение, а также «11 сентября 2001».
Есть ли какой-нибудь крючок (например, переопределение какого-либо метода), который позволил бы мне определить шаблоны для повторного соединения неправильно разделенных предложений с собственными правилами? Например, [123]?\d\. 1?\d\.
будет типичным для свиданий, а месяцев не так много ...