Сегментация предложений и выравнивание в зашумленном текстовом корпусе

У меня есть параллельный корпус, который содержит около 100 000 выровненных абзацев на арабском и персидском языках.

Мой корпус — это зашумленный корпус, абзацы которого являются неполным переводом друг друга (т. е. части арабских абзацев не переведены на персидский, и знаки препинания тоже не совпадают).

Чтобы разделить абзацы на предложения, я использовал знаки препинания, но количество предложений не совпадает.

Затем я использовал Microsoft Aligner для выравнивания предложений, но результат действительно ошибочный.

Как сегментировать и выравнивать предложения корпуса?


person htaghizadeh    schedule 31.01.2013    source источник


Ответы (1)


Вы использовали тег Giza++ в своем вопросе: смотрели ли вы оттуда на использование инструментов выравнивания? Другой вариант, который, как я знаю, используют довольно многие, — это Moses, который представляет собой полнофункциональный статистический пакет машинного перевода. , но я считаю, что вы можете вызывать модели выравнивания изолированно, если это действительно все, что вам нужно.

person Ben Allison    schedule 06.02.2013
comment
Giza++ используется для выравнивания слов, а не предложений. Инструментарий Moses уже содержит Giza++. - person jvdbogae; 25.03.2015