Сегментация предложений и выравнивание в зашумленном текстовом корпусе

У меня есть параллельный корпус, который содержит около 100 000 выровненных абзацев на арабском и персидском языках.

Мой корпус — это зашумленный корпус, абзацы которого являются неполным переводом друг друга (т. е. части арабских абзацев не переведены на персидский, и знаки препинания тоже не совпадают).

Чтобы разделить абзацы на предложения, я использовал знаки препинания, но количество предложений не совпадает.

Затем я использовал Microsoft Aligner для выравнивания предложений, но результат действительно ошибочный.

Как сегментировать и выравнивать предложения корпуса?

htaghizadeh 31.01.2013 источник

Ответы (1)

arrow_upward
0
arrow_downward

Вы использовали тег Giza++ в своем вопросе: смотрели ли вы оттуда на использование инструментов выравнивания? Другой вариант, который, как я знаю, используют довольно многие, — это Moses, который представляет собой полнофункциональный статистический пакет машинного перевода. , но я считаю, что вы можете вызывать модели выравнивания изолированно, если это действительно все, что вам нужно.

Ben Allison 06.02.2013

comment

Giza++ используется для выравнивания слов, а не предложений. Инструментарий Moses уже содержит Giza++. - jvdbogae; 25.03.2015

Сегментация предложений и выравнивание в зашумленном текстовом корпусе

Ответы (1)

Похожие вопросы