У меня есть параллельный корпус, который содержит около 100 000 выровненных абзацев на арабском и персидском языках.
Мой корпус — это зашумленный корпус, абзацы которого являются неполным переводом друг друга (т. е. части арабских абзацев не переведены на персидский, и знаки препинания тоже не совпадают).
Чтобы разделить абзацы на предложения, я использовал знаки препинания, но количество предложений не совпадает.
Затем я использовал Microsoft Aligner для выравнивания предложений, но результат действительно ошибочный.
Как сегментировать и выравнивать предложения корпуса?