Инструменты сегментации предложений для использования, когда входное предложение не имеет пунктуации (нормализовано)

Предположим, есть предложение типа «найди мне какую-нибудь джазовую музыку и сыграй», где весь текст нормализован и нет знаков препинания (вывод библиотеки распознавания речи).

Какие онлайн/офлайн-инструменты можно использовать для «сегментации предложений», кроме наивного подхода разделения на союзы?

Вход:

найди мне какую-нибудь джазовую музыку и включи ее

Выход:

найди мне джазовую музыку
включи ее


person Ravikiran    schedule 07.07.2012    source источник
comment
Можете ли вы предоставить больше примеров ввода/вывода, чтобы помочь нам понять, почему простое расщепление конъюнкции недостаточно для решения этой задачи?   -  person Aditya Mukherji    schedule 07.07.2012
comment
Если вы сделаете простое расщепление союзов, вы потеряете общие объекты/атрибуты в двух предложениях. В приведенном выше примере воспроизведение уже утратило музыкальные атрибуты. Я хотел бы сегментировать предложение семантически, а не синтаксически, извините, что не ясно!   -  person Ravikiran    schedule 11.07.2012
comment
Итак, вы хотите сделать «разрешение кореферентности» (погуглите), а после этого разделить на конъюнкции? Сделав это, вы получите что-то вроде ['найдите мне джазовую музыку', 'включите джазовую музыку']   -  person Aditya Mukherji    schedule 11.07.2012


Ответы (2)


анализатор зависимостей должен помочь.

person Nicolas    schedule 07.07.2012

Для этого вы можете использовать тег семантической роли, такой как инструменты сопряжения и т. Д. Он извлечет предикаты и связанные с ними аргументы в стиле банка реквизитов.

person lahiru madhumal    schedule 11.07.2012