Вопросы по теме 'text-segmentation'

Форматирование предложений в строке с помощью C#
У меня есть строка с несколькими предложениями. Как сделать первую букву первого слова в каждом предложении заглавной. Что-то вроде форматирования абзаца в word. например, "это какой-то код. Код на C#". Вывод должен быть "Это какой-то код. Код на...
5399 просмотров

Разделить текстовый файл на границе предложения
Мне нужно обработать текстовый файл (электронную книгу). Я хотел бы обработать его так, чтобы в каждой строке было одно предложение («файл, разделенный новой строкой», да?). Как бы я выполнил эту задачу, используя утилиту sed для UNIX? Есть ли у...
2561 просмотров
schedule 26.04.2023

Инструменты сегментации предложений для использования, когда входное предложение не имеет пунктуации (нормализовано)
Предположим, есть предложение типа «найди мне какую-нибудь джазовую музыку и сыграй», где весь текст нормализован и нет знаков препинания (вывод библиотеки распознавания речи). Какие онлайн/офлайн-инструменты можно использовать для «сегментации...
1048 просмотров
schedule 30.06.2023

Сегментация предложений и выравнивание в зашумленном текстовом корпусе
У меня есть параллельный корпус, который содержит около 100 000 выровненных абзацев на арабском и персидском языках. Мой корпус — это зашумленный корпус, абзацы которого являются неполным переводом друг друга (т. е. части арабских абзацев не...
295 просмотров

Регулярное выражение для соответствия первому слову в предложении
Я ищу регулярное выражение, которое соответствует первому слову в предложении, исключая знаки препинания и пробелы. Например: «Это» в «Это предложение». и "Первый" в "Во-первых, я хотел бы сказать \"Привет!\"" Это не работает:...
45360 просмотров
schedule 02.11.2022

регулярное выражение разделить текстовый документ на предложения
У меня есть большая текстовая строка, и я пытаюсь разбить ее на предложения на основе «.?!». Но мое регулярное выражение почему-то не работает, может ли кто-нибудь помочь мне обнаружить ошибку? String str = "When my friend said he likes deep dish...
5427 просмотров
schedule 08.01.2024

Разбивайте документы, состоящие из нескольких абзацев, на предложения с номерами абзацев.
У меня есть список хорошо проанализированных документов, состоящих из нескольких абзацев (все абзацы разделены \n\n , а предложения разделены знаком "."), которые я хотел бы разбить на предложения вместе с номер, указывающий номер абзаца в...
507 просмотров
schedule 02.03.2022

Делайте заглавными первую букву предложений в абзацах
Я использую WordPress и WP-O-Matic для автоматического извлечения содержимого из разных каналов. Содержимое написано заглавными буквами, из-за чего сообщения в блоге WordPress выглядят паршиво. Я пробовал использовать разные методы, но ни один из...
1701 просмотров
schedule 11.10.2022

Как разбить абзацы на предложения?
Пожалуйста, взгляните на следующее. String[]sentenceHolder = titleAndBodyContainer.split("\n|\\.(?!\\d)|(?<!\\d)\\."); Вот как я пытался разделить абзац на предложения. Но существует проблема. Мой абзац включает такие даты, как Jan. 13,...
16176 просмотров
schedule 25.03.2022

Нередуцируемые кластеры графем в Юникоде
Я считаю, что итератор "персонаж, воспринимаемый пользователем" (далее UPC) был бы очень полезен в библиотеке Unicode. Под UPC я подразумеваю смысл, обсуждаемый в приложении 29 стандарта Unicode , то есть то, что пользователь воспринимает как символ...
546 просмотров
schedule 17.04.2022

Извлечение содержимого из документов
Я хочу извлечь содержимое из резюме с различными разделами, такими как навыки, сертификаты, опыт работы и т. д., с помощью НЛП и пометить их в соответствии с их категорией. Пока я могу написать базовые правила для извлечения текста по разным знакам...
481 просмотров