R-Text Mining: замена аббревиатур, цифр и символов на немецком языке

Я хотел бы заменить сокращения, цифры и символы в моем тексте. Поскольку мой текст на немецком, а не на английском, у меня проблемы с его преобразованием.

Я старался:

review_text <- replace_abbreviation(review_text)

review_text <- replace_number(review_text)

review_text <- replace_symbol(review_text)

Но это работает только для английского текста, а не для немецкого. Что добавить, что функция работает и на немецком языке?


person Louisa Fritz    schedule 27.05.2020    source источник
comment
Судя по документации, пакет построен на английском языке. Таким образом, если не углубляться в пакет, кажется, что необходимые шаги будут заключаться в расширении пакета для совершенно нового языка. (Отказ от ответственности, у меня нет опыта работы с пакетом qdap)   -  person Oliver    schedule 27.05.2020


Ответы (1)


qdap и связанные с qdap пакеты предназначены исключительно для использования с английским языком. Если вы хотите использовать текст на немецком языке с ümlauts и всем остальным, такие пакеты, как Quanteda и udpipe, справятся с этим. Но они не обрабатывают сокращения и символы. Теперь функцию replace_symbol легко настроить, просто проверьте функцию, скопируйте код, чтобы создать свою собственную функцию, и замените английские переводы немецкими переводами.

Функция replace_abbreviation указывает на таблицу замены, в которой аббревиатура хранится с соответствующим значением. Вам нужно создать свою собственную таблицу для немецкого языка.

Самая большая проблема заключается в переводе чисел в текст. Это отличается для каждого языка, который на самом деле не доступен в Интернете. Поиск этого, как правило, приводит к преобразованию чисел в текст в Excel. Но если вы умеете читать python, вы можете перевести функцию python в R (или использовать reticulate), чтобы решить эту проблему. См. эту ссылку на библиотеку python на Github, которая может сделать это для нескольких языков, включая немецкий. Но я не уверен, что это можно использовать в контексте интеллектуального анализа текста.

person phiver    schedule 28.05.2020