Простой код для очистки текста!

  1. Очистка текста и ее важность:

После получения данных их необходимо очистить. В большинстве случаев данные будут содержать повторяющиеся записи, ошибки или быть несогласованными. Предварительная обработка данных является важным шагом перед применением любой модели машинного обучения. То же самое с текстовыми данными, прежде чем применять любую модель машинного обучения к текстовым данным, требуется предварительная обработка данных. Предварительная обработка текста означает очистку от шума, такого как: удаление стоп-слов, знаков препинания, терминов, которые не имеют большого значения в контексте текста и т. Д. В этой статье мы подробно описываем, как предварительно обработать текстовые данные. для алгоритмов машинного обучения с использованием Python (NLTK).

Без лишних слов, давайте погрузимся в код

2. Импорт важных библиотек:

import re
import nltk
from nltk.corpus import stopwords
from nltk.stem import WordNetLemmatizer
nltk.download('stopwords')
nltk.download('wordnet')

3. Использование цикла For для реализации всех методов очистки текста за один раз

corpus = []
text_data = ""
for i in range(0, 1732(Number of rows)):
text_data = re.sub('[^a-zA-Z]', ' ', Raw_Data['Column_With_Text'][i])
text_data = text_data.lower()
text_data = text_data.split()
wl = WordNetLemmatizer()
text_data = [wl.lemmatize(word) for word in text_data if not word in set(stopwords.words('english'))]
text_data = ' '.join(text_data)
corpus.append(text_data)

4. Теперь давайте посмотрим, что на самом деле делает цикл for

4.1. На первом этапе он удалит все термины, кроме английских слов. Этот шаг важен, потому что другие термины в текстовых данных, такие как специальный символ и числа, могут добавить шум к данным, что может отрицательно повлиять на производительность модели машинного обучения. На этом шаге используется регулярное выражение для удаления всех неанглийских терминов.

4.2. На втором этапе он нормализует текстовые данные. нормализация текста является важным шагом, поскольку это снижает проблему размерности модели. Если текст не нормализован, это приведет к проблеме дублирования данных. Для нормализации текста используется функция Lower () в Python. Эта функция переводит все слова в нижний регистр, что решает проблему.

4.3. На третьем этапе он леметизирует слова. лемматизация слова - важный шаг, поскольку это устранило проблему дублирования данных. Слова со схожим значением, такие как работа, работа и работа, имеют одинаковое значение, но при создании модели мешка слов это будет рассматриваться как три разных слова. Пакет WordNetLemmatizer библиотеки NLTK используется для решения этой проблемы. Этот пакет возвращает любые заданные слова в исходную форму.

4.4. На четвертом шаге будут удалены все стоп-слова. Удаление стоп-слов - важный шаг, потому что стоп-слова добавляют размерности модели; эта дополнительная размерность влияет на производительность модели. Пакет Stopword в библиотеке NLTK используется для удаления стоп-слов. Весь текст в корпусе сравнивается со списком стоп-слов, и если какое-либо слово совпадает со списком стоп-слов, оно затем удаляется.

Эта статья предназначена для людей, которые только начинают изучать НЛП и не могут очистить текст. Очистка текста в большинстве случаев может быть головной болью. Этот код может помочь вам с самыми основными методами очистки текста и может быть использован сразу.

Спасибо за чтение; Надеюсь, вы узнали что-то новое!

Ваше здоровье.