Привет всем энтузиастам машинного обучения!

Сегодня в этой статье я собираюсь выполнить классификацию текста прецедентов и покажу вам, как записать код Python в Google Collaboratory. Я делаю эту классификацию с помощью очень популярного наивного байесовского алгоритма.

Итак, я собираюсь использовать новый инструмент для выполнения текстовой классификации заголовков новостей и классификации новостей по различным темам для новостного веб-сайта. Его можно использовать как стандартный набор данных при классификации.

Давайте посмотрим, как это можно сделать с помощью наивного байесовского алгоритма.

Закатайте рукава, и мы начнем с импорта.

В разделе импорта я использовал sklearn.datasets для выборки 20 групп новостей. Это очень распространенный метод для анализа и разметки слов и их настройки. Это также помогает в изучении того, как работают слова и как относиться к разным категориям при работе с документами.

После того, как вы запустите эту ячейку, вы увидите множество категорий, которые они уже назначили этой группе новостей.

Я думаю, он называется fetch_20newsgroups, потому что существует 20 различных категорий. Это только мое предположение. Если вы знаете, дайте мне знать в разделе комментариев.

Теперь давайте начнем определять все эти 20 категорий и настраивать наши данные.

Создав категории, мы откроем набор поездов. А если у вас есть поезд, то вы также проходите тестовый тест.

Давайте посмотрим, что произойдет, когда мы распечатаем одну часть данных. Мы собираемся взглянуть на фрагмент данных № 5 и запустить его.

Вы можете видеть, что когда я печатаю данные 5-го числа, он распечатывает одну из статей. В этом обучающем наборе 11314 статей.

Это много…!!! Итак, мы не будем рассматривать все эти статьи. А пока мы просто посмотрим на статью № 5.

Итак, мы просмотрели эту статью, и довольно сложно понять, как вы это взвешиваете. Не правда ли?

Здесь много разных слов. Итак, давайте попробуем выяснить, к каким категориям он подходит, на основе Наивного алгоритма Байеса.

Теперь мы собираемся погрузиться в реальные прогнозы. Он будет специально работать со словами и текстом, и это то, что мы называем токенизацией.

Мы собираемся начать с импорта необходимых пакетов, а из sklearn.feature_extraction.text мы собираемся импортировать TfidfVectorizer .

Формат математической записи обычно TfidfVectorizer, и это просто способ взвешивания слов. И он взвешивает слова в зависимости от того, сколько они используются в документе.

Затем мы собираемся импортировать sklearn.naive_bayes, и это наш MultinomialNB. Затем импортируйте sklearn.pipeline. Здесь конвейер - это просто способ упорядочить ход вещей.

Здесь мы собираемся взять TfidfVectorizer, а затем мы собираемся протолкнуть его в MultinomialNB. Теперь мы обозначим это как переменную «модель».

И мы собираемся подогнать эти данные и сначала данные обучения, а затем цель обучения.

Как только мы подгоним эти модели, мы сможем делать этикетки. Мы собираемся установить его на model.predic t. Мы собираемся разместить там тестовые данные.

Теперь перейдем к следующим шагам.

Теперь мы создадим матрицу путаницы и тепловую карту.

Итак, запутывающая матрица, которая уже сбивает с толку одним своим названием, в основном спросит, насколько запутан наш ответ. Затем мы собираемся поместить его в тепловые карты, чтобы увидеть несколько приятных цветов, чтобы увидеть, как это выглядит.

Запустите и посмотрите, как выйдет .. !!!

Итак, читая этот график, мы хотим посмотреть, как получилась цветовая схема. Вы увидите линию справа посередине по диагонали от верхнего левого угла до нижнего правого. Это предсказание и правда, и это то, что делает тепловая карта.

Давайте создадим функцию Run…!

Как только я запустил это, я могу начать делать некоторые прогнозы.

КУДОС… !!! Мы сделали это.

Мы смогли правильно классифицировать текст по различным группам в зависимости от того, к какой категории они принадлежат, с помощью Наивного алгоритма Байеса.

Теперь вы продолжаете пробовать разные слова и играть с ними. Если у вас есть какие-либо вопросы по этой статье, дайте мне знать в разделе комментариев.

Удачи!

Удачного машинного обучения… !!!