Обнаружение языка ненависти с помощью Mindsdb и Hugging face

· Оглавление
· Понимание проблемы с помощью тематического исследования
· Создание бесплатной учетной записи Mindsdb Cloud
· Набор данных о разжигании ненависти на Kaggle
· Использование Airtable для базы данных
· Подключение базы данных Airtable к облаку Mindsdb
· Модель Huggingface в действии внутри Mindsdb
· Заключение
· Создание воздействия с помощью MindsDB

Понимание проблемы через кейс

Социальные сети заполнены большим количеством данных. Некоторые данные полезны, а некоторые бесполезны, и вам хочется избегать такого контента. Вы, должно быть, сталкивались с большим количеством неприемлемого контента в виде постов или комментариев в социальных сетях. Такого рода контента следует избегать и держать подальше.

В этом случае возникает потребность в классификаторе, который должен помечать такой неприемлемый контент и обеспечивать сокращение таких разжигающих ненависть высказываний на платформах социальных сетей. Существует множество предварительно обученных моделей и трансформеров, которые могут решить эту проблему обнаружения языка ненависти.

Mindsdb — это инструмент AutoML, который поможет вам применить эти преобразователи к вашей базе данных. Mindsdb поддерживает преобразователи Hugging face и имеет решающее значение для домена NLP. Это оказало влияние на область обработки естественного языка. Вы можете напрямую применить НЛП к своей базе данных с помощью нескольких строк кода SQL. Это сделало приложение проще и быстрее. Давайте посмотрим, как с помощью Mindsdb можно применить модель языка ненависти с обнимающим лицом к реальным данным социальных сетей с помощью Mindsdb за несколько шагов.

Создайте бесплатную учетную запись Mindsdb Cloud

Следуйте приведенному выше видео и создайте бесплатную облачную учетную запись Mindsdb. Это довольно просто. Вы также можете ознакомиться с этой документацией, чтобы узнать больше об этом: Документы

Набор данных о разжигании ненависти на Kaggle

Чтобы получить данные для вашей модели, вам нужно взять данные из существующих ресурсов, таких как Kaggle, MachineHack и т. д. Здесь вы будете использовать Kaggle для загрузки набора данных. Если у вас нет учетной записи на Kaggle, сначала создайте ее. Это довольно просто: вы можете войти в свою учетную запись Google.

Перейдите по этой ссылке и загрузите набор данных test.csv. Вы будете использовать этот набор данных для текстовой классификации комментариев в социальных сетях. Классификация будет проводиться на токсичные и нетоксичные категории. Набор данных содержит более 1000 комментариев из социальных сетей, таких как Twitter, Reddit и т. д.

После того, как у вас есть файл CSV, теперь вам нужно будет выбрать базу данных для обработки ваших данных. Вы подключите эту базу данных к Mindsdb. Давайте посмотрим на следующие шаги.

Использование Airtable для базы данных

Airtable — это гибкая база данных. Он позволяет вам подключать ваши данные через ваше рабочее пространство и имеет множество интеграций и API для управления вашими данными в любом месте и в любое время. Современная база данных с большим потенциалом. Это одна из интеграций баз данных, которую поддерживает Mindsdb. Здесь вы можете ознакомиться со списком поддерживаемых источников данных: Документы. Давайте посмотрим, как вы можете импортировать свои данные в Airtable и настроить базу данных.

Создайте учетную запись на Airtable, используя свой Gmail или другой адрес электронной почты. Здесь вам нужно зарегистрировать бесплатную учетную запись Airtable: Создать бесплатную учетную запись

После настройки учетной записи создайте рабочую область с именем Mindsdb. Вы добавите свою базу данных в рабочую область.

Когда рабочее пространство будет готово, нажмите «Добавить базу». Будет создана пустая база данных, в которую вы сможете импортировать данные из разных источников, таких как CSV, Excel и т. д. Нажмите «Импорт CSV» и загрузите CSV-файл, который вы скачали с Kaggle на предыдущих шагах.

После того, как эти данные будут импортированы, они будут выглядеть так. Столбец комментариев содержит важную часть наших данных, которые будут использоваться для классификации текста/комментариев как токсичных или нетоксичных.

Подключение базы данных Airtable к облаку Mindsdb

Теперь, когда вы создали базу данных Airtable, пришло время подключить вашу базу данных к Mindsdb. Вы можете перейти в раздел «Добавить данные», есть много вариантов интеграции с базой данных, выберите Airtable.

Чтобы подключить вашу базу данных к Mindsdb, вам необходимо указать определенные параметры, такие как имя таблицы, ключ API и базовый идентификатор, которые вы можете найти в своей учетной записи Airtable.

Для создания базы данных мы используем синтаксис CREATE DATABASE. Дайте вашей базе данных имя по вашему выбору. Движок уже определен как Airtable. Вы найдете идентификатор базы в своей базе Airtable. Зайдите на свою базу и нажмите на помощь. В правом нижнем углу вы найдете документацию API, нажмите на нее. Базовый идентификатор доступен там, а также имя вашей таблицы.

Ключ API доступен на странице вашей учетной записи. Перейдите в раздел своей учетной записи и прокрутите вниз, и вы найдете там свой ключ API. Чтобы узнать больше о ключе API Airtable, нажмите на эту ссылку.

Модель Huggingface в действии внутри Mindsdb

После того, как вы нашли все параметры, необходимые для подключения вашей базы данных к облаку Mindsdb, вы можете нажать «Выполнить» и подключиться. После успешного подключения вы получите на дисплее сообщение «Запрос успешно завершен».

Чтобы убедиться, что ваша база данных подключена правильно, просмотрите свою таблицу в облачном отображении Mindsdb. Чтобы просмотреть таблицу, вам нужно следовать приведенному выше синтаксису SQL.

SELECT column_name FROM database.table_name
LIMIT number;

После запуска запроса вы сможете увидеть все данные из столбца. Если вы хотите показать определенный объем данных, используйте LIMIT, чтобы указать его.

Теперь вы будете делать самый важный шаг этой задачи. Вам нужно подключить модель обнимающего лица, чтобы классифицировать текст на токсичный и нетоксичный.

Синтаксис для создания модели: CREATE MODEL имя_модели. Оператор PREDICT предназначен для прогнозирования настроений.

Оператор USING подключается к механизму обнимания лица, поэтому вы можете использовать любые поддерживаемые модели обнимания лица. В настоящее время Mindsdb поддерживает 4 типа моделей: текстовая классификация, нулевая классификация, перевод и суммирование. Эта задача обнаружения языка ненависти представляет собой модель классификации текста.

Вы можете выбрать любую из моделей языка ненависти, доступных при обнимании лица, здесь. Скопируйте название модели и вставьте его в раздел model_name. Столбец input_column должен быть вашими текстовыми данными, содержащими тексты разжигания ненависти. Метки необязательны, даже если вы не применяете их к модели, по умолчанию она будет предоставлять метку, и вы можете настроить ее в соответствии со своими потребностями.

---Syntax for Model creation---

CREATE MODEL model_name
PREDICT sentiment
USING engine='huggingface',
model_name='your model name',
input_column='your column name',
labels=['your','labels'];

После того, как вы успешно создадите свою модель, пришло время обучить ее на ваших данных. Модель будет сохранена в облачных моделях Mindsdb. Вы можете выбрать его из моделей. Укажите имя модели и нажмите «Выполнить», чтобы ваша модель начала обучение.

После завершения обучения модель будет доступна для прогнозов. Используемая здесь модель — модель токсичных комментариев. Он классифицирует чувства на токсичные и нетоксичные. Вы также можете попробовать другие модели языка ненависти, доступные в обнимании лица.

Чтобы проверить модель на соответствие одному комментарию, ВЫБЕРИТЕ модель и выберите комментарий с помощью оператора WHERE. Результат даст настроение и индивидуальную оценку ярлыков, а также отобразит ваш комментарий. Как вы можете видеть, приведенный выше комментарий является языком ненависти и помечен как токсичный. Это может помочь пометить неприемлемый контент и избежать разжигания ненависти.

В приведенном выше случае выходная метка является токсичной. Вы можете видеть, что токсичная метка имеет слишком высокий балл 0,98. Следовательно, комментарий помечается как токсичный, и обнаруживается разжигание ненависти.

Теперь давайте посмотрим на совокупные результаты, присоединившись к столбцу комментариев, содержащему ваши текстовые данные и соответствующие им настроения.

SELECT input.column_name,model.sentiment
FROM database.table_name AS input
JOIN model_name AS model;

ВЫБЕРИТЕ свой входной столбец и смоделируйте настроение из своей базы данных. Чтобы соединить их, используйте оператор JOIN и соедините их вместе, используя JOIN в качестве модели. Теперь вы можете увидеть совокупные результаты.

Результаты операции JOIN показаны выше. Как вы можете ясно видеть, комментарии в приведенном выше примере являются токсичными и не в хорошем тоне. Оценка токсичности этих комментариев должна быть больше, чем оценка нетоксичности, поэтому полученный ярлык является токсичным. Чтобы узнать больше о модели и о том, насколько хорошо она обучена, перейдите по этой ссылке.

Точность предсказания тональности модели зависит от модели обнимающего лица, которую вы используете, и вашего набора данных. Так что не стесняйтесь исследовать различные модели.

Заключение

Модель смогла определить токсичные комментарии, а также уровень их токсичности с помощью оценок выходных меток. Модель обнимающего лица была успешно интегрирована в облако Mindsdb без каких-либо ошибок. Была проведена оценка модели, в которой комментарии были классифицированы как токсичные и нетоксичные. Количество токсичных комментариев было намного больше, чем нетоксичных. Точность модели можно повысить, введя в модель более подходящие данные и создав сбалансированный набор данных, содержащий равное количество токсичных и нетоксичных комментариев. В целом вариант использования обнаружения языка ненависти был реализован. Эту модель Mindsdb можно интегрировать в приложения, чтобы помечать неуместные комментарии как токсичные и предотвращать токсичность на социальных платформах. Таким образом создается более безопасная и более подходящая среда для пользователей.

Создание влияния с Mindsdb

В этом руководстве вы научились создавать решения НЛП с помощью Mindsdb. Но как можно использовать эту силу в правильном направлении — важный вопрос. Mindsdb может использоваться организациями для сокращения разжигания ненависти и создания безопасной среды для всех людей. Mindsdb можно интегрировать в приложения для чата в реальном времени и помочь людям избежать токсичных чатов. Обнаруживайте токсичные комментарии и удаляйте их из своих социальных каналов. Приложения бесконечны, как и воображение. В этом уроке мы увидели, как вы можете выполнить это приложение, классифицируя реальные комментарии в социальных сетях. Это может помочь решить реальные проблемы. Mindsdb может многое предложить, следите за будущими обновлениями и поддержкой задач машинного обучения, которые могут облегчить вашу жизнь.

Присоединяйтесь к нашему сообществу и следите за обновлениями!

Спасибо за прочтение! Надеюсь, вы хорошо провели время.