Описание

В настоящее время, наряду с достижениями в Интернете и технологиях, скорость распространения информации также быстро увеличивается. Благодаря множеству платформ, доступных сегодня, каждый может свободно получать доступ к новостям, делиться ими и создавать их. Однако, к сожалению, сильное желание получить доступ к этим новостям не сопровождалось надлежащим процессом отбора новостей. Без какого-либо отбора или подтверждения правдивости новостей происходит мошенничество, которое приводит к материальным и нематериальным потерям, таким как разногласия и социальные конфликты.

Новости, содержащие ложную информацию, очень опасны. Информация может влиять на эмоции, чувства, мысли или даже действия человека или группы. Очень жаль, если информация неточная или даже в виде ложной информации (мистификаций) с провокационными заголовками, которые наводят читателей и получателей на негативные мнения (Abner et al., 2017).

С развитием машинного обучения и искусственного интеллекта у технологий появилась прекрасная возможность помочь преодолеть распространение фейковых новостей, одной из которых является использование метода Text Mining. Интеллектуальный анализ текста — это разновидность интеллектуального анализа данных, которая может извлекать полезную информацию путем выявления и изучения интересных закономерностей из набора неструктурированных источников текстовых данных (Feldman & Sanger, 2006). Метод представляет собой интеллектуальный анализ текста, реализованный с использованием обработки естественного языка (NLP).

Обработка естественного языка (NLP) — это область компьютерных наук, которая является отраслью искусственного интеллекта и языка (лингвистики), которая занимается взаимодействием между компьютерами и естественными человеческими языками, такими как индонезийский или английский. Основная цель НЛП — построить машины, способные понимать и понимать смысл человеческого языка. В этом исследовании используется метод НЛП с применением алгоритма нейронной сети.

Используя принцип интеллектуального анализа текста, автор намерен провести это исследование, чтобы создать модель, которая может различать настоящие новости и фальшивые новости. В процессе разработки мы надеемся, что эту модель можно будет использовать в качестве машины для обнаружения фейковых новостей, а затем каждый сможет получить к ней доступ для разъяснения правды истории. Так что люди становятся умнее в выборе новостей для чтения.

Сфера

Объем этих проектов:

  1. Данные получены с сайта Kaggle. Данные представляют собой метаданные о n количестве новостей, собранные с 2016 по 2017 год.
  2. Реализация фреймворка Tensorflow (версия 2 и выше) использует библиотеку keras twitch языка программирования python.

Преимущества

Модель, применяя алгоритм нейронной сети, и результат можно использовать в качестве отправной точки, когда вы хотите определить достоверность новостей, чтобы это могло помочь предотвратить распространение поддельных новостей или мистификаций.

Данные

Мы использовали два набора данных новостных статей, первый набор данных содержит только поддельные новости, а второй набор данных содержит только настоящие новости. Данные взяты с сайта Kaggle. Данные были собраны Ахмедом Х., Траоре И. и Саадом С. Данные имеют период с 1 января 2016 г. по 1 января 2017 г. Набор данных фальшивых новостей состоит из 23502 записей, а набор данных настоящих новостей состоит из 21417 записей. Каждый набор данных имеет 4 атрибута, как показано в таблице ниже.

Этапы деятельности

Исследование данных

На первом этапе мы смотрим на данные, чтобы получить представление о распределении данных и его неравномерности. Зная распределение данных, мы можем определить, достаточно ли данных для использования в качестве учебного материала. Хорошие данные будут распределены поровну.

Предварительная обработка данных

После проведения исследования данных будет видно, как затем выполняется предварительная обработка характеристик данных, а именно очистка данных. в случае, если мы используем данные, они будут нормализованы путем замены всех букв строчными буквами, удаления знаков препинания, удаления ненужных слов, таких как «я», «ты», «и». Затем выполните стемпинг и лемматизацию, а именно изменение слова в его основную форму, такую ​​как «бег» на «бег». Это делается для унификации формата данных перед их вводом в модель.

Создание модели классификации

Мы разработали модель классификации текста на основе методов, обычно используемых для анализа текстовых данных, а именно рекуррентной нейронной сети (RNN). RNN доказала свою эффективность и точность для построения моделей анализа текста и распознавания речи. RNN в НЛП лучше всего подходит для прогнозирования на уровне слов. RNN хранит важную информацию от каждого слова в предложении, которая передается следующему слову, что позволяет прогнозировать длинные предложения.

Для обучения модели мы решили установить эпохи равными 10. И с первой эпохи модель уже имеет хорошую точность.

Оценка модели

Чтобы убедиться, что модель предиктора оптимальна и не переобучается, выполняется оценка для получения наилучших результатов. В качестве эталона для оценки используется параметр «точность». Для каждой итерации модели мы записываем точность, а затем сравниваем результаты.

Для этого мы тестируем модель на наборе данных, которые не использовались для обучения. В результате он имеет общую точность 0,94 или 94%, что достаточно высоко, и ему можно доверять как первому шагу для определения оригинальности новостей.

В этом эксперименте была разработана система классификации, позволяющая отличать фальшивые новости от истинных. На основании представленных результатов можно сделать вывод, что в этом исследовании удалось классифицировать фейковые новости и настоящие новости. Эта система состоит из модулей предварительной обработки, извлечения признаков, выбора признаков, процесса обучения и самого процесса тестирования или классификации. Большая часть предварительной обработки выполняется с целью преобразования данных, чтобы их было легче использовать для прогнозирования и анализа. Часть данных результатов предварительной обработки используется для обучения модели. После этого следующим шагом будет тестирование модели с использованием данных, которые не использовались для обучения модели. Для процесса классификации, будь то обучающие модели или тестовые модели, проводится эксперимент, сравнивающий использование атрибутов классификации. В первом эксперименте использовался атрибут title, и результаты показали точность 94 %. Во втором эксперименте используется атрибут текст(содержание новостей), что обеспечивает точность 99%.

Нажмите здесь, чтобы увидеть исходный код.