Анализ мнений в твитах о COVID-19

И. Введение

Пандемия COVID-19 является самой широко распространенной пандемией в этом столетии. Ретроспективно говоря, поскольку коронавирус очень заразен, одним из наиболее эффективных способов борьбы с его распространением будет обеспечение того, чтобы все с самого начала принимали необходимые меры безопасности, такие как ношение маски, социальное дистанцирование или пребывание дома. Таким образом, важно понять, как изменилась осведомленность общественности об этих мерах по охране здоровья от COVID с момента вспышки, и исходя из этого пролить свет на то, как кампании общественного здравоохранения могут наилучшим образом повысить осведомленность людей о соответствующих мерах по борьбе с болезнью во время пандемии. Для достижения этой цели этот проект будет сосредоточен на информировании общественности, отраженном в твитах, во время COVID в Соединенных Штатах, стране с наибольшим кумулятивным числом случаев на данный момент. В частности, проект собирает набор твитов вероятных пользователей из США, обсуждающих COVID в течение 2020 года, и анализирует тенденции мнений в отношении мер по охране здоровья от COVID, отраженные в твитах. Многие работы по анализу текста твитов в прошлом успешно выявляли тенденции общественного мнения по определенным вопросам, таким как всеобщая вакцинация (D’Andrea et al., 2019) или политические кампании (Watts et al., 2016). В этом проекте я буду применять метод на основе ключевых слов и метод на основе машинного обучения для анализа мнений в твиттере с течением времени в течение 2020 года.

II. Сбор и подготовка данных

Большинство твитов, связанных с COVID, содержат характерные хэштеги, такие как #COVID19 или #stayathome. Хэштеги в этом проекте выбираются из списка хэштегов-кандидатов, которые чаще всего ассоциируются с твитами, связанными с COVID. Здесь я придерживаюсь предположения, что каждый хэштег примерно одинаково информативен по исследуемой проблеме, поэтому только часть хэштегов будет выбрана и взята в качестве образца для этого проекта. Из-за емкости доступных компьютерных устройств хэштеги, упомянутые в слишком большом количестве твитов, не собираются. Это определяется «пробным парсингом»: выбираются несколько случайных дат, и в эти даты парсятся твиты с каждым хэштегом-кандидатом. Общий объем твитов в течение 2020 года будет оцениваться на основе этих случайных испытаний, а хэштеги, которые сами по себе требуют более 1 ГБ памяти, будут исключены.

Затем выбираются шесть хэштегов: #socialdistance, #wearamask, #nomask, #coronahoax, #scamdemic, #plandemic. Основываясь на их коннотациях, я определяю первые два как положительные хэштеги, а остальные — как отрицательные хэштеги. Это связано с тем, что первые два хэштега обычно включаются в твиты, демонстрирующие осведомленность о мерах безопасности во время COVID, таких как социальное дистанцирование и ношение маски, тогда как остальные четыре хэштега часто включаются в твиты, демонстрирующие недоверие или отвращение к этим мерам безопасности. Затем для парсинга твитов используется пакет twint в python, который анализирует основной текст и другую информацию, такую как идентификатор твита и отметка времени, и сохраняет их в файлы csv. В итоге совокупный размер необработанных данных, созданных Twint, составляет 1,11 ГБ и охватывает все твиты с шестью соответствующими хэштегами в течение 2020 года.

Необработанные данные содержат твиты не на английском языке и со всего мира, что требует последующей процедуры очистки данных. Твиты не на английском языке можно легко идентифицировать, потому что информация о языке каждого твита собирается в процессе парсинга. Одной из основных проблем является отсутствие определенного способа определить, отправлен ли твит пользователем из США, поскольку географическая информация большинства твитов недоступна. Для решения этой проблемы предполагается, что пользователи твитов наиболее активны с 20:00 до 23:00 по местному времени в среднем по всему миру. Соответственно, временной интервал с 20:00 до 23:00 по восточному стандартному времени оценивается как период, содержащий наибольшее количество твитов пользователей восточного побережья США. То же самое можно сказать и о каждом часовом поясе в США. Таким образом, объединенные профсоюзами временные рамки в Соединенных Штатах, которые представляют собой интервал с 20:00 по восточному стандартному времени до 14:00 по восточному стандартному времени (23:00 по тихоокеанскому стандартному времени) каждый день, предлагают приблизительную оценку всех твитов, связанных с COVID, от пользователей из США.

Таким образом, очищенный корпус твитов состоит из всех твитов, написанных на английском языке и попавших в интервал времени с 8 вечера по восточному поясному времени до 14:00 по восточному стандартному времени следующего дня из необработанных данных твитов. Он содержит в общей сложности 218 867 твитов с 6 января 2020 г. по 31 декабря 2020 г. На следующих графиках показано количество твитов по месяцам с учетом шести хэштегов, выбранных для этого проекта.

Стоит отметить, что в январе и феврале в корпусе почти нет твитов, связанных с COVID. Это разумно, поскольку масштабная вспышка COVID-19 в США началась в марте 2020 года, вскоре после того, как ВОЗ объявила COVID-19 пандемией. Более того, поскольку количество твитов, содержащих хештег #wearamask, значительно превышает количество остальных твитов, корпус содержит гораздо больше твитов с положительным хэштегом, чем твитов с отрицательным хэштегом, как показано на рис. 2 ниже.

III. Методология

Конечная цель состоит в том, чтобы присвоить оценку мнения каждому твиту в корпусе на основе уровня осведомленности о показателях здоровья COVID, который он демонстрирует. Другими словами, твит, демонстрирующий высокую осведомленность человека о мерах по охране здоровья, получает более высокий балл. Все твиты делятся на три категории в зависимости от мнений: положительные (демонстрирующие осведомленность о мерах по охране здоровья и их пропаганду), негативные (демонстрирующие недоверие к пандемии или незнание мер по охране здоровья от COVID) или нейтрально-двусмысленные-неуместные. В частности, третья категория предназначена для твитов, которые не попадают ни в одну из первых двух категорий; к ним относятся: 1) твиты с неактуальной информацией, такой как реклама или распорядок дня, 2) твиты о новостях, связанных с COVID, без четкого отношения к медико-санитарным мерам COVID, и 3) двусмысленные заявления. Для ясности приведем несколько примеров твитов из каждой категории:

1, (Положительный ответ) «Мы должны быть ответственными, мы говорим нашим детям делать то, что им говорят, чтобы научить их тому, что такое ответственность? Что ж, пришло время быть ответственным, носить #маску и #SocialDistance, мы находимся в #пандемии #covid19”

2, (положительный результат) «Наденьте чертову маску #WearAMask #DontBeACovIDIOT»

3, (Отрицательный) «Обман Covid-19, пандемия привела к массовым растратам и коррупции. С уже пустыми больницами, потраченными впустую 600 миллионов долларов на пустые кровати, занавески, палатки

4, (Отрицательный) «@ePearce4Q Нет, это политическая мистификация. Это был единственный способ, которым демократы могли отменить 26 дней первичного голосования в LOCKDOWN MARCH. Больницы по всей стране были пусты в течение МЕСЯЦЕВ #FilmYourHospital это была афера, чтобы получить 12 ТРИЛЛИОНОВ ДОЛЛАРОВ #Scamdemic #Plandemic2020 #Event201 https://t.co/EY7folvsiv”

5, (Нейтрально/Двусмысленно/Неуместно) «Сегодня у меня был Starbucks. Впервые с начала пандемии. #StillNotNormal #WearAMask”

6, (Нейтрально/Неоднозначно/Нерелевантно) «https://t.co/izO3jvhKRW голод уже на пороге… пора сажать, сажать, сажать! #голод #Пландемия”

III-1 Маркировка предварительного заключения

Один из предварительных и быстрых способов пометить твит оценкой мнений — подсчитать количество содержащихся в нем ключевых слов, указывающих на мнение. Чтобы определить набор ключевых слов, проверяются и модифицируются 30 лучших слов с наивысшей оценкой tf-idf по каждому набору данных хэштегов (исключая стоп-слова), которые дополняются ключевыми словами, добавленными вручную. Это дает грубую оценку мнения, выраженного в твитах. Список ключевых слов, составленный и используемый для твитов с положительными хэштегами и твитов с отрицательными хэштегами, соответственно:

Положительные ключевые слова: защищать, маскировать, носить, ответственно (от ответственного, ответственно и ответственно), безопасно, защищать, оставаться, помогать, заботиться, «#мойте руки», covidiot

Минус-слова: ложь, мистификация, «#endthelockdown», повторное открытие, грипп, изоляция, «никогда не носить», «не буду носить», «подавить республиканца», «#nosecondwave», «дышать свободно», «#billgatesisevil», « #filmyourhospital», «#wedonotconsent», «#covid1984», «#billgates», «#plandemic2020»

Между тем, если твит содержит как минимум два положительных хэштега или как минимум два отрицательных хэштега, он получает два дополнительных балла в своем первоначальном мнении.

После этапа маркировки ключевых слов около 40% всех твитов в наборе данных помечены ненулевым рейтингом мнений, тогда как остальные 60% пока неизвестны.

Как показано на рис. 3, методика маркировки ключевыми словами недостаточна, поскольку она по-прежнему пропускает большую часть твитов. Например, почти 80% твитов в феврале и марте помечены как нулевые, некоторые из них при ручной проверке не кажутся нейтральными или двусмысленными. Таким образом, твиты с нулевой оценкой мнений являются основным объектом классификации и оценки мнений в последующих разделах, где модели машинного обучения создаются для обнаружения и оценки осведомленности твитов о мерах по охране здоровья от COVID.

III-2 Модель машинного обучения

Чтобы лучше понять семантику и мнение немаркированных твитов, языковая модель машинного обучения обучается прогнозированию оценок мнений. Часть корпуса нарисована и разделена на набор обучающих данных и набор тестовых данных с метками мнений 1, 0,5, 0, -0,5, -1, каждый из которых содержит около 5000 твитов. Эти твиты берутся из помеченных данных о твитах корпуса (как описано в предыдущем разделе) следующим образом: твиты с меткой 1 и -1 взяты из твитов корпуса, помеченных оценкой мнения, превышающей 75 процентилей, т. е. четверть самых положительных или самых отрицательных твитов. Остальные представляют собой смесь случайного розыгрыша оставшихся твитов и ручной маркировки.

Языковая модель представляет собой совокупность 1) модели distilBERT, которая преобразует предложение в 768-мерное векторное представление, и 2) относительно простой модели машинного обучения для создания оценки мнения от 1 до -1. Второй компонент ансамбля выбирается из четырех моделей-кандидатов: обычная модель линейной регрессии, модель линейной регрессии хребта, однослойная модель нейронной сети с активацией tanh в конце и двухслойная модель нейронной сети с активацией tanh. в конце. В конечном счете, модель принимает фрагмент текста твита в качестве входных данных и выдает оценку мнения от -1 до 1. Поскольку вычислительные затраты на обновление весов модели distilBERT (которая имеет более 1 миллиона параметров) в этом проекте не по карману, обучение процесс будет обновлять только веса второго компонента языковой модели.

IV. Результаты

Поскольку оценка мнений является непрерывной переменной, метрика, используемая для модели оценки мнений, представляет собой оценку R2, которая измеряет, насколько близко массив выходных данных модели соответствует массиву оценок мнений «наземной истины» в наборе данных. Как показано на диаграмме 1, ансамбль distilBERT и обученной двухслойной нейронной сети работает лучше всего с гораздо более высоким показателем R2 в тестовом наборе данных, чем у трех других кандидатов.

Затем наиболее эффективная языковая модель обрабатывает все твиты, которые ранее получили нулевую оценку мнений. Твит считается с точки зрения мнений «положительным», если он получает оценку выше 0,25, и с точки зрения мнений «отрицательным», если он получает оценку ниже -0,25.

Интересно, что модель обнаружила, что начиная с марта негативные твиты, отражающие мнения, всегда более яростны, чем позитивные твиты, отражающие мнения (рис. 4). Хотя изначально этим твитам присваивается нулевая оценка мнения, языковая модель способна извлечь их оценку мнения, т. е. уровень осведомленности о мерах по охране здоровья от COVID, который упускается при применении только маркировки ключевых слов (рис. 5).

Затем, объединив результаты маркировки с ранее помеченными положительными и отрицательными твитами с точки зрения мнений (рис. 6, правый график), можно показать, что модель демистифицирует твиты, которые изначально были помечены как нулевые (рис. 6, левый график).

Примечательно, что, как показано на Рисунке 5 и Рисунке 6, пик негативных твитов с точки зрения мнений приходится на май 2020 года, тогда как пик позитивных твитов с мнениями приходится на июль 2020 года. С октября цифры колебались меньше. Одна из возможных причин такой модели мнений заключается в том, что многие люди были заинтригованы различными предложениями о возобновлении работы в мае после двухмесячной блокировки в некоторых регионах, таким образом протестуя против мер безопасности COVID в Твиттере. Но, к сожалению, коронавирус оказался более заразным, чем многие ожидали. Резкий всплеск подтвержденных случаев заболевания и пострадавших районов с июля мог повысить осведомленность общественности о мерах по охране здоровья, таких как социальное дистанцирование и ношение маски. Тем не менее, потребуются более подробные исследования, чтобы предложить более детерминированное объяснение.

В. Анализ и заключение

Проект представляет собой попытку исследовать, как изменилось мнение американцев о мерах по охране здоровья в связи с COVID, что отражено в массиве твитов, связанных с COVID. Модель машинного обучения обучена присваивать рейтинг мнений, отражающий осведомленность человека о мерах по охране здоровья во время пандемии, для корпуса твитов, таким образом определяя тенденцию мнений, не требуя ручных усилий для чтения всех твитов. С помощью маркировки на основе ключевых слов и языковой модели машинного обучения можно заметить, что общественность меньше всего осведомлена о важности мер по охране здоровья, связанных с COVID, в мае 2020 года, а больше всего — в июле 2020 года. Поскольку 2020 год был хаотичным, различные факторы могут внесли свой вклад в эту модель, в том числе важные замечания авторитетных фигур (таких как доктор Фаучи или бывший президент Трамп) и суматоха президентских выборов. Выводы, представленные в этой статье, могут пролить некоторый свет на то, как общественность может отреагировать на такую пандемию, как COVID-19, которая требует скоординированных усилий по сдерживанию ее распространения, потенциально помогая государственным учреждениям, таким как CDC, действовать более эффективно в условиях будущей пандемии.

Процитированные работы

Д'Андреа, Элеонора и др. «Мониторинг общественного мнения по теме вакцинации на основе анализа твитов». Экспертные системы с приложениями 116 (2019): 209–226.

Уоттс, Дэвид и др. «Настроения в Твиттере как показатель динамики политической кампании». 2016 Международная конференция IEEE по большим данным (Big Data). ИИЭР, 2016.

P.S. Спасибо за чтение! Посмотрите мой код для этого проекта здесь!

Анализ мнений в твитах о COVID-19

Похожие вопросы