Анализ тенденций и перспектив кампании StayAtHome

Коронавирусная болезнь (COVID-19) - инфекционное заболевание, вызываемое недавно обнаруженным коронавирусом [Источник]. Первый случай нового коронавируса был зарегистрирован в Ухане, Китай, в конце декабря 2019 года [Источник] и с тех пор распространился по всему миру. В результате к 11 марта 2020 года ВОЗ объявила ее глобальной пандемией. По состоянию на 23 мая 2020 года в 188 странах и территориях было зарегистрировано более 5,2 миллиона случаев заболевания, более 338 000 случаев смерти и около 2,05 миллиона человек выздоровели [Источник ]. Многие страны решили полностью или частично заблокировать свои страны после объявления пандемии, и многие люди учатся, работают и молятся из дома, что приводит к кампании StayAtHome. Подробнее о коронавирусе см. Cdc.gov.

Оставайся дома

В 2020 году StayAtHome проводила кампанию по всему миру в качестве меры правительства по ограничению передвижения населения для смягчения вспышки COVID-19. Эта кампания приказывает обществу оставаться дома, за исключением важных дел. Практически аналогичный термин - это изоляция, но некоторые власти считают, что изоляция может быть неправильно понята, когда люди подумают, что она включает в себя инспекцию от двери до двери.

Цель этой статьи - понять тенденции и взгляды людей на кампанию StayAtHome

Источник данных

В этой статье используются все твиты, содержащие #stayathome или фразу «оставайся дома». Первый случай COVID-19 был зарегистрирован к концу 2019 года и начал привлекать внимание всего мира в начале 2020 года. Таким образом, временной диапазон для сбора данных был между 1 января 2020 года и 20 мая 2020 года. . Собранные твиты ограничивались твитами на английском языке. Общее количество собранных твитов: 3 571 374. Список шагов по очистке данных был применен поверх собранного набора данных, таких как удаление дубликатов, удаление ретвитов и упоминаний. Общее количество твитов после очистки данных составляет 3 570 271.

Тренд

Количество твитов, связанных с кампанией StayAtHome, начало расти с 9 марта 2020 года и достигло пика 23 марта 2020 года. Пик пришелся на то, что многие страны приняли важные решения ближе к этой дате. Австралия начала изоляцию в понедельник (23 марта 2020 года), поскольку число случаев коронавируса достигло 1600 [Источник]. Премьер-министр Великобритании Борис Джонсон заявил британской общественности: Вы должны оставаться дома. в понедельник, 23 марта 2020 г. Некоторые штаты США также объявили о блокировке 22–24 марта 2020 г., например Коннектикут, Массачусетс, Мичиган, Нью-Йорк, Висконсин, Канзас-Сити , КС и Орегон. Кроме того, были и другие страны, которые приняли такое же решение незадолго до этой даты, такие как Греция, Либерия и Германия [Источник].

После 23 марта 2020 года тенденция к снижению, наименьшее число произошло 10 мая 2020 года, что является последним днем ​​временного диапазона сбора данных. Ожидается, что это число будет и дальше уменьшаться, поскольку некоторые страны, например Австралия, ослабили изоляцию.

Связанные хэштеги

На рисунке 2 показаны 25 основных хэштегов, связанных с кампанией StayAtHome, рядом с самим #StayAtHome. Подтверждено, что #StayAtHome тесно связан с # covid19 и #coronavirus. Многие люди пытались напомнить обществу, используя #stayhomesavelives, #socialdistancing и #staysafe. Другой вывод по хэштегу касается местоположения, например #NHS представляет Соединенное Королевство, #indiafightscorona и #jantacurfew из Индии. Кроме того, во время этой вспышки люди также писали в Твиттере о пасхальном дне, музыкальных / художественных представлениях и работе из дома.

Тематическое моделирование

В предыдущем разделе обсуждался контекст твитов через их хэштеги. Было бы интересно понять твиты через сам текст. Один из способов - это тематическое моделирование.

Тематическое моделирование - это тип статистической модели для выявления абстрактных тем, встречающихся в коллекции документов. Существует множество различных алгоритмов, которые могут применяться для моделирования темы, такие как LDA, DMM, NMF, Bi-Term и другие. LDA будет использоваться для написания этой статьи. Если вас интересует техническая сторона LDA, я предлагаю вам прочитать статью, или в следующий раз напишу об этом еще одну статью.

Как упоминалось ранее, тенденция начала усиливаться с 9 марта 2020 года, поэтому при проведении тематического моделирования с 9 марта 2020 года будет использоваться только 3,451,390 твитов. При выполнении LDA одним из шагов является определение количества тем. К алгоритму был применен список возможного количества тем от 2 до 20, и лучшей моделью был LDA с 8 темами. Вот главные слова из каждой темы.

Тема 1: время, работа, заработок, ребенок, день, школа, мама, ребенок, дом, родитель, хорошо, поесть, человек, ночь, любовь, год, вещь, бог, еда , пропустить
Тема 2: приказ, закрыть, тест, работник, люди, маска, существенное, человек, штраф, причитается, полиция, увеличение, здоровье, офис, больница, одежда, группа, открыть, ударить, пройти
Тема 3: приказ, штат, губернатор, продлить, открыть, протест, проблема, бизнес, лифт, неделя, место, округ, месяц, случай, город, апрель , козырный, повторно открыть, начать, хочу
Тема 4: день, время, сегодня, смотреть, делать, играть, наслаждаться, хорошо, люблю, бесплатно, отлично, читать, учиться, онлайн, шоу, завтра, неделя, счастливый, старт, жить
Тема 5: люди, вирус, распространение, правительство, остановка, смерть, covid, corona, make, lockdown, country, tell, don , коронавирус, борьба, пандемия, слушать, правило, публично, точка
Тема 6: случай, covid, видео, поделиться, смерть, сообщение, безопасность, сегодня, утро, команда, обновление, поддержка, всего, марш, тратить, следовать, с service, daily, number, Positive
Тема 7: оставайтесь, в безопасности, дома, здоровым, семья, экономьте, выходные, save_live, любовь, сообщение, covid, wash_hand, надежда, избегайте, все время, забота, жизнь, хорошо, защита, жизнь
Тема 8: люди, работа, дон, делаю, дом, день, не, вещь, жизнь, назад, может, неделя, платить, время, сделай, скажи, тошни, почувствуй, будь там

Устный перевод

Эта интерпретация чисто с точки зрения автора.

Тема 1, содержащая ребенок, день, школа, мама, ребенок, родитель, может быть связана с закрытием школы и родителями, которым необходимо заботиться о них дома.

Тема 2 содержит тест, люди, маска, предметы первой необходимости, больница, ношение может представлять собой тест на COVID-19, и людям настоятельно рекомендуется носить маски, чтобы предотвратить распространение болезни.

Тема 3 содержит штат, губернатор, расширение, открытие, протест, проблема, козырь. Это может означать продление блокировки в Соединенных Штатах и ​​вопрос о протесте президенту Соединенных Штатов с просьбой открыть блокировку.

Тема 4 содержит день, время, просмотр, игру, развлечения, онлайн, шоу. Это может быть обычная домашняя деятельность, связанная с играми и шоу.

Тема 5 содержит люди, вирус, распространение, правительство, остановка, смерть, covid, корона, создание, борьба, пандемия, слушание, правило, общедоступность. Это может означать голос пользователей в борьбе с пандемией.

Тема 6 содержит случай, covid, видео, публикация, смерть, публикация, безопасность, команда, обновление, поддержка, всего, март, расходы, обслуживание, день, число, положительный результат может представлять собой обновление количества положительные или смертельные случаи, особенно в марте 2020 года.

Тема 7 содержит пребывание, безопасность, дом, здоровье, семья, сохранение, выходные, save_live, любовь, сообщение, covid, wash_hand, избежать, защита, забота, жизнь, время, хорошо может относиться к обеспечению безопасности. быть здоровым дома и избегать COVID-19, мыть руки.

Тема 8 содержит люди, работа, дом, оплата, неделя, может относиться к работе из дома.

Пропорция темы

Хотя LDA предполагает, что один документ состоит из нескольких тем, было бы интересно, если бы каждый твит был помечен его доминирующей темой. Таким образом можно подсчитать количество твитов по каждой теме.

Это показывает, что темы, связанные с работой из дома (Тема 8) и голосом пользователей в борьбе с пандемией (Тема 5), составляют более 40% от общего числа твитов. Это соответствует тому факту, что многие люди были вынуждены работать из дома из-за этого кризиса, и люди склонны обсуждать распространение COVID-19 в социальных сетях и надеяться, что эта пандемия скоро закончится.

Замечания

Если вас интересует дальнейший анализ этого набора данных, я опубликовал набор данных здесь.

Ресурс: Github

Если у вас есть отзывы или дальнейшее обсуждение, свяжитесь со мной через LinkedIn.