Я получил много твитов из твиттера, используя пакет r twitteR.
После того, как я сделал это успешно, моя цель — создать границы для сетевого анализа на основе упоминаний в этих твитах. Для этой цели я использовал следующий код, чтобы получить имена пользователей Twitter, которые были упомянуты в твите:
tweets <- read.csv(file="tweets.csv")
tweets$mentions <- str_extract_all(tweets$text, "@\\w+")
Есть твиты, в которых упоминается более одного имени пользователя, например «имя пользователя A, имя пользователя B и имя пользователя C», но они находятся вместе в одной строке. Теперь я хотел бы умножить строки с теми твитами, в которых упоминается более одного имени пользователя, с количеством имен пользователей в этих твитах. В то же время в конце каждой строки должно отображаться только одно имя пользователя. Позвольте мне проиллюстрировать, что я имею в виду, на уже использованном примере:
В настоящее время у меня есть строка с двумя столбцами (текст, упоминания):
- «текст твита»; "имя пользователяA, имя пользователяB, имя пользователяC"
В этом случае я хотел бы иметь три строки:
- «текст твита»; "имя пользователяА"
- «текст твита»; "имя пользователяB"
- «текст твита»; "имя пользователяC"
Мои проблемы:
- Как разрешить r проверять записи, состоящие из списка (c ("usernameA", "usernameB",...) в указанном столбце?
- Как мне указать r умножить эту определенную запись x-1 раз (x = количество упоминаний)?
- Как заставить r оставить только одно имя пользователя в каждой строке?