Анализ настроений — это метод, используемый для понимания эмоций и чувств людей с помощью машинного обучения в отношении определенного продукта или услуги. Модели анализа настроений требуют большого объема определенного набора данных.

Одним из самых сложных аспектов создания и обучения модели является получение нужного объема и типа набора данных для анализа тональности. В upGrad мы составили список из десяти доступных наборов данных, которые помогут вам начать работу над вашим проектом по анализу настроений.

"Источник"

Наборы данных анализа настроений

1. Стэнфордское дерево настроений

Первым набором данных для анализа настроений, которым мы хотели бы поделиться, является Stanford Sentiment Treebank. Набор данных содержит мнения пользователей с Rotten Tomatoes, отличного веб-сайта с обзорами фильмов.

Он содержит более 10 000 фрагментов данных из HTML-файлов веб-сайта, содержащих отзывы пользователей. Настроения оцениваются по линейной шкале от 1 до 25. Один — самый негативный, а 25 — самый положительный. Набор данных можно загрузить бесплатно, и вы можете найти его на веб-сайте Стэнфорда.

2. Набор данных обзоров фильмов IMDB

Второй набор данных в нашем списке — это набор данных IMDB Movie Reviews. Он имеет 25 000 отзывов пользователей на IMDB. Набор данных классифицируется как двоичный, а также содержит дополнительные немаркированные данные, которые можно использовать для обучения и тестирования.

Набор данных доступен для загрузки с веб-сайта Kaggle или Stanford под названием Большой набор данных обзора фильмов. Если вы ищете набор данных отзывов пользователей IMDB дляанализа настроений,доступно множество вариантов. Вы можете выбрать один в соответствии с вашими целями и использования.

Читать: Лучшие наборы данных для проектов машинного обучения

3. Набор данных обзоров документов

Набор данных Paper Reviews содержит в основном обзоры на испанском и английском языках с конференции по вычислительной технике. Всего в нем 405 экземпляров (N), что оценивается по 5-балльной шкале. Проведенная оценка выглядит следующим образом:

  • -2: очень негативно
  • -1: отрицательный
  • 0: нейтральный
  • 1: положительный
  • 2: очень позитивно

Оценка тональности выражает мнение пользователя о статье. Набор данных может быть полезен для прогнозирования мнений в обзорах академических статей. Набор данных доступен для загрузки с веб-сайта Калифорнийского университета.

4. Настроения американских авиакомпаний в Твиттере

Набор данных Twitter US Airline Sentiment, как следует из названия, содержит твиты об опыте пользователей, связанные с крупными авиакомпаниями США. Набор данных включает твиты с февраля 2015 года и классифицируется как положительный, отрицательный или нейтральный.

Набор данных содержит такую ​​информацию, как идентификатор пользователя Twitter, название авиакомпании, дату и время твита, а также негативный опыт авиакомпаний. Набор данных доступен для скачивания с Kaggle.

5. Настроение140

Набор данных Sentiment140 для анализа настроений используется для анализа реакции пользователей на различные продукты, бренды или темы с помощью твитов пользователей в социальной сети Twitter. Набор данных был собран с использованием Twitter API и содержал около 1 60 000 твитов. Данные сортируются по шести полям;

  • Полярность твита (0 = отрицательный, 2 = нейтральный, 4 = положительный)
  • ID твита
  • Дата твита
  • Запрос
  • Пользователь твиттера
  • Текстовые данные, содержащиеся в твите

Набор данных можно загрузить с веб-сайта Sentiment140 или Стэнфорда. Набор данных полезен для управления брендом, проведения опросов и планирования покупок.

Читайте:Четыре основных типа анализа настроений и где их использовать

6. Набор данных обзора Opin-Rank

Набор данных отзывов Opin-Rank для анализа настроений содержит около 3 000 000 отзывов пользователей об автомобилях и отелях. Набор данных включает отзывы пользователей, собранные с таких веб-сайтов, как Edmunds (автомобили) и TripAdvisor (гостиницы).

Большая часть набора данных содержит полные обзоры с TripAdvisor, около 2 59 000. Отзывы пользователей Edmunds составляют около 42 230. Есть подробные обзоры отелей в 10 разных городах мира, таких как Дубай, Чикаго, Лас-Вегас и Дели, и это лишь некоторые из них. Поля данных включают дату, название обзора и полный обзор.

Точно так же есть обзоры автомобилей от Эдмунда моделей автомобилей 2007–2009 годов. Данные рецензирования включают дату, имена авторов, избранное и полный отчет. Набор данных доступен для загрузки с веб-сайта GitHub.

7. Данные о продуктах Amazon

Данные о продуктах Amazon являются подмножеством гораздо большего набора данных для анализа мнений о продуктах Amazon. Расширенный набор содержит 142,8 миллиона наборов данных отзывов Amazon. Это подмножество было предоставлено профессором Стэнфорда Джулианом Маколи.

Он предоставляет отзывы пользователей с мая 1996 года по июль 2014 года для продуктов, перечисленных в различных категориях на Amazon. Для скачивания доступна обновленная версия (выпуск 2018 г.). Он содержит 233,1 миллиона отзывов пользователей с мая 1996 года по октябрь 2018 года.

Старый набор данных можно загрузить с веб-сайта Университета Сан-Диего, а новый набор данных можно найти на GitHub. Оба набора данных содержат такие точки данных, как рейтинги, цена, описание продукта и благодарственные голоса, и это лишь некоторые из них. Новый набор данных содержит дополнительные данные, такие как технические подробности и аналогичные таблицы продуктов.

8. Словарь тональности WordStat

Словарь тональности WordStat набор данных для анализа тональности был разработан путем интеграции положительных и отрицательных слов из словаря Harvard IV, Словаря регрессивных изображений и словаря Linguistic and Word Count. Он содержит около 15 000 слов данных вместе взятых.

Набор данных учитывает отрицания, чтобы классифицировать настроения пользователей как положительные или отрицательные. Набор данных доступен для скачивания. Однако вы не можете использовать его в коммерческих целях без разрешения. Вы можете загрузить последнюю версию набора данных с веб-сайта Provalisresearch.

Также прочтите:Лучшие идеи проекта набора данных ML

9. Словари настроений для 81 языка

"Источник"

Как следует из названия, лексикон настроений для 81 языка содержит контекстуальные данные от африкаанса до английского и идиш, всего 81 слово. Данные включают как положительные, так и отрицательные лексиконы для указанного выше числа языков. Набор данных полезен для аналитиков и специалистов по данным, работающих над проектами обработки естественного языка, такими как чат-боты.

10. Мешок слов встречается с мешком попкорна

Последний, но не менее важный набор данных для анализа настроений — это «мешок слов соответствует мешку попкорна». Как вы уже догадались, этот набор данных также связан с мнением пользователей о фильмах. Он состоит из 50 000 отзывов на IMDB. Набор данных использует бинарную классификацию настроений пользователей. Если рейтинг IMDB для определенного фильма меньше 5, оценка тональности равна 0. Точно так же, если рейтинг больше или равен 7, оценка тональности равна 1. Вы можете загрузить набор данных с Kaggle.

Познакомьтесь с:Анализ настроений с помощью Python: практическое руководство

Вывод

Мы надеемся, что этот блог, охватывающий десять разнообразных наборов данных для анализа настроений, помог вам. Если вы заинтересованы в дальнейшем изучении анализа настроений и связанных с ним технологий, таких как искусственный интеллект и машинное обучение, вы можете ознакомиться с нашим курсом Диплом PG в области машинного обучения и искусственного интеллекта.

Эта статья первоначально была опубликована в блоге upGrad.