Разница в оценке Watson AlchemyLanguage для URL-адреса и текста с одного и того же URL-адреса

Почему существуют значительные различия в оценках настроений/эмоций между методом ввода в виде URL-адреса и прямым текстом с одного и того же URL-адреса?

Например:


person Mahfooz    schedule 06.08.2016    source источник
comment
Спасибо @german-attanasio. Я думал, что Watson может извлекать наиболее важные входные данные из URL. Мне просто нужно быть осторожным.   -  person Mahfooz    schedule 06.08.2016


Ответы (2)


Если вы используете ТЕКСТ, вы в основном отправляете текст, который хотите проанализировать, поэтому у вас нет нерелевантного текста, такого как URL-адрес.

AlchemyLanguage позволяет вам видеть извлеченный текст при использовании URL-адреса. Просто добавьте showSourceText=1 к запросу. Это покажет вам текст, который использовался во время анализа.


См.: http://www.ibm.com/watson/developercloud/alchemy-language/api/v1/#emotion_analysis

Watson пытается извлечь наиболее релевантные входные данные из URL-адреса. Но в некоторых случаях он может не получить точные текстовые данные в соответствии с нашим определением основного контента.

person German Attanasio    schedule 06.08.2016
comment
@German: AlchemyLanguage не будет извлекать ВЕСЬ текст из HTML. Он пытается извлечь важную информацию с веб-страницы, удаляя навигационные ссылки, рекламу и другой нежелательный контент. - person Mahfooz; 07.08.2016
comment
Похоже, что извлечение текста в Alchemy несовершенно. В некоторых случаях он даже не может извлечь полный текст из URL-адреса. Возьмите это в качестве примера — timesofindia.indiatimes.com/tech/tech-news/ . Когда я дал URL-адрес в качестве входных данных, он не извлек последние 3 абзаца. Я думаю, что это должно быть легко исправить, так как многие другие расширения Chrome и Safari делают это успешно. (Я использую alchemy-language-demo.mybluemix.net для тестирования). - person RAVI; 07.08.2016
comment
@Mahfooz : Уловка timeofindia - Замените articlehow на articlehowprint - timesofindia.indiatimes.com/tech/tech-news/ - person Mahfooz; 09.08.2016
comment
@ Рави Хороший трюк. Спасибо. Может использоваться для автоматического извлечения текста. - person RAVI; 11.08.2016
comment
Спасибо, Рави. Я позабочусь о том, чтобы работать с моими данными. - person Mahfooz; 12.08.2016

В вашем случае в соответствии с вашим определением основного контента последний абзац статьи был извлечен дополнительно из URL. (Последний абзац статьи неоднозначен, кто-то может считать его частью статьи, кто-то нет.)

Текст последнего абзаца из URL:

(Автор является генеральным директором SAMCO Securities. Мнения и рекомендации, изложенные в этом разделе, являются его собственными и не отражают точку зрения ETMarkets.com. Пожалуйста, проконсультируйтесь со своим финансовым консультантом, прежде чем занимать какую-либо позицию.)

Поскольку в последнем абзаце есть некоторые объекты/ключевые слова/токены, которые могут повлиять на общую оценку тональности, вы обнаружите некоторую разницу между двумя оценками.

Вы можете проверить онлайн-демонстрацию для получения дополнительной информации: Онлайн-демонстрация

Для API вы можете проверить: параметры showSourceText и sourceText.

Ссылка: API Alchemy Sentiment

Да, я просто забыл добавить пример. Возьмем этот URL и текст из этой статьи economictimes.indiatimes.com/markets/stocks/news/

person RAVI    schedule 07.08.2016
comment
Nifty50 открылся с приподнятым настроением в начале недели, снизился в середине недели, но смог восстановиться благодаря притоку ликвидности в системе. Данные PMI указывают на ускорение в экономике. Макроиндикатор предполагает колоссальный рост на 5,2% в июле по сравнению с 2,8% в мае и 2,8% в соответствующем предыдущем году. Рынки также постоянно игнорируют обнадеживающие макроэкономические показатели. Июльские цифры роста автомобилей удивили Улицу. Пассажирские транспортные средства выросли в среднем на 12%, что свидетельствует об экономической устойчивости системы. Новаторские новые законы помогут стране стать второй по величине экономикой в ​​мире на рубеже этого десятилетия. Ключевые события недели: На прошлой неделе был заложен фундамент исторической новаторской налоговой реформы. Теперь надстройка будет построена в течение определенного периода времени с помощью государственных разрешений и т. д. GST действительно приведет Индию к ускоренному свободному от коррупции инклюзивному росту для масс в стране. Далеко идущие поправки были одобрены законодателями для быстрого и беспроблемного взыскания долга в установленные сроки, что еще больше укрепило Кодекс о банкротстве, чтобы сделать экономику Индии свободной от безнадежных долгов. Потенциально теперь экосистема банков PSU изменится навсегда, и они тоже станут такими же прибыльными, как и их коллеги из частного сектора. Мы рекомендуем это видео для васADSPARC PTY LTDРекомендовано Колумбией Технический обзор: Nifty50 возобновил восходящий импульс на фоне чрезмерно продолжительного ралли. Однако ралли не поддерживается индикаторами импульса. Но рынки могут оставаться на уровне перекупленности в течение длительных периодов времени во время роста ликвидности. Жадность удерживает рынки на пониженных уровнях. Однако настроения могут измениться от жадности к страху в одночасье при появлении каких-то негативных новостей, что приведет к началу коррекции. Трейдеры должны перемещать свои стопы по своим длинным позициям, а инвесторы должны оставаться в стороне, пока рынок не коснется нижнего уровня канала регрессии, который в Nifty50 приходится на уровни 8300-8400. Долгосрочный тренд прочно держится, но краткосрочный созрел для коррекции. Ожидания на неделю: рынок загипнотизирован надеждами на то, что макроэкономические факторы будут способствовать дальнейшему экономическому росту и расширению. Рынок продемонстрирует большую активность в области средней капитализации, и поэтому индекс передней линии может не отражать лежащую в основе волатильность в области средней капитализации. Компании, работающие в отрасли, в которой работает много неорганизованных игроков, получат выгоду от GST. Благоприятный сезон дождей и приближающийся праздничный сезон будут удерживать рынок на сниженном уровне. Любую коррекцию следует использовать для построения долгосрочных портфелей. Трейдеры должны играть на импульсных акциях и следить за прибылью. Nifty50 закрылся с повышением на 0,52 процента до 8683. - person Mahfooz; 09.08.2016