Семантическое путешествие в Нью-Йорк: Конференция «График знаний» -2019

Краткий обзор моих (и многих других) выступлений на КГК-2019

Конференция

На этой неделе в Школе профессиональных исследований Колумбийского университета в кампусе Морнингсайд в Нью-Йорке прошла Конференция по графам знаний. Меня также пригласили рассказать о моей недавней исследовательской работе, и я встречаюсь с различными исследователями и практиками Knowledge Graph. Учитывая, что это была двухдневная конференция, я был удивлен разнообразием группы спикеров и участников, которых они смогли собрать.

Поговорим о переговорах…

Мне очень понравились некоторые доклады, я узнал, что делают другие люди в этой области, а также получил некоторые идеи для расширения моей исследовательской работы. Давайте поговорим о некоторых из них, я не буду вдаваться в подробности, но расскажу о своих личных моментах и ​​выводах из них. Давайте начнем с моего доклада и еще одного от моего коллеги из AccentureLabs.

Постоянное соответствие требованиям

Мой доклад был посвящен использованию достижений в области понимания естественного языка и графика знаний для создания семантически связанной базы знаний нормативных пресс-релизов и оповещения предприятий о будущих действиях и возможных ошибках, чтобы они могли постоянно соответствовать требованиям.

  • Армия людей с очень специфическими знаниями в предметной области постоянно работает над тем, чтобы компании соответствовали требованиям.
  • Модель данных может представлять актера события и его отношение
  • Информация о конкретном событии может быть получена с помощью средств извлечения сущностей, специфичных для предметной области, и методов маркировки семантических ролей.
  • Продвижение НЛП и КГ можно использовать  — семантически связывая факты, относящиеся к предметной области, с информацией о конкретных событиях.

График знаний для Customer 360

Колин Пури из AccentureLabs выступил с докладом Джо Пиндела из Pitney Bowes. Он рассказал о нашем недавнем сотрудничестве с Pitney Bowes в области интеллектуального обслуживания клиентов с использованием Knowledge Graph. Это был отличный пример того, как AccentureLabs проводила совместные исследования и работала с клиентами.

  • Диаграмма знаний 360 может помочь с гораздо более целостным представлением — узнайте немного больше о жалобах, рекламных акциях или свяжите клиентов с наиболее подходящим поставщиком услуг как можно скорее.
  • Диаграммы знаний помогают нам понять контекст жалобы и помогают нам улучшить взаимодействие с клиентами, помогая вам сократить время ожидания звонка в службу поддержки.

WikiData — это не факты

Основатель Викиданных Денни Врандечич также рассказал о вики-данных, о том, как они работают и для чего они нужны. Мне также нравилось разговаривать с ним на разные темы во время перерыва. Очень доступный человек. Мои выводы из его выступления:

  • Независимо от того, на каком языке пользователи редактируют контент в викиданных, результат должен оставаться одинаковым на всех языках.
  • wikidata связывает более 4000 баз данных, и к нему подключаются все больше и больше баз данных.
  • Нам не нужно постоянно понимать язык — мы можем извлекать информацию, даже не понимая языка — повод для оптимизма
  • Граф знаний дает нам — очень связанный многоязычный мир

В конце концов, это просто проблема с отображением

Дитер Фенсел из Online рассказал о картировании важности для повышения точности графа знаний. Мы сосредоточились на качестве данных: данные важны

  • Нам нужны как правильные, так и неправильные примеры — использование НЛП для построения графа знаний, важно использование как успешного диалога, так и неудачного диалога.
  • Мусор на входе — Мусор на выходе
  • Для большей точности: 95–99 % знаний создаются с помощью карт.
  • Также важна оценка графа знаний на предмет правильности и заполнения.
  • Просто получить знания недостаточно, нам также необходимо их развернуть, и развертывание будет зависеть от конкретного случая использования.
  • В конце концов: это просто проблема отображения

ЧЕСТНЫЕ данные

Том Планстерер из Астразенеки говорил о необходимости объективности данных. Независимо от того, с какими данными мы работаем, они должны быть ЧЕСТНЫМИ.

ЧЕСТНЫЕ данные:

  • Гибкий
  • Доступный
  • Совместимость
  • Многоразовый

Мы не можем собирать одни и те же данные снова и снова разными способами.

График знаний != График продукта:

У каждого продукта есть история

Субхабрата Мукерджи рассказал о графике продуктов Amazon, различных методах, которые они разработали (вывод о совместных отношениях с двойным вниманием, извлечение знаний из профиля продукта под дистанционным наблюдением), проблемах и будущих направлениях исследований. Мне очень понравилось использование Совместного вывода об отношениях с двойным вниманием, чтобы понять, какие отношения станут более заметными: Стивен Спилберг, режиссер, должен иметь большее значение в результатах, чем Стивен Спилберг, актер.

Мои выводы:

  1. Просто извлечь знания недостаточно, мы также должны очистить их

2. Char CNN дает более высокий отзыв, чем двунаправленный LSTM в OpenTagger.

3. Совместное чтение ручного графа знаний и извлечение OpenIE. Будут изучены только отношения

4. Размеченные данные всегда являются узким местом. Нам нужно приложить больше усилий к подходам, основанным на неконтролируемом и активном обучении.

Глубоким моделям также нужны люди

Альфио Глиоццо из IBMResearch рассказал о различных текущих исследованиях в направлении извлечения и исправления отношений. Мои выводы:

  • Извлечение отношения затруднено. В общем — очень низкий отзыв
  • Неосторожные отношения могут быть решением. Сочетание унарного и бинарного отношения улучшает отзыв
  • Учитывая общедоступную часть PermId, можете ли вы распознать частную часть PermId?
  • Понятия словесной аналогии можно использовать для извлечения отношений, поскольку в каждой словесной аналогии есть неявное отношение.
  • Нам также нужно улучшить наши отношения, исправить их вручную. Глубокая модель не всегда является решением

Быть реалистом сложно. Где мы находимся и куда мы хотим пойти

Еще одна отличная презентация Джошуа Шинавьера из Uber. Он не вдавался в технические подробности, но поделился несколькими практическими уроками, которые он усвоил, управляя огромными данными в Uber. Он рассказал о цикле шумихи и различных графах, работающих в синергии как единый граф знаний Uber.

Мои выводы:

  • Это путь, построенный на беспорядочных данных — используйте стандарты и продвигайте их.
  • Мы не все онтологи: семантическая сеть имеет значение
  • Контролируемые словари и график метаданных работают синхронно, что дает составную взаимосвязь.
  • Время, потраченное на понимание и моделирование данных, может помочь нам быстрее масштабироваться в долгосрочной перспективе.
  • графы знаний: статический граф, граф реального времени, граф аналитики (с встраиванием ребер графа), граф метаданных, графы алгебраических свойств

Публичные данные одного человека являются личными данными другого человека

Дин Аллеманг из WorkingOntology рассказал о конфиденциальности данных. Как индексация одних и тех же данных делает их от общедоступных до строго конфиденциальных. В чем разница между телефонной книгой и обратной телефонной книгой?

мои выводы:

  • Частный набор данных и общедоступный набор данных могут помочь нам контролировать, как мы хотим использовать данные.
  • FIBO больше относится к метаданным, он мало что говорит о каких-то конкретных данных. Это дает нам атрибут данных. это метаданные
  • Модель данных может помочь нам расширять данные устойчивым образом.

Последние мысли

На мой взгляд, это была отличная конференция. Спасибо Томасу Дили, Франсуа Шарффу и другим за то, что они сделали это возможным. У него был отличный состав спикеров, освещающих такие темы, как NLP, KG, семантика, моделирование данных и различные поставщики графов знаний. Жду, когда видео появятся в сети.

Вы забронировали билет на следующий год или нет? Вы также получаете отличные клики на линии горизонта Нью-Йорка.