Семантическое путешествие в Нью-Йорк: Конференция «График знаний» -2019

Краткий обзор моих (и многих других) выступлений на КГК-2019

Конференция

На этой неделе в Школе профессиональных исследований Колумбийского университета в кампусе Морнингсайд в Нью-Йорке прошла Конференция по графам знаний. Меня также пригласили рассказать о моей недавней исследовательской работе, и я встречаюсь с различными исследователями и практиками Knowledge Graph. Учитывая, что это была двухдневная конференция, я был удивлен разнообразием группы спикеров и участников, которых они смогли собрать.

Поговорим о переговорах…

Мне очень понравились некоторые доклады, я узнал, что делают другие люди в этой области, а также получил некоторые идеи для расширения моей исследовательской работы. Давайте поговорим о некоторых из них, я не буду вдаваться в подробности, но расскажу о своих личных моментах и выводах из них. Давайте начнем с моего доклада и еще одного от моего коллеги из AccentureLabs.

Постоянное соответствие требованиям

Мой доклад был посвящен использованию достижений в области понимания естественного языка и графика знаний для создания семантически связанной базы знаний нормативных пресс-релизов и оповещения предприятий о будущих действиях и возможных ошибках, чтобы они могли постоянно соответствовать требованиям.

Армия людей с очень специфическими знаниями в предметной области постоянно работает над тем, чтобы компании соответствовали требованиям.
Модель данных может представлять актера события и его отношение
Информация о конкретном событии может быть получена с помощью средств извлечения сущностей, специфичных для предметной области, и методов маркировки семантических ролей.
Продвижение НЛП и КГ можно использовать — семантически связывая факты, относящиеся к предметной области, с информацией о конкретных событиях.

График знаний для Customer 360

Колин Пури из AccentureLabs выступил с докладом Джо Пиндела из Pitney Bowes. Он рассказал о нашем недавнем сотрудничестве с Pitney Bowes в области интеллектуального обслуживания клиентов с использованием Knowledge Graph. Это был отличный пример того, как AccentureLabs проводила совместные исследования и работала с клиентами.

Диаграмма знаний 360 может помочь с гораздо более целостным представлением — узнайте немного больше о жалобах, рекламных акциях или свяжите клиентов с наиболее подходящим поставщиком услуг как можно скорее.
Диаграммы знаний помогают нам понять контекст жалобы и помогают нам улучшить взаимодействие с клиентами, помогая вам сократить время ожидания звонка в службу поддержки.

WikiData — это не факты

Основатель Викиданных Денни Врандечич также рассказал о вики-данных, о том, как они работают и для чего они нужны. Мне также нравилось разговаривать с ним на разные темы во время перерыва. Очень доступный человек. Мои выводы из его выступления:

Независимо от того, на каком языке пользователи редактируют контент в викиданных, результат должен оставаться одинаковым на всех языках.
wikidata связывает более 4000 баз данных, и к нему подключаются все больше и больше баз данных.
Нам не нужно постоянно понимать язык — мы можем извлекать информацию, даже не понимая языка — повод для оптимизма
Граф знаний дает нам — очень связанный многоязычный мир

В конце концов, это просто проблема с отображением

Дитер Фенсел из Online рассказал о картировании важности для повышения точности графа знаний. Мы сосредоточились на качестве данных: данные важны

Нам нужны как правильные, так и неправильные примеры — использование НЛП для построения графа знаний, важно использование как успешного диалога, так и неудачного диалога.
Мусор на входе — Мусор на выходе
Для большей точности: 95–99 % знаний создаются с помощью карт.
Также важна оценка графа знаний на предмет правильности и заполнения.
Просто получить знания недостаточно, нам также необходимо их развернуть, и развертывание будет зависеть от конкретного случая использования.
В конце концов: это просто проблема отображения

ЧЕСТНЫЕ данные

Том Планстерер из Астразенеки говорил о необходимости объективности данных. Независимо от того, с какими данными мы работаем, они должны быть ЧЕСТНЫМИ.

ЧЕСТНЫЕ данные:

Гибкий
Доступный
Совместимость
Многоразовый

Мы не можем собирать одни и те же данные снова и снова разными способами.

График знаний != График продукта:

У каждого продукта есть история

Субхабрата Мукерджи рассказал о графике продуктов Amazon, различных методах, которые они разработали (вывод о совместных отношениях с двойным вниманием, извлечение знаний из профиля продукта под дистанционным наблюдением), проблемах и будущих направлениях исследований. Мне очень понравилось использование Совместного вывода об отношениях с двойным вниманием, чтобы понять, какие отношения станут более заметными: Стивен Спилберг, режиссер, должен иметь большее значение в результатах, чем Стивен Спилберг, актер.

Мои выводы:

Просто извлечь знания недостаточно, мы также должны очистить их

2. Char CNN дает более высокий отзыв, чем двунаправленный LSTM в OpenTagger.

3. Совместное чтение ручного графа знаний и извлечение OpenIE. Будут изучены только отношения

4. Размеченные данные всегда являются узким местом. Нам нужно приложить больше усилий к подходам, основанным на неконтролируемом и активном обучении.

Глубоким моделям также нужны люди

Альфио Глиоццо из IBMResearch рассказал о различных текущих исследованиях в направлении извлечения и исправления отношений. Мои выводы:

Извлечение отношения затруднено. В общем — очень низкий отзыв
Неосторожные отношения могут быть решением. Сочетание унарного и бинарного отношения улучшает отзыв
Учитывая общедоступную часть PermId, можете ли вы распознать частную часть PermId?
Понятия словесной аналогии можно использовать для извлечения отношений, поскольку в каждой словесной аналогии есть неявное отношение.
Нам также нужно улучшить наши отношения, исправить их вручную. Глубокая модель не всегда является решением

Быть реалистом сложно. Где мы находимся и куда мы хотим пойти

Еще одна отличная презентация Джошуа Шинавьера из Uber. Он не вдавался в технические подробности, но поделился несколькими практическими уроками, которые он усвоил, управляя огромными данными в Uber. Он рассказал о цикле шумихи и различных графах, работающих в синергии как единый граф знаний Uber.

Мои выводы:

Это путь, построенный на беспорядочных данных — используйте стандарты и продвигайте их.
Мы не все онтологи: семантическая сеть имеет значение
Контролируемые словари и график метаданных работают синхронно, что дает составную взаимосвязь.
Время, потраченное на понимание и моделирование данных, может помочь нам быстрее масштабироваться в долгосрочной перспективе.
графы знаний: статический граф, граф реального времени, граф аналитики (с встраиванием ребер графа), граф метаданных, графы алгебраических свойств

Публичные данные одного человека являются личными данными другого человека

Дин Аллеманг из WorkingOntology рассказал о конфиденциальности данных. Как индексация одних и тех же данных делает их от общедоступных до строго конфиденциальных. В чем разница между телефонной книгой и обратной телефонной книгой?

мои выводы:

Частный набор данных и общедоступный набор данных могут помочь нам контролировать, как мы хотим использовать данные.
FIBO больше относится к метаданным, он мало что говорит о каких-то конкретных данных. Это дает нам атрибут данных. это метаданные
Модель данных может помочь нам расширять данные устойчивым образом.

Последние мысли

На мой взгляд, это была отличная конференция. Спасибо Томасу Дили, Франсуа Шарффу и другим за то, что они сделали это возможным. У него был отличный состав спикеров, освещающих такие темы, как NLP, KG, семантика, моделирование данных и различные поставщики графов знаний. Жду, когда видео появятся в сети.

Вы забронировали билет на следующий год или нет? Вы также получаете отличные клики на линии горизонта Нью-Йорка.

Семантическое путешествие в Нью-Йорк: Конференция «График знаний» -2019