Семантическое путешествие в Нью-Йорк: Конференция «График знаний» -2019
Краткий обзор моих (и многих других) выступлений на КГК-2019
Конференция
На этой неделе в Школе профессиональных исследований Колумбийского университета в кампусе Морнингсайд в Нью-Йорке прошла Конференция по графам знаний. Меня также пригласили рассказать о моей недавней исследовательской работе, и я встречаюсь с различными исследователями и практиками Knowledge Graph. Учитывая, что это была двухдневная конференция, я был удивлен разнообразием группы спикеров и участников, которых они смогли собрать.
Поговорим о переговорах…
Мне очень понравились некоторые доклады, я узнал, что делают другие люди в этой области, а также получил некоторые идеи для расширения моей исследовательской работы. Давайте поговорим о некоторых из них, я не буду вдаваться в подробности, но расскажу о своих личных моментах и выводах из них. Давайте начнем с моего доклада и еще одного от моего коллеги из AccentureLabs.
Постоянное соответствие требованиям
Мой доклад был посвящен использованию достижений в области понимания естественного языка и графика знаний для создания семантически связанной базы знаний нормативных пресс-релизов и оповещения предприятий о будущих действиях и возможных ошибках, чтобы они могли постоянно соответствовать требованиям.
- Армия людей с очень специфическими знаниями в предметной области постоянно работает над тем, чтобы компании соответствовали требованиям.
- Модель данных может представлять актера события и его отношение
- Информация о конкретном событии может быть получена с помощью средств извлечения сущностей, специфичных для предметной области, и методов маркировки семантических ролей.
- Продвижение НЛП и КГ можно использовать — семантически связывая факты, относящиеся к предметной области, с информацией о конкретных событиях.
График знаний для Customer 360
Колин Пури из AccentureLabs выступил с докладом Джо Пиндела из Pitney Bowes. Он рассказал о нашем недавнем сотрудничестве с Pitney Bowes в области интеллектуального обслуживания клиентов с использованием Knowledge Graph. Это был отличный пример того, как AccentureLabs проводила совместные исследования и работала с клиентами.
- Диаграмма знаний 360 может помочь с гораздо более целостным представлением — узнайте немного больше о жалобах, рекламных акциях или свяжите клиентов с наиболее подходящим поставщиком услуг как можно скорее.
- Диаграммы знаний помогают нам понять контекст жалобы и помогают нам улучшить взаимодействие с клиентами, помогая вам сократить время ожидания звонка в службу поддержки.
WikiData — это не факты
Основатель Викиданных Денни Врандечич также рассказал о вики-данных, о том, как они работают и для чего они нужны. Мне также нравилось разговаривать с ним на разные темы во время перерыва. Очень доступный человек. Мои выводы из его выступления:
- Независимо от того, на каком языке пользователи редактируют контент в викиданных, результат должен оставаться одинаковым на всех языках.
- wikidata связывает более 4000 баз данных, и к нему подключаются все больше и больше баз данных.
- Нам не нужно постоянно понимать язык — мы можем извлекать информацию, даже не понимая языка — повод для оптимизма
- Граф знаний дает нам — очень связанный многоязычный мир
В конце концов, это просто проблема с отображением
Дитер Фенсел из Online рассказал о картировании важности для повышения точности графа знаний. Мы сосредоточились на качестве данных: данные важны
- Нам нужны как правильные, так и неправильные примеры — использование НЛП для построения графа знаний, важно использование как успешного диалога, так и неудачного диалога.
- Мусор на входе — Мусор на выходе
- Для большей точности: 95–99 % знаний создаются с помощью карт.
- Также важна оценка графа знаний на предмет правильности и заполнения.
- Просто получить знания недостаточно, нам также необходимо их развернуть, и развертывание будет зависеть от конкретного случая использования.
- В конце концов: это просто проблема отображения
ЧЕСТНЫЕ данные
Том Планстерер из Астразенеки говорил о необходимости объективности данных. Независимо от того, с какими данными мы работаем, они должны быть ЧЕСТНЫМИ.
ЧЕСТНЫЕ данные:
- Гибкий
- Доступный
- Совместимость
- Многоразовый
Мы не можем собирать одни и те же данные снова и снова разными способами.
График знаний != График продукта:
У каждого продукта есть история
Субхабрата Мукерджи рассказал о графике продуктов Amazon, различных методах, которые они разработали (вывод о совместных отношениях с двойным вниманием, извлечение знаний из профиля продукта под дистанционным наблюдением), проблемах и будущих направлениях исследований. Мне очень понравилось использование Совместного вывода об отношениях с двойным вниманием, чтобы понять, какие отношения станут более заметными: Стивен Спилберг, режиссер, должен иметь большее значение в результатах, чем Стивен Спилберг, актер.
Мои выводы:
- Просто извлечь знания недостаточно, мы также должны очистить их
2. Char CNN дает более высокий отзыв, чем двунаправленный LSTM в OpenTagger.
3. Совместное чтение ручного графа знаний и извлечение OpenIE. Будут изучены только отношения
4. Размеченные данные всегда являются узким местом. Нам нужно приложить больше усилий к подходам, основанным на неконтролируемом и активном обучении.
Глубоким моделям также нужны люди
Альфио Глиоццо из IBMResearch рассказал о различных текущих исследованиях в направлении извлечения и исправления отношений. Мои выводы:
- Извлечение отношения затруднено. В общем — очень низкий отзыв
- Неосторожные отношения могут быть решением. Сочетание унарного и бинарного отношения улучшает отзыв
- Учитывая общедоступную часть PermId, можете ли вы распознать частную часть PermId?
- Понятия словесной аналогии можно использовать для извлечения отношений, поскольку в каждой словесной аналогии есть неявное отношение.
- Нам также нужно улучшить наши отношения, исправить их вручную. Глубокая модель не всегда является решением
Быть реалистом сложно. Где мы находимся и куда мы хотим пойти
Еще одна отличная презентация Джошуа Шинавьера из Uber. Он не вдавался в технические подробности, но поделился несколькими практическими уроками, которые он усвоил, управляя огромными данными в Uber. Он рассказал о цикле шумихи и различных графах, работающих в синергии как единый граф знаний Uber.
Мои выводы:
- Это путь, построенный на беспорядочных данных — используйте стандарты и продвигайте их.
- Мы не все онтологи: семантическая сеть имеет значение
- Контролируемые словари и график метаданных работают синхронно, что дает составную взаимосвязь.
- Время, потраченное на понимание и моделирование данных, может помочь нам быстрее масштабироваться в долгосрочной перспективе.
- графы знаний: статический граф, граф реального времени, граф аналитики (с встраиванием ребер графа), граф метаданных, графы алгебраических свойств
Публичные данные одного человека являются личными данными другого человека
Дин Аллеманг из WorkingOntology рассказал о конфиденциальности данных. Как индексация одних и тех же данных делает их от общедоступных до строго конфиденциальных. В чем разница между телефонной книгой и обратной телефонной книгой?
мои выводы:
- Частный набор данных и общедоступный набор данных могут помочь нам контролировать, как мы хотим использовать данные.
- FIBO больше относится к метаданным, он мало что говорит о каких-то конкретных данных. Это дает нам атрибут данных. это метаданные
- Модель данных может помочь нам расширять данные устойчивым образом.
Последние мысли
На мой взгляд, это была отличная конференция. Спасибо Томасу Дили, Франсуа Шарффу и другим за то, что они сделали это возможным. У него был отличный состав спикеров, освещающих такие темы, как NLP, KG, семантика, моделирование данных и различные поставщики графов знаний. Жду, когда видео появятся в сети.
Вы забронировали билет на следующий год или нет? Вы также получаете отличные клики на линии горизонта Нью-Йорка.