Автоматическая организация тегов в Tax/Folksonomy

Я работаю над процессом, который будет выполнять обработку естественного языка (NLP) на одном-- и, возможно, несколько наших содержательных сайтов. Что я хотел бы сделать после завершения НЛП, так это автоматически организовать вывод (как правило, набор терминов, которые вы могли бы рассматривать как теги, учитывая распространенность этой метафоры) в некую стандартную или общепринятую организационную структуру.

В идеальном мире я бы очень хотел, чтобы это было краудсорсингом в соответствии с концепцией фолксономии (в отличие от таксономии), поскольку конечная цель состоит в том, чтобы нацеливаться / обращаться к реальным людям, а не к «экспертам в предметной области», но я открыт к идеям и лучшим практикам. С очевидной целью масштабируемости я хотел бы автоматизировать заполнение этой налоговой/фольксономии, чтобы «какой-то парень» в команде/организации не отвечал за просмотр кучи слов (в контексте или без контекста) и произвольно уточнение контекстных компонентов дерева.

У меня есть несколько идей для этого, которые требуют некоторых исследований для подтверждения жизнеспособности, но у меня ровно нулевой практический опыт в подобных вещах, поэтому идеи на самом деле просто сводятся к вещам, которые я придумал, которые могут сыграть некоторую роль в выполнении задачи. Воображая, что у других гораздо больше опыта в подобных вещах, я надеюсь, что смогу встать на ваши плечи.

Спасибо за ваши мысли и идеи.

Практический пример

Я проверил НЛП по статье о моем собственный блог. НЛП вернуло следующие термины с достаточным уровнем релевантности:

  • Роб Вилкерсон
  • изменять
  • Гит

Теперь я хочу поместить эти термины в налоговую/фольксономию без вмешательства человека. В этом случае термины «Git» и «Роб Вилкерсон» могут быть классифицированы — в процессе есть или будет дополнительная оговорка, которая удалит термины из структуры, если эти термины не вызывают достаточного внимания, чтобы их стоило отслеживать. . С другой стороны, «изменение», вероятно, слишком расплывчато/двусмысленно, чтобы оно того стоило.


person Rob Wilkerson    schedule 13.05.2010    source источник
comment
Звучит как расплывчатый вопрос... автоматически организовать... набор терминов... в какую-то стандартную или общепринятую организационную структуру Можно поконкретнее? Обратите внимание, у меня нет опыта работы с этим доменом... поэтому, возможно, ваш вопрос достаточно конкретен.   -  person Daniel Beardsley    schedule 14.05.2010


Ответы (1)


Похоже на Freebase, возможно, в сочетании с DBpedia может быть именно тем, что я искал.

person Rob Wilkerson    schedule 25.05.2010