Я работаю над процессом, который будет выполнять обработку естественного языка (NLP) на одном-- и, возможно, несколько наших содержательных сайтов. Что я хотел бы сделать после завершения НЛП, так это автоматически организовать вывод (как правило, набор терминов, которые вы могли бы рассматривать как теги, учитывая распространенность этой метафоры) в некую стандартную или общепринятую организационную структуру.
В идеальном мире я бы очень хотел, чтобы это было краудсорсингом в соответствии с концепцией фолксономии (в отличие от таксономии), поскольку конечная цель состоит в том, чтобы нацеливаться / обращаться к реальным людям, а не к «экспертам в предметной области», но я открыт к идеям и лучшим практикам. С очевидной целью масштабируемости я хотел бы автоматизировать заполнение этой налоговой/фольксономии, чтобы «какой-то парень» в команде/организации не отвечал за просмотр кучи слов (в контексте или без контекста) и произвольно уточнение контекстных компонентов дерева.
У меня есть несколько идей для этого, которые требуют некоторых исследований для подтверждения жизнеспособности, но у меня ровно нулевой практический опыт в подобных вещах, поэтому идеи на самом деле просто сводятся к вещам, которые я придумал, которые могут сыграть некоторую роль в выполнении задачи. Воображая, что у других гораздо больше опыта в подобных вещах, я надеюсь, что смогу встать на ваши плечи.
Спасибо за ваши мысли и идеи.
Практический пример
Я проверил НЛП по статье о моем собственный блог. НЛП вернуло следующие термины с достаточным уровнем релевантности:
- Роб Вилкерсон
- изменять
- Гит
Теперь я хочу поместить эти термины в налоговую/фольксономию без вмешательства человека. В этом случае термины «Git» и «Роб Вилкерсон» могут быть классифицированы — в процессе есть или будет дополнительная оговорка, которая удалит термины из структуры, если эти термины не вызывают достаточного внимания, чтобы их стоило отслеживать. . С другой стороны, «изменение», вероятно, слишком расплывчато/двусмысленно, чтобы оно того стоило.