У меня есть помеченный человеком корпус из более чем 5000 тематических индексированных документов в XML. Они различаются по размеру от нескольких сотен килобайт до нескольких сотен мегабайт. От коротких статей до рукописей. Все они были проиндексированы на уровне абзаца. Мне повезло, что у меня есть такой корпус, и я пытаюсь научить себя некоторым концепциям НЛП. Признаться, я только начал. Пока читал только свободно доступную книгу NLTK, streamhacker и просматривал кулинарную книгу jacobs(?) NLTK. Мне нравится экспериментировать с некоторыми идеями.
Мне было предложено, что, возможно, я мог бы взять биграммы и использовать наивную байесовскую классификацию для маркировки новых документов. Мне кажется, что это неправильный подход. Наивный Байес хорошо разбирается в отношениях истинного/ложного типа, но чтобы использовать его в моем иерархическом наборе тегов, мне нужно было бы создать новый классификатор для каждого тега. Почти 1000 из них. У меня достаточно памяти и мощности процессора для выполнения такой задачи, но я скептически отношусь к результатам. Тем не менее, я сначала попробую этот подход, чтобы удовлетворить чью-то просьбу. Я, вероятно, должен сделать это в течение следующего дня или двух, но я предсказываю, что точность будет низкой.
Так что мой вопрос немного открытый. В основном из-за характера дисциплины и общего незнания моих данных, вероятно, будет трудно дать точный ответ.
Какой тип классификатора подходит для этой задачи. Был ли я не прав, можно ли использовать байесовский алгоритм для более чем истинного/ложного типа операций.
какое извлечение функций я должен выполнить для такой задачи. Я не ожидаю многого от биграмм.
Каждый документ также содержит некоторую информацию для цитирования, включая автора/ов, пол авторов m,f,mix(m&f) и др. (государственный институт и др.), тип документа, дату публикации (с 16 века по настоящее время) , человеческий аналитик и несколько других общих элементов. Я также был бы признателен за некоторые полезные описательные задачи, которые помогут лучше исследовать эти данные на предмет гендерной предвзятости, предвзятости аналитиков и т. Д. Но понимаю, что это немного выходит за рамки этого вопроса.