Я ищу наиболее эффективный и простой способ классифицировать более 800 тысяч научных статей как релевантные (1) или нерелевантные (0) по отношению к определенному концептуальному пространству (здесь: обучение в отношении работы).
Данные: заголовок и аннотация (среднее значение = 1300 символов)
Можно использовать или даже комбинировать любые подходы, включая контролируемое машинное обучение и / или путем создания функций, которые, среди прочего, приводят к некоторым пороговым значениям для включения.
Подходы могут основываться на ключевых терминах, описывающих концептуальное пространство, только подсчет частоты слишком ненадежен. Потенциальные возможности могут включать латентный семантический анализ, n-граммы, ..
Создание обучающих данных может быть реалистичным для 1% корпуса, хотя это уже означает ручное кодирование 8000 статей (1 = актуально, 0 = нерелевантно), будет ли этого достаточно?
Мы очень ценим конкретные идеи и некоторые краткие рассуждения, поэтому я могу принять обоснованное решение о том, как действовать дальше. Большое спасибо!