Кластеризация неоднородных журналов без метки с использованием BERT (неконтролируемое обучение)

У меня есть файл журнала, который содержит журналы различных служб, таких как apache, Hadoop, spark, ssh, HDFS, HPC и многие другие типы журналов в одном файле. Я токенизирую журналы с помощью BERT FullTokenizer. Я также вижу этот вопрос, но не понимаю интуиции. Я хочу сгруппировать вышеупомянутые журналы и визуализировать их графически с помощью модели BERT. Мы будем благодарны за любые предложения относительно этой задачи или любую полезную документацию.


person zawster    schedule 31.08.2020    source источник