У меня есть основной список всех слов, используемых в наборе статей, и теперь я пытаюсь подсчитать появление каждого слова в основном списке в каждой статье. Затем я попытаюсь построить некоторые правила ассоциации для данных. Например, Мои данные могут выглядеть так:
master_wordlist = ['dog', 'cat', 'hat', 'bat', 'big']
article_a = ['dog', 'cat', 'dog','big']
article_b = ['dog', 'hat', 'big', 'big', 'big']
Мне нужно получить мои данные в этом формате:
Article dog cat hat bat big
article_a 2 1 0 0 1
article_b 1 0 1 0 3
Я изо всех сил пытаюсь сделать это преобразование, я играл с nltk, но я не могу понять, как получить счет, в котором он включает слова, которых не существует. Любая помощь будет принята с благодарностью!