Допустим, у меня есть свободный текст, заполненный информацией о конкретных автомобилях, марках автомобилей и другой информацией, связанной с автомобилями. Я хочу извлечь эту информацию из текста по определенному шаблону:
- Бренд:
- Модель:
- Цвет:
Например: «Майк уехал на черном «Мерседесе» с еще четырьмя людьми. Кроме того, в Европе у него есть BMW M3».
Шаблон 1: Марка: Mercedes, Модель: -, Цвет: Черный
Шаблон 2: Марка: BMW, Модель: M3, Цвет: -
Каков наилучший способ решить эту проблему в Python? Хотя у меня есть некоторые знания о NLTK, тегах POS и NP-chunking, я думаю, что это можно было бы сделать проще, когда я смогу распознавать определенные термины, например, из (вложенного) словаря, который содержит списки. Таким образом, он будет вести себя как контролируемый словарь.
Надеюсь, у кого-то есть хороший пример или он может указать мне правильное направление. Спасибо