Я хотел бы получить некоторые данные из текстового файла. Я решил сделать это с помощью Natural Language Toolkit, но я открыт для предложений, если есть лучший способ сделать это.
Вот пример:
Мне нужен рейс из Нью-Йорка, штат Нью-Йорк, в Сан-Франциско, Калифорния.
Из этого текста я хотел бы получить город и штат для отправления и назначения.
Вот что у меня есть до сих пор:
import nltk
from nltk.text import *
from nltk.corpus import PlaintextCorpusReader
def readfiles():
corpus_root = 'C:\prototype\emails'
w = PlaintextCorpusReader(corpus_root, '.*')
t = Text(w.words())
print "--- to ----"
print t.concordance("to")
print "--- from ----"
print t.concordance("from")
Я могу прочитать текст из некоторого ввода (файл в моем случае), а затем использовать concordance метод, чтобы найти все случаи его использования. Я хочу извлечь город, информацию о состоянии, которая идет после «до» и «от».
Вопрос в том, как лучше всего смотреть на текст, который находится после экземпляров «до» и «от»?