Как сохранить извлеченный текст из изображений в структурированном формате в файле txt/doc

Поскольку я хочу извлечь текст из изображений (это выписка о банковской транзакции), что я успешно сделал. Но это дает мне необработанные данные. Не в структурированном формате, как показано на изображении.

Я пытался сделать это, играя с их вершинами. Но я только что нашел значение «описание» и «вершины» в формате списка. Как мне двигаться дальше, чтобы сохранить его в файле doc/txt в хорошо структурированном формате?

Мой код:

os.environ["GOOGLE_APPLICATION_CREDENTIALS"]="C:\\Users\\...."
client = ImageAnnotatorClient()
list1=[]
list2=[]
def detect_text(Image_path):
    with io.open(Image_path, 'rb') as image_file:
        content = image_file.read()

    image = vision.types.Image(content=content)
    response = client.text_detection(image=image)
    web_content = response.web_detection
    web_content.best_guess_labels

    texts = response.text_annotations

    for text in texts:
        #print (text)
        for vertex in text.bounding_poly.vertices:

            list1.append(vertex)

        b=[text.description for text in texts]

    list2=b[1:]
    print(list2)
    print(list1)
detect_text(Image_path)

Я получил вывод следующим образом:

['IDBI', 'BANK', 'Customer', 'ID'......]
[x: 229
y: 241
, x: 2331
y: 241
, x: 2331
y: 3350
, x: 229
...
...
]

Но ожидается: получить вывод в виде банковской выписки, похожей на то, что в структурированном формате. Который я могу плавно сохранить и отобразить в файле txt/doc


person NehaliG    schedule 28.03.2019    source источник


Ответы (1)


Я бы порекомендовал вам использовать библиотеку texttract вместо любых других вещей.

Справочная ссылка — https://text.readthedocs.io/en/stable/

Надеюсь это поможет.

person Naitik Chandak    schedule 28.03.2019
comment
найдена ошибка.: ShellError: Ошибка команды tesseract C:\Users\MUDRAC~1\AppData\Local\Temp\tmp8lxlnr38\conv-1.ppm stdout -l nor с кодом выхода 127 ------------- stdout ------------- --------- ---- stderr ------------- - person NehaliG; 29.03.2019
comment
Не могли бы вы поделиться скриншотом вашего кода с ошибкой? - person Naitik Chandak; 29.03.2019
comment
Эта ошибка дает мне, когда путь к изображению есть, в pdf он будет работать нормально. но его вывод такой же, как работа API видения Google. Моя проблема заключается в том, чтобы сохранить эти извлеченные текстовые данные в формате структур в файле txt/doc. - person NehaliG; 30.03.2019