Мы все слышали о том, что AI/ML используется для удивительных вещей, таких как питание вашего голосового помощника, создание красивых изображений и предсказание формы всех известных белков, но если вы новичок в этой области, разработчик Как вы можете начать использовать AI/ML сегодня в своих хобби-проектах?

Я пробовал некоторые новые инструменты AI/ML для разработчиков и использовал их, чтобы сделать что-то (хотя бы немного) полезное для себя. В этом посте я продолжу знакомство с инструментами обработки документов Azure и Google Cloud на основе машинного обучения, начатое ранее, на этот раз, чтобы использовать их для анализа фотографий, сделанных мной для моих квитанций за газ с 2017 по 2022 год. Мы видим, насколько хорошо работают эти инструменты машинного зрения, а также даем нам еще одну возможность пожалеть себя о том, насколько больше газа теперь стоит :)

Изображения документов, как правило, немного сложнее анализировать, чем их цифровые эквиваленты, потому что, как вы можете видеть на снимках экрана выше, некоторые из этих квитанций немного смяты или изогнуты, а часть текста блеклая или размытая. Все эти и подобные проблемы создают проблемы для правильного извлечения текста.

Для этого проекта я проанализировал 51 квитанцию ​​за газ с 2017 по 2022 год. Во всех этих квитанциях есть позиция, начинающаяся с «PRICE/GAL» или «PRICE/G», за которой следует цена за единицу, см. пример снимка экрана ниже.

Обратите внимание, что я нашел в своем фотоальбоме еще 3 квитанции более необычного формата, и они были исключены.

Я использовал Azure Form Recognizer и Google Cloud Document AI Form Parser для анализа этих квитанций. Эти два инструмента кажутся прямыми конкурентами друг друга, поскольку они берут одинаковые входные данные, производят аналогичные результаты и берут одинаковые суммы (больших) денег.

После того, как мы проанализировали данные, мы можем изобразить их на графике, чтобы увидеть досадное изображение нашего текущего энергетического кризиса.

В целом средства обработки документов Azure и Google Cloud работали хорошо. Читайте дальше, чтобы узнать больше.

Результаты распознавания форм Azure

Azure Form Recognizer в основном смог правильно проанализировать все 51 квитанцию ​​как пары ключ/значение формы. Из них было несколько нарушений. Например, на следующем скриншоте из Azure Form Recognizer Studio цена была распознана как 3,699 $ (обведено красным), и непонятно, почему знак доллара поставили в конце, а не в начале. Несмотря на это, эти незначительные проблемы было легко решить на этапе постобработки.

Результаты синтаксического анализатора формы Google Cloud Document AI

Из 51 квитанции Google Cloud Document AI Form Parser успешно преобразовал 42 в поля формы. Еще несколько были примерно правильно извлечены в таблицы и/или в необработанный текст OCR. Было 3 квитанции, которые не вернули результаты, которые можно было использовать, включая одно изображение, для которого система вернула внутреннюю ошибку сервера HTTP 500.

Пример непригодного результата показан на скриншоте ниже, как показано на онлайн-тестовой площадке. Цена за единицу должна была быть извлечена как 3,089 доллара. Однако он был зажат вместе с большим количеством окружающего текста и возвращен как значение для ключа с именем REGULAR CR.

Заключительные мысли

В целом, для моей относительно простой задачи с использованием небольшого набора образцов и Azure Form Recognizer, и Google Cloud Document AI Form Parser были просты в использовании и работали хорошо, хотя я бы отдал преимущество Azure. С точки зрения любителя, Azure также предоставляет приятный бонус в виде уровня бесплатного пользования, который поможет вам начать работу. Если вам нужны эти возможности, проверьте их!

Код, используемый для этого проекта, находится здесь.

Если вы хотите связаться с нами, отправьте мне сообщение прямо здесь, на Medium.

Спасибо за прочтение!