Как Instabase делает «сложные данные» пригодными для использования

В Instabase мы делаем неструктурированные и структурированные данные полезными для повышения производительности бизнеса. Сложные данные или данные, которые могут использоваться только людьми, представляют собой множество серых проблем. Ежедневно эти действия выглядят как транскрибирование данных о клиентах из PDF-файлов в бизнес-системы, поиск определенных фраз в контрактах и ​​даже проверка ручной работы других людей. Инструменты, которые были разработаны для того, чтобы сделать эту информацию полезной, часто представляют собой либо непостоянные правила, либо скрытые скрытые модели машинного обучения. С учетом разнообразия сложных данных и того факта, что их окружает серая зона, лучший подход - использовать алгоритмические правила и машинное обучение для совместного использования.

Что-то вроде простой квитанции обманчиво сложно. Хотя представленная информация может быть легко обработана людьми, это не обязательно относится к компьютеру. Компьютер или бизнес-система ожидают структурированных данных с четко определенными тегами, такими как «subtotal» или «return-policy», чтобы придать им смысл или контекст.

Независимо от отрасли - финансовые услуги, страхование, здравоохранение и т. Д. - организации собирают и получают невероятные объемы данных, но они редко поступают к ним в точную форму и не имеют контекста. В результате компании тратят огромное количество времени, ресурсов и технологий на эти «сложные данные», чтобы сделать их пригодными для использования в различных целях. Для некоторых данных работают системы на основе правил. Для других форм данных могут использоваться прогнозные или вероятностные методы, такие как машинное обучение. И всегда есть подмножество исключений, которые снова попадают в руки крупных внутренних или внешних групп оперативной обработки.

Несмотря на эти инвестиции, организации продолжают сталкиваться с той же проблемой: неполные результаты из неполных решений.

Поскольку сценарии и разнообразие данных и целей обширны, философия Instabase заключается в том, что разнообразные инструменты и надлежащий контекст обеспечивают наибольший охват и полноту.

Итак, что такое серые проблемы и почему их называют серыми? Рассмотрим сходства и различия между следующими типами документов:

  • Ваш последний чек из продуктового магазина
  • Договор, заключенный между вами и поставщиком
  • Отсканированное изображение вашего паспорта

Они могут содержать общие функции, такие как дата, общее количество и, возможно, некоторые адреса или несколько позиций. Человек может идентифицировать эти функции, а затем рассматривать каждую как отдельную точку данных, когда он визуально перемещается по документу и решает, что из него извлечь. Но люди умны. Человек подсознательно использует сразу несколько техник и применяет контекст, который мотивирует его к мысли или решению.

  • Это продуктовая квитанция… есть 4 позиции мороженого по цене от 3,99 до 7,99 долларов.
  • Это договор… он действует сегодня и описывает техническое задание, сроки и материальные затраты.
  • Это мой паспорт ... Я вижу на странице несколько значений даты. Срок действия моего паспорта истекает в следующем году.

Есть несколько уровней контекста, которые мы используем для быстрого получения нужной нам информации.

  1. Во-первых, знание типа документа сформирует наши намерения и поможет нам найти то, что мы хотим. Относительное значение даты, напечатанной в паспорте, имеет гораздо больший вес, чем дата в продуктовом чеке. Не принимая сознательного решения, мы используем этот контекст, чтобы определить, что мы ищем, и почему это важно.
  2. Во-вторых, информация имеет множество контекстных подсказок, скрытых в том, как она представлена. Такие подсказки, как относительное положение на странице, метки данных или стандартные форматы даты, позволяют человеку быстро идентифицировать и точно усваивать эту информацию.

Люди не ограничиваются одним подходом. Они обрабатывают доступные детали, накладывают контекст и выбирают лучший инструмент, который часто представляет собой комбинацию инструментов. Этот процесс может показаться тривиальным с учетом приведенных выше примеров, однако, если рассматривать горы документов и входящей информации, которые организации пытаются решить, эта ментальная модель обеспечивает элегантную основу для имитации в вычислениях.

Значительные успехи были достигнуты в алгоритмическом анализе данных и машинном обучении, однако эти методы остаются разрозненными и сложными для реализации.

Независимо от того, насколько продвинутыми становятся наши инструменты, почему мы изо всех сил пытаемся дать им контекстуальную осведомленность, которую мы, люди, считаем такой врожденной?

Существует огромная возможность сделать эти методы доступными таким образом, чтобы они могли быть связаны и контекстуализированы для решения смешанного мешка сложных проблем с данными. Если рассматривать алгоритмы как эффективные ярлыки, а модели машинного обучения как контекст, лучшим решением будет гибрид - или сочетание черного и белый.

Рассмотрим договор с поставщиком, упомянутый выше. На любой странице могут быть отдельные функции, такие как дата вступления в силу, таблица материалов и соответствующие цены, но также могут быть абзацы текста, в которых излагаются условия и положения. Чтобы полностью просмотреть, извлечь и понять содержимое, две совершенно разные линзы должны пройти через один и тот же документ, чтобы извлечь и проанализировать ключевые детали. Отдельные характеристики (числа, даты, адреса) лучше всего устраняются с помощью алгоритмического извлечения, поскольку он точен и имеет понятный контрольный журнал. Напротив, интерпретация информации из предложений и абзацев (рискованных условий в контракте) лучше подходит для инструментов обработки естественного языка (NLP), которые основаны на машинном обучении.

Instabase делает сложные данные доступными для использования с помощью платформы связанных инструментов черного, белого и серого цветов.

Эти инструменты, предназначенные для неструктурированных и полуструктурированных данных, можно разделить на три основные категории: извлечение данных, обработка естественного языка и анализ документов. Хотя инструменты имеют много сильных сторон как отдельные компоненты, их общие возможности значительно возрастают, когда они накладываются друг на друга в качестве строительных блоков. Встроенный механизм рабочего процесса Instabase служит для подключения и последовательности приложений, что позволяет организациям комплексно думать о своих бизнес-процессах.

В одном потоке документ может быть преобразован в структурированный машиночитаемый текст, классифицирован на основе множества критериев, обработан для извлечения конкретных областей интереса и проанализирован с помощью моделей НЛП. Этот же поток Instabase можно настроить для получения совершенно другого набора фактов и выполнения различных анализов по сценариям, таким как контракты, финансовые отчеты, новостные статьи, отчеты о претензиях, электронные письма и т. Д. Учитывая, что описанный выше поток использует только 5 инструментов, а на платформе сегодня их около 30, пространство решаемых проблем с помощью этой структуры растет в геометрической прогрессии.

Слишком часто используемая метафора «правильный инструмент для правильной работы» не отражает того факта, что сложные проблемы редко решаются одним инструментом и требуют сочетания подходов. В любом случае, если цель состоит в том, чтобы извлечь ключевые поля из налогового документа для решения о ссуде; собирать сроки и условия, суммы в долларах и даты из контрактов с поставщиками; или для проверки веб-СМИ на наличие неблагоприятных новостных событий; всеобъемлющий набор инструментов, который предлагает контекст, неоценим. Разбивая сложные аспекты сложных данных на компоненты, которые могут решить знакомые инструменты, Instabase меняет способ, которым отдельные лица, группы и организации могут использовать информацию в ее наиболее сырой форме. Чтобы эффективно решать серые проблемы, которые представляют собой сложные данные сегодня, и быть готовыми к решению многих, которые возникнут в будущем, следует использовать набор инструментов, который является как контекстным, так и разнообразным необходимо.