Оглавление

  1. Что такое компьютерное зрение
  2. История компьютерного зрения
  3. Как работает компьютерное зрение
  4. Эволюция компьютерного зрения
  5. Вычислительная мощность — какая вычислительная мощность вам нужна для компьютерного зрения
  6. Заключение

Что такое компьютерное зрение:

Компьютерное зрение — это область компьютерных наук, которая фокусируется на создании цифровых систем, которые могут обрабатывать, анализировать и понимать визуальные данные (изображения или видео) так же, как это делают люди. Концепция компьютерного зрения основана на обучении компьютеров обрабатывать изображение на уровне пикселей и понимать его. Технически машины пытаются получить визуальную информацию, обработать ее и интерпретировать результаты с помощью специальных программных алгоритмов.

Согласно Wiki, Компьютерное зрение — это междисциплинарная научная область, изучающая, как компьютеры могут получать высокоуровневое понимание из цифровых изображений или видео. С точки зрения инженерии он стремится понять и автоматизировать задачи, которые может выполнять человеческая зрительная система.

История компьютерного зрения:

Ранние эксперименты в области компьютерного зрения проводились в 1950-х годах, когда использовались одни из первых нейронных сетей для обнаружения краев объекта и сортировки простых объектов по категориям, таким как круги и квадраты. В 1970-х годах первое коммерческое использование компьютерного зрения для интерпретации печатного или рукописного текста с использованием оптического распознавания символов. Это достижение использовалось для интерпретации письменного текста для слепых.

По мере того, как в 1990-х годах интернет развивался, делая большие наборы изображений доступными онлайн для анализа, программы распознавания лиц процветали. Эти растущие наборы данных помогли машинам идентифицировать конкретных людей на фотографиях и видео.

Сегодня несколько факторов привели к возрождению компьютерного зрения:

  1. Вычислительная мощность стала более доступной и доступной.
  2. Аппаратное обеспечение, предназначенное для компьютерного зрения и анализа, более доступно.
  3. Новые алгоритмы, такие как сверточные нейронные сети (CNN), могут использовать преимущества аппаратных и программных возможностей.
  4. Мобильная техника со встроенными камерами насытила мир фотографиями и видео.

Влияние этих достижений на область компьютерного зрения было поразительным. Показатели точности идентификации и классификации объектов выросли с 50 до 99 процентов менее чем за десятилетие, и сегодняшние системы более точны, чем люди, в быстром обнаружении и реагировании на визуальные входные данные.

Как работает компьютерное зрение:

Технология компьютерного зрения имеет тенденцию имитировать работу человеческого мозга. Но как наш мозг справляется с распознаванием визуальных объектов? Одна из популярных гипотез гласит, что наш мозг полагается на шаблоны для декодирования отдельных объектов. Эта концепция используется для создания систем компьютерного зрения.

Алгоритмы компьютерного зрения, которые мы используем сегодня, основаны на распознавании образов. Мы обучаем компьютеры на огромном количестве визуальных данных — компьютеры обрабатывают изображения, маркируют объекты на них и находят закономерности в этих объектах. Например, если мы отправим миллион изображений цветов, компьютер проанализирует их, выявит закономерности, похожие на все цветы, и в конце этого процесса создаст модель «цветок». В результате компьютер сможет точно определять, является ли то или иное изображение цветком каждый раз, когда мы отправляем им картинки.

Вкратце, Computer Vision работает в три основных этапа:

  1. Получение изображения. Изображения, даже большие наборы, можно получать в режиме реального времени с помощью видео, фотографий или 3D-технологий для анализа.
  2. Обработка изображения: модели глубокого обучения автоматизируют большую часть этого процесса, но модели часто обучаются, сначала получая тысячи помеченных или предварительно идентифицированных изображений.
  3. Понимание изображения: последний шаг — интерпретация, когда объект идентифицируется или классифицируется.

Эволюция компьютерного зрения:

Компьютерное зрение — не новая технология; первые эксперименты с компьютерным зрением начались в 1950-х, и тогда оно использовалось для интерпретации машинописного и рукописного текста. В то время процедуры анализа компьютерного зрения были относительно простыми, но требовали большой работы от людей-операторов, которым приходилось вручную предоставлять образцы данных для анализа. Как вы, наверное, догадались, было сложно предоставить много данных, делая это вручную. Кроме того, вычислительная мощность была недостаточно хороша, поэтому погрешность для этого анализа была довольно высокой.

Сегодня у нас нет недостатка в вычислительной мощности. Облачные вычисления в сочетании с надежными алгоритмами могут помочь нам решить даже самые сложные проблемы. Но не только новое оборудование в сочетании со сложными алгоритмами двигает вперед технологию компьютерного зрения; впечатляющее количество общедоступных визуальных данных, которые мы генерируем каждый день, отвечает за недавний процесс этой технологии. По данным Forbes, ежедневно пользователи выкладывают в сеть более трех миллиардов изображений, и эти данные используются для обучения систем компьютерного зрения.

Сегодняшние системы ИИ могут пойти еще дальше и предпринимать действия, основанные на понимании изображения. Существует множество типов компьютерного зрения, которые используются по-разному:

  • Сегментация изображения разделяет изображение на несколько областей или частей, которые необходимо исследовать отдельно.
  • Обнаружение объекта идентифицирует конкретный объект на изображении. Расширенное обнаружение объектов распознает множество объектов на одном изображении: футбольное поле, нападающий, защитник, мяч и так далее. Эти модели используют координаты X, Y для создания ограничивающей рамки и идентификации всего, что находится внутри рамки.
  • Распознавание лиц — это расширенный тип обнаружения объектов, который не только распознает человеческое лицо на изображении, но и идентифицирует конкретного человека.
  • Обнаружение краев — это метод, используемый для определения внешнего края объекта или ландшафта, чтобы лучше определить, что находится на изображении.
  • Обнаружение образов — это процесс распознавания повторяющихся форм, цветов и других визуальных индикаторов на изображениях.
  • Классификация изображений группирует изображения в разные категории.
  • Сопоставление признаков — это тип обнаружения закономерностей, который сопоставляет сходства в изображениях, чтобы помочь их классифицировать.

Простые приложения компьютерного зрения могут использовать только один из этих методов, но более продвинутые приложения, такие как компьютерное зрение для беспилотных автомобилей, полагаются на несколько методов для достижения своей цели.

Вычислительная мощность — какая вычислительная мощность вам нужна для компьютерного зрения:

Как мы знаем, существует ряд факторов, ответственных за возрождение компьютерного зрения, и вычислительная мощность является одним из факторов.

По мере того как системы искусственного интеллекта/компьютерного зрения становятся все более сложными, они требуют от аппаратного обеспечения большей вычислительной мощности. Чтобы удовлетворить их потребности, новое оборудование, специально разработанное для AI/Computer Vision, должно ускорить обучение и производительность нейронных сетей и снизить энергопотребление.

Во-первых, что такое аппаратное обеспечение ИИ и чем оно отличается от обычного аппаратного обеспечения, к которому мы привыкли. По сути, когда мы говорим об аппаратном обеспечении ИИ, мы имеем в виду некий тип ускорителей ИИ — класс микропроцессоров или микрочипов, предназначенных для более быстрой обработки приложений ИИ, особенно в машинном обучении, нейронных сетях и компьютерном зрении. Обычно они разрабатываются как многоядерные и ориентированы на низкоточную арифметику, новые архитектуры потоков данных или возможности вычислений в памяти.

Идея ускорителей искусственного интеллекта заключается в том, что большая часть задач искусственного интеллекта может выполняться параллельно. Например, с графическим процессором общего назначения (GPGPU) графическую карту можно использовать в реализациях массовых параллельных вычислений, где они обеспечивают до 10 раз большую производительность по сравнению с центральными процессорами.

Второй столп дизайна акселераторов ИИ ориентирован на многоядерную реализацию. Подумайте о графическом процессоре, который может ускорить такие задачи, используя множество простых ядер, которые обычно используются для доставки пикселей на экран. Эти ядра предназначены для более простых арифметических функций, характерных для ИИ, где количество простых функций становится настолько большим, что традиционные вычислительные подходы терпят неудачу. При использовании специально разработанных интегральных схем для конкретных приложений (ASIC) эффективность может быть даже выше, чем при использовании GPGPU, что может принести пользу периферийным задачам искусственного интеллекта.

Вообще говоря, специально созданный ускоритель обеспечивает более высокую производительность, больше функций и большую энергоэффективность для облегчения конкретной задачи.

Поскольку потребность в вычислительных ресурсах для обработки новейшего программного обеспечения растет в геометрической прогрессии, отрасль ждет нового поколения чипов ИИ, которые будут иметь новые возможности:

Большая вычислительная мощность и экономичность: аппаратные решения искусственного интеллекта следующего поколения должны быть более мощными и экономичными, чтобы удовлетворить потребности. сложных моделей обучения.

Облачные и периферийные вычисления: необходимо адаптировать новые полупроводниковые архитектуры для поддержки алгоритмов глубокого обучения, нейронных сетей и компьютерного зрения с обучающими моделями в облаке и предоставления повсеместного ИИ на периферии. .

Более быстрое получение информации.Чтобы быть полезными для бизнеса, решения ИИ — как программные, так и аппаратные — должны гораздо быстрее получать информацию о поведении и предпочтениях клиентов, что может повысить продажи и повысить удовлетворенность клиентов. , модернизируйте производственные процессы и время безотказной работы и сократите затраты.

Новые материалы: проводятся новые исследования по переходу от традиционного кремния к созданию оптических вычислительных чипов, разрабатывающих оптические системы, которые намного быстрее, чем традиционные процессоры или процессоры. графические процессоры.

Новые архитектуры: есть также новые типы архитектур, такие как нейроморфные чипы — архитектура, которая пытается имитировать клетки мозга. Эта архитектура взаимосвязанных «нейронов» заменяет узкое место фон-Неймановского обратного и обратно маломощными сигналами, которые идут непосредственно между нейронами для более эффективных вычислений. Если вы пытаетесь обучать нейронные сети на периферии или в облаке, такие архитектуры будут иметь огромное преимущество.

Вывод:

  • Концепция компьютерного зрения основана на обучении компьютеров обрабатывать изображение на уровне пикселей и понимать его.
  • Алгоритмы компьютерного зрения основаны на распознавании образов. Мы обучаем компьютеры на огромном количестве визуальных данных — компьютеры обрабатывают изображения, маркируют объекты на них и находят закономерности в этих объектах.
  • Вычислительная мощность, новые алгоритмы, такие как (CNN), недавно разработанное оборудование, легкодоступные наборы данных несут ответственность за возрождение компьютерного зрения.