Алексей Цессарский: «Машинное зрение в 2020 году»
Алексей Цессарский – генеральный директор компании IVA Cognitive, специализирующейся на разработках в сфере искусственного интеллекта. Алексей рассказывает, что такое машинное зрение, насколько востребована эта технология, как она будет развиваться и как уже сейчас влияет на мир.
Машинное зрение – технология получения изображений объектов реального мира, их обработки и использования полученных данных для решения различных задач машинами без участия человека.
Обработка информации человеком:
- 1–2% информации человек получает при помощи осязания, обоняния и тактильных ощущений;
- 8–9% – при помощи слуха;
- 90% – при помощи зрения.
Мир людей в первую очередь визуален, и участие в нём искусственного интеллекта делает машинное зрение необходимым.
Пример: машина на автопилоте считывает огромное количество визуальной информации: дорога, дорожные знаки, другие участники движения. Без машинного зрения использование таких автомобилей требовало бы внедрения особых технологий передачи информации, что повлекло бы за собой колоссальные издержки.
Базовая технология:
- Детекция объектов – позволяет найти область (прямоугольник), где находится объект на картинке;
- Сегментация объектов – позволяет найти точные контуры объекта;
- Классификация объектов – позволяет распределить объекты на изображении на группы, определить его характеристики;
- Анализ изображения – позволяет собирать более сложную информацию на изображении (определить, к какой школе живописи относится картина, какие эмоции у человека вызовет изображение).
В основе этой технологии лежит свёрточная нейронная сеть: изображение с большим объёмом информации при помощи математических преобразований «сворачивается» в небольшой объём информации, где содержатся интересующие нас ответы.
Система учится посредством перебора вариантов. Поначалу, как правило, ей нужна помощь человека.
Искусственный интеллект берёт начало с работ, повторяющих принцип работы человеческого глаза. В 1957 году Фрэнк Розенблатт предложил модель перцептрона, которая была реализована в компьютере Марк-1 в 1960 году. Это была компьютерная модель восприятия информации мозгом через глаза.
Искусственный интеллект начинался с попытки научить компьютер видеть |
Чтобы найти те или иные объекты на тысячах камер по всему миру потребовались бы огромные человеческие ресурсы. Люди бы при этом уставали, теряли концентрацию. Искусственный интеллект лишён этих недостатков.
Основные направления применения машинного зрения
- Обработка текста
То, что раньше требовало ручного труда, теперь выполняется за секунды. Например, внесение данных при заключении тех или иных сделок, обслуживания в банке и т.д.
- Безопасность
Здесь есть два направления: безопасность, связанная с контролем доступа и установлением личности человека (распознавание лиц), и промышленная безопасность.
Распознавание лиц работает уже достаточно давно – например, Face ID в технике Apple или Единая биометрическая система, работающая в России. Постепенно эта технология внедряется на транспорте и во многих других отраслях. На фоне пандемии появился запрос на бесконтактные системы авторизации – без предъявления пропусков. Авторизация при помощи распознавания лиц решает эту проблему.
Использование машинного зрения для обеспечения промышленной безопасности позволяет осуществлять контроль за соблюдением правил безопасности на производстве (носит ли человек на стройке каску, можно ли запускать конвейер и т.д.), а также осуществлять сортировку брака и многое другое.
- Ритейл
Ритейл несёт в себе множество задач для машинного зрения.
Всё началось с мерчандайзинга, в частности с контроля наличия товара на полке и ценников. Сейчас фактически камеры снимают полки и сигнализируют, когда товар заканчивается или когда нарушаются правила выкладки.
Также машинное зрение позволяет следить за очередями и контролировать работу кассиров.
Третье направление – программа лояльности и чёрные списки. Здесь также применяется технология распознавания лиц. Эти же механизмы применяются в магазинах будущего – без продавцов и касс.
- Медицина
Благодаря машинному зрению искусственный интеллект научился ставить диагнозы порой даже точнее, чем люди. Однако на данном этапе есть своя специфика: результаты такого анализа тяжело интерпретировать, человеку трудно обосновать машинные выводы. Врач может объяснить поставленный им диагноз и предложить детальный и поэтапный курс лечения, машине же пока что сложно это делать. При этом анализ снимков при помощи машинного зрения гораздо проще, но здесь всё упирается в прогресс законодательства.
- Автопилоты
Один из самых нашумевших рынков благодаря стараниям компании Tesla. Сейчас «Яндекс» запускает аналогичные продукты в России. Всё, что нужно, чтобы управлять автомобилем, обеспечивается набором камер, которые дают искусственному интеллекту информацию вокруг транспортного средства – это яркая иллюстрация использования машинного зрения. Само управление автомобилем осуществляется за счёт другой технологии искусственного интеллекта. Многие компании, например Uber, рассчитывают в будущем полагаться именно на машины на автопилоте.
- Реклама
Есть рынок интернет-рекламы, который сформирован компаниями Google и Facebook. Он анализирует информацию о пользователе (пол, возраст и многое другое), данные о его интересах и в этой связи определяет генерацию рекламы. Также интернет позволяет собирать данные об эффективности рекламы.
Другой рынок – традиционная офлайн-реклама (билборды, рекламные щиты). Она в меньшей степени адаптируется под целевую аудиторию. Именно здесь активно работает машинное зрение – оно помогает анализировать, кто смотрит на экраны, какая категория людей сейчас превалирует среди «зрителей», а уже это позволяет определять, какую рекламу показывать. Также машинное зрение помогает оценить, сколько людей посмотрели рекламу.
- Модерация контента
Эта область стала актуальной с развитием ресурсов вроде YouTube. Есть пользователи, которые загружают видео, есть законодательство, которое регламентирует контент. При этом спрос в случае нарушений – с платформы. Большие объёмы видео закачиваются быстрее, чем любой штат модераторов может их проверить. Эту проблему решает машинное зрение, которое просматривает огромный массив видео.
- AR, VR, игры
За этим направлением многие видят большое будущее, и здесь уже несколько лет ожидают прорыва. В индустрии дополненной виртуальной реальности очень многие продукты используют машинное зрение. В частности, маски в Instagram построены именно на ней. Для решения этой задачи компьютер должен разобраться с детекцией вашего лица.
Но одними масками для фото дело, конечно, не исчерпывается. Так, например, некоторые шлемы виртуальной реальности анализируют ваше положение в пространстве и положение ваших рук.
- Медиа
Машинное зрение позволяет создавать фотореалистичные человеческие лица. Параллельно компьютер умеет помещать поверх вашего изображения что угодно. Это даёт широкие возможности для создания видео. Также сейчас есть возможность заменять не только лица, но и тела.
Это создаёт возможность использования полных цифровых аватаров. Вкупе с генерацией человеческого голоса мы можем создавать цифровую копию человека.
Здесь есть опасность создания компрометирующего контента (технология Deep Fake). И тут на помощь снова выходит машинное зрение, которое позволяет анализировать, настоящее видео или сгенерированное. Пока что эта борьба не окончена.
- Оборона
ВПК традиционно двигал технический прогресс. Здесь есть масса задач в области картографии, наведения на цель, определения по принципу «свой-чужой».
Есть технология, позволяющая при помощи отражённых радиоволн определять положение людей в пространстве – фактически видеть сквозь стены.
«Конспект» – еженедельная рассылка с текстами выступлений главных спикеров Synergy.Online без рекламы и спама. Бесплатно делимся знаниями самых умных людей мира. |
Смотрите в «Базе знаний» выступление Алексея Цессарского «Машинное зрение в 2020 году: основные направления, успехи и проблемы» |