Введение: Несмотря на то, что о дополненной реальности стали задумываться еще в прошлом веке, активное развитие данное направление получило совсем недавно, ввиду развития технологий, позволяющих не только обрабатывать видео поток в реальном времени, но также использовать данную систему на не только на стационарных компьютерах, но также и на мобильных устройствах. И в данной статье пойдет речь о том, какие бывают виды устройств и интерфейсы взаимодействия с дополненной реальностью, а также какие методы компьютерного зрения в ней используются.
Методы компьютерного зрения для дополненной реальности: Для отрисовки трехмерных виртуальных объектов, компьютерному зрению требуется такая же точка обзора, как и у камер слежения. В свою очередь, для записи изображений дополненной реальности используется метод, который, в основном, связан с отслеживанием видео. Эти методы обычно состоят из двух стадий: отслеживание и распознавание. В первую очередь на изображениях, полученных с камеры, обнаруживаются опорные маркеры, точки интереса или оптические изображения. Отслеживание может использовать различные методы обнаружения краёв, признаков, или же другие методы интерпретации и обработки изображений, которые были получены с камер. Большинство существующих методов компьютерного зрения можно разделить на два класса: на основе признаков и моделей. Методы на основе признаков, строятся по принципу обнаружения связей между объектами, которые расположены на двумерном изображении, с реальными координатами объектов в трехмерном мире. А методы, которые используют модели признаков отслеживаемых объектов, такие как 2D шаблоны, модели САПР или другие, основанные на различимых элементах, называются методы на основе моделей. После установки соединения между двумерными изображением и трехмерной рамкой мира, можно найти положение камеры, проецируя трехмерные координаты объекта в координаты наблюдаемого двумерного изображения и уменьшая расстояние до их соответствующих двумерных объектов. Точечные объекты могут быть использованы для определения ограничения положения камеры.
Сделаем допущение, основанное на наличии у нас модели перспективной проекции, калибровочной камеры и точки с координатами , в таком случае, при преобразовании координат точки в систему координат камеры, мы получим значение равное .
Как показано на Рис. 1, в ограничениях с использованием точечных объектов, можно выделить две системы координат, мировую систему координат (W) и систему координат двумерного изображения. Набор трехмерных неколлинеарных опорных точек в мировой системе координат, можно обозначить как , где i = 1,...,n, с n≥3, а набором координат пространства камеры обозначим как . pi и qi связаны следующим преобразованием:
являются матрицей вращения и вектором сдвига соответственно.
Рис. 1 Ограничения на основе точечных объектов для определения положения камеры
Пусть точка изображения будет проекцией pi на нормализованную плоскость изображения. Уравнение коллинеарности, устанавливающее связь между hi и pi с помощью камеры-обскуры, выглядит следующим образом:
Ошибка пространства изображения определяет взаимосвязь между трехмерными опорными точками и параметрами положения камеры, а также соответствует ограничениям на основе точечных объектов. Ошибка пространства изображения задается следующим образом:
где наблюдаемые точки изображения. [2]
Существуют методы, для которых требуется наличие опорных маркеров в среде или объекте с заранее известной геометрией. Также есть методы, при которых имеется возможность заранее знать трехмерную структуру сцены, но, в таком случае придется пожертвовать мобильностью, так как требуется знать точное положение устройства, что достигается за счет его стационарного положения. В случае, когда вся сцена заранее не известна, можно воспользоваться методом, который используется для отображения относительных трехмерных моделей или опорных маркеров (Simultaneous Localization And Mapping сокращенно SLAM). А методом Structure from Motion (SfM) можно воспользоваться, когда заранее не известна трехмерная структура сцены. SfM состоит из двух частей: из отслеживания характерных точек и оценки параметров камеры.
Методы отслеживания в большинстве случаев зависят от типа среды, в которой будет использоваться устройство дополненной реальности, а также от типа системы дополненной реальности. Среда может быть внутренней, внешней или их сочетанием. Так же система может быть мобильной или иметь фиксированное положение. Например, в случае, если устройство дополненной реальности имеет фиксированное положение, разработчики могут использовать механическое отслеживание. Такой тип системы облегчает наблюдение за окружающей средой. Но, с другой стороны, если используется мобильное устройство дополненной реальности и оно предназначено для внешней среды, в таком случае используемые методы будут иметь как преимущества, так и недостатки, а отслеживать объекты становится намного сложнее.
Для того чтобы разработчикам не приходилось заниматься разработкой самих методов отслеживания, существуют готовые решения в виде библиотек, примером из таких библиотек является ARToolKit. ARToolKit, была разработана в 1999 году Хирокадзу Като из Института науки и технологий Нара. Библиотека была выпущена HIT Lab Университета Вашингтона, она представляет собой набор инструментов компьютерного зрения для отслеживания, что дает возможность пользователю создавать приложения дополненной реальности, без необходимости вникать в сами алгоритмы отслеживания и распознавая. Библиотека использует возможности видеонаблюдения для расчета положения камеры в реальном времени и ориентации относительно физических маркеров. [1]
Несмотря на то, что визуальное отслеживание может распознавать и отслеживать множество объектов, оно чаще всего опирается на другие методы, такие как GPS, акселерометры и другие [3]. Например, компьютеру произвести обнаружение автомобиля довольно сложная задача. Поверхность большинства автомобилей глянцевая, и множество характерных точек происходят от отражений, а не от самого автомобиля. И из-за этого, даже те элементы, которые могут быть распознаны (колеса, углы окон и так далее), чрезвычайно трудно сопоставить. Несмотря на то, что данный пример немного преувеличен, он наглядно показывает, с какими проблемами можно столкнуться при обнаружении объектов неправильной формы (предметов искусства, цветов, еды и так далее).
Human Visual System (HVS), можно перевести как зрительная система человека – это один из подходов в области визуального слежения, который подразумевает изучение того, как человеческий мозг распознает объекты. Это важно, поскольку человек в состоянии распознавать огромное количество объектов за доли секунды. И если удастся смоделировать и применить данный способ в компьютерном зрении, тогда множество возникающих проблем в настоящее время будет решено.
Устройства дополненной реальности: Основными устройствами для дополненной реальности являются специальные устройства ввода, различные виды дисплеев, устройства слежения и другие.
Устройства ввода
Существует много типов устройств ввода для систем дополненной реальности В одних системах используются перчатки. Другие системы используют беспроводной браслет. Также, в роли устройства ввода, может выступать мобильный телефон, в частности смартфон. Например, для того, чтобы распознать и перевести текст с помощью приложения Google Translate требуется направить свой телефон на тот текст, который должен быть распознан и переведен. Разработчикам приложений дополненной реальности, также всегда стоит учитывать, что устройство ввода должно быть более подходящим для выбранной концепции создаваемого приложения. Например, если приложение требует, чтобы у пользователя были свободны руки, то разрабатывать приложение для смартфона будет не целесообразно. [7]
Дисплеи
В дополненной реальности используются три основных вида дисплеев: пространственные дисплеи, головные дисплеи (HMD) и портативные дисплеи.
При реализации пространственной дополненной реальности (SAR) может быть задействован довольно широкий спектр устройств, которые позволят пользователям видеть объекты дополненной реальности, без необходимости иметь при себе специализированное оборудование, к таким устройства можно отнести видеопроекторы, голограммы, различные оптические элементы, радиочастотные метки и любые другие технологии, которые позволят отображать графическую информацию на физических объектах. Главной особенностью пространственных дисплеев, является сокрытие большей части технологий от пользователя и интегрирование их в среду. Что не только позволит пользователям или группам пользователей использовать SAR, но также позволит им взаимодействовать между собой.
Head Mounted Display (HMD), можно перевести как головной дисплей - это устройство отображения графической информации, которое надевается на голову отдельно или является частью шлема, показывающее как изображения виртуальной, так и реальной среды. Конструкция головного дисплея может различаться, к примеру, HMD может быть закрытым, но иметь видеокамеры, с которых изображение транслируется на дисплей, либо же оптически прозрачным, а изображение проецируется с помощью миниатюрного проектора, сама же оптика, может быть, как моно- так и бинокулярная. Оптически прозрачные системы менее требовательны, чем системы с видеокамерами, поскольку в последних требуется обработка обеих камер для обеспечения как виртуальных объектов, так и «реальной части» дополненной сцены, но также есть и плюс, так как расширенный просмотр уже создан компьютером, то это позволяет намного лучше контролировать результат. В свою очередь, оптически прозрачные системы используют технологию полупрозрачного зеркала, что позволяет отражению физического мира проходить через линзу и графически накладывать информацию, которую увидит пользователь. [5]
Портативные дисплеи являются объединением экрана с небольшим вычислительным компонентом в одном устройстве, и особенностью данного устройства, является возможность держать его в руках. К ним можно отнести планшетные ПК, смартфоны и КПК. Обычно в таких устройствах используются различные датчики: GPS, цифровые компасы, акселерометры и так далее. Также в портативных дисплеях используются методы просвечивания видео для наложения графики на реальную среду, и могут быть использованы различные методы компьютерного зрения и системы опорных меток. Смартфоны, на текущий момент, являются самой распространенной разновидностью портативного дисплея, поскольку имеют довольно небольшой размер для своих мощностей, а также могут содержать в себе различные датчики. Но несмотря на все положительные стороны, в некоторых ситуация размер экрана может играть ключевую роль, так как небольшой размер не всегда подходит для трехмерных пользовательских интерфейсов и смартфоны в таком случае будут проигрывать тем же планшетным ПК. КПК, в свою очередь, обладают многими как преимуществами, так и недостатками смартфонов, но с их появлением, КПК стали менее популярными, но упомянуть их тоже стоит. Планшетные ПК обычно мощнее, чем смартфоны, а также обладают большим размером экрана, но из этого вытекает повышенная стоимость устройства, а также больший вес по сравнению со смартфонами, в следствии чего их сложнее использовать одной рукой и даже двумя руками при длительном использовании. [6]
Устройства слежения
К устройствам слежения можно отнести системы, состоящие из цифровых камер и/или других оптических датчиков, GPS, акселерометров и т.д. Стоит также учесть, что помимо разной точности каждой из этих технологий, они также зависят от типа разрабатываемой системы.
AR интерфейсы: Разработка методов для удобного и интуитивного взаимодействия пользователя с виртуальным окружением в приложениях дополненной реальности, является одной из наиболее важных задач. Можно выделить четыре основных способа взаимодействия в приложениях дополненной реальности: использование осязаемых, совместных, мультимодальных и гибридных интерфейсов. [4]
Осязаемые интерфейсы
Целью использования осязаемых интерфейсов является прямое взаимодействие с реальным миром, с помощью специальных инструментов. В качестве примера осязаемого интерфейса можно привести приложение VOMAR, в нем имеется возможность выбирать и переставлять мебель для дизайна комнат, с помощью реальной физической лопатки. В качестве способа взаимодействия с мебелью используются интуитивно понятные команды, основанные на простейших жестах, привязанных к движению лопатки, например, чтобы элемент был удален, всего лишь нужно по нему ударить лопаткой.
Так же к осязаемым интерфейсам можно отнести использование специальных перчаток и браслетов.
Совместные интерфейсы
Для возможности удаленных и совместных действий, можно воспользоваться совместными интерфейсами, которые поддерживают использование нескольких дисплеев. В случае необходимости удаленного совместного использования дополненной реальности для улучшения коммуникации и для проведения более продвинутых конференций можно легко интегрировать устройства в нескольких местах одновременно. Также совместные интерфейсы можно интегрировать с медицинскими приложениями для выполнения диагностики, операций или даже технического обслуживания.
Мультимодальные интерфейсы
Реальных объекты со следующими формами языка и поведения, как речь, жесты рук, прикосновение или взгляд являются частью мультимодальных интерфейсов. Данные типы интерфейсов являются относительно новыми и начали появился совсем недавно. В качестве примера мультимодального взаимодействия является интерфейс, который использует взгляд и мигание для взаимодействия с различными объектами. Данный тип взаимодействия активно развивается в настоящее время и, вероятнее всего в будущем, будет одним из самых предпочтительных способов взаимодействия для приложений дополненной реальности. Преимуществами подобного типа взаимодействия являются относительно надежная, эффективная, выразительная и очень мобильная форма взаимодействия человека с компьютером, которая ко всему прочему позволит пользователю выбирать более предпочтительный и удобный для него стиль взаимодействия. Такие интерфейсы предоставляют возможность пользователям гибко комбинировать модальности или же переключаться из одного режима ввода в другой в случае необходимости.
Гибридные интерфейсы
Гибридные интерфейсы являются сочетанием множества различных, но взаимодополняющих друг друга интерфейсов, c возможностью взаимодействия через широкий спектр специализированных устройств. Особенностью данного вида интерфейса является гибкость в использовании, в случае незапланированного или повседневного взаимодействия, когда заранее неизвестно, какой тип дисплея или устройства потребуется [8].
Заключение: На текущий момент дополненная реальность пока еще не столь популярна, но несмотря на это, она продолжает развиваться, все больше компаний обращает внимание на данную технологию и пытается внедрить ее в свой рабочий процесс. В данной статье были рассмотрены различные технологии дополненной реальности, виды устройств и интерфейсов взаимодействия.