Сетевое издание
Международный студенческий научный вестник
ISSN 2409-529X

AUGMENTED REALITY TECHNOLOGIES

Granenkov N.A. 1 Belov Y.S. 1
1 Kaluga Branch of Bauman Moscow State Technical University, Russia (National research university of technology)
This paper surveys the current state-of-the-art of technology in Augmented Reality. It describes work performed by many different research groups, the purpose behind each new Augmented Reality system, and the difficulties and problems encountered when building some Augmented Reality applications. It surveys mobile augmented reality systems challenges and requirements for successful mobile systems. This paper summarizes the current applications of Augmented Reality and speculates on future applications and where current research will lead Augmented Reality’s development. It also describes the mechanisms of operation of augmented reality and the mathematical model of the imposition of elements of augmented reality on the real world. This article describes the different types of augmented reality devices, and also discusses the features of each type of device, and the area of their application for augmented reality systems. It also describes the interfaces of interaction with augmented reality. Another question is raised about the problems arising from the use of computer vision in augmented reality systems and the tasks are set, the solution of which will allow to overcome the problems that have arisen.
augmented reality
augmented reality technologies
augmented reality systems
augmented reality applications
augmented reality on mobile devices

Введение: Несмотря на то, что о дополненной реальности стали задумываться еще в прошлом веке, активное развитие данное направление получило совсем недавно, ввиду развития технологий, позволяющих не только обрабатывать видео поток в реальном времени, но также использовать данную систему на не только на стационарных компьютерах, но также и на мобильных устройствах. И в данной статье пойдет речь о том, какие бывают виды устройств и интерфейсы взаимодействия с дополненной реальностью, а также какие методы компьютерного зрения в ней используются.

Методы компьютерного зрения для дополненной реальности: Для отрисовки трехмерных виртуальных объектов, компьютерному зрению требуется такая же точка обзора, как и у камер слежения. В свою очередь, для записи изображений дополненной реальности используется метод, который, в основном, связан с отслеживанием видео. Эти методы обычно состоят из двух стадий: отслеживание и распознавание. В первую очередь на изображениях, полученных с камеры, обнаруживаются опорные маркеры, точки интереса или оптические изображения. Отслеживание может использовать различные методы обнаружения краёв, признаков, или же другие методы интерпретации и обработки изображений, которые были получены с камер. Большинство существующих методов компьютерного зрения можно разделить на два класса: на основе признаков и моделей. Методы на основе признаков, строятся по принципу обнаружения связей между объектами, которые расположены на двумерном изображении, с реальными координатами объектов в трехмерном мире. А методы, которые используют модели признаков отслеживаемых объектов, такие как 2D шаблоны, модели САПР или другие, основанные на различимых элементах, называются методы на основе моделей. После установки соединения между двумерными изображением и трехмерной рамкой мира, можно найти положение камеры, проецируя трехмерные координаты объекта в координаты наблюдаемого двумерного изображения и уменьшая расстояние до их соответствующих двумерных объектов. Точечные объекты могут быть использованы для определения ограничения положения камеры.

Сделаем допущение, основанное на наличии у нас модели перспективной проекции, калибровочной камеры и точки с координатами , в таком случае, при преобразовании координат точки в систему координат камеры, мы получим значение равное .

Как показано на Рис. 1, в ограничениях с использованием точечных объектов, можно выделить две системы координат, мировую систему координат (W) и систему координат двумерного изображения. Набор трехмерных неколлинеарных опорных точек в мировой системе координат, можно обозначить как , где i = 1,...,n, с n≥3, а набором координат пространства камеры обозначим как . pi и qi связаны следующим преобразованием:

являются матрицей вращения и вектором сдвига соответственно.

Рис. 1 Ограничения на основе точечных объектов для определения положения камеры

Пусть точка изображения будет проекцией pi на нормализованную плоскость изображения. Уравнение коллинеарности, устанавливающее связь между hi и pi с помощью камеры-обскуры, выглядит следующим образом:

Ошибка пространства изображения определяет взаимосвязь между трехмерными опорными точками и параметрами положения камеры, а также соответствует ограничениям на основе точечных объектов. Ошибка пространства изображения задается следующим образом:

где наблюдаемые точки изображения. [2]

Существуют методы, для которых требуется наличие опорных маркеров в среде или объекте с заранее известной геометрией. Также есть методы, при которых имеется возможность заранее знать трехмерную структуру сцены, но, в таком случае придется пожертвовать мобильностью, так как требуется знать точное положение устройства, что достигается за счет его стационарного положения. В случае, когда вся сцена заранее не известна, можно воспользоваться методом, который используется для отображения относительных трехмерных моделей или опорных маркеров (Simultaneous Localization And Mapping сокращенно SLAM). А методом Structure from Motion (SfM) можно воспользоваться, когда заранее не известна трехмерная структура сцены. SfM состоит из двух частей: из отслеживания характерных точек и оценки параметров камеры.

Методы отслеживания в большинстве случаев зависят от типа среды, в которой будет использоваться устройство дополненной реальности, а также от типа системы дополненной реальности. Среда может быть внутренней, внешней или их сочетанием. Так же система может быть мобильной или иметь фиксированное положение. Например, в случае, если устройство дополненной реальности имеет фиксированное положение, разработчики могут использовать механическое отслеживание. Такой тип системы облегчает наблюдение за окружающей средой. Но, с другой стороны, если используется мобильное устройство дополненной реальности и оно предназначено для внешней среды, в таком случае используемые методы будут иметь как преимущества, так и недостатки, а отслеживать объекты становится намного сложнее.

Для того чтобы разработчикам не приходилось заниматься разработкой самих методов отслеживания, существуют готовые решения в виде библиотек, примером из таких библиотек является ARToolKit. ARToolKit, была разработана в 1999 году Хирокадзу Като из Института науки и технологий Нара. Библиотека была выпущена HIT Lab Университета Вашингтона, она представляет собой набор инструментов компьютерного зрения для отслеживания, что дает возможность пользователю создавать приложения дополненной реальности, без необходимости вникать в сами алгоритмы отслеживания и распознавая. Библиотека использует возможности видеонаблюдения для расчета положения камеры в реальном времени и ориентации относительно физических маркеров. [1]

Несмотря на то, что визуальное отслеживание может распознавать и отслеживать множество объектов, оно чаще всего опирается на другие методы, такие как GPS, акселерометры и другие [3]. Например, компьютеру произвести обнаружение автомобиля довольно сложная задача. Поверхность большинства автомобилей глянцевая, и множество характерных точек происходят от отражений, а не от самого автомобиля. И из-за этого, даже те элементы, которые могут быть распознаны (колеса, углы окон и так далее), чрезвычайно трудно сопоставить. Несмотря на то, что данный пример немного преувеличен, он наглядно показывает, с какими проблемами можно столкнуться при обнаружении объектов неправильной формы (предметов искусства, цветов, еды и так далее).

Human Visual System (HVS), можно перевести как зрительная система человека – это один из подходов в области визуального слежения, который подразумевает изучение того, как человеческий мозг распознает объекты. Это важно, поскольку человек в состоянии распознавать огромное количество объектов за доли секунды. И если удастся смоделировать и применить данный способ в компьютерном зрении, тогда множество возникающих проблем в настоящее время будет решено.

Устройства дополненной реальности: Основными устройствами для дополненной реальности являются специальные устройства ввода, различные виды дисплеев, устройства слежения и другие.

Устройства ввода

Существует много типов устройств ввода для систем дополненной реальности В одних системах используются перчатки. Другие системы используют беспроводной браслет. Также, в роли устройства ввода, может выступать мобильный телефон, в частности смартфон. Например, для того, чтобы распознать и перевести текст с помощью приложения Google Translate требуется направить свой телефон на тот текст, который должен быть распознан и переведен. Разработчикам приложений дополненной реальности, также всегда стоит учитывать, что устройство ввода должно быть более подходящим для выбранной концепции создаваемого приложения. Например, если приложение требует, чтобы у пользователя были свободны руки, то разрабатывать приложение для смартфона будет не целесообразно. [7]

Дисплеи

В дополненной реальности используются три основных вида дисплеев: пространственные дисплеи, головные дисплеи (HMD) и портативные дисплеи.

При реализации пространственной дополненной реальности (SAR) может быть задействован довольно широкий спектр устройств, которые позволят пользователям видеть объекты дополненной реальности, без необходимости иметь при себе специализированное оборудование, к таким устройства можно отнести видеопроекторы, голограммы, различные оптические элементы, радиочастотные метки и любые другие технологии, которые позволят отображать графическую информацию на физических объектах. Главной особенностью пространственных дисплеев, является сокрытие большей части технологий от пользователя и интегрирование их в среду. Что не только позволит пользователям или группам пользователей использовать SAR, но также позволит им взаимодействовать между собой.

Head Mounted Display (HMD), можно перевести как головной дисплей - это устройство отображения графической информации, которое надевается на голову отдельно или является частью шлема, показывающее как изображения виртуальной, так и реальной среды. Конструкция головного дисплея может различаться, к примеру, HMD может быть закрытым, но иметь видеокамеры, с которых изображение транслируется на дисплей, либо же оптически прозрачным, а изображение проецируется с помощью миниатюрного проектора, сама же оптика, может быть, как моно- так и бинокулярная. Оптически прозрачные системы менее требовательны, чем системы с видеокамерами, поскольку в последних требуется обработка обеих камер для обеспечения как виртуальных объектов, так и «реальной части» дополненной сцены, но также есть и плюс, так как расширенный просмотр уже создан компьютером, то это позволяет намного лучше контролировать результат. В свою очередь, оптически прозрачные системы используют технологию полупрозрачного зеркала, что позволяет отражению физического мира проходить через линзу и графически накладывать информацию, которую увидит пользователь. [5]

Портативные дисплеи являются объединением экрана с небольшим вычислительным компонентом в одном устройстве, и особенностью данного устройства, является возможность держать его в руках. К ним можно отнести планшетные ПК, смартфоны и КПК. Обычно в таких устройствах используются различные датчики: GPS, цифровые компасы, акселерометры и так далее. Также в портативных дисплеях используются методы просвечивания видео для наложения графики на реальную среду, и могут быть использованы различные методы компьютерного зрения и системы опорных меток. Смартфоны, на текущий момент, являются самой распространенной разновидностью портативного дисплея, поскольку имеют довольно небольшой размер для своих мощностей, а также могут содержать в себе различные датчики. Но несмотря на все положительные стороны, в некоторых ситуация размер экрана может играть ключевую роль, так как небольшой размер не всегда подходит для трехмерных пользовательских интерфейсов и смартфоны в таком случае будут проигрывать тем же планшетным ПК. КПК, в свою очередь, обладают многими как преимуществами, так и недостатками смартфонов, но с их появлением, КПК стали менее популярными, но упомянуть их тоже стоит. Планшетные ПК обычно мощнее, чем смартфоны, а также обладают большим размером экрана, но из этого вытекает повышенная стоимость устройства, а также больший вес по сравнению со смартфонами, в следствии чего их сложнее использовать одной рукой и даже двумя руками при длительном использовании. [6]

Устройства слежения

К устройствам слежения можно отнести системы, состоящие из цифровых камер и/или других оптических датчиков, GPS, акселерометров и т.д. Стоит также учесть, что помимо разной точности каждой из этих технологий, они также зависят от типа разрабатываемой системы.

AR интерфейсы: Разработка методов для удобного и интуитивного взаимодействия пользователя с виртуальным окружением в приложениях дополненной реальности, является одной из наиболее важных задач. Можно выделить четыре основных способа взаимодействия в приложениях дополненной реальности: использование осязаемых, совместных, мультимодальных и гибридных интерфейсов. [4]

Осязаемые интерфейсы

Целью использования осязаемых интерфейсов является прямое взаимодействие с реальным миром, с помощью специальных инструментов. В качестве примера осязаемого интерфейса можно привести приложение VOMAR, в нем имеется возможность выбирать и переставлять мебель для дизайна комнат, с помощью реальной физической лопатки. В качестве способа взаимодействия с мебелью используются интуитивно понятные команды, основанные на простейших жестах, привязанных к движению лопатки, например, чтобы элемент был удален, всего лишь нужно по нему ударить лопаткой.

Так же к осязаемым интерфейсам можно отнести использование специальных перчаток и браслетов.

Совместные интерфейсы

Для возможности удаленных и совместных действий, можно воспользоваться совместными интерфейсами, которые поддерживают использование нескольких дисплеев. В случае необходимости удаленного совместного использования дополненной реальности для улучшения коммуникации и для проведения более продвинутых конференций можно легко интегрировать устройства в нескольких местах одновременно. Также совместные интерфейсы можно интегрировать с медицинскими приложениями для выполнения диагностики, операций или даже технического обслуживания.

Мультимодальные интерфейсы

Реальных объекты со следующими формами языка и поведения, как речь, жесты рук, прикосновение или взгляд являются частью мультимодальных интерфейсов. Данные типы интерфейсов являются относительно новыми и начали появился совсем недавно. В качестве примера мультимодального взаимодействия является интерфейс, который использует взгляд и мигание для взаимодействия с различными объектами. Данный тип взаимодействия активно развивается в настоящее время и, вероятнее всего в будущем, будет одним из самых предпочтительных способов взаимодействия для приложений дополненной реальности. Преимуществами подобного типа взаимодействия являются относительно надежная, эффективная, выразительная и очень мобильная форма взаимодействия человека с компьютером, которая ко всему прочему позволит пользователю выбирать более предпочтительный и удобный для него стиль взаимодействия. Такие интерфейсы предоставляют возможность пользователям гибко комбинировать модальности или же переключаться из одного режима ввода в другой в случае необходимости.

Гибридные интерфейсы

Гибридные интерфейсы являются сочетанием множества различных, но взаимодополняющих друг друга интерфейсов, c возможностью взаимодействия через широкий спектр специализированных устройств. Особенностью данного вида интерфейса является гибкость в использовании, в случае незапланированного или повседневного взаимодействия, когда заранее неизвестно, какой тип дисплея или устройства потребуется [8].

Заключение: На текущий момент дополненная реальность пока еще не столь популярна, но несмотря на это, она продолжает развиваться, все больше компаний обращает внимание на данную технологию и пытается внедрить ее в свой рабочий процесс. В данной статье были рассмотрены различные технологии дополненной реальности, виды устройств и интерфейсов взаимодействия.