Распознавание лиц – это одна из самых активно развивающихся областей исследований в области компьютерного зрения. Причиной этого является постоянно растущий интерес в коммерческих и правоохранительных приложениях. Биометрические методы, такие как отпечатки пальцев и сканирование радужной оболочки глаза, часто требуют либо физического контакта или взаимодействия пользователя с устройством. Распознавание лица на неподвижном изображении – важная задача и часто она является первым шагом в алгоритмах приложений для реализации взаимодействия человек-компьютер. Целью таких алгоритмов является определение отсутствия или присутствия лица на произвольном изображении и, если оно есть, то необходимо выявить его положение и размер [3].
Несмотря на успешную реализацию в различных приложениях, задача распознавания лиц в автоматическом режиме остается в значительной степени нерешенной.
Технологии 3D моделирования лица можно разделить на два класса – активные и пассивные – в зависимости от методов обработки изображений и методов дальнейшей реконструкции 3D модели.
Существующие на данный момент активные системы 3D распознавания лиц используют специальное оборудование для реконструкции трехмерной модели лица (сенсорные системы) [1]. При активном моделировании на поверхность объекта проецируется внешний свет. Существует зависимость между ценой и точностью системы. Большинство высокоточных систем стоят десятки тысяч долларов и требуют высокой квалификации персонала, как для настройки, так и для использования. Но высокие темпы развития компьютерных технологий и технологий обработки видео привели к созданию относительно недорогих систем, которые можно применять в большинстве областей [2].
Существует два хорошо известных метода активной реконструкции – лазерное сканирование и структурированная световая проекция, которые были широко использованы для моделирования лиц людей, и по сей день являются наиболее широко используемыми для данной задачи.
Лазерное сканирование. В методах лазерного сканирования лазерная линия или одноточечный лазерный луч сканируют предмет, представляющий интерес, для получения последовательности отсканированных изображений, по которым восстанавливается 3D-поверхность объекта [6]. Интенсивность лазера должна быть достаточно низкой для безопасности глаз и в то же время контрастировала с цветом лица. Камера в лазерном профилировщике измеряет длину волны испускаемого лазерного луча и, таким образом, позволяет избежать нежелательного фона [4]. Альтернативный способ – применение программных фильтров для получения лица с изображения без учета фона. Фильтры основаны на использовании Гауссовских весов. Полученные профили могут быть триангулированы для получения информации о глубине. В основе термина «триангуляция» лежит тот факт, что для оценки глубины необходимы лазерный источник, камера и сам объект, которые образуют треугольник. При триангуляции местоположение точки на профиле лазера, захваченной ПЗС-матрицей, связано с глубиной точки объекта. Во время сканирования объекта с некоторыми различиями глубины горизонтальная линия лазера проецируется с видимым изгибом. Степень изгиба зависит от глубины поверхности относительно ее фона. Для получения оценки глубины необходимо сначала откалибровать системы профилирования лазеров. В процессе калибровки шаблон с известными и отмеченными (X, Y, Z) точками используется для установки связи между координатами изображения (x, y) и общими координатами (X, Y, Z).
На рисунке 1 показан принцип работы метода триангуляции. Источник лазера расположен на базовой линии под углом θ и на расстоянии b от оптической оси камеры. Центр проекции камеры находится в начале координат среды (X, Y, Z), оптическая ось совмещена с осью Z, ось X представляет собой базовую линию и также совмещена с осью x в плоскости изображения. Ось Y ортогональна плоскости (X, Z) и совмещена с осью y плоскости изображения. Пересечение плоскости света с плоскостью сцены – это кривая, называемая полосой и наблюдаемая камерой. Трехмерная точка P (X, Y, Z), проекция которой на плоскость изображения равна (x, y), задается формулой
(1)
Где f – фокусное расстояние камеры. В процессе калибровки неизвестные параметры b, θ и f вычисляются из системы нелинейных уравнений, описанных в (1), с известными (x, y) точками и их соответствующими (X, Y, Z) координатами.
Рисунок 1 - 3D реконструкция лица с использованием лазерного сканирования: (a) - основная геометрия активной триангуляции, (b) - установка лазерного сканирования в лаборатории IRIS, (c) - один кадр из последовательности, созданной в результате лазерного сканирования, (d) - реконструированная модель 3D-головы.
Глубина восстановления с применением техники триангуляции имеет высокую точность. Активная триангуляция для трехмерной реконструкции лица с помощью лазерного сканирования была использована Ксу и др. [8]. В данном случае использовались две камеры (вместо одной, как показано на рисунке 1). Достигнутое время сканирования равно 40 секундам.
Структурированная световая проекция. Техника структурированного света представляет собой проецируемую узкую полосу света на объекте трехмерной формы, которая позволяет извлечь 3D координаты каких-либо деталей на поверхности предмета.[1] Сканирование может выполняться поочередно с помощью одноточечного луча, но для удобства сканирование выполняется параллельно с пространственной структурой света, освещающей всю поверхность объекта одновременно. Структура света – это линии, точки и т.д. из высокоинтенсивного когерентного света (лазер) или некогерентного монохроматического света в видимом или невидимом диапазоне.
Алгоритм реконструкции 3D модели головы из структурированного светового проектора в принципе аналогичен алгоритму, используемому при лазерном сканировании. Возможны два случая расположения источника света: источник находится в бесконечности (т.е. лучи параллельны) или близко к объекту (т.е. лучи образуют пучок). Второй случай является более популярным благодаря возможности использования проектора. В обоих случаях степень деформации светлых полос содержит информацию о глубине поверхности. Количество параметров калибровки зависит от изменений в настройке камеры-проектора. Координаты 2D-изображения точек на полосах объединены с параметрами калибровки для вычисления трехмерных координат точек.
На рисунке 2 показана реконструкция 3D модели головы с использованием структурированных световых проекций. Структурированное изображение светлой поверхности и его 3D-модель получены 3DfaceCam® от GenexTech. 3DfaceCam® использует уравнение (1) для реконструкции с разными θ для разных полос [3].
Рисунок 2 – 3D реконструкция головы методом структурированной световой проекции: (a) – простая конструкция структурированного светового проектора, (б) – структурированный свет, проецируемый на грань, (c) – затененное трехмерное лицо и (d) – текстурированное реконструированное лицо.
При реконструкции структурированного света полоски рисунка должны быть четко различимы. Бьюмер и Ачрой [7] реконструировали лица, кодируя полосы с различной толщиной. Они использовали специальные линзы для проецирования полос и обеспечения достаточного поля зрения и глубины фокусировки. Кодированные полосы проецировались на квадратный объект, фиксированный на известной глубине для калибровки. Оптические оси камеры и проектора были перпендикулярны светлым полосам. Как проектор, так и камера были повернуты на 45 градусов от вертикальной линии, так что полосы, проецируемые на вертикально и горизонтально выровненные черты лица, такие как рот и брови, могли быть легко обнаружены. Процесс реконструкции занял около 0,5 секунд. Разрешение глубины реконструкции не обсуждалось, но построенная база данных 3D-лица успешно использовалась при распознавании 3D-лиц [7].
Гарсье и Дугелэй [5] использовали гомологию, чтобы избежать ограничений ориентации камеры и проектора. Их сетчатый рисунок вертикальных и горизонтальных линий проецировался по шаблону калибровки с произвольно ориентированного проектора. Деформированное изображение проецируемой сетки было захвачено произвольно ориентированной камерой. Проекционная сетка, калибровочная сетка и плоскость изображения были связаны через гомологии (преобразования, которые отображаются между точками на двух плоскостях). Различные лица были частично восстановлены под разными углами, а затем объединены для получения полных трехмерных моделей.
Структурированный свет для 3D-реконструкции, теоретически, не зависит от перемещения объекта в пределах сцены. Недостатком является то, что достаточное количество линий для реконструкции с высоким разрешением невозможно проецировать за один раз. Узкие промежутки между линиями уменьшают контраст между темными и яркими линиями и увеличивают размытые края, вызванные рассеиванием света. Диффузия света снижает пиковые значения интенсивности, что затрудняет обнаружение различий. Таким образом, полученная реконструкция обычно бывает недостаточно полноценной.
Активные методы реконструкции в настоящее время являются доминирующей технологией захвата трехмерных поверхностей. Их геометрическая точность постоянно улучшается. Однако, они довольно дорогостоящие и могут иметь ряд технических ограничений:
1. Действующие в настоящее время методы используют полосы или точечные шаблоны, которые препятствуют обнаружению деталей за пределами сканируемой поверхности;
2. Лица, захваченные с большого расстояния, не могут быть корректно реконструированы.