Сетевое издание
Международный студенческий научный вестник
ISSN 2409-529X

INVESTIGATION OF ALGORITHMS OF FACIAL RECOGNITION BASED ON THE POINT GEOMETRY AND HIDDEN MARKOV MODELS

Khlopenkova A.Y. 1 Rybkin S.V. 1
1 Kaluga Branch of Bauman Moscow State Technical University, Russia (National research university of technology)
The article considers the basic algorithms for automatic facial recognition. The stages of implementation of each algorithm are analyzed. The main advantages and disadvantages of the facial recognition system are listed in comparison with other biometric systems of human identification. The basic concept of the tracing and recognition process is presented. The general hierarchical structure of the algorithm implementation is revealed. The structure of the searching landmarks for the further construction of geometric invariance using triplets is described. Listed are the stages of obtaining absolute invariants via relative ones through affine transformation. The main zones of clustering landmarks are determined. The process of building 3D models using two-dimensional projections is described. An example of calculating the distance through the Riemann metric tensor, called the geodesic distance, is shown. The advantages in the process of identification person are indicated in comparison with the simpler 2D models. The topology of building a linear algorithm based on hidden Markov models and neural networks is considered. The algorithm of initialization the hidden Markov model is given. The various scope of application of the face recognition system are described. Further development and application of the system is predicted in various areas, such as medicine, customs control, and state security. The options for the abuse of technology within the personal data protection are considered.
facial recognition
landmarks
3d recognition
hidden markov models
neural networks

Введение. Человек имеет врожденную способность различать лица, и лишь в недавнее время компьютеры смогли достичь того же результата. В середине 1960-х годов ученые начали работу по использованию компьютера для распознавания человеческих лиц. С тех пор программное обеспечение распознавания лиц прошло долгий путь [1].

Технология распознавания лиц является наименее интрузивной и наиболее быстрой биометрической технологией. Она работает с наиболее очевидным индивидуальным идентификатором - человеческим лицом. Используя человеческое лицо как ключ к безопасности, биометрическая технология распознавания лиц получила значительное внимание в течение последних нескольких лет из-за ее потенциала для широкого спектра приложений как в правоохранительных, так и других органах [1]. В настоящее время распознавание лиц уже используется во многих правоохранительных органах в качестве перспективного средства предотвращения террористических преступлений. Программное обеспечение также разработано для автоматизации идентификации банковских служащих, используя распознавание лиц в качестве проверки пользователей.

Под системой распознавания лиц подразумевают технологию, позволяющую идентифицировать человека с цифрового изображения или видеоисточника. Существует несколько различных методов для распознавания, но в целом они работают путем сравнения выбранных черт лица с заданным изображением лиц из базы данных [2]. Так же метод может быть основан на биометрическом искусственном интеллекте, который может однозначно идентифицировать человека, анализируя шаблоны, основанные на лицевых текстурах и форме лица [3]. По сравнению с другими биометрическими системами, использующими отпечатки пальцев / ладони или радужную оболочку, распознавание лица имеет определенные преимущества из-за его бесконтактного процесса. Системы распознавания лиц ненавязчиво сканируют лица людей, как они входят в определенную область, поэтому в большинстве случаев субъекты вообще не знают о процессе распознавания.

Алгоритмы распознавания. Все алгоритмы распознавания можно разделить на два основных подхода: геометрический, заключающийся в фотометрическом сравнивании, когда изображение представляется в виде значений и сравнивается со значениями из шаблонов для устранения дисперсий; линейный, основанный на скрытой Марковской модели и динамическом сопоставлении ссылок нейронов [4].

Среди большого разнообразия алгоритмов, выделяется общая структура процесса распознавания лиц:

Рис. 1 Общий алгоритм распознавания лица

Когда система обнаруживает лицо, она определяет положение, размер и позу головы. Используя глубину и ось измерения, на которые не влияет освещение, трехмерное распознавание лица может даже использоваться в темноте и имеет возможность распознавать объект под разными углами зрения с возможностью распознавания до 90 градусов (лицо в профиле). В случае работы с 2D, голова должна быть повернута не менее чем на 35 градусов к камере. На этапе непосредственного распознавания система сравнивает вычисленные признаки с заложенными в базу данных эталонами. Поэтому в качестве основного отличия среди алгоритмов будет являться вычисление признаков и сравнение их совокупностей между собой [3, 5].

Алгоритм распознавания по геометрии точек. Каждое лицо имеет многочисленные, отличимые ориентиры, которые составляют черты лица. Такие ориентиры часто называют узловыми точками. Человеческое лицо в среднем может иметь около 80 узловых точек. Алгоритм производит анализ относительного положения, размера и / или формы глаз, носа, скул и челюсти и затем использует эти параметры для поиска других изображений с соответствующими параметрами [5].

Существуют множество реализаций данного алгоритма. Наиболее современным является алгоритм, предложенный сотрудниками технического института имени Короля Монгкута (King Mongkut’s Institute of Technology) [6]. Алгоритм основан на ортогональных проекциях и евклидовом преобразовании. Основное скопление точек расположено вокруг глаз, носа и рта. С извлеченными ориентирами формируются триплеты области и связанная с ними геометрическая инвариантность. Поскольку область является относительной инвариантностью при евклидовом преобразовании, применяются абсолютные отношения площадей между последовательными треугольными зонами.

Рис.2 Границы и внутренние углы лицевых треугольников

Относительный инвариант можно описать следующей формулой:

где - является определителем аффинного преобразования, - фрагмент последовательности треугольников на шаблоне [6].

Поскольку матрица линейного преобразования неизвестна, абсолютные аффинные инварианты построены из области относительных инвариантов, взяв соотношение двух треугольников для того, чтобы вынести за скобки зависимости относительного инварианта области в определителе матрицы аффинного преобразования. Принимая отношение последовательных элементов в последовательности, набор абсолютных инвариантов может быть представлен в виде:

В случае измерения без помех абсолютный инвариант запроса совпадает с абсолютным инвариантом шаблона, т.е. при наличии помех и окклюзии, каждый из будет иметь счетную часть , причем этот аналог легко определяет через круговой сдвиг, включающий сравнений, где - число инвариантов [6].

Рис.3 Вектор лицевого ориентира

Углы вычисляются по формуле [6]:

Площадь каждого треугольника будет вычисляться как:

Алгоритм трехмерного распознавание лица. Трехмерное распознавание лиц - это механизм распознавания лиц, в котором используется трехмерная геометрия. Доказано, что методы распознавания трехмерного лица могут достигать значительно более высокой точности, чем их 2D-копии, позволяя идентифицировать человека независимо от угла наклона лица и условий освещения. Основным технологическим ограничением методов распознавания 3D-поверхностей является получение 3D-изображения, которое обычно требует использование камеры широкого диапазона. В качестве альтернативы для создания 3D-модели с последующей обработкой можно использовать несколько изображений под разными углами [3].

Первым этапом алгоритма является моделирование человеческого лица в виде двумерной гладкой параметрической поверхности, обозначаемой S и представляемой координатной диаграммой из выбранного подмножества [7].

Предположим, что функции ,…,(при достаточно большом r) и векторы линейно независимы.

В координатном пространстве элемент расстояния поверхности может быть выражен через метрический тензор как [7]:

где – тензор, равный

Нормалью S в точке x, является вектор, ортогональный касательному пространству TxS и может быть записан в виде произведения [7]:

Поскольку наша поверхность является связанной и компонованной, риманова метрика инициализирует метрику расстояния. Чтобы определить его, пусть x, y ∈ S - две точки на поверхности и c: [0, 1]. Тогда длина определяется формулой

Тогда расстояние от x до y на поверхности S можно получить по формуле

Траектория пути минимальной длины, полученная в результате из экстремума функционала [c], называется минимальными геодезическим, а d(x,y) называется геодезическим расстоянием [7].

Рис. 4 Пример работы алгоритма

Нейронные сети и скрытые Марковские модели. Скрытые Марковские модели - это статистический инструмент, используемый при распознавании лиц [3]. Они используются совместно с нейронными сетями. Они генерируется в нейронной сети, которая создает псевдо 2D HMM (Hidden Markov Models). В качестве входных параметров для этого процесса 2D HMM являются выходные данные ANN (Artificial Neural Networks –искусственная нейронная сеть) [8].

Инициализация HMM:

матрица вероятности перехода состояния, где

где N - количество состояний в модели, – набор состояний, T – длина рассматриваемых последовательностей ( количество фреймов).

матрица вероятности рассматриваемых символов, где

где - рассматриваемый символ во время t, M - количество различных рассматриваемых символов, – набор возможных рассматриваемых символов [8].

распределение исходного состояния, где

После инициализации Марковской модели начинается работа с изображением. Изображения просматривается сверху вниз, и модель последовательно переходит из одного состояния в другое.

Рис. 5 Разделение области лица на значимые части

Для каждого изображения из базы строится своя Марковская модель [8]. Задача нейронной сети будет заключаться в сравнении исходного изображения с шаблонным, посредством вычисления вероятности с помощью алгоритма прямого-обратного хода. С помощью такого метода успех идентификации посредством нейронной сети очень высок.

Заключение. Технология распознавания лиц добилась больших успехов в последние годы. Теперь компьютеры могут идентифицировать лица, которые не находятся в области с хорошим освещением и широким радиусом обзора. Бокового обзора движущегося изображения уже может быть достаточно для искусственного интеллекта, чтобы идентифицировать. Страны, включая Китай и США, разрабатывают, тестируют и используют технологию распознавания лиц. В Международном аэропорту Лос-Анджелеса Администрация безопасности транспорта США пытались использовать различные устройства безопасности, включая технологию распознавания лиц, которая должна была фотографировать пассажира и сравнивать его с фотографией паспорта непосредственно перед тем, как он пройдет охрану аэропорта [9]. Так же ведутся разработки по внедрению системы распознавания лиц в медицине. Вместо того, чтобы распознавать человека через FaceTech, медицинские работники могли бы идентифицировать болезни, глядя на лицевые особенности пациента. Это помогло бы снизить постоянную нагрузку в медицинских центрах, сократив очереди и упростив процесс назначения лечения.

Организации по защите прав и сторонники неприкосновенности частной жизни, такие как «Фонд электронных рубежей», «Большой брат смотрит» и ACLU (Американский союз защиты гражданских свобод) выражают озабоченность по поводу нарушения конфиденциальности за счет использования технологий наблюдения. Некоторые опасаются, что это может привести к «обществу тотального надзора», когда правительство и другие органы власти будут иметь возможность знать местонахождение и деятельность всех граждан круглосуточно [10].

Распознавание лиц можно использовать не только для идентификации человека, но и для извлечения других персональных данных, связанных с отдельными людьми, таких как фотографии с участием отдельных лиц, сообщения в блогах, профили социальных сетей, поведение в Интернете, шаблоны путешествий и т.д. Это в корне меняет динамику повседневной конфиденциальности, позволяя любому маркетологу, правительственному агентству или случайному незнакомцу тайно собирать личность и связанную с ними персональную информацию любого человека, захваченного системой распознавания лиц.