Введение. Человек имеет врожденную способность различать лица, и лишь в недавнее время компьютеры смогли достичь того же результата. В середине 1960-х годов ученые начали работу по использованию компьютера для распознавания человеческих лиц. С тех пор программное обеспечение распознавания лиц прошло долгий путь [1].
Технология распознавания лиц является наименее интрузивной и наиболее быстрой биометрической технологией. Она работает с наиболее очевидным индивидуальным идентификатором - человеческим лицом. Используя человеческое лицо как ключ к безопасности, биометрическая технология распознавания лиц получила значительное внимание в течение последних нескольких лет из-за ее потенциала для широкого спектра приложений как в правоохранительных, так и других органах [1]. В настоящее время распознавание лиц уже используется во многих правоохранительных органах в качестве перспективного средства предотвращения террористических преступлений. Программное обеспечение также разработано для автоматизации идентификации банковских служащих, используя распознавание лиц в качестве проверки пользователей.
Под системой распознавания лиц подразумевают технологию, позволяющую идентифицировать человека с цифрового изображения или видеоисточника. Существует несколько различных методов для распознавания, но в целом они работают путем сравнения выбранных черт лица с заданным изображением лиц из базы данных [2]. Так же метод может быть основан на биометрическом искусственном интеллекте, который может однозначно идентифицировать человека, анализируя шаблоны, основанные на лицевых текстурах и форме лица [3]. По сравнению с другими биометрическими системами, использующими отпечатки пальцев / ладони или радужную оболочку, распознавание лица имеет определенные преимущества из-за его бесконтактного процесса. Системы распознавания лиц ненавязчиво сканируют лица людей, как они входят в определенную область, поэтому в большинстве случаев субъекты вообще не знают о процессе распознавания.
Алгоритмы распознавания. Все алгоритмы распознавания можно разделить на два основных подхода: геометрический, заключающийся в фотометрическом сравнивании, когда изображение представляется в виде значений и сравнивается со значениями из шаблонов для устранения дисперсий; линейный, основанный на скрытой Марковской модели и динамическом сопоставлении ссылок нейронов [4].
Среди большого разнообразия алгоритмов, выделяется общая структура процесса распознавания лиц:
Рис. 1 Общий алгоритм распознавания лица
Когда система обнаруживает лицо, она определяет положение, размер и позу головы. Используя глубину и ось измерения, на которые не влияет освещение, трехмерное распознавание лица может даже использоваться в темноте и имеет возможность распознавать объект под разными углами зрения с возможностью распознавания до 90 градусов (лицо в профиле). В случае работы с 2D, голова должна быть повернута не менее чем на 35 градусов к камере. На этапе непосредственного распознавания система сравнивает вычисленные признаки с заложенными в базу данных эталонами. Поэтому в качестве основного отличия среди алгоритмов будет являться вычисление признаков и сравнение их совокупностей между собой [3, 5].
Алгоритм распознавания по геометрии точек. Каждое лицо имеет многочисленные, отличимые ориентиры, которые составляют черты лица. Такие ориентиры часто называют узловыми точками. Человеческое лицо в среднем может иметь около 80 узловых точек. Алгоритм производит анализ относительного положения, размера и / или формы глаз, носа, скул и челюсти и затем использует эти параметры для поиска других изображений с соответствующими параметрами [5].
Существуют множество реализаций данного алгоритма. Наиболее современным является алгоритм, предложенный сотрудниками технического института имени Короля Монгкута (King Mongkut’s Institute of Technology) [6]. Алгоритм основан на ортогональных проекциях и евклидовом преобразовании. Основное скопление точек расположено вокруг глаз, носа и рта. С извлеченными ориентирами формируются триплеты области и связанная с ними геометрическая инвариантность. Поскольку область является относительной инвариантностью при евклидовом преобразовании, применяются абсолютные отношения площадей между последовательными треугольными зонами.
Рис.2 Границы и внутренние углы лицевых треугольников
Относительный инвариант можно описать следующей формулой:
где - является определителем аффинного преобразования, - фрагмент последовательности треугольников на шаблоне [6].
Поскольку матрица линейного преобразования неизвестна, абсолютные аффинные инварианты построены из области относительных инвариантов, взяв соотношение двух треугольников для того, чтобы вынести за скобки зависимости относительного инварианта области в определителе матрицы аффинного преобразования. Принимая отношение последовательных элементов в последовательности, набор абсолютных инвариантов может быть представлен в виде:
В случае измерения без помех абсолютный инвариант запроса совпадает с абсолютным инвариантом шаблона, т.е. при наличии помех и окклюзии, каждый из будет иметь счетную часть , причем этот аналог легко определяет через круговой сдвиг, включающий сравнений, где - число инвариантов [6].
Рис.3 Вектор лицевого ориентира
Углы вычисляются по формуле [6]:
Площадь каждого треугольника будет вычисляться как:
Алгоритм трехмерного распознавание лица. Трехмерное распознавание лиц - это механизм распознавания лиц, в котором используется трехмерная геометрия. Доказано, что методы распознавания трехмерного лица могут достигать значительно более высокой точности, чем их 2D-копии, позволяя идентифицировать человека независимо от угла наклона лица и условий освещения. Основным технологическим ограничением методов распознавания 3D-поверхностей является получение 3D-изображения, которое обычно требует использование камеры широкого диапазона. В качестве альтернативы для создания 3D-модели с последующей обработкой можно использовать несколько изображений под разными углами [3].
Первым этапом алгоритма является моделирование человеческого лица в виде двумерной гладкой параметрической поверхности, обозначаемой S и представляемой координатной диаграммой из выбранного подмножества [7].
Предположим, что функции ,…,(при достаточно большом r) и векторы линейно независимы.
В координатном пространстве элемент расстояния поверхности может быть выражен через метрический тензор как [7]:
где – тензор, равный
Нормалью S в точке x, является вектор, ортогональный касательному пространству TxS и может быть записан в виде произведения [7]:
Поскольку наша поверхность является связанной и компонованной, риманова метрика инициализирует метрику расстояния. Чтобы определить его, пусть x, y ∈ S - две точки на поверхности и c: [0, 1]. Тогда длина определяется формулой
Тогда расстояние от x до y на поверхности S можно получить по формуле
Траектория пути минимальной длины, полученная в результате из экстремума функционала [c], называется минимальными геодезическим, а d(x,y) называется геодезическим расстоянием [7].
Рис. 4 Пример работы алгоритма
Нейронные сети и скрытые Марковские модели. Скрытые Марковские модели - это статистический инструмент, используемый при распознавании лиц [3]. Они используются совместно с нейронными сетями. Они генерируется в нейронной сети, которая создает псевдо 2D HMM (Hidden Markov Models). В качестве входных параметров для этого процесса 2D HMM являются выходные данные ANN (Artificial Neural Networks –искусственная нейронная сеть) [8].
Инициализация HMM:
матрица вероятности перехода состояния, где
где N - количество состояний в модели, – набор состояний, T – длина рассматриваемых последовательностей ( количество фреймов).
матрица вероятности рассматриваемых символов, где
где - рассматриваемый символ во время t, M - количество различных рассматриваемых символов, – набор возможных рассматриваемых символов [8].
распределение исходного состояния, где
После инициализации Марковской модели начинается работа с изображением. Изображения просматривается сверху вниз, и модель последовательно переходит из одного состояния в другое.
Рис. 5 Разделение области лица на значимые части
Для каждого изображения из базы строится своя Марковская модель [8]. Задача нейронной сети будет заключаться в сравнении исходного изображения с шаблонным, посредством вычисления вероятности с помощью алгоритма прямого-обратного хода. С помощью такого метода успех идентификации посредством нейронной сети очень высок.
Заключение. Технология распознавания лиц добилась больших успехов в последние годы. Теперь компьютеры могут идентифицировать лица, которые не находятся в области с хорошим освещением и широким радиусом обзора. Бокового обзора движущегося изображения уже может быть достаточно для искусственного интеллекта, чтобы идентифицировать. Страны, включая Китай и США, разрабатывают, тестируют и используют технологию распознавания лиц. В Международном аэропорту Лос-Анджелеса Администрация безопасности транспорта США пытались использовать различные устройства безопасности, включая технологию распознавания лиц, которая должна была фотографировать пассажира и сравнивать его с фотографией паспорта непосредственно перед тем, как он пройдет охрану аэропорта [9]. Так же ведутся разработки по внедрению системы распознавания лиц в медицине. Вместо того, чтобы распознавать человека через FaceTech, медицинские работники могли бы идентифицировать болезни, глядя на лицевые особенности пациента. Это помогло бы снизить постоянную нагрузку в медицинских центрах, сократив очереди и упростив процесс назначения лечения.
Организации по защите прав и сторонники неприкосновенности частной жизни, такие как «Фонд электронных рубежей», «Большой брат смотрит» и ACLU (Американский союз защиты гражданских свобод) выражают озабоченность по поводу нарушения конфиденциальности за счет использования технологий наблюдения. Некоторые опасаются, что это может привести к «обществу тотального надзора», когда правительство и другие органы власти будут иметь возможность знать местонахождение и деятельность всех граждан круглосуточно [10].
Распознавание лиц можно использовать не только для идентификации человека, но и для извлечения других персональных данных, связанных с отдельными людьми, таких как фотографии с участием отдельных лиц, сообщения в блогах, профили социальных сетей, поведение в Интернете, шаблоны путешествий и т.д. Это в корне меняет динамику повседневной конфиденциальности, позволяя любому маркетологу, правительственному агентству или случайному незнакомцу тайно собирать личность и связанную с ними персональную информацию любого человека, захваченного системой распознавания лиц.