Введение. В данной статье рассматриваются существующие способы автоматической идентификации личности, основываясь на голосе говорящего человека. Невзирая на отличие, каждому из методов идентификации свойственны общие этапы, среди которых можно выделить:
1. Получение речевых характеристик звукового сигнала.
2. Построение шаблона говорящего, основываясь на полученных признаках.
Идентификация говорящего в какой-либо системе по голосовому вводу заключается в поиске самой подходящей модели, основываясь на определенных критериях.[1]
Алгоритм динамической трансформации временной шкалы (DTW).данный алгоритм дает возможность найти схожесть между распознаваемой звуковой последовательностью и сравниваемым эталонным образцом, взяв во внимание изменения, происходящие во времени, путем вычисления последовательности, которая будет наиболее оптимальна для изменения во времени для двух последовательностей векторов, содержащих речевые признаки: G – последовательность извлеченных речевых признаков из обучающей выборки и P – из тестовой выборки[2,3]:
(2)
G={g1,g2,…,gn}, P={p1,p2,…,pm} (1)
Основываясь на (1) составляется путь наименьшей стоимости.
Для построения матрицы Ωn∙m необходимо найти расстояние между i-ым и j-ым элементами из (1). Это расстояние и будет являться элементами матрицы Ωn∙m .По матрице Ωn∙m строится путь W, показывающий соответствие между исходными последовательностями. k-ый элемент W определяется как wk = (i, j), где К должен соответствовать ограничению:
min(m,n)≤K<m+n-1 (2)
Путь W должен строиться на основе следующих условий:
- Непрерывность. При проходе по последовательности i и j изменяются только на единицу, то есть проход совершается пошагово. Таким образом, в шаге пути принимают участие соседние элементы.
- Монотонность. Если wk = (a,b) и wk-1 = (p,g), тогда a-p≥0, b-g≥0. Это нужно для того, чтобы точки пути размеренно перемещались во времени.[8]
- Диагональ матрицы должна содержать начало и конец пути, которые располагаются в противоположных углах, что представляет собой граничные условия.
Для выбора пути с наименьшей стоимостью (выравнивающий путь) необходимо воспользоваться формулой:
Знаменатель К нужен для учета разной длины пути.
Таким образом, искомый W для взятых последовательностей представляет собой путь, при котором образовывается минимальная стоимость DTW(G,P).
Для идентификации говорящего определяется минимальная стоимость для всех шаблонов из базы данных. Значение, которому соответствует путь с минимальной длиной, определяет n - индивидуальный номер диктора, чей голос максимально приближен к образцу исходной речи. К преимуществам данного метода можно отнести легкую реализацию. К недостаткам можно отнести невозможность применения алгоритма для текстонезависимой идентификации, что делает его почти неиспользуемым в современных системах идентификации.
Скрытые Марковские модели (СММ). СММ – модель, которая описывает стохастический процесс, который разбивается на несколько этапов. Первый этап включает в себя создание цепи Маркова. Второй этап включает в себя создание временной последовательности для каждой точки цепи Маркова. Эта последовательность является выходной. Наблюдателю процесса доступна временная последовательность. В процессе генерации выделяется последовательность состояний, которая недоступна наблюдателю процесса («скрыта») [8].
Модель Маркова характеризуется следующими элементами:
- Множество, состоящее из скрытых состояний;
- Множество, состоящее из наблюдений;
- распределение состояний, определяющая вероятность начать работу в определенном состоянии i;
- матрица вероятностей переходов между скрытыми состояниями
- матрица, содержащая вероятности
Для идентификации диктора по голосу предпринимаются следующие этапы: речевой сигнал преобразуется в мел-частотные кепстральные коэффициенты. После чего применяется алгоритм векторного квантования к полученным коэффициентам. В результате применения алгоритма квантования вычисляется последовательность наблюдений O={o1,o2…,ot}. С помощью полученной на предыдущем этапе последовательности наблюдений, параметров моделей пользователей λi рассчитывается вероятность P(O|λi) , которая определяет процент совпадения последовательности O и модели пользователя. К преимуществам данного метода можно отнести улучшенное качество распознавания; возможность достаточно скоро восстанавливать порядок состояний модели с помощью информации о длительности каждого состояния. К недостаткам метода можно отнести большое количество вычислений и большое количество памяти. Обязательная оценка большого количества новых параметров – состояний также можно отнести к недостаткам метода[4].
Векторное квантование. Векторное квантование (VQ) упрощает распознавание за счет сжатия сигнала речи. Первый этап (обучение) предполагает создание словаря, содержащего p-мерные вектора (эталонные слова). На втором этапе (классификация) для всех векторов из выборки тестовых векторов si определяются k соседних кодовых векторов. Далее тестовый вектор замещается индексом максимально приближенным к кодовому слову.
Вероятность принадлежности вектора s диктору D можно рассчитать по формуле:
Классификация последовательность тестовых векторов находится по формуле:
Таким образом, векторное квантование можно разбить на следующие стадии:
1. Обучение. Включает инициализацию, поиск ближайшего кодового слова, обновление кодовой книги, итерация
2. Классификация. На вход подается неизвестный вектор. После соответствующих преобразований получают индекс кодового слова, ближайшего к входному вектору [6].
Среди преимуществ данного метода можно выделить следующие: метод подходит для задач текстонезависимой идентификации диктора; метод прост в программном исполнении. Среди недостатков можно выделить следующее: метод дает не всегда высокую точность идентификации.
Метод опорных векторов (SVM). Данный алгоритм применятся для решения одной задачи: различать объекты двух классов, причем, делая это гораздо быстрее, чем нейронные сетеи. Метод использует функцию разделения:
f(x)=w*x+b
Пусть X - последовательность точек пространства признаков, Y- значения, которые описывают два класса.
Говоря о данных, можно выделить линейно-разделимые и линейно- неразделимые. В первом случае условия можно записать так:
(6)
Для надежного разделения классов нужно, чтобы расстояние между разделяющими гиперплоскостями было наибольшим, что можно реализовать при помощи метода множителей Лагранжа [6].
Во-втором случае вводится функция ядра. Чтобы работать с линейно неразделимым множеством, для того, чтобы отразить текущее пространство в пространство с большей размерностью нужно задать функцию ядра:
в полученном пространстве данные можно линейно разделить.
После вычисления функции f(x), принадлежность вектора x’ соответствующему классу определяется знаком выраженияf(x’)
Задачи мультиклассового распознавания строятся на стратегии «один против всех». Создается ряд классификаторов g. Каждый классификатор может отличать один определенный класс от всех остальных. При идентификации объект заносится в тот класс, чей классификатор показал максимальное значение f(x). К преимуществам данного метода можно отнести то, что метод достигает высокую точность классификации; при изменении функции ядра метод может использовать разные методы классификации. При мультиклассовой идентификации обучение протекает медленно, что можно отнести к главному недостатку метода.
Модель гауссовых смесей GMM. GMM- это взвешенная сумма M компонент:
где – D-мерный вектор случайных величин, pi– веса компонентов модели, bi– функции плотности распределения. Для pi (весов) должно выполняться условие:
Полностью GMM можно определить векторами математического ожидания, ковариационными матрицами и весами смесей для каждого компонента модели:
Используя метод GMM, любой диктор - является моделью гауссовых смесей.[8]
При реализации модели говорящего нужно оценить её параметры, таким образом, чтобы они были максимально близки к распределению векторов обучающей речи.
Для быстрого достижения результатов используется метод оценки максимального правдоподобия. Главная задача этого метода – это найти такие параметры модели, которые максимально правдоподобны этой модели, при заданных обучающих данных [7]. К преимуществам данного метода можно отнести возможность моделирования большого числа индивидуальных акустических признаков речи диктора. Среди недостатков выделяют возникновение проблемы неустойчивости выборочных оценок плотности и самого классификатора при обращении ковариационных матриц, которые могут быть вырожденными.
Заключение. Идентификация личности по голосу удобна в применении. Главное при построении системы идентификации по голосу – выбор параметров, которые являются индивидуальными для каждого говорящего. В данной статье были рассмотрены методы идентификации, применяемые при различных условиях распознавания.
Библиографическая ссылка
Минаева И.А., Белов Ю.С. МЕТОДЫ ИДЕНТИФИКАЦИИ ЛИЧНОСТИ ПО ГОЛОСУ, ИХ ПРЕИМУЩЕСТВА И НЕДОСТАТКИ // Международный студенческий научный вестник. – 2018. – № 6. ;URL: https://eduherald.ru/ru/article/view?id=19334 (дата обращения: 02.01.2025).