Сетевое издание
Международный студенческий научный вестник
ISSN 2409-529X

1
1 Voronezh Institute of High Technologies

Исследования, касающиеся областей распознавания речи, определяются двумя основными сферами: фундаментальными исследованиями, цели которых направлены на проведение разработки и тестирования новых методик, алгоритмов и подходов на некоммерческой основе; и соответствующих исследований, которые связаны с тем, чтобы улучшать существующие способы, ориентируясь на определенные критерии [1].

Для систем по распознаванию речи, которые имеют слова, процессы распознавания определяют проведение сравнений среди входными словами и теми словами, которые есть в словаре. Для того, чтобы эффективно решать проблемы, связанные с динамическими алгоритмами сравнения, требуется использовать временные масштабы для двух слов по оптимальному соответствию.

Одним из направлений, которые связаны с привлечением процедур, касающихся автоматического анализа речи можно выделить задачи с осуществлением визуализации результатов, что приводит к помощи в обучении произношению. Подобное обучение нацелено как на отдельные звуки, так и на целые слова и фразы.

На настоящий момент довольно распространенным способом, применяемым при решении аналогичных задач по анализу и распознаванию речи можно считать статистический подход. Осуществляется представление речевых единиц в гауссовых моделей сигналов.

Идет представление каждого слова в виде одного или нескольких эталонов по пространству измерений и происходит вычисление расстояний от эталонов по отношению к неизвестным реализациям речевых сигналов. Для простого случая, когда идет возникновение отклонений для реализаций некоторых слов от эталонов, опираясь на случайный процесс, имеющий нормальное распределение, в качестве оптимального можно считать проведение вычисления расстояний в рамках евклидовой метрики, которое реализуется, например, как коэффициент корреляции.

Для того чтобы проводить реализацию адаптивных алгоритмов распознавания, требуется использовать речевые эталоны, дающие возможности проводить отражения по медленным изменениям в произношении людей относительно времени. При реализациях важно привлекать обратные связи для уровней точности по каждых попытках, связанных с распознаванием.

Важно понимать, что при проведении обработки текстовых данных требуется применять комплексные информационные системы [2-5].

Отметим некоторые характеристики систем, предназначенных для распознавания речи:

1. Устойчивость по отношению к речи того, кто в текущий момент анализируется.

2. Размеры словаря.

3. Принятие во внимание того, раздельная или слитная речь у людей.

Существуют возможности повышения скорости при проведении распознавании речи, когда учитывают следующие критерии:

1. Размеры для той лексики, которую анализируют;

2. Время, необходимое для того, чтобы адаптировать систему;

3. Степень спонтанности речи, которую требуется распознать;

4. Время, необходимое для того, чтобы осуществить распознавание.