Исследования, касающиеся областей распознавания речи, определяются двумя основными сферами: фундаментальными исследованиями, цели которых направлены на проведение разработки и тестирования новых методик, алгоритмов и подходов на некоммерческой основе; и соответствующих исследований, которые связаны с тем, чтобы улучшать существующие способы, ориентируясь на определенные критерии [1].
Для систем по распознаванию речи, которые имеют слова, процессы распознавания определяют проведение сравнений среди входными словами и теми словами, которые есть в словаре. Для того, чтобы эффективно решать проблемы, связанные с динамическими алгоритмами сравнения, требуется использовать временные масштабы для двух слов по оптимальному соответствию.
Одним из направлений, которые связаны с привлечением процедур, касающихся автоматического анализа речи можно выделить задачи с осуществлением визуализации результатов, что приводит к помощи в обучении произношению. Подобное обучение нацелено как на отдельные звуки, так и на целые слова и фразы.
На настоящий момент довольно распространенным способом, применяемым при решении аналогичных задач по анализу и распознаванию речи можно считать статистический подход. Осуществляется представление речевых единиц в гауссовых моделей сигналов.
Идет представление каждого слова в виде одного или нескольких эталонов по пространству измерений и происходит вычисление расстояний от эталонов по отношению к неизвестным реализациям речевых сигналов. Для простого случая, когда идет возникновение отклонений для реализаций некоторых слов от эталонов, опираясь на случайный процесс, имеющий нормальное распределение, в качестве оптимального можно считать проведение вычисления расстояний в рамках евклидовой метрики, которое реализуется, например, как коэффициент корреляции.
Для того чтобы проводить реализацию адаптивных алгоритмов распознавания, требуется использовать речевые эталоны, дающие возможности проводить отражения по медленным изменениям в произношении людей относительно времени. При реализациях важно привлекать обратные связи для уровней точности по каждых попытках, связанных с распознаванием.
Важно понимать, что при проведении обработки текстовых данных требуется применять комплексные информационные системы [2-5].
Отметим некоторые характеристики систем, предназначенных для распознавания речи:
1. Устойчивость по отношению к речи того, кто в текущий момент анализируется.
2. Размеры словаря.
3. Принятие во внимание того, раздельная или слитная речь у людей.
Существуют возможности повышения скорости при проведении распознавании речи, когда учитывают следующие критерии:
1. Размеры для той лексики, которую анализируют;
2. Время, необходимое для того, чтобы адаптировать систему;
3. Степень спонтанности речи, которую требуется распознать;
4. Время, необходимое для того, чтобы осуществить распознавание.