- International Student Scientific Magazine

Вот уже на протяжении полувека проблема распознавания речи как одной из задач области обработки речи и языка остается актуальной. Попытки создания нового интерфейса между человеком и компьютером начались со времени создания самых первых компьютеров. Человеческая речь – это один из самых быстрых способов передачи информации между людьми и, несомненно, остается таковым естественным способом передачи информации уже на протяжении тысячелетий. Популяризированная в фантастических романах, таких как «2001: Космическая Одиссея» Артура Кларка (на примере искусственного интеллекта «HAL»), идея создания систем распознавания и понимания языка и систем искусственного интеллекта, взбудоражила умы миллионов, и с тех пор интерес к данным областям не угасает.

Данная проблема представляет живой интерес для современного научного сообщества, а также является предметом персональной заинтересованности автора. В этой статье предпринимается попытка выявления связи между идеями и концепциями лингвистической философии и областью обработки речи и языка, а также формулируются некоторые выводы о данной связи, основывающиеся на сравнении идей философов языка и принципов, лежащих в основе подходов к разработке систем распознавания и понимания речи.

Итак, обратимся к истории развития лингвистической философии и достижениям в области обработки речи и языка, попытаясь провести соответствующие связи между ними. Возьмем, например, идеи начала двадцатого века таких философов как Бертран Рассел или ранний Людвиг Витгенштейн, которые считали, что обыденный язык является слишком запутанным для решения философских проблем. Они пытались доказать, что избавление от него через переформулирование обыденного языка и создание так называемого «идеального языка», элиминирующего его двусмысленность и вследствие этого дающего возможность точного описания мира, – есть путь, намечающий полезность и пригодность «идеального языка» для решения эпистемологических и метафизических проблем.

Примерно через 70 лет, в 1987 году Группой Логического Языка (англ. The Logical Language Group) была создана одна из реализаций такого языка – «Ложбан»(Lojban). «Ложбан» – это язык, изначально преследовавший цель исследовать такие области знаний как когнитивная лингвистика, искусственный интеллект и машинный анализ речи, а также изучить гипотезу лингвистической относительности (гипотеза Сепира-Уорфа), предполагающую возможность влияния структуры языка на мировосприятие и воззрения его носителей. Данный язык практически лишен синтаксической неоднозначности, в его морфологии и орфографии отсутствуют исключения, его грамматика основана на логике предикатов и позволяет точно выразить сложные логические конструкции, что делает его идеальным для восприятия компьютером. За эти качества профессор Массачусетского технологического института, доктор технических наук, один из пионеров в области искусственного интеллекта, Марвин Ли Минский предлагает использовать «Ложбан» в качестве основного языка для взаимодействия между интеллектуальными системами и человеком, то есть языком который мог бы использоваться для распознавания, обработки и синтеза речи.

Нужно отметить, что и концепции Рассела и раннего Витгенштейна также нашли свое отражение в истории развития обработки речи и языка. В рамках этих концепций, слово описывает конкретный объект. Слова, как и объекты, делятся на атомарные (неделимые) и сложные. Взаимодействие объектов является фактом, а язык является проекцией реальности, описанием всех фактов. Заметим, что у слова, таким образом, может быть лишь одно значение – один объект, что является верным в идеальном языке, но не обыденном. Ровно, как и в контекстно-независимых системах распознавания речи, появившихся в 60-е годы XX века, впервые определенных американским лингвистом и философом Ноамом Хомским в 1956 г. в рамках теории формального языка. Его теория контекстно-независимой грамматики основывалась на одной из последних, на тот момент идей в области распознавания речи, конечных Марковских процессах.

Позже, всего через несколько лет после написания «Логико-философского трактата» Л. Витгенштейн отказывается от идеи идеального языка, выдвигая в «Философских рассуждениях» новую цель – вернуть слова обыденного языка от метафизического к каждодневному их употреблению. И, если раньше, в рамках аналитической философии и логического анализа, язык являлся проекцией реальности, а слова описывали только объекты, то теперь язык стал средством коммуникации, а значение слова – самим употреблением слова в языковой системе, в контексте. Общая идея улучшения обыденного языка сменилась идеей исследования языка обыденного. Это направление, развитое Джоном Остином, Гильбертом Райлом, а позже и Джоном Сёрлем, получило название лингвистической философии, а данный переход – лингвистического поворота.

Соответствующие изменения произошли и в сфере разработки систем обработки речи в конце 60-х годов прошлого века. Становилось понятно, что невозможно добиться больших результатов в распознавании речи без анализа контекста. Поэтому появилось новое направление, основанное на исследовании области искусственного интеллекта и использовании вероятностных моделей и нейронных сетей. В рамках данного направления вероятность использования того или иного слова зависит от его окружения, т.е. контекста. Открытия, сделанные в данной области, впоследствии позволили увеличить точность распознавания до двух раз в распознавании слитной дикторонезависимой речи. Именно на нейросетях, однако, уже с огромным количеством слоев и несравнимо большей мощностью (в том числе реккурентные нейронные сети), основаны большинство современных систем распознавания от крупнейших разработчиков как Google и Microsoft.

Однако, в последние годы (начало XXI века) можно заметить спад в развитии систем распознавания речи. Связан ли он с упадком интереса к данной области? Отнюдь. Напротив, интерес к данной области лишь вырос за эти годы. Но точность систем распознавания речи достигла своего пика в 1999 году и с тех пор застыла, лишь незначительно колеблясь на занятом уровне; системы общего профиля так и не смогли преодолеть уровень 80 %, тогда как у человека этот показатель составляет 96-98 %. Наш мозг способен создавать текст совершенно произвольно, используя интуитивно понятные правила функциональной грамматики, усвоенную с возрастом семантическую парадигму (значение) каждого слова. Сегодня многие специалисты из области распознавания речи и языка, говорят о недостаточности звукового сигнала и о необходимости анализа прочих факторов. Ведь значение слов при живом общении зачастую зависит от выражения лица или жестикуляции собеседника, а в некоторых случаях речь или эмоция может выражаться одним лишь языком тела.

Эти идеи очень напоминают теорию речевых актов, развитую Джоном Остином и Джоном Сёрлем. Согласно этой теории, зародившейся в середине XX века, минимальной целостной единицей речевой деятельности является процесс производства экземпляра символа, слова или предложения в результате языкового акта. Намерения и эмоции говорящего в процессе речевого акта могут также передаваться посредством жестикуляции или мимики, в то время как сама речь, предложение или фраза с её грамматической структурой и значением, является лишь локутивной частью речевого акта.

Таким образом, подводя итог, можно сделать вывод, что существует двусторонняя связь между лингвистической философией и достижениями науки в области обработки речи и языка. Идеи философов логического анализа и лингвистической прагматики находят свое место в разработке систем распознавания речи, пусть и не в реализации, но в подходе к языку, как к исследуемому объекту. Такую связь мы можем проследить на приведенных выше примерах идей таких философов как Бертран Рассел, Людвиг Витгенштейн, а позже и Джон Остин [2; 3; 4]. Их философские и лингвистические концепции идеального и обыденного языков легли в основу, или, как отмечал методолог Александр Койре, заостряя внимание на общем влиянии философии на науку, – стали «строительными лесами» [1, с. 14], без которых не представлялось бы возможным построение и развитие области обработки речи и языка. Очевидно, что присутствует и обратная связь: несомненно, достижения науки в данной области порождает новые задачи перед философией и лингвистикой. Из всего этого можно сделать вывод, что для дальнейшего успешного развития области обработки речи и языка, необходимы также исследования в области лингвистической философии. Лишь объединив усилия математиков, программистов, лингвистов и философов – видится возможной разработка систем распознавания и понимания речи. Действительно, междисциплинарность становится маркером постнеклассической науки, в сфере которой находится и область обработки речи и языка.

Сетевое издание
Международный студенческий научный вестник

ISSN 2409-529X

Международный студенческий научный вестник
Сетевое издание | ISSN 2409-529X | CertJournal