Сетевое издание
Международный студенческий научный вестник
ISSN 2409-529X

ТЕХНОЛОГИИ ОБРАБОТКИ ИНФОРМАЦИИ И МЕТОДЫ АВТОМАТИЗИРОВАННОГО РЕФЕРИРОВАНИЯ И АННОТИРОВАНИЯ

Жилинская О.И. 1 Чопорова Е.И. 1
1 Воронежский институт МВД России
1. Учебный словарь стилистических терминов [Электронный ресурс]. – (www.stilistics.academic.ru).
2. Методология истории: некоторые актуальные проблемы. Учебное пособие в помощь школьным учителям истории и обществознания, повышающим квалификацию в системе дополнительного профессионального образования / Е.Ю. Бобкова [и др.] – Самара: ПСГА. – 170 с.
3. Маркушевская Л.П., Цапаева Ю.А. Аннотирование и реферирование (Методические рекомендации для самостоятельной работы студентов) / Л.П. Маркушевская, Ю.А. Цапаева. – СПб ГУ ИТМО, 2008. – 51 с.
4. Энциклопедический словарь [Электронный ресурс]. – (www.dic.academic.ru).
5. Беленький А. Извлечение информации из неструктурированных текстов [Текст] / А. Беленький // КомпьютерПресс, 2008. – №2. – С. 74-79.
6. Luhn, H.P. (1958). The automatic creation of literature abstracts, IBM Journal of Research and Development, issue 2 / 1958, p. 159-165. – (http://courses.ischool.berkeley. Edu/i256/f06/papers/luhn58.pdf).
7. Поспелов Д.А. Из истории искусственного интеллекта: история искусственного интеллекта до середины 80-х годов / Д.А. Поспелов // Новости искусственного интеллекта. – вып. 4. – 1994. – С. 70-90.
8. Гиляревский Р.С. Методы автоматизированного фрагментирования текста, отражающиеся на характеристике внутреннего состава фрагментов / Р.С. Гиляревский, С.И. Гиндин // Семиотика и информатика. М.: ВИНИТИ, 1977. – Т.9. – С. 35-84.
9. Новиков А. И. Текст и его смысловые доминанты / Под ред. Н.В Васильевой, Н.М. Нестеровой, Н.П. Пешковой. – М.: Институт языкознания РАН, 2007. – 224 с.
10. Технология анализа данных: Data Mining, Visual Mining, Text Mining, OLAP / А.А. Барсегян [и др.] – СПб.: БХВ-Петербург, 2007. – 384 с.
11. Браславский П., Колычев И. Автоматическое реферирование веб-документов с учетом запроса. Грант ООО «Яндекс» №102707, (company/yandex.ru /grant/2005/ll_Braslavski_102707.pdf).
12. [Электронный ресурс]. – (http://www.analyst.ru/index.php?lang=rus&dir =content/tech/&id=approach).

Появление новейших информационных технологий предложило обществу безграничные возможности в сфере извлечения, обработки и применения информации. Вследствие этого информация превращается в один из важнейших ресурсов государства, а аннотация и реферат становятся важнейшими способами, которые способны обеспечивать эффективный обмен извлеченной информацией, сокращая, таким образом, время, отводимое на знакомство с новыми данными и их обработку.

Сущность реферирования и аннотирования, как основных лингвистических средств вербального сжатия информации с сохранением ее основного значения, заключается в максимальном сокращении объема информации при существенном сохранении ее основного содержания.

Аннотация (от лат. annotatio – замечание) представляет собой краткую характеристику смыслового компонента печатного произведения, и, как правило, содержит предельно краткую характеристику первоисточника описательного типа. В аннотации в обобщенном виде раскрывается тематика публикации без полного отражения ее содержания и дается ответ на вопрос, о чем именно говорится в первичном источнике информации. Композиционно аннотация представляет собой текстовый документ, состоящий из двух частей, где в первой части сформулирована основная тема первоисточника, а во второй – основные положения аннотируемого текста [1].

Реферат (от лат. refero – сообщаю) является кратким письменным изложением содержания научного труда (трудов) по определенной теме с раскрытием его (их) основного содержания по всем затронутым вопросам, и, сопровождаемое оценкой и выводами референта. Как правило, реферат должен дать читателю объективное представление о характере освещаемой работы и сообщить наиболее существенные моменты ее содержания [2].

В отличие от аннотации в реферате не только освещается основная тема первичного документа, но и достаточно подробно раскрываются основные положения реферируемого первоисточника. Также реферат предоставляет описание первичного документа, оповещает о выходе в свет и о наличии соответствующих первичных документов, а также является источником для получения справочных данных и самостоятельным средством научной информации [3].

Составление аннотаций и рефератов человеком (референтом) требует от него значительных умственных усилий, специальных знаний и умений, связанных со сжатием текста, а также специальных лингвистических навыков перефразирования и т.д., в связи с чем, необходимость создания эффективных методов автоматизированного реферирования и аннотирования уже долгое время является достаточно актуальной.

Процесс автоматизированного сжатия информации на естественном языке осуществляется на основе компьютеризированных систем, и соответственно, влечет за собой создание специальных инструментов в двух основных областях знаний – прикладной лингвистике и системном анализе и обработке данных. Прикладная лингвистика занимается автоматизацией интеллектуальной деятельности, связанной с использованием языка, а именно: созданием систем искусственного интеллекта (автоматизированных) информационно-поисковых систем, систем автоматического аннотирования и реферирования информации [4].

В области системного анализа автоматизированная обработка текста осуществляется в рамках текстомайнинга (text mining), который также известен как текстовый дейтамайнинг (text data mining). Текстомайнинг является более узким понятием, так как предназначен для извлечения новых знаний из неструктурированных текстовых массивов, в то время как дейтамайнинг позволяет находить новую информацию в больших объемах структурированной информации, т.е. хранимой в базах данных. Таким образом, после того, как неструктурированные текстовые массивы переводятся в структурированные, данные могут обрабатываться с помощью стандартных методов дейтамайнигнга [5].

Одной из первых работ в области автоматизированного сжатия текста на естественном языке посредством компьютеризированных систем считается статья Ханса Петера Луна (Н. P. Luhn) «The automatic creation of literature abstracts», опубликованная в 1958 году в научном журнале «IBM Journal of Research and Development» [6]. Начиная с данной точки отсчета предлагалось множество подходов к автоматизированному аннотированию и реферированию, некоторые из которых основывались на выявлении определенных статистических закономерностей распределения терминов в тексте или их взаимного расположения в нем [7; 8], в то время как другие использовали внутренние структуры текста, т.е. ориентировались на выявление ключевых предложений и ключевых «узлов» первоисточника [9].

В настоящее время выделяют два основных подхода к автоматизированной аннотированной компрессии текстовых документов: извлечение информации или экстракция и обобщение или абстракция [10; 11].

Извлечение предполагает выделение наиболее важных и существенных информационных блоков (фрагментов), чаще всего предложений из исходного текста и соединение их в реферат или аннотацию. Такое выделение ключевых предложений осуществлялось на основе позиционных и тематических критериев, т.е. на основе местоположения предложения в документе или на базе наличия ключевых слов в предложении. Подобные методы, основанные на этом подходе, зачастую называют поверхностными) [10].

Обобщение предполагает использование предварительно разработанных грамматик естественных языков, тезаурусов, онтологических справочников и т.д., на основании которых выполняется переформулирование исходного текста и его обобщение. Обобщение при реферировании – это фактически процесс порождения или генерации нового текста, который характеризуется тремя основными этапами: адекватной перцепцией и анализом первоисточника с его дальнейшей девербализацией и созданием внутреннего представления его структуры (чаще всего, в виде семантических деревьев), дальнейшее семантическое сжатие внутреннего представления и синтез нового текста (реферата), или ревербализация экстрактированной внутренней структуры исходного текста. Методы, основанные на обобщении, считают более глубинными [10; 11].

Существует ряд специальных инструментов для работы с текстовой информацией, которые позволяют читателю достаточно быстро ознакомиться с текстами любой тематики. Среди них можно отметить такие программные продукты как WordStart, Aero Text, STATISTICA Text Miner, Attensity suite, «ГАЛАКТИКА».

Однако если говорить о применимости определенного программного продукта к текстам научно-технического характера, наиболее полезной программой представляется TextAnalyst, которая позволяет увидеть все понятия, употребляемые в предъявленных текстах, а также может выстроить все взаимосвязи и оценить их вес, представить содержание в виде иерархии тем и подтем.

TextAnalyst – это средство семантического анализа, навигации и поиска в неструктурированных текстах, результат совместного действия технологий лингвистического анализа и нейросетей. Данная система может быстро резюмировать документы в текстовой базе и классифицировать их в группы, а также облегчает поиск семантической информации либо может сфокусировать изучение текста на каком-то определенном предмете [5].

Одно из бесспорных преимуществ программы TextAnalyst – это возможность построения сети семантических связей текста (Semantic Network), которая в лингвистике текста известна также как денотатная карта, информационный граф, семантическое дерево текста и т.д. Полученная семантическая сеть служит основой для дальнейшего смыслового анализа текста. Семантическая сеть представляет собой наиболее важные или ключевые понятия, извлеченные из текста, с выражением взаимосвязей или отношений между ними, оцененных на основе их относительной значимости [5].

В основу данной программы заложен ряд основных принципов, в частности, принцип ассоциативности, который подразумевает такое хранение информации, когда при появлении небольшого ее фрагмента программа сразу отсылает читателя к тому месту, где она хранится. Это дает возможность статистической обработки данных: при совпадении фрагментов, система налагает их друг на друга, что позволяет установить частоту встречаемости различных элементов. В результате такого анализа формируется семантическая сеть – смысловая структура, характеризующая смысл текста, в которой понятия (слова и словосочетания) объединяются ассоциативными связями в соответствии с их совместной встречаемостью. При этом из семантической сети исключаются слова, являющиеся общеупотребительными и не несущие самостоятельной смысловой нагрузки.

Второй принцип учитывает особенности сна человека, когда информация, поступившая на хранение в кору мозга, переупорядочивается в соответствии с ее связями. При этом весовые характеристики, сформированные на первом этапе анализа, преобразуются таким образом, что понятия, не часто встречавшиеся во входной информации, но связанные мощными связями с основными понятиями, в свою очередь, приобретают большой смысловой вес [12].

В дальнейшем сформированная семантическая сеть сама включается в работу по структуризации информации, относя фрагменты текста к соответствующим понятиям и связям сети. Таким образом создается так называемое тематическое древо – представление структуры текста в виде многоуровневой иерархии тем и раскрывающих их подтем. В зависимости от смыслового строения текста, тематическое древо может иметь один корень (главную тему), или расходиться на субдеревья несвязанных друг с другом тем.

Семантическая сеть и тематическое древо предъявляются для исследования пользователю TextAnalyst, который за каждым понятием и связью видит определенный смысл, заложенный в тексте. При этом пользователь избавляется от необходимости формирования модели текста, так как за него данное действие выполняется программой TextAnalyst.

Анализ текста, как правило, завершается автоматическим реферированием. При этом из текста отбираются фразы, содержащие наиболее весомые понятия с наиболее сильными связями, которые несут максимальную информацию о содержании текста. Фразы представляются в порядке их появления в исходном тексте [12].

Однако необходимо отметить, что реферат, получаемый на выходе при использовании автоматических программ обработки текстовой информации, выполнен по принципу экстракции или извлечения готовых фраз из текста-первоисточника, и, потому, не может в полной мере считаться рефератом или аннотацией искомого документа. Являясь незаменимым инструментом при составлении понятийных деревьев или ассоциативных карт предъявляемой информации, существующие на данный момент программы автоматизированной переработки текста, пока еще не могут в полной мере заменить человека при выполнении высокоорганизованной интеллектуальной деятельности. Сложнейшие операции, связанные с осмыслением, анализом, компрессией, языковым декодированием и перекодированием текста в настоящее время способен выполнить только человек, имеющий достаточно высокий уровень развития, интеллекта и языковой подготовки.

Тем не менее, современные системы реферирования способны оказать неоценимую помощь людям, чья профессиональная деятельность связана с анализом большого количества информации. У данного научно-инженерного направления совместно с различными областями прикладной лингвистики есть много перспективных путей развития.


Библиографическая ссылка

Жилинская О.И., Чопорова Е.И. ТЕХНОЛОГИИ ОБРАБОТКИ ИНФОРМАЦИИ И МЕТОДЫ АВТОМАТИЗИРОВАННОГО РЕФЕРИРОВАНИЯ И АННОТИРОВАНИЯ // Международный студенческий научный вестник. – 2015. – № 5-1. ;
URL: https://eduherald.ru/ru/article/view?id=12798 (дата обращения: 21.11.2024).

Предлагаем вашему вниманию журналы, издающиеся в издательстве «Академия Естествознания»
(Высокий импакт-фактор РИНЦ, тематика журналов охватывает все научные направления)

«Фундаментальные исследования» список ВАК ИФ РИНЦ = 1,674