Сетевое издание
Международный студенческий научный вестник
ISSN 2409-529X

ПРОГРАММА АНАЛИЗА ТЕКСТОВ И АВТОМАТИЧЕСКОГО ФОРМИРОВАНИЯ КЛАСТЕРОВ ПО ТЕМАТИЧЕСКОЙ НАПРАВЛЕННОСТИ

Аскеров Э.З. 1
1 Финансовый университет при Правительстве Российской Федерации
В статье представлены результаты решения проблемы автоматического формирования кластеров тематической направленности. Анализ изменений тематических кластеров выполнен на материале научных статей молодых ученых, это связано с тем. что статьи ученых, признанных в научном мире имеют рейтинг, в то время, когда статьи молодых ученых такого рейтинга не имеют. Реализован подход, основанный на анализе полных текстов научных статей, методы основываются на анализе совместного пересечения словосочетаний/слов. Исследование связей тематической кластеризации проведено с использованием программного продукта VosViewer. Продукт позволяет проводить анализ цитирования, выявлять ключевые темы и паттерны, прослеживать связи между научными областями и учеными. Он способствует обнаружению структурных характеристик сетевых данных, таких как группировка, центральность и степень связанности. Кроме того, VOSviewer дает возможность проводить анализ социальных сетей и исследовать взаимосвязи между участниками с помощью различных метрик и методов визуализации. Описана кластеризация словосочетаний на основе алгоритма модуляции. Для выявления особенностей и тенденций в различных временных промежутках и для визуализации и сравнения данных использована стратегическая диаграмма. Изучение динамики формирования тематических кластеров осуществляется путем анализа изменений и развития внутри кластера, для этого применяются ориентированные графы, которые учитывают направление связей и позволяют анализировать и следить за значимыми изменениями, происходящими внутри кластера. В статье рассмотрен анализ текстов докладов за десятилетний период, который показывает характеристики тенденций и изменений в кластерах тематической направленности, такие как обнаружение формирования новых кластеров, рост или сокращение существующих кластеров, изменение связей и взаимодействий между тематическими группами и другие изменения, которые отражают эволюцию и развитие в обсуждаемых тематических направлениях.
анализ текстов
тематическая направленность
кластеры
графы
предметная область
программа анализа текстов
1. Callon, M., Courtial, J.P., Laville, F. Co-word analysis as a tool for describing the network of interaction between basic and technological research: the case of polymer chemistry // Scientometrics. 1991. N 22, Р. 155– 205.
2. Кандилас, В., Апхэм, С. П., Унгар, Л. Х. Анализ сообществ знаний с использованием кластеров переднего плана и фона. [Электронный ресурс]. http://citeseerx.ist.psu.edu/ viewdoc/download?doi=10.1.1.146.3141&rep= rep1&type=pdf (дата обращения: 02.02.2024).
3. Ван Экк, Н.Дж., Уолтман, Л. Визуализация библиометрических сетей [Электронный ресурс]. https://link.springer.com/chapter/10.1007 (дата обращения: 02.02.2024).
4. Betancourt, C., Chen, W.-H. Deep reinforcement learning for portfolio management of markets with a dynamic number of assets. // Expert Systems with Applications, Volume 164, February 2021, 114002 - URL: .https://doi.org/10.1016/j.eswa.2020.114002.
5. Cobo, M.J., Lуpez-Herrera, A.G., Herrera-Viedma, E., Herrera, F. An approach for detecting, quantifying, and visualizing the evolution of a research field: A practical application to the Fuzzy Sets Theory field [Электронный ресурс]. https://www.sciencedirect.com/science/article/pii/ S1751157710000891 (дата обращения: 02.02.2024).
6. Нгуен, Т.Т. и др. Многоцелевая система обучения с глубоким подкреплением // Инженерные приложения искусственного интеллекта, Том 96, ноябрь 2020, 103915. [Электронный ресурс]. - https://doi.org/10.1016/j.engappai.2020.103915(дата обращения: 02.02.2024).
7. Пальмов, С.В., Артюшкина, Е.С. Глубокое обучение: определение и отличительные особенности. //Форум молодых ученых. 2020. № 3 (43). С. 311-316.
8. Чистова, Е.В., Шелманов, А.О., Смирнов И.В. Применение глубокого обучения к моделированию диалога на естественном языке. // Труды Института системного анализа Российской академии наук. 2019. Т. 69. № 1. С. 105-115.
9. Потемкин, А.В. Обработка разнородной информации с помощью глубокого обучения нейронных сетей. // Мягкие измерения и вычисления. 2019. № 9 (22). С. 44-48.
10. Малый, H. Отслеживание и прогнозирование областей роста в науке [Электронный ресурс]. http://www.scimaps.org/exhibit/docs/small.pdf (дата обращения: 02.02.2024).

Введение

Информационная система, созданная для регулярного автоматического обновления информации, проведения статистического анализа исследовательской деятельности признана наиболее частым способом представления структуры предметной области. К построению карт применимо два основных подхода [1]. Первый демонстрирует структуру: цитирования двумя авторами одной статьи. Второй показывает совместное пересечение терминов в текстах [2]. При этом, оба подхода схожи. Программное построение карт формируется путем выбора текстов из статей по ключевым запросам к базам данных. Предметная область представлена тематическими кластерами, имеющими внутрикластерные и межкластерные связи.

В случае применения совместного цитирования нескольких связанных текстов, выявление одинаковых частей происходит по авторским ссылкам. Тексты, в которых используются частым образом похожие термины, тексты, тематики, имеют схожее строение. Для выявления структуры предметной области используют кластеризацию терминов из Интернета. Статьи являются текстами, построенные на цитировании, в них находятся термины, которые в свою очередь характеризуют кластеры. Ключевые слова, слова, словосочетания, небольщие тексты являютя терминами.

В 2010 - 2020 гг. было проведено исследование, в котором наблюдалась динамика и тематическая структура технических направлений. Изменение кластеров тематической направленности означает изменение группировки объектов, которые связаны с определенной тематикой или концептуальным направлением. Особенностью проводимого анализа является то, что алгоритм реализовывался на текстах научных статей технической направленности, представленных молодыми учеными на конференции.

Получено, что статьи ученых, признанных в научном мире имеют рейтинг, в то время, когда статьи молодых ученых такого рейтинга не имеют. Тем не менее, факт прохождения отбора трудов для представления на конференции демонстрирует их значимость. Также можно утверждать, что при оценке кластерных изменений предметной области по рассматриваемым материалам риск ошибок выше, в сравнении со статьями, включенных в рейтинг [3,4]. Таким образом, своевременное выявление ошибок в формировании кластеров представляет для целей изучения и практического применения большой интерес. Исследование применения различных видов моделей проведено в целом ряде статей [5,6,7].

Цели исследования

Разработка алгоритма формирования кластеров по выбранным темам в смежных периодах времени и выявление возможности применения на практике разработанного алгоритма.

Материал и методы исследования

В статье представлены результаты анализа изменений тематических кластеров, полученных на материале научных статей молодых ученых по технической направленности, опубликованных на конференциях с 2010 по 2020 годы.

Методы основываются на анализе совместного пересечения словосочетаний/слов в текстах научных статей. [8] Анализ текстов проводился с помощью программного обеспечения VOSViewer.

Выборка терминов, группировка множества объектов проводилась с помощью применением программы VOSViewer (Просмотрщик) [2].

Изменения в кластерах на протяжении всего времени их существования происходят на уровне всех анализируемых смежных сегментов. Создание нейронной сети происходит через i и j. Мера ассоциации вычисляется по формуле 1.

где – вес связи между терминами i и j, равный количеству исследуемых статей, схожих между собой, – суммарный вес связей для i и j терминов, m – показатель суммарного веса общих связей в нейронной сети [9].

Подход к анализу является методом, разработанным для исследования и визуализации библиографических данных с помощью программного инструмента VOSviewer, который способен создавать наглядные карты и визуализации. Использование VOSviewer и его основных компонентов (функция «модульности» и параметр «разрешение») позволяют проводить более глубокий и структурированный анализ библиографических данных. Это способствует выявлению тематических групп, группированию ключевых запросов и получению наглядных результатов визуализации, что помогает исследователям лучше понять структуру и содержание в изучаемых библиографических данных. Ключевые запросы, сгруппированные по определенным характеристикам или общим элементам, формируют определенные темы технической направленности. То есть, с помощью VOSviewer и его подхода к анализу, можно выделить важные слова или фразы, которые появляются в связанных тематиках или областях, и наглядно представить их визуально с помощью создания карт в программе.

Результаты исследования и их обсуждение

Стратегические диаграммы, основанные на наборе текстов, относящихся к одному и тому же периоду времени, являются инструментом для оценки развития темы и перспектив развития. Разграничение осуществляется на основе различных групп и характеристик, которые отражены на осях центральности (c) и показателях плотности (d). Эти показатели рассчитываются с использованием индекса эквивалентности и связей между терминами в конкретном кластере.

Включение каждого кластера в разные квадранты стратегической диаграммы представлено следующим образом:

-1-й квадрант отражает основную тему, связанную с второстепенными темами. Значения центральности и плотности в кластере при этом являются положительными: c > 0 и d > 0;

- 2 квадрант включает узкоспециализированную тематику, где центральность низкая или отрицательная, а плотность остается высокой: c ≤ 0 и d > 0;

- 3 квадрант содержит тексты с незначительной направленностью, где как центральность, так и плотность, являются положительными или равными нулю: c ≥ 0 и d ≥ 0;

- 4 квадрант отражает потенциально перспективные темы для будущего развития, где центральность высока, а плотность низка или отрицательна: c > 0 и d ≤ 0.

Начало координат устанавливается в точке пересечения медиан значений центральности {ci} и плотности {di}, где i представляет численность кластеров. Это формирует базовую точку для построения стратегической диаграммы.

Отслеживание динамики временных изменений в кластере предполагает использование графов, у которых ребрам присвоено направление. Эти графы отражают компоненты функционирования кластеров на различных временных периодах.

Обозначим - количество кластеров в научных трудах молодых ученых, связанных с техническим направлением на конференции, где t – период времени, i = 1, kt – количество кластеров.

Для каждого кластера присутствует метка, указывающая на его содержание, относящееся к определенной тематике. Метка подразумевает, что внутри кластера имеется 2-3 термина, которые связаны с наибольшим количеством ссылок.

В момент перехода между временными интервалами, например от отрезка времени t к t+1 каждая группа значений преобразовывается в множество . Переходя от временного периода t − 1 к t (по убыванию) каждый кластер c


Библиографическая ссылка

Аскеров Э.З. ПРОГРАММА АНАЛИЗА ТЕКСТОВ И АВТОМАТИЧЕСКОГО ФОРМИРОВАНИЯ КЛАСТЕРОВ ПО ТЕМАТИЧЕСКОЙ НАПРАВЛЕННОСТИ // Международный студенческий научный вестник. – 2024. – № 2. ;
URL: https://eduherald.ru/ru/article/view?id=21524 (дата обращения: 02.01.2025).

Предлагаем вашему вниманию журналы, издающиеся в издательстве «Академия Естествознания»
(Высокий импакт-фактор РИНЦ, тематика журналов охватывает все научные направления)

«Фундаментальные исследования» список ВАК ИФ РИНЦ = 1,674