Сетевое издание
Международный студенческий научный вестник
ISSN 2409-529X

TEXT ANALYSIS AND AUTOMATIC FORMATION OF CLUSTERS BY THEMATIC FOCUS

Askerov E.Z. 1
1 Financial University under the Government of the Russian Federation
The article presents the results of solving the problem of automatic cluster formation of a thematic focus. The analysis of changes in thematic clusters is based on the material of scientific articles by young scientists, this is due to the fact. that articles by scientists recognized in the scientific world have a rating, at a time when articles by young scientists do not have such a rating. An approach based on the analysis of full texts of scientific articles is implemented, the methods are based on the analysis of the joint intersection of phrases/words. The study of the links of thematic clustering was carried out using the VosViewer software product. The product allows you to analyze citations, identify key topics and patterns, and trace connections between scientific fields and scientists. It helps to detect the structural characteristics of network data, such as grouping, centrality, and degree of connectivity. In addition, VOSviewer makes it possible to analyze social networks and explore the relationships between participants using various metrics and visualization methods. Clustering of phrases based on the modulation algorithm is described. A strategic chart is used to identify features and trends in different time periods and to visualize and compare data. The study of the dynamics of the formation of thematic clusters is carried out by analyzing changes and development within the cluster. For this, oriented graphs are used that take into account the direction of connections and allow you to analyze and monitor significant changes occurring within the cluster. The article examines the analysis of the texts of reports for a ten-year period, which shows the characteristics of trends and changes in clusters of a thematic focus, such as the detection of the formation of new clusters, the growth or reduction of existing clusters, changes in relations and interactions between thematic groups and other changes that reflect the evolution and development in the discussed thematic areas.
text analysis
thematic focus
clusters
graphs
subject area
text analysis program

Введение

Информационная система, созданная для регулярного автоматического обновления информации, проведения статистического анализа исследовательской деятельности признана наиболее частым способом представления структуры предметной области. К построению карт применимо два основных подхода [1]. Первый демонстрирует структуру: цитирования двумя авторами одной статьи. Второй показывает совместное пересечение терминов в текстах [2]. При этом, оба подхода схожи. Программное построение карт формируется путем выбора текстов из статей по ключевым запросам к базам данных. Предметная область представлена тематическими кластерами, имеющими внутрикластерные и межкластерные связи.

В случае применения совместного цитирования нескольких связанных текстов, выявление одинаковых частей происходит по авторским ссылкам. Тексты, в которых используются частым образом похожие термины, тексты, тематики, имеют схожее строение. Для выявления структуры предметной области используют кластеризацию терминов из Интернета. Статьи являются текстами, построенные на цитировании, в них находятся термины, которые в свою очередь характеризуют кластеры. Ключевые слова, слова, словосочетания, небольщие тексты являютя терминами.

В 2010 - 2020 гг. было проведено исследование, в котором наблюдалась динамика и тематическая структура технических направлений. Изменение кластеров тематической направленности означает изменение группировки объектов, которые связаны с определенной тематикой или концептуальным направлением. Особенностью проводимого анализа является то, что алгоритм реализовывался на текстах научных статей технической направленности, представленных молодыми учеными на конференции.

Получено, что статьи ученых, признанных в научном мире имеют рейтинг, в то время, когда статьи молодых ученых такого рейтинга не имеют. Тем не менее, факт прохождения отбора трудов для представления на конференции демонстрирует их значимость. Также можно утверждать, что при оценке кластерных изменений предметной области по рассматриваемым материалам риск ошибок выше, в сравнении со статьями, включенных в рейтинг [3,4]. Таким образом, своевременное выявление ошибок в формировании кластеров представляет для целей изучения и практического применения большой интерес. Исследование применения различных видов моделей проведено в целом ряде статей [5,6,7].

Цели исследования

Разработка алгоритма формирования кластеров по выбранным темам в смежных периодах времени и выявление возможности применения на практике разработанного алгоритма.

Материал и методы исследования

В статье представлены результаты анализа изменений тематических кластеров, полученных на материале научных статей молодых ученых по технической направленности, опубликованных на конференциях с 2010 по 2020 годы.

Методы основываются на анализе совместного пересечения словосочетаний/слов в текстах научных статей. [8] Анализ текстов проводился с помощью программного обеспечения VOSViewer.

Выборка терминов, группировка множества объектов проводилась с помощью применением программы VOSViewer (Просмотрщик) [2].

Изменения в кластерах на протяжении всего времени их существования происходят на уровне всех анализируемых смежных сегментов. Создание нейронной сети происходит через i и j. Мера ассоциации вычисляется по формуле 1.

где – вес связи между терминами i и j, равный количеству исследуемых статей, схожих между собой, – суммарный вес связей для i и j терминов, m – показатель суммарного веса общих связей в нейронной сети [9].

Подход к анализу является методом, разработанным для исследования и визуализации библиографических данных с помощью программного инструмента VOSviewer, который способен создавать наглядные карты и визуализации. Использование VOSviewer и его основных компонентов (функция «модульности» и параметр «разрешение») позволяют проводить более глубокий и структурированный анализ библиографических данных. Это способствует выявлению тематических групп, группированию ключевых запросов и получению наглядных результатов визуализации, что помогает исследователям лучше понять структуру и содержание в изучаемых библиографических данных. Ключевые запросы, сгруппированные по определенным характеристикам или общим элементам, формируют определенные темы технической направленности. То есть, с помощью VOSviewer и его подхода к анализу, можно выделить важные слова или фразы, которые появляются в связанных тематиках или областях, и наглядно представить их визуально с помощью создания карт в программе.

Результаты исследования и их обсуждение

Стратегические диаграммы, основанные на наборе текстов, относящихся к одному и тому же периоду времени, являются инструментом для оценки развития темы и перспектив развития. Разграничение осуществляется на основе различных групп и характеристик, которые отражены на осях центральности (c) и показателях плотности (d). Эти показатели рассчитываются с использованием индекса эквивалентности и связей между терминами в конкретном кластере.

Включение каждого кластера в разные квадранты стратегической диаграммы представлено следующим образом:

-1-й квадрант отражает основную тему, связанную с второстепенными темами. Значения центральности и плотности в кластере при этом являются положительными: c > 0 и d > 0;

- 2 квадрант включает узкоспециализированную тематику, где центральность низкая или отрицательная, а плотность остается высокой: c ≤ 0 и d > 0;

- 3 квадрант содержит тексты с незначительной направленностью, где как центральность, так и плотность, являются положительными или равными нулю: c ≥ 0 и d ≥ 0;

- 4 квадрант отражает потенциально перспективные темы для будущего развития, где центральность высока, а плотность низка или отрицательна: c > 0 и d ≤ 0.

Начало координат устанавливается в точке пересечения медиан значений центральности {ci} и плотности {di}, где i представляет численность кластеров. Это формирует базовую точку для построения стратегической диаграммы.

Отслеживание динамики временных изменений в кластере предполагает использование графов, у которых ребрам присвоено направление. Эти графы отражают компоненты функционирования кластеров на различных временных периодах.

Обозначим - количество кластеров в научных трудах молодых ученых, связанных с техническим направлением на конференции, где t – период времени, i = 1, kt – количество кластеров.

Для каждого кластера присутствует метка, указывающая на его содержание, относящееся к определенной тематике. Метка подразумевает, что внутри кластера имеется 2-3 термина, которые связаны с наибольшим количеством ссылок.

В момент перехода между временными интервалами, например от отрезка времени t к t+1 каждая группа значений преобразовывается в множество . Переходя от временного периода t − 1 к t (по убыванию) каждый кластер c