Введение
Информационная система, созданная для регулярного автоматического обновления информации, проведения статистического анализа исследовательской деятельности признана наиболее частым способом представления структуры предметной области. К построению карт применимо два основных подхода [1]. Первый демонстрирует структуру: цитирования двумя авторами одной статьи. Второй показывает совместное пересечение терминов в текстах [2]. При этом, оба подхода схожи. Программное построение карт формируется путем выбора текстов из статей по ключевым запросам к базам данных. Предметная область представлена тематическими кластерами, имеющими внутрикластерные и межкластерные связи.
В случае применения совместного цитирования нескольких связанных текстов, выявление одинаковых частей происходит по авторским ссылкам. Тексты, в которых используются частым образом похожие термины, тексты, тематики, имеют схожее строение. Для выявления структуры предметной области используют кластеризацию терминов из Интернета. Статьи являются текстами, построенные на цитировании, в них находятся термины, которые в свою очередь характеризуют кластеры. Ключевые слова, слова, словосочетания, небольщие тексты являютя терминами.
В 2010 - 2020 гг. было проведено исследование, в котором наблюдалась динамика и тематическая структура технических направлений. Изменение кластеров тематической направленности означает изменение группировки объектов, которые связаны с определенной тематикой или концептуальным направлением. Особенностью проводимого анализа является то, что алгоритм реализовывался на текстах научных статей технической направленности, представленных молодыми учеными на конференции.
Получено, что статьи ученых, признанных в научном мире имеют рейтинг, в то время, когда статьи молодых ученых такого рейтинга не имеют. Тем не менее, факт прохождения отбора трудов для представления на конференции демонстрирует их значимость. Также можно утверждать, что при оценке кластерных изменений предметной области по рассматриваемым материалам риск ошибок выше, в сравнении со статьями, включенных в рейтинг [3,4]. Таким образом, своевременное выявление ошибок в формировании кластеров представляет для целей изучения и практического применения большой интерес. Исследование применения различных видов моделей проведено в целом ряде статей [5,6,7].
Цели исследования
Разработка алгоритма формирования кластеров по выбранным темам в смежных периодах времени и выявление возможности применения на практике разработанного алгоритма.
Материал и методы исследования
В статье представлены результаты анализа изменений тематических кластеров, полученных на материале научных статей молодых ученых по технической направленности, опубликованных на конференциях с 2010 по 2020 годы.
Методы основываются на анализе совместного пересечения словосочетаний/слов в текстах научных статей. [8] Анализ текстов проводился с помощью программного обеспечения VOSViewer.
Выборка терминов, группировка множества объектов проводилась с помощью применением программы VOSViewer (Просмотрщик) [2].
Изменения в кластерах на протяжении всего времени их существования происходят на уровне всех анализируемых смежных сегментов. Создание нейронной сети происходит через i и j. Мера ассоциации вычисляется по формуле 1.
где – вес связи между терминами i и j, равный количеству исследуемых статей, схожих между собой, – суммарный вес связей для i и j терминов, m – показатель суммарного веса общих связей в нейронной сети [9].
Подход к анализу является методом, разработанным для исследования и визуализации библиографических данных с помощью программного инструмента VOSviewer, который способен создавать наглядные карты и визуализации. Использование VOSviewer и его основных компонентов (функция «модульности» и параметр «разрешение») позволяют проводить более глубокий и структурированный анализ библиографических данных. Это способствует выявлению тематических групп, группированию ключевых запросов и получению наглядных результатов визуализации, что помогает исследователям лучше понять структуру и содержание в изучаемых библиографических данных. Ключевые запросы, сгруппированные по определенным характеристикам или общим элементам, формируют определенные темы технической направленности. То есть, с помощью VOSviewer и его подхода к анализу, можно выделить важные слова или фразы, которые появляются в связанных тематиках или областях, и наглядно представить их визуально с помощью создания карт в программе.
Результаты исследования и их обсуждение
Стратегические диаграммы, основанные на наборе текстов, относящихся к одному и тому же периоду времени, являются инструментом для оценки развития темы и перспектив развития. Разграничение осуществляется на основе различных групп и характеристик, которые отражены на осях центральности (c) и показателях плотности (d). Эти показатели рассчитываются с использованием индекса эквивалентности и связей между терминами в конкретном кластере.
Включение каждого кластера в разные квадранты стратегической диаграммы представлено следующим образом:
-1-й квадрант отражает основную тему, связанную с второстепенными темами. Значения центральности и плотности в кластере при этом являются положительными: c > 0 и d > 0;
- 2 квадрант включает узкоспециализированную тематику, где центральность низкая или отрицательная, а плотность остается высокой: c ≤ 0 и d > 0;
- 3 квадрант содержит тексты с незначительной направленностью, где как центральность, так и плотность, являются положительными или равными нулю: c ≥ 0 и d ≥ 0;
- 4 квадрант отражает потенциально перспективные темы для будущего развития, где центральность высока, а плотность низка или отрицательна: c > 0 и d ≤ 0.
Начало координат устанавливается в точке пересечения медиан значений центральности {ci} и плотности {di}, где i представляет численность кластеров. Это формирует базовую точку для построения стратегической диаграммы.
Отслеживание динамики временных изменений в кластере предполагает использование графов, у которых ребрам присвоено направление. Эти графы отражают компоненты функционирования кластеров на различных временных периодах.
Обозначим - количество кластеров в научных трудах молодых ученых, связанных с техническим направлением на конференции, где t – период времени, i = 1, kt – количество кластеров.
Для каждого кластера присутствует метка, указывающая на его содержание, относящееся к определенной тематике. Метка подразумевает, что внутри кластера имеется 2-3 термина, которые связаны с наибольшим количеством ссылок.
В момент перехода между временными интервалами, например от отрезка времени t к t+1 каждая группа значений преобразовывается в множество . Переходя от временного периода t − 1 к t (по убыванию) каждый кластер c