Электронный научный журнал
Современные проблемы науки и образования
ISSN 2070-7428
"Перечень" ВАК
ИФ РИНЦ = 0,791

МАТЕМАТИЧЕСКАЯ МОДЕЛЬ ПРОЦЕССА ИНТЕГРАЦИИ ИНФОРМАЦИОННЫХ СИСТЕМ НА ОСНОВЕ ОНТОЛОГИЙ

Бубарева О.А. 1 Попов Ф.А. 1
1 Бийский технологический институт (филиал) федерального государственного бюджетного образовательного учреждения высшего профессионального образования «Алтайский государственный технический университет им. И. И. Ползунова»
Для обеспечения автоматизации и информатизации всех видов деятельности ВУЗы разрабатывают интегрированные автоматизированные информационные системы (ИАИС). При постоянных изменениях в бизнес-процессах вуза разработчики ИАИС вынуждены постоянно заниматься корректировкой программ и моделей данных, что приводит к структурной и семантической неоднородности интегрируемых систем. С целью разрешения данной проблемы в статье предлагается математическая модель процесса интеграции ИС с неоднородными онтологическими спецификациями, позволяющая анализировать семантические связи, закономерности и зависимости, возникающие между ними. Предложен метод определения меры семантической близости концептов (классов объектов) как суммы атрибутивной, таксономической и реляционной составляющих с учетом весовых коэффициентов. С целью автоматического определения весовых коэффициентов используется генетический алгоритм. Предложен также метод классификации уровней близости концептов с целью построения результирующей (интегрированной) онтологии из нескольких исходных. Представлены результаты вычислительного эксперимента, подтверждающие целесообразность построения такого рода моделей и их практическую значимость.
онтология
интеграция данных
информационная система
семантическая близость
1. Бубарева О. А., Попов Ф. А., Ануфриева Н. Ю. Использование онтологий с целью интеграции данных в рамках автоматизированных информационных систем ВУЗов // Фундаментальные исследования. – 2011. – № 12 (часть 1). – С. 85-88.
2. Бубарева О. А., Попов Ф. А. Подсистема расчета себестоимости образовательной услуги в составе интегрированной автоматизированной информационной системы ВУЗа// Современные проблемы науки и образования. – 2011. – № 6; URL: www.science-education.ru/100-5053 (дата обращения: 16.03.2012).
3. Бездушный А. А. Математическая модель системы интеграции данных на основе онтологий // Журнал «Вестник НГУ», серия «Информационные технологии». – Новосибирск, 2008. – Т.6. Вып. 2. – С. 15-40.
4. Botzenhardt, A.; Maedche, A. & Wiesner, J.: Developing a Domain Ontology for Software Product Management. Proceedings of the 5th International Workshop on Software Product Management (IWSPM-2011), Trento, Italy. IEEE Xplore, Digital Library, 2011.
5. Maedche A., Zacharias V. // Proc. 6th European PKDD Conf. LNCS V. 2431. Berlin: Springer, 2002. P. 348.
Для обеспечения автоматизации и информатизации всех видов деятельности вузы разрабатывают интегрированные автоматизированные информационные системы (ИАИС) [2]. При постоянных изменениях в бизнес-процессах вуза разработчики ИАИС вынуждены постоянно заниматься корректировкой программ и моделей данных, что приводит к структурной и семантической неоднородности интегрируемых информационных систем и необходимости повторной разработки приложений-конверторов. Для решения проблемы семантической неоднородности информации возможно использование онтологий [3]. Создание общедоступных онтологий предметных областей в определённой мере решает проблему неоднородности онтологических спецификаций для определённых групп ИС. Однако в ИАИС вуза используются несколько идентифицированных предметных областей, к которым предъявляются различные требования. Поэтому, для обеспечения семантически корректной интероперабельности неоднородных ИС, в контексте предметной области задачи, необходимо выяснить общность и различия онтологий, лежащих в их основе, согласовать неоднородные онтологические спецификации и на базе соответствий онтологических контекстов осуществлять преобразование информации [1].

Авторами разработан алгоритм построения результирующей онтологии из нескольких исходных на основе результатов сравнения концептов, отношений и атрибутов. Задача интеграции ИС сводится к задаче построения отображений и интеграции онтологий, а затем и установление взаимосвязей схем интегрируемых ИС, т.е. сохранение соответствия множества онтологий ИС заданному набору семантических зависимостей, позволяя установить взаимодействие между ИС.

Как правило, объектная схема ИАИС вуза включает в себя элементы, которые соответствуют сущностям разных предметных областей, каждый объект характеризуется значениями набора атрибутов и представляется как множество упорядоченных пар вида

 (1)

где - атрибут объекта,  - значение атрибута , n - количество атрибутов.

Базовым понятием предлагаемой модели является концепт C. Каждый концепт онтологии информационной системы идентифицируется по имени и характеризуется типом. Поэтому концепт зададим как:

, (2)

где - уникальное имя (идентификатор) -го концепта; - тип i-го концепта (абстрактный, представимый, либо составной).

Зададим следующее множество концептов  и множество отношений между концептами:

, (3)

где - отношение наследования (отношения «класс-подкласс»), , где - надкласс концепта C2;

R2- отношение агрегации (отношения «часть/ целое»), : атрибуты концепта C1 входят во множество атрибутов всех концептов A'.

R3- отношение ассоциации (семантические отношения), обладающее свойством транзитивности.

Вводится функция интерпретации I, сопоставляющей каждому концепту онтологии множество элементов объектной схемы информационной системы, и каждой роли - декартово произведение таких множеств. Интерпретация называется моделью онтологии , если она удовлетворяет всем значениям в C и R. Онтология, не имеющая моделей, называется противоречивой.

Описание онтологических моделей информационных систем, автоматизирующих деятельность ВУЗа, которые состоят из информационных объектов, формально можно представить в следующем виде:

, (4)

где - множество концептов; -множество атрибутов концептов; -множество ограничений, накладываемых на атрибуты; - отображение, задающее для каждого концепта множество его атрибутов; - отображение, задающее ограничения на каждый атрибут; R - множество отношений; I - функция интерпретации.

Информационная система, использующая онтологию O, представлена в виде:

 (5)

где - множество элементов объектной схемы ИС; - отображение, ставящее в соответствие элементу объектной схемы его концепт, - отображение, ставящее в соответствие связям между элементами объектной схемы их отношения в онтологии, и для любого элемента  выполняется условие: множество атрибутов элемента объектной схемы u соответствует атрибутам его концепта, т.е. .

Обозначим через - множество онтологических моделей информационных систем, использующих онтологию O.

Обозначим изменение информационной системы как отображение:

, (6)

где H0- множество неоднородных информационных систем.

Изменение онтологии:

, (7)

где и , и введем обозначения: , .

Различные онтологии ИС, входящие в O, могут иметь пересекающиеся множества атрибутов, типов и концептов. На базе нескольких исходных онтологий, которые используют информационные системы, осуществляется построение результирующей онтологии с сохранением исходных спецификаций в таком виде, чтобы она включала все возможные отношения между концептами и не содержала эквивалентные (дублирующие) концепты. Для этого необходимо, чтобы отображения  на одинаковых концептах онтологий ИС совпадали. Результирующая онтология определяет соответствия концептов и правила их интерпретации между ИС, что позволяет успешно установить их взаимодействие.

Информационная система  называется интегрированной на множестве ИС , если  непротиворечиво, т.е. существуют , являющиеся расширением соответствующих отображений: .

Для осуществления согласованного изменения данных в ИС необходимо установление между онтологиями семантических зависимостей, которые определяют семантическую близость концептов. Таким образом, цель интеграции заключается в сохранении соответствия множества онтологий информационных систем заданному набору семантических зависимостей.

Под семантической зависимостью, заданной на онтологии O, предполагается z-предикат, заданный на .

Множество семантических зависимостей  непротиворечиво, если существует онтология O, которая удовлетворяет зависимости zj.

На практике зависимость между онтологиями необходимо сводить к зависимостям между концептами, которые в них входят. Они были рассмотрены, проанализированы и отнесены в следующие 5 классов:

1. Эквивалентность z1: , где b- порог меры семантической близости , при которой строится отображение концепта C1 в онтологию O2.

2. Обобщение (  , где  отображение - отображение, ставящее в соответствие концепту C1 множество концептов C2.

3. Уточнение , где - отображение, ставящее в соответствие множеству концептов C1 концепт C2.

4. Частичная эквивалентность z4. .

Пересечение множеств атрибутов концептов C2 и  свидетельствует о наличии общих атрибутов. Это означает, что существует некоторый концепт C, являющийся надклассом для концептов C2 и C1, а сами концепты принадлежат одному уровню иерархии.

5. Различие z5. Пустое пересечение множеств атрибутов концептов C2 и .

Модель системы интеграции данных на основе онтологий представим в виде кортежа:

, (8)

где - онтология ИС,U0 - информационная система с онтологией O, - множество семантических зависимостей,  такое отображение, что , , выполнено , - отображение онтологий.

Для численной оценки семантической близости концептов онтологий авторами выбран подход, основанный на результатах исследований профессора университета Мангейма (Германия) A. Maedche [4, 5]. В соответствии с этим рассматриваются атрибутивная, таксономическая и реляционная меры, результаты измерений с использованием каждой из них с учетом весовых коэффициентов и используются для комплексной оценки семантической близости.

При этом авторами предлагается определять атрибутивную меру не как пересечение диапазонов числовых значений атрибутов концептов, а как отношение пересечения множеств атрибутов к объединению множеств атрибутов концептов. Предлагается также определять весовые коэффициенты автоматически с использованием генетического алгоритма. Основные преимущества предлагаемого подхода заключаются в выявлении ключевых концептов для построения результирующей онтологии, устранения субъективности описаний понятий онтологии и зависимости от точек зрения разработчиков онтологий.

Определим  как мера близости двух концептов на основе их положения, - мера близости двух концептов на основе сопоставления их отношений, - мера близости двух концептов на основе сопоставления атрибутов и значений атрибутов концептов.

Мера близости  двух концептов ci онтологии O и cj онтологии O' определяется как:

, (9)

где t- вес, определяющий важность меры близости ; r- вес, определяющий важность меры близости ; α- вес, определяющий важность меры близости

С учетом того, что , , причем если концепты идентичны , тогда , если концепты различны и не имеют общих характеристик, тогда .

Для автоматического определения параметров  используется генетический алгоритм, где индивид представляется в виде тройки генов . В роли функции приспособленности выступает целевая функция:

.

К сформированной популяции потенциальных решений со следующими ограничениями  применяются стандартные операторы отбора, кроссовера и мутации.

Критерий выбора: максимизация суммы мер семантической близости между концептами двух онтологий.

.

Для выделения меры семантической близости, при которой концепты эквивалентны, необходимо выбрать пороговое значение меры близости. Разработан метод определения критерия подобия концептов для классификации отображений в пять групп: эквивалентность, частичная эквивалентность, обобщение, уточнение, неопределенность.

, (10)

где p1- процент, при котором b считается порогом подобия для определения эквивалентности концептов.

, (10)

где p2- процент, при котором считается порогом подобия для определения отсутствия эквивалентности концептов.

Рассмотренная математическая модель реализована на ЭВМ в рамках специального программного обеспечения, использованного при интеграции онтологий, построенных на объектных схемах информационных систем управления учебным процессом и финансового планирования вуза. Обе системы были разработаны независимо друг от друга в период, предшествовавший рассматриваемому исследованию, и функционировали на основе использования собственных локальных баз данных, обмен информацией между которыми осуществлялся с помощью программ-конвертеров.

В результате проведенного вычислительного эксперимента была создана интегрированная онтология, позволившая в короткие сроки объединить локальные базы данных упомянутых систем, исключить дублирование, а также обеспечить целостность и непротиворечивость представленных в них сведений.

Кроме того, аналогичная работа была проведена экспертом-аналитиком, соответствующие результаты представлены в таблице 1.

Таблица 1. Сравнение параметров процесса отображения онтологий

Способ

интеграции

Найденные семантические зависимости

Критерий оценки

(средние значения)

Обобщение

Уточнение

Эквивалентность

Частичная эквивалентность

 

 

 

Полнота

(R)

Точность

(P)

Мера

(F1 )

Эксперт

7

3

4

14

0,86

0,82

0,86

Модель

12

3

8

16

0,98

0,94

0,98

Заключение

Построенная математическая модель интеграции онтологий ИС адекватно описывает их семантические особенности. Алгоритм интеграции с использованием онтологий в целом лишен многих недостатков, присущих чисто техническим методам, и предоставляет возможность разработки интегрированных ИС, работающих с информацией на семантическом уровне. Практическое использование рассмотренных методов моделирования позволило в короткие сроки и с высоким качеством объединить локальные базы данных систем управления учебной деятельностью и финансового планирования в процессе развития ИАИС Бийского технологического института.

Рецензенты:

  1. Оскорбин Николай Михайлович, д.т.н., профессор, заведующий кафедрой теоретической кибернетики и прикладной математики ФГБОУ ВПО «Алтайский государственный университет».
  2. Темербекова Альбина Алексеевна, доктор педагогических наук, профессор кафедры алгебры, геометрии и методики преподавания математики Горно-Алтайского государственного университета, зав. научно-исследовательской лаборатории «Инновационные образовательные технологии» ГАГУ.

Библиографическая ссылка

Бубарева О.А., Попов Ф.А. МАТЕМАТИЧЕСКАЯ МОДЕЛЬ ПРОЦЕССА ИНТЕГРАЦИИ ИНФОРМАЦИОННЫХ СИСТЕМ НА ОСНОВЕ ОНТОЛОГИЙ // Современные проблемы науки и образования. – 2012. – № 2.;
URL: http://www.science-education.ru/ru/article/view?id=6030 (дата обращения: 14.12.2019).

Предлагаем вашему вниманию журналы, издающиеся в издательстве «Академия Естествознания»
(Высокий импакт-фактор РИНЦ, тематика журналов охватывает все научные направления)

«Фундаментальные исследования» список ВАК ИФ РИНЦ = 1.074