Scientific journal
Modern problems of science and education
ISSN 2070-7428
"Перечень" ВАК
ИФ РИНЦ = 1,006

MATHEMATICAL MODEL OF THE INTEGRATION OF INFORMATION SYSTEMS BASED ONTOLOGY

Bubareva O.A. 1 Popov F.A. 1
1 Biysk Technological Institute (branch) of the federal government budget of educational institutions of higher education "Altai State Technical University. of I. I. Polzunov"
Universities develop the integrated automated information systems (IAIS) for supporting automation and information of all types of activity. With continuous changes in business processes of university, developers have to constantly deal with IAIS adjustment programs and data models, which leads to structural and semantic heterogeneity of integrated systems. In order to solve this problem in the paper we propose a mathematical model of the integration of IS with heterogeneous ontological specifications, which analyzes the semantic context, patterns and dependencies that arise between them. A method for determining the measure of semantic similarity of concepts (object classes) as the sum of the attribute, taxonomic and relational component of the weights. In order to automatically determine the weights used by a genetic algorithm. Proposed as a method of classification levels of similarity of concepts in order to build the resulting (integrated) ontology from multiple source. The results of computing experiment confirming expediency of creation of such models and their practical importance are presented.
ontology
integration of data
information system
semantic similarity
Для обеспечения автоматизации и информатизации всех видов деятельности вузы разрабатывают интегрированные автоматизированные информационные системы (ИАИС) [2]. При постоянных изменениях в бизнес-процессах вуза разработчики ИАИС вынуждены постоянно заниматься корректировкой программ и моделей данных, что приводит к структурной и семантической неоднородности интегрируемых информационных систем и необходимости повторной разработки приложений-конверторов. Для решения проблемы семантической неоднородности информации возможно использование онтологий [3]. Создание общедоступных онтологий предметных областей в определённой мере решает проблему неоднородности онтологических спецификаций для определённых групп ИС. Однако в ИАИС вуза используются несколько идентифицированных предметных областей, к которым предъявляются различные требования. Поэтому, для обеспечения семантически корректной интероперабельности неоднородных ИС, в контексте предметной области задачи, необходимо выяснить общность и различия онтологий, лежащих в их основе, согласовать неоднородные онтологические спецификации и на базе соответствий онтологических контекстов осуществлять преобразование информации [1].

Авторами разработан алгоритм построения результирующей онтологии из нескольких исходных на основе результатов сравнения концептов, отношений и атрибутов. Задача интеграции ИС сводится к задаче построения отображений и интеграции онтологий, а затем и установление взаимосвязей схем интегрируемых ИС, т.е. сохранение соответствия множества онтологий ИС заданному набору семантических зависимостей, позволяя установить взаимодействие между ИС.

Как правило, объектная схема ИАИС вуза включает в себя элементы, которые соответствуют сущностям разных предметных областей, каждый объект характеризуется значениями набора атрибутов и представляется как множество упорядоченных пар вида

 (1)

где - атрибут объекта,  - значение атрибута , n - количество атрибутов.

Базовым понятием предлагаемой модели является концепт C. Каждый концепт онтологии информационной системы идентифицируется по имени и характеризуется типом. Поэтому концепт зададим как:

, (2)

где - уникальное имя (идентификатор) -го концепта; - тип i-го концепта (абстрактный, представимый, либо составной).

Зададим следующее множество концептов  и множество отношений между концептами:

, (3)

где - отношение наследования (отношения «класс-подкласс»), , где - надкласс концепта C2;

R2- отношение агрегации (отношения «часть/ целое»), : атрибуты концепта C1 входят во множество атрибутов всех концептов A'.

R3- отношение ассоциации (семантические отношения), обладающее свойством транзитивности.

Вводится функция интерпретации I, сопоставляющей каждому концепту онтологии множество элементов объектной схемы информационной системы, и каждой роли - декартово произведение таких множеств. Интерпретация называется моделью онтологии , если она удовлетворяет всем значениям в C и R. Онтология, не имеющая моделей, называется противоречивой.

Описание онтологических моделей информационных систем, автоматизирующих деятельность ВУЗа, которые состоят из информационных объектов, формально можно представить в следующем виде:

, (4)

где - множество концептов; -множество атрибутов концептов; -множество ограничений, накладываемых на атрибуты; - отображение, задающее для каждого концепта множество его атрибутов; - отображение, задающее ограничения на каждый атрибут; R - множество отношений; I - функция интерпретации.

Информационная система, использующая онтологию O, представлена в виде:

 (5)

где - множество элементов объектной схемы ИС; - отображение, ставящее в соответствие элементу объектной схемы его концепт, - отображение, ставящее в соответствие связям между элементами объектной схемы их отношения в онтологии, и для любого элемента  выполняется условие: множество атрибутов элемента объектной схемы u соответствует атрибутам его концепта, т.е. .

Обозначим через - множество онтологических моделей информационных систем, использующих онтологию O.

Обозначим изменение информационной системы как отображение:

, (6)

где H0- множество неоднородных информационных систем.

Изменение онтологии:

, (7)

где и , и введем обозначения: , .

Различные онтологии ИС, входящие в O, могут иметь пересекающиеся множества атрибутов, типов и концептов. На базе нескольких исходных онтологий, которые используют информационные системы, осуществляется построение результирующей онтологии с сохранением исходных спецификаций в таком виде, чтобы она включала все возможные отношения между концептами и не содержала эквивалентные (дублирующие) концепты. Для этого необходимо, чтобы отображения  на одинаковых концептах онтологий ИС совпадали. Результирующая онтология определяет соответствия концептов и правила их интерпретации между ИС, что позволяет успешно установить их взаимодействие.

Информационная система  называется интегрированной на множестве ИС , если  непротиворечиво, т.е. существуют , являющиеся расширением соответствующих отображений: .

Для осуществления согласованного изменения данных в ИС необходимо установление между онтологиями семантических зависимостей, которые определяют семантическую близость концептов. Таким образом, цель интеграции заключается в сохранении соответствия множества онтологий информационных систем заданному набору семантических зависимостей.

Под семантической зависимостью, заданной на онтологии O, предполагается z-предикат, заданный на .

Множество семантических зависимостей  непротиворечиво, если существует онтология O, которая удовлетворяет зависимости zj.

На практике зависимость между онтологиями необходимо сводить к зависимостям между концептами, которые в них входят. Они были рассмотрены, проанализированы и отнесены в следующие 5 классов:

1. Эквивалентность z1: , где b- порог меры семантической близости , при которой строится отображение концепта C1 в онтологию O2.

2. Обобщение (  , где  отображение - отображение, ставящее в соответствие концепту C1 множество концептов C2.

3. Уточнение , где - отображение, ставящее в соответствие множеству концептов C1 концепт C2.

4. Частичная эквивалентность z4. .

Пересечение множеств атрибутов концептов C2 и  свидетельствует о наличии общих атрибутов. Это означает, что существует некоторый концепт C, являющийся надклассом для концептов C2 и C1, а сами концепты принадлежат одному уровню иерархии.

5. Различие z5. Пустое пересечение множеств атрибутов концептов C2 и .

Модель системы интеграции данных на основе онтологий представим в виде кортежа:

, (8)

где - онтология ИС,U0 - информационная система с онтологией O, - множество семантических зависимостей,  такое отображение, что , , выполнено , - отображение онтологий.

Для численной оценки семантической близости концептов онтологий авторами выбран подход, основанный на результатах исследований профессора университета Мангейма (Германия) A. Maedche [4, 5]. В соответствии с этим рассматриваются атрибутивная, таксономическая и реляционная меры, результаты измерений с использованием каждой из них с учетом весовых коэффициентов и используются для комплексной оценки семантической близости.

При этом авторами предлагается определять атрибутивную меру не как пересечение диапазонов числовых значений атрибутов концептов, а как отношение пересечения множеств атрибутов к объединению множеств атрибутов концептов. Предлагается также определять весовые коэффициенты автоматически с использованием генетического алгоритма. Основные преимущества предлагаемого подхода заключаются в выявлении ключевых концептов для построения результирующей онтологии, устранения субъективности описаний понятий онтологии и зависимости от точек зрения разработчиков онтологий.

Определим  как мера близости двух концептов на основе их положения, - мера близости двух концептов на основе сопоставления их отношений, - мера близости двух концептов на основе сопоставления атрибутов и значений атрибутов концептов.

Мера близости  двух концептов ci онтологии O и cj онтологии O' определяется как:

, (9)

где t- вес, определяющий важность меры близости ; r- вес, определяющий важность меры близости ; α- вес, определяющий важность меры близости

С учетом того, что , , причем если концепты идентичны , тогда , если концепты различны и не имеют общих характеристик, тогда .

Для автоматического определения параметров  используется генетический алгоритм, где индивид представляется в виде тройки генов . В роли функции приспособленности выступает целевая функция:

.

К сформированной популяции потенциальных решений со следующими ограничениями  применяются стандартные операторы отбора, кроссовера и мутации.

Критерий выбора: максимизация суммы мер семантической близости между концептами двух онтологий.

.

Для выделения меры семантической близости, при которой концепты эквивалентны, необходимо выбрать пороговое значение меры близости. Разработан метод определения критерия подобия концептов для классификации отображений в пять групп: эквивалентность, частичная эквивалентность, обобщение, уточнение, неопределенность.

, (10)

где p1- процент, при котором b считается порогом подобия для определения эквивалентности концептов.

, (10)

где p2- процент, при котором считается порогом подобия для определения отсутствия эквивалентности концептов.

Рассмотренная математическая модель реализована на ЭВМ в рамках специального программного обеспечения, использованного при интеграции онтологий, построенных на объектных схемах информационных систем управления учебным процессом и финансового планирования вуза. Обе системы были разработаны независимо друг от друга в период, предшествовавший рассматриваемому исследованию, и функционировали на основе использования собственных локальных баз данных, обмен информацией между которыми осуществлялся с помощью программ-конвертеров.

В результате проведенного вычислительного эксперимента была создана интегрированная онтология, позволившая в короткие сроки объединить локальные базы данных упомянутых систем, исключить дублирование, а также обеспечить целостность и непротиворечивость представленных в них сведений.

Кроме того, аналогичная работа была проведена экспертом-аналитиком, соответствующие результаты представлены в таблице 1.

Таблица 1. Сравнение параметров процесса отображения онтологий

Способ

интеграции

Найденные семантические зависимости

Критерий оценки

(средние значения)

Обобщение

Уточнение

Эквивалентность

Частичная эквивалентность

 

 

 

Полнота

(R)

Точность

(P)

Мера

(F1 )

Эксперт

7

3

4

14

0,86

0,82

0,86

Модель

12

3

8

16

0,98

0,94

0,98

Заключение

Построенная математическая модель интеграции онтологий ИС адекватно описывает их семантические особенности. Алгоритм интеграции с использованием онтологий в целом лишен многих недостатков, присущих чисто техническим методам, и предоставляет возможность разработки интегрированных ИС, работающих с информацией на семантическом уровне. Практическое использование рассмотренных методов моделирования позволило в короткие сроки и с высоким качеством объединить локальные базы данных систем управления учебной деятельностью и финансового планирования в процессе развития ИАИС Бийского технологического института.

Рецензенты:

  1. Оскорбин Николай Михайлович, д.т.н., профессор, заведующий кафедрой теоретической кибернетики и прикладной математики ФГБОУ ВПО «Алтайский государственный университет».
  2. Темербекова Альбина Алексеевна, доктор педагогических наук, профессор кафедры алгебры, геометрии и методики преподавания математики Горно-Алтайского государственного университета, зав. научно-исследовательской лаборатории «Инновационные образовательные технологии» ГАГУ.