온톨로지 / LOD

온톨로지 / LOD 개요

시맨틱 웹
시맨틱 웹(Semantic Web)은 World-wide-web을 창안한 팀 버너스리가 제안한 차세대 웹 기술로, 웹 상에 존재하는 정보를 사람 뿐만 아니라 기계가 의미(Semantic)를 파악하고 사용자의 요구에 적합한 결과를 서비스 가능하도록 하는 것입니다.

현재의 웹은 사용자가 목적에 맞게 정보를 클릭하면서 정보를 찾아내는 것이 일반적인 방식이지만, 시맨틱 웹은 임무를 부여받은 자동화된 프로그램이 사람을 대신해 웹상의 정보를 추출하고 이를 가공해 새로운 정보를 만들어낼 수 있습니다. 즉, 현재의 웹에 온톨로지(지식자원의 의미정보 메타데이터)를 추가 구성하여, 컴퓨터가 온톨로지를 기반으로 스스로 추론하여 의미 있는 정보를 추출할 수 있도록 구성한 웹 시스템입니다.

시맨틱 웹 발전

시맨틱 웹은 웹 상에 존재하는 정보들을 컴퓨터가 해독하고 작업하기 용이하게 표현해 이들 정보간의 관계(Relation)를 추출하면서 다양한 응용 영역까지 자동화되고 통합된 정보 공유를 이루는 것이 목표입니다.

원리는 사람들이 이해할 수 있도록 자연어 위주로 되어 있는 현재의 웹 문서와 달리, 정보자원들 사이에 연결되어 있는 의미를 컴퓨터가 이해할 수 있는 형태의 언어로 바꾸는 것입니다. 이렇게 되면 컴퓨터가 정보자원의 뜻을 해석하고, 기계들끼리 서로 정보를 주고 받으면서 자체적으로 필요한 일을 처리하여 사용자가 필요로 하는 정보를 검색하고, 검색된 정보에서 지식을 추론할 수 있는 기능을 제공합니다.

시맨틱 웹의 이상향은, 인터넷에 방대한 양의 온톨로지가 산재하고, 이를 자동으로 해석하여 처리할 수 있는 에이전트 소프트웨어에 사람 또는 에이전트가 질의를 하면, 컴퓨터가 자동으로 분산된 온톨로지를 탐색하고 추론하여 원하는 결과를 알려주는 것입니다.

온톨로지
온톨로지(Ontology)는 도메인 내의 개념들과 개념들 사이의 관계들을 정형적으로 기술한 시맨틱 웹 구현 핵심기술입니다.

시맨틱 웹 기능을 지원하기 위해서는 컴퓨터의 지능적인 정보처리가 가능토록 웹 문서 내에 지식 표현을 위한 개념을 삽입하고, 지식간의 관계를 설정하며 추론 규칙을 포함 시켜야 합니다.

온톨로지는 정보시스템의 대상이 되는 분야에 존재하는 개체와 개념에 대한 명세로서, 사람과 컴퓨터간에 공유되는 지식을 개념화한 구체적인 형식이며, 개념화와 개념화간의 관계를 표현하는 것입니다.

온톨로지는 단어와 관계들로 구성된 일종의 사전으로서 생각할 수 있으며,그 속에는 특정 도메인에 관련된 단어들이 계층적으로 표현되어 있고, 추가적으로 이를 확장할 수 있는 연관관계가 포함되어 있어, 웹 기반의 지식 처리나 응용프로그램 사이의 지식 공유 등이 가능합니다. 즉, 시맨틱 웹의 목적인 자동적인 실행과 추론을 하기 위해 온톨로지는 가장 핵심적인 개념이라고 할 수 있습니다.

시맨틱 웹 구현 기술, 온톨로지
RDF
RDF(Resource Description Framework)는 의미적 연결을 위한 핵심 웹 자원 기술 언어입니다.

RDF는 현행 웹 기술이 가지고 있는 한계를 극복하기 위해 개발 되었습니다. 기존 HTML 방식의 단순 링크위주의 구조적 연결의 한계점, 자원들간의 의미적 연결 부족 및 정보검색의 비효율성 한계점이었습니다. 그리하여 웹 자원에 대한 의미성을 부여하기 위해 자원과 속성, 속성값 등의 3차원 구조를 표현함으로써 메타 데이터를 정의할 수 있는 기술언어인 RDF를 개발하게 되었습니다.

웹 자원 기술언어 발전 과정

RDF 데이터 모형(Data Model)

RDF는 기본적으로 주어(subject), 서술(predicate), 목적(object)의 트리플(triple)모델로 기술됩니다. 주어란 표현하고자 하는 데이터를 의미하며, 서술은 주어에 대해 기술하거나 주어와 목적의 관계를 의미하고, 목적이란 서술에 대한 내용이나 값을 의미합니다. 또한 각 내용들에 대해서 URI를 통해 기술할 수 있습니다.

RDF 데이터 모형

RDF 스키마(Schema)

RDF 스키마는 특정 메타데이터에서 정의하고 있는 어휘들을 선언하기 위해서 사용됩니다. 어휘란 속성집합으로 자원을 기술하기 위해 각 메타데이터 형식들에서 정의하고 있는 메타데이터 요소집합을 말합니다.

인간이 읽을 수 있고 기계처리가 가능한 어휘들을 정형화 하는 것은 상이한 메타데이터 형식들간의 어휘 확장과 재사용, 상호교환을 가능하게 해 주는 것이며, 이러한 정형화를 위한 것이 바로 RDF 스키마입니다. RDF 스키마에 대한 자원과 클래스들의 집합과 요소들을 표현하면 아래 그림과 같습니다. 그림에서 둥근 직사각형은 클래스를 나타내며, 큰 점들은 각 자원을, 화살표는 자원이 정의하는 클래스를 나타냅니다.

RDF 스키마
OWL
OWL(Web Ontology Language)는 RDF의 확장언어로 웹상에서 첨단의 웹 검색, 소프트웨어 에이전트 및 지식관리 기능을 제공하는 온톨로지를 발간 및 공유하기 위한 시맨틱 웹 생성 언어입니다.

OWL은 웹 온톨로지와 그에 관련된 지식을 정의하는 언어로 추론 시스템에 축적된 명제들을 정의합니다. OWL을 이용하면 임의의 어휘를 구성하는 용어의 의미와 용어들 간의 관계를 명시적으로 표현할 수 있으며, 이와 같이 용어와 용어들간의 관계를 표현하는 것이 온톨로지라 합니다.

OWL은 RDF 스키마가 제공하는 기본적인 기능 및 기계가 자원에 대한 추론이 가능합니다. 또, RDF와 RDF 스키마를 기반으로, 속성과 클래스의 기술에 있어 더욱 풍부한 어휘를 제공하여 RDF 스키마 클래스간의 복잡한 관계나 클래스 및 속성에 관한 정교한 제한사항의 표현을 가능합니다.

강점 정보 통합 및 공유 어휘의 재사용 지원
구조화되지 않은 데이터 처리
데이터 모델링과 구문체계의 분리
확장성
세밀한 구문체계에 기초한 추론과 분류 기능
그래프 구조 모델링을 통한 표현방식의 융통성
응용부분 인터넷 포탈: 분류 법칙을 이용한 검색 기능 확장
멀티미디어: 멀티미디어 내용에 기반을 둔 검색
기업 웹 사이트 관리, 데이터와 문서의 자동 텍사노미 생성, 기업부서나 기업 간의 합병에 따른 데이터 매핑
지능형 에이전트 : 사용자 선택사항 및 관심사항 표현, 웹사이트 간의 콘텐츠 매핑
세밀한 구문체계에 기초한 추론과 분류 기능
웹 서비스 및 유비쿼터스 컴퓨팅 : 웹서비스 구성, 저작권 및 접근 관리
LOD
LOD(Linked Open Data)는 Linked Data를 웹 상에서 개방 및 공유가 가능하도록 데이터 셋을 발행 하는 형태입니다. 시맨틱 웹 기술을 적용한 실제적인 사례이며, 융복합 컨텐츠 생성 및 유통, 데이터의 재사용과 고부가가치 컨텐츠의 발굴을 위한 방법입니다.
특징 설명
사용성 및 접근 – 언제든지 전체 데이터 이용/다운로드 가능
– 편리하고 수정 가능한 형태로 제공
재사용 재배포 – 사용 및 재사용, 저작권 표시와 변경 허락 조건하에 변경 후 재배포 가능
보편적 참여 – 누구나 데이터를 이용 / 재배포 가능
– 활동분야, 특정 사람/그룹 비차별
상호 운용성 – 서로 다른 데이터셋 사이 혼합/참조
– 데이터 간 연결이 가능한 구조
구분 웹문서 Linked Data
유사점 글로벌 파일시스템(File) 글로벌 데이터베이스(DB)
디자인 인간 소비 지향 기계화 우선, 인간지향 후 순위
주요객체 문서 사물, 사물에 대한 묘사
연결 문서간의 연결 사물간의 연결
객체의 구조화 정도 상당히 낮음 높음
컨텐츠와 연결의 의미화 암묵적 명시적
Topic Map
Topic Map은 시맨틱 웹(Semantic Web)의 지식표현 방법론으로, 정보를 상호 연관성에 따라 연결하고 조직하여 지식 구조를 일종의 지도와 같이 표현하여, 대용량의 정보를 분류하고 의미론적 연관관계를 검색하는 데 사용할 수 있는 기술입니다.
웹사이트 검색 네비게이션 토픽맵 적용

장점

  • 각 용어 또는 키워드 중심의 업무통합 서비스가 가능합니다.
  • ISO/IEC 13250 기술표준에 따른 개발로 확장성 및 호환성이 뛰어납니다.
  • 정보를 키워드 매칭 기법이 아닌 의미 검색 기법으로 찾고 분류하여 줍니다.
  • 의미론적 연관관계에 있는 다양한 지식을 추천하여 정보활용도를 향상시켜 줍니다.
  • 이기종, 이형질로 비 구조화되고 분산되어 있는 정보를 효율적으로 통합해 줍니다.

RDF/OWL

시맨틱웹 추론엔진 : Pro-Reasoner™
시맨틱웹 추론엔진은 사용자가 보유하고 있는 지식 정보 데이터를 온톨로지(Ontology) 기반의 시맨틱웹(Semantic Web) 시스템으로 구축하기 위한 추론엔진으로서 대용량 온톨로지 데이터를 처리하는 뛰어난 성능과 최고의 안정성을 보장합니다.

시맨틱웹 추론엔진은 온톨로지 클래스를 형성하는 OWL file, 온톨로지 인스턴스를 형성하는 RDF file 및 규칙을 정의한 Rule file을 조합하여 온톨로지 데이터를 지식베이스인 Triple 저장소에 추론기반으로 저장하고 이를 조회하여 의미기반 정보를 제시해 줍니다.

시맨틱웹 추론엔진 구성
  • 온톨로지 추론에 의한 의미 검색
  • 연관정보 통합 검색
  • 자연어 의미 검색
  • 관련된 추천어 지원

특징 및 장점

  • 시맨틱추론에 최적화된 환경으로 새롭게 개발한, 뛰어난 퍼포먼스의 추론엔진
  • 시맨틱웹 시스템 구축의 오랜 경험과 기술력을 바탕으로 고객의 요구와 구현목표에 맞게 커스터마이징을 적용할 수 있는 유연한 개발 환경 제공
  • 인문지리정보시스템/통일부 북한종합정보시스템 등의 다양한 대용량 구축사업에서 이미 그 성능과 기능을 검증 받은 제품
  • GS인증 획득(2013) / 한국산업기술시험원
RDF 인스턴스 변환기 : Pro-RDF Converter™
RDF 인스턴스 변환기는 다양한 기존 자원(DB)을 RDF 형식으로 변환해 주는 자동 변환솔루션입니다.

온톨로지를 구축하는데 있어서 온톨로지 모델링 과정에서 산출된 온톨로지 스키마 (클래스, 관계속성, 데이터 속성, 제약사항)에 따라 온톨로지 인스턴스를 자동으로 구축해 줍니다.

RDF 인스턴스 변환기 구성
RDF 연관성 탐색기 : Pro-RelExplorer™
RDF 연관성 탐색기는 구축된 온톨로지를 검증하거나 온톨로지 기반으로 연관성을 추적할 필요가 있을 경우 온톨로지 인스턴스 데이터인 RDF를 기반으로 연관관계 스키마를 이용하여 데이터간의 연관성을 탐색 및 추적합니다.

온톨로지 전문가가 아니어도 온톨로지 검증이 가능하고, 대용량 온톨로지 데이터 저장소에서 데이터간 복잡한 연관관계 를 효율적으로 분석 및 검증할 수 있습니다.

  • 국내 최고 시맨틱웹 연구기관인 KISTI(한국과학기술정보연구원)의 원천기술을 이전 받아 이를 시맨틱연관관계 탐색에 최적화된 환경으로 새롭게 개발한, 뛰어난 퍼포먼스의 RDF 연관 네트워크 탐색기
  • 온톨로지 스키마 정보 분석기반 대용량 정보 데이터간 연관관계의 효율적 모니터링 및 그래프화
RDF 연관성 탐색기 구성
LOD 발행 시스템 : Pro-LOD Server™
LOD 발행 시스템은 정보의 개방과 공유를 위한 링크드데이터 발행시스템으로서, 생성된 RDF를 표준화된 링크드데이터 형식으로 발행할 수 있도록 하는 시스템입니다.LOD 발행 시스템을 통해 구축된 데이터를 LOD클라우드에 공개함으로써 정보를 필요로 하는 어떤 사용자라도 유연하게 정보를 재가공하여 사용할 수 있도록 지원합니다.
LOD 발행 시스템 구성
온톨로지 관리 시스템 : Pro-LOD Ontology Manager™
온톨로지 관리 시스템은 도메인별로 구축된 온톨로지 관리에 필요한 기능들을 모두 모아 놓은 온톨로지 종합관리시스템입니다.

각 도메인 별 온톨로지 구축 정보, 각 도메인 별 온톨로지의 클래스 트리 정보 및 구축된 온톨로지 데이터의 검색, SPARQL 쿼리 엔드포인트, 온톨로지 데이터의 세부 내역, 온톨로지 데이터의 OWL 구조에 대한 시각화된 동적 뷰, 온톨로지 명 관리, 온톨로지 파일의 업로드 및 다운로드 등의 기능을 제공합니다.

도메인별 온톨로지 정보 및 관리

[도메인별 온톨로지 정보 및 관리]

온톨로지 클래스 정보

[온톨로지 클래스 정보]

OWL 뷰

[OWL 뷰]

Topic Map

토픽맵 온톨로지 생성, 편집 Tool : TM-editor™
토픽맵 온톨로지 생성, 편집 Tool은 프로토마의 특허기술을 기반으로 개발된 국내 최초의 상용 토픽맵 생성, 편집기입니다. 기존 지식자원 또는 새로운 지식 자원에 대한 온톨로지 생성을 통해 토픽맵을 구축합니다.

작업 중에도 트리구조, 리스트 또는 그래픽을 통해 토픽맵을 점검하면서 편집할 수 있습니다.

토픽맵 온톨로지 생성, 편집 Tool 화면
Topic Map 변환기 : TM-converter™
Topic Map 변환기는 Database, Excel, Marc DB 등에 존재하는 정보자원들을 자동적으로 토픽맵 데이터로 변환시키는 툴입니다.

신규로 생성되는 데이터 또한 자동적으로 토픽맵화 할 수 있도록 주기, 조건 등을 설정할 수 있도록 되어 있어 신규구축시 뿐 아니라 시스템구축 후 DB 갱신 등의 경우 토픽맵 자동업데이트를 통해 서비스의 현행화를 지원합니다.

Topic Map 변환기 화면
Topic Map 비쥬얼 프리젠터 : TM-navigator™
Topic Map 비쥬얼 프리젠터는 시각적 연계검색기로서, 토픽맵 데이터를 원하는 주제(토픽)를 중심으로 시각화함으로써 관련 연계 자료를 마우스 클릭으로 검색 및 네비게이션이 가능하도록 하는 그래픽 도구입니다.
Topic Map 비쥬얼 프리젠터 화면

시맨틱 텍스트 마이닝 / 매칭

시맨틱 텍스트 마이닝 솔루션 : Pro-SINDI™
시맨틱 텍스트 마이닝 솔루션은 비정형 텍스트에서 출현하는 주요 용어(핵심어)를 자동으로 인식하고 추출하여 시맨틱 검색, 시맨틱 매칭 및 빅데이터 분석에 활용할 수 있도록 해 줍니다.
  • 언어 처리를 위한 형태소 분석
  • 주요 개체명(명사, 복합명사)의 자동인식 및 추출
  • 여러 문서 내의 통계적 가중치(TF-IDF)
  • 주요 개체 간의 의미적 관계의 자동인식 및 추출
  • 검색 활용 및 온톨로지 구축용 트리플(Triple) 추출
시맨틱 텍스트 마이닝 솔루션 구조
시맨틱 매칭 시스템 : Pro-SiMaS™
시맨틱 매칭 시스템은 정형 및 비정형 문서에서 출현하는 주요 용어(핵심어)를 중심으로 타 문서의 핵심어 또는 DB에 등록된 핵심어와의 시맨틱 매칭을 통하여 상호 유사성과 정확성을 측정하여 문서 보안과 통제를 가능하게 합니다.
  • 비정형 문서 텍스트 마이님 결과 핵심어 등록
  • 등록된 핵심어 가중치 부여
  • 시맨틱 매칭 알고리즘 등록 및 매칭 프로세스
  • 시맨틱 매칭 결과 보고
  • 시맨틱 매칭 화면 인터페이스
시맨틱 매칭 시스템 구조