中文XML论坛--KIM――一个基于本体的信息检索系统

KIM――一个基于本体的信息检索系统
作者 Minton
 KIM是什么
KIM⋯ 是OntoText实验室的研究项目。该项目的研究成果KIM Platform(Knowledge and Information Management Platform)提供了一个语义服务平台构架和在此构架上的应用，包括：网页内容的半自动的语义标注、本体部署、基于内容的语义索引、检索和知识导航以及知识问答。
 KIM的理论基础
Named Entity
在传统的自然语言处理（NLP）和信息抽取（IE）理论中，命名实体（NE）是个非常重要的概念。所谓的命名实体就是人名、机构名、地名以及其他所有以名称为标识的实体。更广泛的实体还包括数字、日期、货币、地址等等。只要识别出文档中的命名实体以及这些命名实体之间的关系，那么就能在一定层次上理解文档的语义。
抽取实体是IE技术中一个很重要的子过程。由于该过程相对独立，所以发展了基于不同语言（中文、日语，西班牙语）平台的工具。
NE的类别基于各种实际的应用场景，所以IE需要依赖更多的NE类别。NE的类别扩展是解决实际应用必须考虑的问题。
KIM Ontology
KIM Ontology属于轻量级顶级本体，用于定义NE的“类型”信息，采用RDFS语言描述。包括250个类，100个属性。
KIMO为了满足KIM的需要从无到有进行设计，借鉴了其他一些顶级实体资源，比如OpenCyc，WordNet，DOLCHE，EuroWordnet Top等。它提供最小但足够的本体集合来满足开放领域中通用的语义标引。
下图是KIMO的顶层类等级结构，实体包括Object（普通的实体）、Happening（事件）、Abstract（不属于前两类的）。
研究表明，虽然实体类型随应用领域的不同千差万别，但是会存在一些不同领域共有的实体类型。比如人，位置，组织，货币，日期等等。对这些基本的类型进行表示和定位是KIMO的一个设计目标。
Knowledge Base
KIM Ontology中定义了实体的类型、实体类型的关系和属性，而实体的具体描述则保存在KIM Knowledge Base中。所谓KIM Knowledge Base，就是所有实体的描述集合。可以把KIM Ontology看作是KIM Knowledge Base的模式(Schema)，两者都采用RDFS存储在语义数据库中，该语义数据库存储工具能够支持知识推理、检索、甚至版本控制、访问控制、事务处理等功能。
无论IE技术如何复杂，只要KB能够代表特定领域中那些最重要的实体（流行的、经常被引用的，与其他词汇共同出现的），人们就可以从中受益匪浅。将这种想法与前面提到过的KIMO的设计目标——建立通用、开放领域的实体联系起来，就是KIM KB的设计理念。KIM KB旨在打造能够覆盖世界上最重要实体的知识库。

所以KIM KB已经建立了一些重要实体的知识库，目前包括80，000个实体。例如KB包含了50，000个位置实体，包含大陆，地区，282个国家，4，700座城市，山峰，河流，海洋甚至油田。
为了使IE处理能够识别KB中不包含的新实体和关系，KB还提供了词汇资源的集合，该集合覆盖了组织机构的后缀，人名，时间，货币前缀等等。
为了保证KB的对重要实体的覆盖率，KB要一直处理和分析全球主要新闻的内容。每周要更新4000份文档，包括从15个媒体收集的重要报道、经济、政治新闻。
 语义信息抽取（Semantic Information Extraction）
KIM IE方法的本质是识别文档中与KIMO定义本体类型有关的命名实体。抽取的结果是文档中的实体都被标注并含有指向KB中具体实例的URI指针。
KIM语义信息标注大致分为以下几个阶段：
(1) 利用KIM Ontology和KB(可信任实体)，借助语义规则(Lexical Resource)识别出文本中的命名实体，并将实同KIM Ontology 中的Class和KB中的Instance联系起来。在这一步中，有时候一个实体可能同几个类型和实例相连，此时保留所有可能的标注。
(2) 进行句法模式匹配。匹配过程借助KIM Ontology来决定备选标注是否和模式有同样的类型。在这个阶段，由上一步所产生的所有实体标注都将进行评估，合格的成为正式的实体标注，而有的标注虽然有实体类型，但因缺乏实例信息而被舍去。
(3)简单排歧。现实世界中常常会用同一名称命名不同的事物，例如Moscow既是一个国家的首都又是美国的一个城市名，这给语义信息标注带来一定的困难。在句法模式匹配阶段通过KB可以进行一定的排歧。
(4) 接下来是进行实体间拼写相互参照，借助KB，将一个实体的不同表现形式进行匹配。
(5) 最后根据模式进行关系提取，即识别出保留下来的标注实体之间的关系。例如识别出某个机构位于什么地方。
下图是KIM的语义信息提取流程图：

 索引和检索
完成命名实体识别过程后，可以针对特定的NE对文档建立索引。这便于查询有约束的实体，实体类型，实体名，属性和实体关系。Lucene可以对全文建立索引，能够唯一的定位实体。
 KIM的技术基础
KIM在技术上借助了目前在本体及自然语言处理领域比较受推崇的三个开源项目，GATE、Sesame和Lucene。
其中是Gate一个应用非常广泛的自然语言处理和信息抽取的平台，由Sheffield大学的自然语言处理研究组在EPSRC(The Engineeringand Physical Sciences Research Council)资助下研究开发。GATE 为用户提供图形化的开发环境，被许多自然语言处理项目尤其是信息抽取研究项目采用。该系统对语言处理的各个环节(从语料收集、标注到系统评价)均能提供很好的支持。
Sesame是一个本体存储工具，可以用来存储和查询由RDF、RDFS语言构建的本体，是欧洲IST项目On-To-Knowledge的一部分。值得指出的是，Sesame的设计和实现与具体的存储设备无关，这意味者Sesame可以部署在各个不同的存储设备之上，如关系型数据库，面向对象数据库，文本文件等，但对外可提供一致的访问接口，从而屏蔽了底层存储设备的异构性。
Lucene不是一个完整的全文索引应用，而是一个用Java写的全文索引引擎工具包，它可以方便的嵌入到各种应用中实现针对应用的全文索引/检索功能。
 KIM的体系结构
KIM平台包括以下四个部分：KIM Ontology、KIMWorld KB、KIM Server和Front—ends。整个KIM平台系统架构如下图所示。
KIM的中部是API模块。语义标注模块API对与KIM本体和KB有关的文档进行标注，同时还提供内容和标注管理的基础设施。通过文档持久API存储文档和相关标注或者从数据集中加载。索引API基于Lucene信息检索引擎，通过修改索引策略允许对命名实体建立索引。查询API可以看成是语义检索API，允许传统的关键字搜索和其他基于本体得访问方法。同时它还能够建立复合型搜索，将实体搜索、关键字搜索和实体模式搜索集成在一起。语义存储API能够管理和访问知识库，通过RDFS和方法集访问已有的知识库。

 KIM的启示
KIM是一个基于本体的信息检索平台，通过对网页进行语义信息标注，抽取文档中的命名实体，并将该实体与本体中的类和知识库中的已有实例建立链接。利用Lucene的全文检索技术对命名实体建立索引，提供基于本体语义的智能搜索。
KIM通过对文档建立基于本体的语义模式，结合传统的IR技术，一定程度上能够提高检索的查全率。由于该系统没有给出它同传统IR的检索效率的比较，现在还不能判断KIM是否就比传统IR高效。但是有一点可以肯定，它开拓了信息检索的新领域，利用文档丰富的语义信息和传统的IR技术，会是未来检索技术发展的一个热点领域。
KIM的解决方案为协同环境下基于搜索的文档定位提供了一个很有价值的研究方向。传统的IR技术目前已经非常成熟，但是查询效果不是很令人满意。比如如果想查询位于北京市海淀区的世界500强公司有哪些，在Google中输入查询词“海淀区世界500强公司”得到的结果令人很沮丧，没有一个我们想得到的结果。因为传统IR按照关键字建立所以，用查询词与倒排表中的关键字项进行匹配，匹配成功返回结果，否则失败。这个过程根本不会理解查询者的意图，不会理解文档中每句话中的语义信息。
显而易见，本体能够解决这个问题。但是必须建立知识库，尽可能地向库中加入命名实体的实例。否则就要进行自动化的语义标注过程。
KIM的IE是基于英文的，未来对项目文档的搜索应该是基于中英文的，目前有一些中文的IE工具，需要笔者继续研究。KIM的文献提到了对命名实体建立索引，但是没有涉及过多的细节，笔者将在该问题上进行研究。此外，为协同环境下的文档建立本体规范也是个要重点考虑的问题，是从无到有的建立还是在某个本体集的基础上进行扩展，也是未来需要探讨的。


	W 3 C h i n a ( since 2003 ) 旗下站点苏ICP备05006046号《全国人大常委会关于维护互联网安全的决定》《计算机信息网络国际联网安全保护管理办法》	8,860.352ms