新书推介:《语义网技术体系》
作者:瞿裕忠,胡伟,程龚
   XML论坛     W3CHINA.ORG讨论区     计算机科学论坛     SOAChina论坛     Blog     开放翻译计划     新浪微博  
 
  • 首页
  • 登录
  • 注册
  • 软件下载
  • 资料下载
  • 核心成员
  • 帮助
  •   Add to Google

    >> 本版讨论Semantic Web(语义Web,语义网或语义万维网, Web 3.0)及相关理论,如:Ontology(本体,本体论), OWL(Web Ontology Langauge,Web本体语言), Description Logic(DL, 描述逻辑),RDFa,Ontology Engineering等。
    [返回] 中文XML论坛 - 专业的XML技术讨论区W3CHINA.ORG讨论区 - Web新技术讨论『 Semantic Web(语义Web)/描述逻辑/本体 』 → KIM――一个基于本体的信息检索系统 查看新帖用户列表

      发表一个新主题  发表一个新投票  回复主题  (订阅本版) 您是本帖的第 8228 个阅读者浏览上一篇主题  刷新本主题   树形显示贴子 浏览下一篇主题
     * 贴子主题: KIM――一个基于本体的信息检索系统 举报  打印  推荐  IE收藏夹 
       本主题类别:     
     bzbc 帅哥哟,离线,有人找我吗?
      
      
      等级:大三暑假(TOFEL考了660分!)
      文章:151
      积分:921
      门派:XML.ORG.CN
      注册:2006/4/15

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给bzbc发送一个短消息 把bzbc加入好友 查看bzbc的个人资料 搜索bzbc在『 Semantic Web(语义Web)/描述逻辑/本体 』的所有贴子 引用回复这个贴子 回复这个贴子 查看bzbc的博客楼主
    发贴心情 KIM――一个基于本体的信息检索系统

    KIM――一个基于本体的信息检索系统
                                                            作者 Minton
     KIM是什么
    KIM⋯ 是OntoText实验室的研究项目。该项目的研究成果KIM Platform(Knowledge and Information Management Platform)提供了一个语义服务平台构架和在此构架上的应用,包括:网页内容的半自动的语义标注、本体部署、基于内容的语义索引、检索和知识导航以及知识问答。
     KIM的理论基础
    Named Entity
    在传统的自然语言处理(NLP)和信息抽取(IE)理论中,命名实体(NE)是个非常重要的概念。所谓的命名实体就是人名、机构名、地名以及其他所有以名称为标识的实体。更广泛的实体还包括数字、日期、货币、地址等等。只要识别出文档中的命名实体以及这些命名实体之间的关系,那么就能在一定层次上理解文档的语义。
    抽取实体是IE技术中一个很重要的子过程。由于该过程相对独立,所以发展了基于不同语言(中文、日语,西班牙语)平台的工具。
    NE的类别基于各种实际的应用场景,所以IE需要依赖更多的NE类别。NE的类别扩展是解决实际应用必须考虑的问题。
    KIM Ontology
    KIM Ontology属于轻量级顶级本体,用于定义NE的“类型”信息,采用RDFS语言描述。包括250个类,100个属性。
    KIMO为了满足KIM的需要从无到有进行设计,借鉴了其他一些顶级实体资源,比如OpenCyc,WordNet,DOLCHE,EuroWordnet Top等。它提供最小但足够的本体集合来满足开放领域中通用的语义标引。
    下图是KIMO的顶层类等级结构,实体包括Object(普通的实体)、Happening(事件)、Abstract(不属于前两类的)。
    研究表明,虽然实体类型随应用领域的不同千差万别,但是会存在一些不同领域共有的实体类型。比如人,位置,组织,货币,日期等等。对这些基本的类型进行表示和定位是KIMO的一个设计目标。
    Knowledge Base
    KIM Ontology中定义了实体的类型、实体类型的关系和属性,而实体的具体描述则保存在KIM Knowledge Base中。所谓KIM Knowledge Base,就是所有实体的描述集合。可以把KIM Ontology看作是KIM Knowledge Base的模式(Schema),两者都采用RDFS存储在语义数据库中,该语义数据库存储工具能够支持知识推理、检索、甚至版本控制、访问控制、事务处理等功能。
    无论IE技术如何复杂,只要KB能够代表特定领域中那些最重要的实体(流行的、经常被引用的,与其他词汇共同出现的),人们就可以从中受益匪浅。将这种想法与前面提到过的KIMO的设计目标——建立通用、开放领域的实体联系起来,就是KIM KB的设计理念。KIM KB旨在打造能够覆盖世界上最重要实体的知识库。


    所以KIM KB已经建立了一些重要实体的知识库,目前包括80,000个实体。例如KB包含了50,000个位置实体,包含大陆,地区,282个国家,4,700座城市,山峰,河流,海洋甚至油田。
    为了使IE处理能够识别KB中不包含的新实体和关系,KB还提供了词汇资源的集合,该集合覆盖了组织机构的后缀,人名,时间,货币前缀等等。
    为了保证KB的对重要实体的覆盖率,KB要一直处理和分析全球主要新闻的内容。每周要更新4000份文档,包括从15个媒体收集的重要报道、经济、政治新闻。
     语义信息抽取(Semantic Information Extraction)
    KIM IE方法的本质是识别文档中与KIMO定义本体类型有关的命名实体。抽取的结果是文档中的实体都被标注并含有指向KB中具体实例的URI指针。
    KIM语义信息标注大致分为以下几个阶段:
    (1) 利用KIM Ontology和KB(可信任实体),借助语义规则(Lexical Resource)识别出文本中的命名实体,并将实同KIM Ontology 中的Class和KB中的Instance联系起来。在这一步中,有时候一个实体可能同几个类型和实例相连,此时保留所有可能的标注。
    (2) 进行句法模式匹配。匹配过程借助KIM Ontology来决定备选标注是否和模式有同样的类型。在这个阶段,由上一步所产生的所有实体标注都将进行评估,合格的成为正式的实体标注,而有的标注虽然有实体类型,但因缺乏实例信息而被舍去。
    (3)简单排歧。现实世界中常常会用同一名称命名不同的事物,例如Moscow既是一个国家的首都又是美国的一个城市名,这给语义信息标注带来一定的困难。在句法模式匹配阶段通过KB可以进行一定的排歧。
    (4) 接下来是进行实体间拼写相互参照,借助KB,将一个实体的不同表现形式进行匹配。
    (5) 最后根据模式进行关系提取,即识别出保留下来的标注实体之间的关系。例如识别出某个机构位于什么地方。
    下图是KIM的语义信息提取流程图:

     索引和检索
    完成命名实体识别过程后,可以针对特定的NE对文档建立索引。这便于查询有约束的实体,实体类型,实体名,属性和实体关系。Lucene可以对全文建立索引,能够唯一的定位实体。
     KIM的技术基础
    KIM在技术上借助了目前在本体及自然语言处理领域比较受推崇的三个开源项目,GATE、Sesame和Lucene。
    其中是Gate一个应用非常广泛的自然语言处理和信息抽取的平台,由Sheffield大学的自然语言处理研究组在EPSRC(The Engineeringand Physical Sciences Research Council)资助下研究开发。GATE 为用户提供图形化的开发环境,被许多自然语言处理项目尤其是信息抽取研究项目采用。该系统对语言处理的各个环节(从语料收集、标注到系统评价)均能提供很好的支持。
    Sesame是一个本体存储工具,可以用来存储和查询由RDF、RDFS语言构建的本体,是欧洲IST项目On-To-Knowledge的一部分。值得指出的是,Sesame的设计和实现与具体的存储设备无关,这意味者Sesame可以部署在各个不同的存储设备之上,如关系型数据库,面向对象数据库,文本文件等,但对外可提供一致的访问接口,从而屏蔽了底层存储设备的异构性。
    Lucene不是一个完整的全文索引应用,而是一个用Java写的全文索引引擎工具包,它可以方便的嵌入到各种应用中实现针对应用的全文索引/检索功能。
     KIM的体系结构
    KIM平台包括以下四个部分:KIM Ontology、KIMWorld KB、KIM Server和Front—ends。整个KIM平台系统架构如下图所示。
    KIM的中部是API模块。语义标注模块API对与KIM本体和KB有关的文档进行标注,同时还提供内容和标注管理的基础设施。通过文档持久API存储文档和相关标注或者从数据集中加载。索引API基于Lucene信息检索引擎,通过修改索引策略允许对命名实体建立索引。查询API可以看成是语义检索API,允许传统的关键字搜索和其他基于本体得访问方法。同时它还能够建立复合型搜索,将实体搜索、关键字搜索和实体模式搜索集成在一起。语义存储API能够管理和访问知识库,通过RDFS和方法集访问已有的知识库。

     KIM的启示
    KIM是一个基于本体的信息检索平台,通过对网页进行语义信息标注,抽取文档中的命名实体,并将该实体与本体中的类和知识库中的已有实例建立链接。利用Lucene的全文检索技术对命名实体建立索引,提供基于本体语义的智能搜索。
    KIM通过对文档建立基于本体的语义模式,结合传统的IR技术,一定程度上能够提高检索的查全率。由于该系统没有给出它同传统IR的检索效率的比较,现在还不能判断KIM是否就比传统IR高效。但是有一点可以肯定,它开拓了信息检索的新领域,利用文档丰富的语义信息和传统的IR技术,会是未来检索技术发展的一个热点领域。
    KIM的解决方案为协同环境下基于搜索的文档定位提供了一个很有价值的研究方向。传统的IR技术目前已经非常成熟,但是查询效果不是很令人满意。比如如果想查询位于北京市海淀区的世界500强公司有哪些,在Google中输入查询词“海淀区 世界500强公司”得到的结果令人很沮丧,没有一个我们想得到的结果。因为传统IR按照关键字建立所以,用查询词与倒排表中的关键字项进行匹配,匹配成功返回结果,否则失败。这个过程根本不会理解查询者的意图,不会理解文档中每句话中的语义信息。
    显而易见,本体能够解决这个问题。但是必须建立知识库,尽可能地向库中加入命名实体的实例。否则就要进行自动化的语义标注过程。
    KIM的IE是基于英文的,未来对项目文档的搜索应该是基于中英文的,目前有一些中文的IE工具,需要笔者继续研究。KIM的文献提到了对命名实体建立索引,但是没有涉及过多的细节,笔者将在该问题上进行研究。此外,为协同环境下的文档建立本体规范也是个要重点考虑的问题,是从无到有的建立还是在某个本体集的基础上进行扩展,也是未来需要探讨的。


       收藏   分享  
    顶(0)
      




    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2007/10/16 19:23:00
     
     cxgnj 帅哥哟,离线,有人找我吗?
      
      
      等级:大一(猛啃高等数学)
      文章:12
      积分:114
      门派:XML.ORG.CN
      注册:2008/10/19

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给cxgnj发送一个短消息 把cxgnj加入好友 查看cxgnj的个人资料 搜索cxgnj在『 Semantic Web(语义Web)/描述逻辑/本体 』的所有贴子 引用回复这个贴子 回复这个贴子 查看cxgnj的博客2
    发贴心情 
    很详细
    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2008/11/10 21:56:00
     
     wjwenoch 帅哥哟,离线,有人找我吗?
      
      
      等级:大三(要不要学学XML呢?)
      文章:101
      积分:744
      门派:W3CHINA.ORG
      注册:2006/2/13

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给wjwenoch发送一个短消息 把wjwenoch加入好友 查看wjwenoch的个人资料 搜索wjwenoch在『 Semantic Web(语义Web)/描述逻辑/本体 』的所有贴子 访问wjwenoch的主页 引用回复这个贴子 回复这个贴子 查看wjwenoch的博客3
    发贴心情 
    有链接使用它么?

    ----------------------------------------------
    一个人炫耀什么,就表示他缺乏什么。

    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2008/11/19 9:51:00
     
     Avansky 帅哥哟,离线,有人找我吗?
      
      
      威望:1
      等级:大三(研究MFC有点眉目了!)
      文章:103
      积分:675
      门派:W3CHINA.ORG
      注册:2008/12/3

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给Avansky发送一个短消息 把Avansky加入好友 查看Avansky的个人资料 搜索Avansky在『 Semantic Web(语义Web)/描述逻辑/本体 』的所有贴子 引用回复这个贴子 回复这个贴子 查看Avansky的博客4
    发贴心情 
    就是因为有你们的无私提供,才有大家的提高!万分感谢!

    ----------------------------------------------
    本人的论文是基于语义网的搜索引擎技术。
    望同路人多交流!
    Email:avan1017@163.com

    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2010/3/30 10:55:00
     
     fsfhappy 美女呀,离线,快来找我吧!
      
      
      等级:大一(猛啃高等数学)
      文章:29
      积分:187
      门派:XML.ORG.CN
      注册:2009/11/25

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给fsfhappy发送一个短消息 把fsfhappy加入好友 查看fsfhappy的个人资料 搜索fsfhappy在『 Semantic Web(语义Web)/描述逻辑/本体 』的所有贴子 引用回复这个贴子 回复这个贴子 查看fsfhappy的博客5
    发贴心情 
    可以让我们看看它吗?
    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2010/4/8 16:49:00
     
     GoogleAdSense
      
      
      等级:大一新生
      文章:1
      积分:50
      门派:无门无派
      院校:未填写
      注册:2007-01-01
    给Google AdSense发送一个短消息 把Google AdSense加入好友 查看Google AdSense的个人资料 搜索Google AdSense在『 Semantic Web(语义Web)/描述逻辑/本体 』的所有贴子 访问Google AdSense的主页 引用回复这个贴子 回复这个贴子 查看Google AdSense的博客广告
    2024/5/31 19:32:32

    本主题贴数5,分页: [1]

    管理选项修改tag | 锁定 | 解锁 | 提升 | 删除 | 移动 | 固顶 | 总固顶 | 奖励 | 惩罚 | 发布公告
    W3C Contributing Supporter! W 3 C h i n a ( since 2003 ) 旗 下 站 点
    苏ICP备05006046号《全国人大常委会关于维护互联网安全的决定》《计算机信息网络国际联网安全保护管理办法》
    93.750ms