新书推介:《语义网技术体系》
作者:瞿裕忠,胡伟,程龚
   XML论坛     W3CHINA.ORG讨论区     计算机科学论坛     SOAChina论坛     Blog     开放翻译计划     新浪微博  
 
  • 首页
  • 登录
  • 注册
  • 软件下载
  • 资料下载
  • 核心成员
  • 帮助
  •   Add to Google

    >> 本版讨论Semantic Web(语义Web,语义网或语义万维网, Web 3.0)及相关理论,如:Ontology(本体,本体论), OWL(Web Ontology Langauge,Web本体语言), Description Logic(DL, 描述逻辑),RDFa,Ontology Engineering等。
    [返回] 中文XML论坛 - 专业的XML技术讨论区W3CHINA.ORG讨论区 - Web新技术讨论『 Semantic Web(语义Web)/描述逻辑/本体 』 → 语义网的春天 zz 查看新帖用户列表

      发表一个新主题  发表一个新投票  回复主题  (订阅本版) 您是本帖的第 21464 个阅读者浏览上一篇主题  刷新本主题   树形显示贴子 浏览下一篇主题
     * 贴子主题: 语义网的春天 zz 举报  打印  推荐  IE收藏夹 
       本主题类别: Ontology Engineering | RDF/RDFS | DOM    
     admin 帅哥哟,离线,有人找我吗?
      
      
      
      威望:9
      头衔:W3China站长
      等级:计算机硕士学位(管理员)
      文章:5255
      积分:18406
      门派:W3CHINA.ORG
      注册:2003/10/5

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给admin发送一个短消息 把admin加入好友 查看admin的个人资料 搜索admin在『 Semantic Web(语义Web)/描述逻辑/本体 』的所有贴子 点击这里发送电邮给admin  访问admin的主页 引用回复这个贴子 回复这个贴子 查看admin的博客楼主
    发贴心情 语义网的春天 zz


    语义网的春天

    今日万维网的蓬勃发展自然少不了HTML的功劳,借助HTML标签,浏览器才知道如何呈现标签内的信息。例如,普通的HTML语句会告知浏览器以某种格式显示字符串“Avatar”。然而,HTML标签虽然简洁实用,却没有定义字符串“Avatar”含义方面的任何信息,“Avatar”既可能指3D卖座大片《阿凡达》,也可能指一种人物头像。如果你现在想用搜索引擎通过搜索“Avatar”来查找《阿凡达》影片的相关信息,也许搜索引擎显示的却不是你想要的内容,问题出在哪呢?

    问题就在于搜索引擎无法从HTML语言里读出网页数据的含义,万维网上的内容仍旧需要人来过滤理解,计算机无法自动识别出特定语义的数据。有鉴于此,6月2日,三大IT巨头谷歌、微软和雅虎联手推出了schema.org,希望以此鼓励网站管理员开发包含语义标注的网页,从而使所设计的页面数据能够被搜索引擎所理解,这样一方面可以加快搜索速度,另一方面也有利于网站管理员更具针对性地将内容呈现给访客。

    毫无疑问,这是一个标志性的举措,如果它真能付诸实现,最终促使“计算机像人一样理解web信息”的技术的普及,那么它将带来一批几乎能够和我们人一样理解在线信息的智能应用和服务。万维网可能从此进入一个新的发展阶段。

    先让我们来看看三大IT巨头所推出的这个全新的Schema.org吧。该站点提供了模式的集合,网站管理员可以用这些模式来标注他们的页面,这样网页便可以被三大主要搜索引擎Google、Bing和Yahoo!所识别。搜索引擎依靠标注来提高搜索结果的准确性,让人们更容易找到希望看到的页面。

    众所周知,许多网站是由结构化数据生成的,而这些数据一般存放于数据库中。当数据用HTML格式来表示时,很难重现结构化数据的原貌。也就是说,HTML实际是面向文档的,而非面向文档中的数据。许多应用程序,尤其是搜索引擎,如果能够直接访问这类结构化数据,则可以大大提高效率。网页标注起到的正是这个作用,有了它,搜索引擎便能理解页面的信息,为用户提供更加丰富的搜索结果,使用户更容易找到需要的信息。标注还能让利用结构数据的工具和应用程序发挥功效。

    schema.org为网站管理员提供了共享的标注词集,网站管理员可以据此选定标注模式,他们对网站的投入就可获得最大的回报。

    探究schema.org的实质,我们不难发现,这其实是语义网的具体应用。所谓语义网,就是万维网上能够让计算机理解语义的数据web。它通过插入计算机可读的元数据来对超文本语言加以扩展,这些元数据可描述它们互相之间的关系,使得网页处理起来更加智能化。语义网最早是万维网之父蒂姆·伯纳斯-李于1999年提出的一种“愿景”,其初衷是要驱动web技术的发展,更充分地挖掘万维网的潜力,使众多web应用能摆脱人工干预的束缚,给用户以更完美的体验。伯纳斯-李在提出概念的同时,还设想了其体系结构,具体如下:

    1) 第一层:统一编码(Unicode)与统一资源定位符(URI),这是语义网的基础,其中,Unicode负责处理资源编码,而URI负责标识资源。

    2) 第二层:可扩展标记语言(XML)+名字空间+XML模式,主要用来表示数据内容与结构。

    3) 第三层:资源描述框架(RDF)与RDF模式,主要用来描述资源及其类型。

    4) 第四层:本体语言(ontology language),主要用于描述各种资源间的联系。

    5) 第五层:逻辑层,在下面四层的基础上进行逻辑推理操作。

    6) 第六层:验证层,根据逻辑陈述进行验证以得出结论。

    7) 第七层:信任层,在用户间建立信任关系。

    以上七层中,第二、三、四层是语义网的基石,也是主要的研究对象。语义网相关标准的发展一直在万维网联盟(W3C)的监管下进行。经历十多年的发展之后,W3C所推荐的语义网技术已有不少,并可在各种环境下使用。同时还涌现了其他类似的语义网技术。不过总体来看,语义网的普及非常迟缓,这也遭到了一定程度的质疑和批评。

    从语义网的基础性技术来看,目前,比较流行的有三类:RDFa(资源描述框架属性)、微格式(microformat)和微数据(microdata),下面分别对它们作一些简要介绍:

    1) RDFa最早由马克·伯贝克提出,最初是一份W3C记录,标题为《XHTML与RDF》,后呈交给W3C的2004年技术交流会的语义网兴趣组进行讨论,并于当年写入了XHTML 2.0第六版草案里。RDFa的目标是为任何基于XML的语言添加元数据,2008年10月,RDFa成为W3C推荐标准。

    2) 微格式是一种基于web的语义标注方法,希望通过重用已有的HTML/XHTML标签来表示元数据及其他网页属性。该方法支持软件自动处理面向终端用户的各种信息。相比于万维网联盟的RDFa,微格式可谓出身草根,非营利性的电子商务推广组织ComerceNet目前在对微格式社群及其站点microformats.org提供支持。

    3) 微数据是网络超文本技术工作组(WHATWG)HTML 5中的一个规范,用于在已有网页的内容中嵌入语义。搜索引擎、网络爬虫和浏览器可从页面中抽取和处理微数据,以便向用户提供丰富的浏览体验。微数据用到一个辅助词集来描述项和名值对。网页开发者可以自行定制词集。

    上述三种技术规范齐头并进,相较而言,RDFa是官方标准,具有权威性,但是W3C在推广RDFa的过程中顾虑过多,一定程度上贻误了发展良机。全球来看,RDFa的普及一直不甚理想。微格式出自民间,语法清晰,但在维护和支持的力度上显然有所不足,甚至在技术发展上有停滞的危险。而微数据是一种较新的技术,WHATWG与W3C也有分庭抗礼之势。在面向用户的层面上,微数据凭借其简洁实用的特性赢得青睐,scheme.org看好它不无道理。

    scheme.org网站上就模式选择方面的问题作了如下解释:

    1) 为什么要创建新的模式?这样对网站管理员、搜索引擎和用户三方均有利。对网站管理员而言,schema.org提供了单一的标注学习源,你不再需要从不同途径学习各种互有差别的模式。对搜索引擎而言,schema.org所定义的项类型和属性尤为宝贵,搜索引擎可以获得它们亟需的结构化信息来提高搜索效率。对用户而言,schema.org保证了他们能获得更佳的搜索结果和更优的上网体验。

    2) 为何选用微数据构建schema.org,而非RDFa或微格式?这主要基于实用性方面的考虑。显然,支持多种语法会让网站管理员的文档更加复杂,在定义新格式时开销也更大。微格式虽然清晰简洁,易于理解,却未提供开放的扩展机制,类标签可能与网站CSS冲突。RDFa扩展性不错,且表达能力很强,但语言太过复杂,导致普及缓慢。微数据是最近才兴起的标准,且被添加到HTML5中。它在可扩展性和简洁性上取得了平衡,因而是最适合的方案。谷歌和雅虎的引擎对RDFa和微格式的支持还将继续,而且如果RDFa和微格式的普及转好,schema.org也将考虑支持它们。

    3) 如果网站已经添加了其他格式的标注,是否需要进行修改?如果网站所加标注已经被三大引擎所用,则还会继续得到支持。不过,改为新的标注格式长期来看不无裨益,因为这样你的网站采用的是三大引擎同时支持的标准。

    由以上解释来看,schema.org的考虑不可谓不周详,W3C在推进语义网的应用上成效并不显著,进展难以令人满意,究其原因,也许正是网站管理员欠缺了一个添加额外标记的理由。而三大搜索引擎支持的schema.org无疑是为语义网的普及应用打了一针强心剂。正如南加州大学研究语义网技术的丹尼斯·麦克劳德所言,“这将激励人们真正将语义数据添加到自己的网页之中,预测哪些将被采用一直都很困难,但一般来说,除非这里面有对人们有益的事情,否则他们不会做的。而谷歌、微软和雅虎则给了人们一个强有力的理由。”麦克劳德同时表示,schema.org是一种更简单的、描述网页内容含义的方法,其他的许多此类技术确实很难使用,而schema.org令人鼓舞的事情之一就是,它看重可用性,因此标注网站就变得十分容易了。

    如果多数网页的所有者都按照schema.org的建议行事,搜索以外的其他业务也将受益。“这些数据可用于任何软件,使得相关的事情交叉关联起来,或者可用来了解不同来源的消息之间的关联。”麦克劳德说。例如,语义信息的广泛应用,或将改进人工智能助手,如去年苹果公司所购进的sirir,或者能够针对新闻文章给出良好建议,因为它们能够确切地指向报道源。

    诚然,schema.org的推出也引发了不小的争议。这只是三家公司的共同行为,并非国际标准。虽然在声明中,schema.org也表示欢迎其他网站加入这项计划,但难以消除人们对其未来走向的担忧。W3C语义网协调小组成员曼努·斯波尼就第一时间表示“这会妨碍万维网的自由开放,今后人们只能选择使用这些公司的专有标准,其后果不言而喻。”斯波尼认为,三大公司之所以另起炉灶,完全是有意利用自己在搜索引擎上的影响力,用自家的标准取代W3C的国际标准,是一种赤裸裸的商业行为,对语义网的未来发展不利。斯波尼说,微数据或将成为唯一标准,这会限制语义网的能力,因为RDFa显然能做更多事情,它支持许多微数据所不能支持的实例。斯波尼希望三大公司能够修正其对格式的立场。

    尽管存在争议,我们却还是对schema.org的发展充满期待,毕竟它的后台是三大引擎,综合来看,选择微数据也无可厚非,最起码的一点,这有利于语义网的迅速普及。就连斯波尼也承认,“大公司对语义网的认同是一件好事,有了语义网的概念,你将得到更好的结果,如果能够鼓励更多的网站去接受语义网,则也会帮助其他的各种应用。”由此来看,schema.org或将迎来语义网真正的春天,在不久的将来,语义网不再是愿景,而是我们日常网络生活中须臾难分的实景。

    (转自:http://select.yeeyan.org/view/163202/204263)


       收藏   分享  
    顶(0)
      




    ----------------------------------------------

    -----------------------------------------------

    第十二章第一节《用ROR创建面向资源的服务》
    第十二章第二节《用Restlet创建面向资源的服务》
    第三章《REST式服务有什么不同》
    InfoQ SOA首席编辑胡键评《RESTful Web Services中文版》
    [InfoQ文章]解答有关REST的十点疑惑

    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2011/7/13 19:19:00
     
     Huang 帅哥哟,离线,有人找我吗?
      
      
      
      威望:9
      等级:大四寒假(收到Microsoft的Offer啦)(贵宾)
      文章:185
      积分:1717
      门派:XML.ORG.CN
      注册:2004/7/27

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给Huang发送一个短消息 把Huang加入好友 查看Huang的个人资料 搜索Huang在『 Semantic Web(语义Web)/描述逻辑/本体 』的所有贴子 引用回复这个贴子 回复这个贴子 查看Huang的博客2
    发贴心情 
    谢谢转贴,介绍得很好。

    这是谁译的? 值得称赞!

    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2011/7/14 13:10:00
     
     Jiae 帅哥哟,离线,有人找我吗?
      
      
      等级:大二(研究C++)
      文章:32
      积分:229
      门派:XML.ORG.CN
      注册:2010/7/20

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给Jiae发送一个短消息 把Jiae加入好友 查看Jiae的个人资料 搜索Jiae在『 Semantic Web(语义Web)/描述逻辑/本体 』的所有贴子 点击这里发送电邮给Jiae 引用回复这个贴子 回复这个贴子 查看Jiae的博客3
    发贴心情 
    三大巨头显得很霸道。语义网在W3C推动下已经发展了10年,也算小有成就。三巨头一来就另起炉灶,把我们的成果直接给忽略了!而且,是否有必要用微数据而不用RDFa等,是有待商榷的。
    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2011/7/15 20:18:00
     
     爇痴剑剑 帅哥哟,离线,有人找我吗?
      
      
      等级:大一新生
      文章:10
      积分:87
      门派:XML.ORG.CN
      注册:2011/8/31

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给爇痴剑剑发送一个短消息 把爇痴剑剑加入好友 查看爇痴剑剑的个人资料 搜索爇痴剑剑在『 Semantic Web(语义Web)/描述逻辑/本体 』的所有贴子 引用回复这个贴子 回复这个贴子 查看爇痴剑剑的博客4
    发贴心情 
    菜鸟菜鸟路过 LZ辛苦
    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2011/9/1 15:58:00
     
     chinaw3.org 帅哥哟,离线,有人找我吗?
      
      
      等级:大一新生
      文章:6
      积分:90
      门派:XML.ORG.CN
      注册:2011/9/1

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给chinaw3.org发送一个短消息 把chinaw3.org加入好友 查看chinaw3.org的个人资料 搜索chinaw3.org在『 Semantic Web(语义Web)/描述逻辑/本体 』的所有贴子 点击这里发送电邮给chinaw3.org 访问chinaw3.org的主页 引用回复这个贴子 回复这个贴子 查看chinaw3.org的博客5
    发贴心情 
    以下是引用Jiae在2011-7-15 20:18:00的发言:
    三大巨头显得很霸道。语义网在W3C推动下已经发展了10年,也算小有成就。三巨头一来就另起炉灶,把我们的成果直接给忽略了!而且,是否有必要用微数据而不用RDFa等,是有待商榷的。

    我觉得schema.org的微数据与 RDF 比较只是很小的“炉灶”,schema.org的微数据我大概看下和微格式差不多只是对一些词汇做些注解,而 RDF 是整个一套语言(我对这些了解都较少,说的可能不对呀,另外微数据在网页里加注释,RDF我觉得好像是文档扩展名xml不是给浏览的,只是面向电脑?

    ----------------------------------------------
    yuxin.chinaw3.org www.mathchina.com www.chinaphd.com www.fortran.cn www.cfdchina.com www.hd-qxs.com.cn www.mech.cn www.comp.mech.cn www.fea-league.com

    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2011/9/2 11:07:00
     
     GoogleAdSense
      
      
      等级:大一新生
      文章:1
      积分:50
      门派:无门无派
      院校:未填写
      注册:2007-01-01
    给Google AdSense发送一个短消息 把Google AdSense加入好友 查看Google AdSense的个人资料 搜索Google AdSense在『 Semantic Web(语义Web)/描述逻辑/本体 』的所有贴子 点击这里发送电邮给Google AdSense 访问Google AdSense的主页 引用回复这个贴子 回复这个贴子 查看Google AdSense的博客广告
    2024/12/27 17:38:38

    本主题贴数5,分页: [1]

    管理选项修改tag | 锁定 | 解锁 | 提升 | 删除 | 移动 | 固顶 | 总固顶 | 奖励 | 惩罚 | 发布公告
    W3C Contributing Supporter! W 3 C h i n a ( since 2003 ) 旗 下 站 点
    苏ICP备05006046号《全国人大常委会关于维护互联网安全的决定》《计算机信息网络国际联网安全保护管理办法》
    1,578.125ms