新书推介:《语义网技术体系》
作者:瞿裕忠,胡伟,程龚
   XML论坛     W3CHINA.ORG讨论区     计算机科学论坛     SOAChina论坛     Blog     开放翻译计划     新浪微博  
 
  • 首页
  • 登录
  • 注册
  • 软件下载
  • 资料下载
  • 核心成员
  • 帮助
  •   Add to Google

    >> 提高页面的PageRank(页面排名),让页面被Google检索的技巧。站长交换链接。搜索引擎优化(SEO)。Google Analytics,Google Sitemap,Google Related Links。
    [返回] 中文XML论坛 - 专业的XML技术讨论区Android开发论坛『 Google PageRank/Google排名/SEO/Google Analytics 』 → 用 Sitemaps 轻松搞定 Google 之全攻略 查看新帖用户列表

      发表一个新主题  发表一个新投票  回复主题  (订阅本版) 您是本帖的第 12147 个阅读者浏览上一篇主题  刷新本主题   树形显示贴子 浏览下一篇主题
     * 贴子主题: 用 Sitemaps 轻松搞定 Google 之全攻略 举报  打印  推荐  IE收藏夹 
       本主题类别:     
     admin 帅哥哟,离线,有人找我吗?
      
      
      
      威望:9
      头衔:W3China站长
      等级:计算机硕士学位(管理员)
      文章:5255
      积分:18406
      门派:W3CHINA.ORG
      注册:2003/10/5

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给admin发送一个短消息 把admin加入好友 查看admin的个人资料 搜索admin在『 Google PageRank/Google排名/SEO/Google Analytics 』 的所有贴子 点击这里发送电邮给admin  访问admin的主页 引用回复这个贴子 回复这个贴子 查看admin的博客楼主
    发贴心情 用 Sitemaps 轻松搞定 Google 之全攻略

    用 Sitemaps 轻松搞定 Google 之全攻略

    http://www.diaor.com/blog/article.asp?id=54

    作者:星宇 日期:2006-02-26

    很多站长都在为自己的网站Google长期不收录,或者只收录了一个首页而感到不解。即使你的网站有了一些原创文章,即使你和一些PR值不是0的网站建立了友情链接,即使你还用BLOG宣传了自己的网站(过去这一招应该很灵,现在似乎Google采取措施了,估计BLOG母网站的PR值不会被直接采用了,但对于Google收录还是有所帮助的),即使你到 Google 的网页主动提交了你的网站,Google还是用它原来的慢节奏工作,也许过了几个月,你会发现自己的网站已经被Google收录了,但是往往也只是个首页而已。希望看了本文以后,能对您有所帮助。

    1、什么是 Google Sitemaps

    Sitemaps 就是“站点地图”的意思,Google Sitemaps 是Google抓取 Web 页面方式的一种实验方式,目前还是测试版本,还没有正式推广,但目前已经开放使用了。

    Google Sitemaps 文件其实就是一种特定格式的XML文件,以用来存储你的网站的网址列表。它是Google专门定义的,用于概括与 Google Web 抓取工具相关的站点地图信息。可以为每个网址,增加一些其它信息,如最后修改日期,更改频率等。关于Google Sitemaps的协议的详细信息可以参见Google网站(网址:https://www.google.com/webmaster ... zh_CN/protocol.html)。

    网站站长通过向Google提交自己网站网页的 Sitemaps ,告知Google自己的网站的结构,可以为Google抓取工具提供抓取网页的参考。将 Sitemaps 格式的文件放在您的 web 服务器上,并向Google提交Sitemaps以后,Google就能够启用它的抓取工具来查找哪些页面已经存在以及哪些刚刚更新过,并且相应地抓取您的网站。


    2、Google Sitemaps文件是个什么样子的?

    Google 对于 Sitemaps 文件的格式、编码、日期方式都做了详细的规定,下面是最基本的 Google Sitemaps 文件的样式,可以看到,这是一个标准的XML文件,里面逐条记录了一个个网址列表,如下图所示:

    [attach]31339[/attach]


    上面第一行是必须的,表示文件是XML格式;第二行也是必须的,表示XML的命名空间。

    下面是用XML格式进行网址列表的记录,每条网址都使用<url> </url>的格式描述。其中<loc></loc>记录网址,是必须提供的;<lastmod></lastmod>记录最后修改时间(可选,日期格式必须符合ISO-8601标准,详见:http://www.w3.org/tr/note-datetime);<changefeq></changefeq>记录页面可能发生更改的频率(可选);<priority></priority>记录优先级(可选,相对于本站其它网页的)。

    如果你的 Sitemaps 文件非常巨大,可以考虑分割成多个文件(每个文件不超过10MB大小,而且需要创建 Sitemaps 文件的索引文件,比较麻烦),或者使用GZIP/ZIP压缩,Google支持 gz 和 zip 格式的 Sitemaps 文件。


    3、为何要使用Google Sitemaps?有何好处?

    由于Google搜索机器人不善于抓取动态网页,通过Sitemaps可以提交你的网站的动态网页的结构,向Google提供一个抓取的参考,方便Google抓取你的网页。

    另外,一些新建立的网站,由于外部链接太少,不容易被Google发现和收录,就可以使用Sitemaps提交你的网站地图,以供Google在抓取网页的时候参考。


    4、怎样使用Google Sitemap 来提交你的网站的网址列表呢?

    基本上,使用 Google Sitemaps 的步骤为:

    首先,按照Google要求的格式,使用生成器或者手工创建 Sitemaps;

    其次,按照如下步骤,到Google网站,提交你的Sitemaps文件:
    (1)登录Google Sitemaps网站,如果你有Gmail帐号,可以直接登录,否则需要创建Google帐号才能登录:https://www.google.com/webmasters/sitemaps;
    (2)登录后,在界面中点击“请立即添加一个Sitemaps文件”,如下图所示:
    (3)接下来的界面中,直接点击下一步,添加“常规Sitemaps”,如果你还没有Sitemaps,也可以只添加网站,以后再添加Sitemaps。如下图所示:
    (4)在编辑框中输入你上传的Sitemaps文件网址(全),点击“添加普通Sitemaps”按钮,如下图所示:
    (5)这样,就算是提交成功了,如下图所示。为了能查看Sitemaps的统计信息,最好再确认一下网站,否则不能查看(其实好像也没有啥统计信息可看的,俺的网站的统计信息一直都是空,不过倒是可以查看一些错误信息),点“确认”链接,如下图:

    (6)这里,Google要求你创建一个规定文件名的空文件,用FTP上传到你的网站根目录上去,然后点击“确定”按钮。
    (7)如果Google能正常访问到你的这个文件,网站的确认就结束了,如下图所示:
    (8)在“网站概述”页面中,点击Sitemaps栏中的“1”链接,如下图所示

    (9)看看你的Sitemaps的当前状态吧:


    最后,当你的网站网页有更新时,重新生成,并更新你的 Sitemaps 文件(按照Google的说法,不需要重新提交)。


    5、怎样生成Google Sitemaps 文件?

    Sitemaps 生成器是可以配置为自动创建 Sitemaps 并将其提交到 Google 的简单脚本。Sitemaps 生成器可以根据网址列表、访问日志或者根据网址托管静态文件的目录路径来创建 Sitemaps。您可以在此处阅读更多有关 Sitemaps 生成器的信息。

    Google 提供了基于 Python 2.2 的 Google Sitemap 生成器,如果你的网站支持 Python(虚拟主机用户基本不用想了),可以使用此生成器来生成你的网站的所有静态网页的Sitemaps文件,目前可以在帖子下面的附件中下载最新版本,以后也可以到Sourceforge 查找更新:http://www.sourceforge.net/proje ... p;package_id=153422 。关于该生成器应用的,这里有一篇 GooglePub 网站提供的文章,大家可以参考:http://www.googlepub.com/html/200511/285.html。

    对于大多数虚拟主机用户,还有一些PHP或者ASP的生成器代码可以用(详见:http://www.playhosts.com/bbs/read.php?tid=183),可以使用这些生成器来生成网站静态页面的Sitemaps文件。另外,还有一些比较现成的工具程序,比如 phpSitemapNG 之类(在本帖子下面的回复中下载),可以用来生成 Sitemaps。

    另外,在网上,还有很多可以在线生成 Sitemaps 的网站(有些是免费的,或者也提供免费服务),只要在这些网站注册一下,就可以自动搜索你的网站,并为你生成 Sitemaps 文件。

    但是这些生成器常常只能搜索你的 Web 根目录,查找静态网页文件,并生成网址列表。所以 Google 常常建议你使用静态 HTML 页面,一些 CMS 和 BBS 也都建议你生成静态 HTML 页面,但是生成静态页面虽然可以提高访问速度,却大大加大了硬盘的占用量(一般会额外占用数据库容量的两倍以上),有些论坛使用静态页面还有一些别的问题,所以对于虚拟主机用户来说常常并不适用。而一些 BBS 也常常提供一些被称为“搜索引擎友好”的技术,来模仿静态页面的访问方式,但我们不认为这会对 Google 抓取页面的方式有很大改进。

    那么动态页面怎样才能比较好的生成 Sitemaps 呢?请看本文第六部分。


    6、动态网页怎样生成Sitemaps?

    要想让你的动态网页生成 Sitemaps,基本上有三种办法:

    (1)可以使用一些本地或者在线的生成工具,通过检查和分析你的网页结构,来生成动态网页的Sitemaps。

    目前我们测试了几个在线生成动态页面 Sitemaps 的网站,在消耗了很长时间以后,也没有生成比较完全的 Sitemaps,只是收录了很少一部分网址。另外,还有一些本地工具或者服务器端工具,号称可以自动生成动态网页的索引列表,但是效果也不是很理想。

    我们认为,通过这种方式来自动生成网址列表,是一个比较复杂的过程,工作量是很大的,需要工作很长时间,而且常常会进入循环链接陷阱,而效果却不理想。

    (2)通过 CMS 或者 BBS 的数据库结构,直接生成 Sitemaps

    最理想的办法,就是直接根据你的 CMS 或者 BBS 数据库结构,来直接生成网址列表,这样可以非常真实的获取所有有价值的网页网址,而不必收录那些没有价值的网址(如登录网页、注册网页、短消息网页等等)。但是 CMS 和 BBS 的种类成千上万,数据结构千变万化,这样就需要你对自己的数据结构比较了解,才能正确的生成 Sitemaps 。目前国外一些常见的论坛或者CMS程序,比如VBB、phpBB、Drupal、Plone、Wikka等,都有了插件程序,以生成动态网页的 Sitemaps。Google 在这里提供了生成 Sitemaps 第三方工具(包括一些在线生成工具)的列表:http://code.google.com/sm_thirdparty.html ,大家可以参考一下。

    目前,针对国内最常见的 PHPWind 和 Discuz!论坛,本站已经制作了这两种论坛常见版本的 Sitemaps 生成器程序,可以自动生成论坛所有网页的网站地图,需要的话,可以到此网址下载: http://www.playhosts.com/bbs/read.php?tid=424 。如果您不熟悉通过编程方式获得你的 CMS 或者 BBS 系统的 Sitemaps ,也可以与我们联系,如果您的系统比较有代表性,我们也可以帮助你们制作生成程序。

    (3)通过 RSS

    联合供稿—Google 接受 RSS(真正简单的联合供稿)2.0 和 Atom 0.3 供稿。通常,只有您的网站已有联合供稿时才能使用此格式。请注意,此方法可能不能让 Google 了解您网站的所有网址,因为供稿可能只提供最近访问的网址的信息。

    目前 Google 接受 RSS 2.0 和 Atom 0.3 馈送(使用 <link> 与修改日期字段)。如果您以这些格式之一为自己的网站使用联合供稿馈送,则可以添加馈送的网址以便 Google 了解网站最近的更新。Google 使用您馈送中的 <link> 字段收集来自您网站的网址,并使用修改日期字段(RSS 馈送的 <pubDate> 字段和 Atom 馈送的 <modified> 日期)来了解每个网址的最后修改时间。可以根据需要使用修改日期字段。请确保该馈送位于您希望搜索引擎抓取的最高一级目录。

    一些论坛和CMS程序都提供了生成 RSS 文件的功能,可以生成最新网页的 RSS 文件,这种格式的文件,也可以被 Google 所识别,用来当作 Sitemaps 文件使用。

    目前的论坛程序提供的 RSS 常常只有最新网页的网址,但 Google 仍然可以从这些网页的链接中查找其它网址。但是我们发现目前一些论坛程序,提供的RSS并不好用,只有部分网址提供了,这些网址也不是最新的网址,有点莫名其妙。


    7、怎样在提交前,检验 Sitemaps 文件是否符合Google的协议规定?

    是的,可以使用 Google 的 XML schema来定义可以出现在 Sitemaps 文件中的元素和属性。验证需要下载一个 sitemap.xsd 文件,可在本帖子下面的回复贴中下载。

    我个人认为,如果你手工修改了 Sitemap.xml 文件,建议大家在本地使用一个叫做 XSV 的 Python 程序,根据上面下载的 sitemap.xsd 文件,来验证你生成的 Sitemaps 文件是否符合Google的规定,目前版本是2.10,大家可以在下面的回复贴中下载。


    8. 此服务如何收费?

    完全免费!根据 Google 的声明,Google 从未针对搜索结果中的位置收取过费用,也没有收费的计划,这也包括商业网站在内。


    9、为何我早就提交了 Sitemaps ,Google 还是没有收录我的网页?

    即使你已经提交了 Sitemaps,但 Google 并不保证将抓取所有网址并为其编制索引,而且你会发现,常常在提交了 Sitemaps 以后, Google 在相当长的一段时间里(可能会是半个月以上),仍然没有收录你的任何网页,或者还是仅仅收录了个首页而已。

    那么,提交 Sitemaps 又有什么意义呢?

    Google 官方的解释是:Google 可以通过这个 Sitemaps 文件提供的数据来了解你的网站的结构,这使得 Google 可以改进抓取工具的日程,并在将来更好地抓取网站;大多数情况下,网站管理员将从 Sitemaps 提交中受益,您决不会因此而受到处罚。

    我们认为,如果你的网站PR值=0,并且没有有价值的外部链接(就是从那些PR值比你高的网站链接到你的网站的链接),而且你的网站没有太多的原创内容,那么,Google也只是把你的 Sitemaps 当作参考而已,并不会真的立即收录你的网页。但是,这起码可以作为 Google 的一个参考,帮助我们提醒 Google ,至少给了我们一些希望,比我们坐着干等要强。

    另外,Google还没有收录你的网页的一个原因,可能是Google还没有更新它的索引。根据网上有些人的说法,Google 每个月的20日更新索引,那么,你不妨耐心等上一两个月,这时候,也只能等待了。

    本站(www.playhosts.com)在2005年12月27日的时候,Google 只收录了77条,通过提交 Sitemaps 等手段,到1月中旬,已经收录了2000条,不过不知道是不是完全是 Sitemaps 的原因。但是本站自从更换了新域名(原来用的是www.myhosts.cn)以后,2006年1月13日提交了完全的Sitemaps,到现在了(1月24日),Google 还是只收录了一个主页而已。这说明,Sitemaps 对于 Google 来说,只是一个参考,它是不会完全按照你提交的结果工作的。

    (本文来自:http://www.playhosts.com/bbs/read.php?tid=426,转载请保持文章内容完整,并注明作者、出处和此链接)


    本文所需的部分软件的下载地址:http://www.playhosts.com/bbs/read.php?tid=426


       收藏   分享  
    顶(0)
      




    ----------------------------------------------

    -----------------------------------------------

    第十二章第一节《用ROR创建面向资源的服务》
    第十二章第二节《用Restlet创建面向资源的服务》
    第三章《REST式服务有什么不同》
    InfoQ SOA首席编辑胡键评《RESTful Web Services中文版》
    [InfoQ文章]解答有关REST的十点疑惑

    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2006/3/2 20:00:00
     
     GoogleAdSense
      
      
      等级:大一新生
      文章:1
      积分:50
      门派:无门无派
      院校:未填写
      注册:2007-01-01
    给Google AdSense发送一个短消息 把Google AdSense加入好友 查看Google AdSense的个人资料 搜索Google AdSense在『 Google PageRank/Google排名/SEO/Google Analytics 』 的所有贴子 点击这里发送电邮给Google AdSense  访问Google AdSense的主页 引用回复这个贴子 回复这个贴子 查看Google AdSense的博客广告
    2024/4/28 16:29:48

    本主题贴数1,分页: [1]

    管理选项修改tag | 锁定 | 解锁 | 提升 | 删除 | 移动 | 固顶 | 总固顶 | 奖励 | 惩罚 | 发布公告
    W3C Contributing Supporter! W 3 C h i n a ( since 2003 ) 旗 下 站 点
    苏ICP备05006046号《全国人大常委会关于维护互联网安全的决定》《计算机信息网络国际联网安全保护管理办法》
    62.500ms