欢迎光临极品网,更多、更新的资源信息尽在Jpinw.Com!本站所有信息资源每日更新新的内容,请大家继续关注www.Jpinw.com!如果觉得本站还不错,对您有帮助,别忘了向您的朋友推荐本站!请记好本站网址:http://www.Jpinw.com,网站发展靠大家多多的支持!!!

极品网 极品课件 极品论文 极品文学 极品游戏 极品美容 极品手机资源 极品股票

#
免费资源: 免费域名 | 免费空间 | 免费推广 | 免费邮箱 | 免费硬盘 | 免费论坛 | 免费留言 | 免费统计 | 在线投稿 | 更多...
电脑学院: 操作系统 | 安全相关 | 网页设计 | 编程开发 | 建站经验 | 服务器类 | 黑客攻防 | 菜鸟入门 | 教你网赚 | 更多...
文章导航: 网赚学堂 | 网赚秘笈 | 网赚三维 | 网赚先锋 | 网赚资讯 | 感悟网赚 | 众生百态 | 经典美文 | 范文中心 | 更多...
图酷天下: 时事图酷 | 娱乐图酷 | 搞笑图酷 | 时尚图酷 | 体育图酷 | 另类经典 | 论文资源 | 课件下载 | 文学知识 | 更多...

您现在的位置: 极品网 >> 免费资源 >> 免费推广 >> 信息正文

搜索引擎抓取的页面是越多越好吗?          【字体:
搜索引擎抓取的页面是越多越好吗?
作者:佚名    信息来源:不详    点击数:    更新时间:2006-5-24    

 








很多人似乎都认为搜索引擎抓取的页面越多越好,并以此为根据证明百度所能搜索的中文网页多于google,最近我发现这个评价标准似乎死板了点。

过去,我用自己的服务器,没有流量限制,我也不会去关心机器人所引起的流量。现在,我使用租用的空间,有流量限制,这个问题我不能不关心了。

以下是通过awstats分析日志所得的结果。

其中,排第一名的是百度,抓取页面1000个,占用流量13.72 M字节。

排第二名的是Inktomi Slurp,这是yahoo的bot,抓取页面373个,占用流量5.16 M字节

第三名是Googlebot,抓取页面89个,占用流量1.90 M字节

这三个搜索引擎,为我带来了什么呢?我想知道他们的收录情况。于是,我抓了下面这三张图。

百度,收录网页0个。

yahoo,收录网页173个。

google,收录网页19个。

我的网站,我是清楚的。这个blog刚刚建立,正在转移数据,还没有什么东西,google的19个页面是准确的。
yahoo收录的页面也是正确的,但由于没有剔除过期的结果,所以看起来收录的页面比google多很多。这也很难说是好事还是坏事,姑且认为可以接受吧。

百度,我很好奇他们把抓走的1000个页面放在那里了(我也很想知道这1000个页面是从哪里抓到的,咱这网站根本就没这么多页面),是不是等着我去竞价排名呢?占用我网站访问第一大流量的,竟然什么都没能带给我。

看来,百度没什么用,还占用了大量的流量,这令人无法接受。由于百度不遵守robot.txt的规则(也就是说,这是个不遵守礼貌的机器人),我将在服务器上屏蔽baidu的bot。。同时,我们也知道了,收录数目并不等于有效收录数目,有效收录数目并不等于有效检索数目。google的精简的19个结果,令我很满意——占用我的流量不大,数据准确,对搜索者最有实际意义。google,仍然是我首选的搜索引擎,就算是中文,也无人能够超越。所谓的 google迷恋,并非是情感或是习惯,google令我感觉舒服,令我的工作更有效率,脑筋正常的人比较一下以上三个结果,会选择谁呢?



Trackback: http://tb.donews.net/TrackBack.aspx?PostId=437200


[点击此处收藏本文]   发表于 2005年06月20日 1:15 AM



  346 发表于2005-06-20 7:33 AM  IP: 221.195.100.* 只有GG 的数据准确我也赞同!我的博客有200篇文章~ GG收录了137页,没有本收录是我转载的新闻~baidu 就不要提了
  WAYLAND.Z 发表于2005-06-20 8:35 AM  IP: 221.200.111.* 的确的确,我也在我的服务器发现同样的问题。
看了你的分析更明白了。
Baidu做事给我们的感觉是有典型的中国人习惯。google很清洁。

不知道是否真假,以前听人说当初google进军中国市场的时候Baidu去相关部门告状在google里可以检索到反华言论的页面,所以中宣部要求屏蔽了google在中国用户中的使用。后来有人在浏览器里打开google的时候竟然被转去了baidu。

在北京的网吧,很多都是一开机ie就自动跳百度,可见百度的页面pv有水分哦。
  yippeesoft 发表于2005-06-20 8:52 AM  IP: 218.5.3.* 我也同意,BAIDU虽然收录很多,但是由此来的很少。GOOGLE比较多,虽然收录少,但是准确
  pingo 发表于2005-06-20 10:16 AM  IP: 211.95.205.* 用site://bbs.ungue.com方式试了一下我那,百度找到760个左右,google找到1000个,而yahoo及一搜一个都没,这...

baidu.com

http://www.baidu.com/s?lm=0&si=&rn=10&ie=gb2312&ct=0&wd=site%3A//bbs%2Eungue%2Ecom&pn=700&cl=3



google.com

为了提供最相关的结果,我们省略了与已显示的 996 个类似的条目。
根据您的意愿,可将省略的结果纳入搜索范围后再重新搜索。
http://www.google.com/search?q=site://bbs.ungue.com&hl=zh-CN&lr=lang_zh-CN&newwindow=1&start=990&sa=N

未略去相似时
bbs.ungue.com 的简体中文网页中,共有 7,810 项符合的查询结果,以下是第 1 - 10 项。 (搜索用时 0.13 秒)








  1234 发表于2005-06-20 10:21 AM  IP: 61.135.146.* 百度抓的是你的blog.devep.net
在百度搜 site:devep.net ,找到相关网页约4,870篇

也许是百度对你的www网站更新慢,过一段时间才能把你的被抓网页放到网上。
  pingo 发表于2005-06-20 10:25 AM  IP: 211.95.205.* 补充一下,刚才那方式
"在百度找到的相关网页约12,500篇,用时0.001秒"

看来baidu对我网站的支持不错,几乎都收录了


相比之下,百度对我网站更新及时,网站里的搜索除了我自已的外就用它的

  virushuo 发表于2005-06-20 10:43 AM  IP: 218.249.49.* to 1234 : 那个是我过去的blog.devep.net ,但是那也没有4000多篇。所以我认为百度所谓的中文网页收录数目第一这个称号中的水分非常大。blog.devep.net已经建立了1年多,作为一个自认为还不错的搜索引擎,收录也是应该的。

百度这种态度很令人疑惑,我觉得他们对于网站是掠夺性开采,而获得结果,大概只是为了“中文网页收录数目第一”,这个第一是否能为用户提供方便呢?我想未必那么乐观。
  xixi 发表于2005-06-20 1:31 PM  IP: 61.48.10.* 掠夺式开采自有公论
  pingo 发表于2005-06-20 5:53 PM  IP: 211.95.205.* 中文搜索方面百度要比google好,我们不用自菲薄

例如我有5问时想搜一下

鱼有没有舌头

这几个字,在google中竟然一个答案都找不到,这两款搜索一直都是我常用的,越来越感觉google的搜索不能让我满意
  code 发表于2005-06-21 11:38 AM  IP: 219.136.75.* 收录数多是前提,至于有多少流量应该看你的关键字还有网站的等级吧。
  virushuo 发表于2005-06-21 1:06 PM  IP: 218.249.49.* code 的说法不正确,网站的等级只应该和排名相关.
  我要去去桂林 发表于2005-06-21 1:15 PM  IP: 219.238.185.* 如果大家都关心各个大搜索引擎索引量的话,不防用用下面的额工具:

http://blog.csdn.net/accesine960/archive/2005/06/19/397677.aspx

自从 多么乐 搜索引擎 索引量 统计报告发布一来已经有100多位站长登陆使用;为了把这部分数据主动送到各位站长手中,我特地制作了 这个周报功能,他将会在没周六下午3点10分,给您提供贵站在google,baidu,yisou,msn等主流搜索引擎上的索引量数据。

  freestman 发表于2005-06-21 1:30 PM  IP: 61.48.19.* 学术词汇从Google来得多,娱乐词汇从baidu来得多。这是我的感觉。
  红意 发表于2005-06-21 2:01 PM  IP: 211.154.1.* 网页收录的多少只是表现出来的一个数据,并不能说明真正的效果,尤其以另外一个数据也就是网页更新日期,BAIDU虽然显示是当天更新,也不一定保证数据是当天的。就像光明的早产奶。
  笑容 发表于2005-06-21 5:06 PM  IP: 61.179.13.* 百度的问题除了广告等等中国特色之外
是更新速度慢,而且盲目刷新,也就是说google的机器人会“智慧”一些,没更新的是不重新“下载”一次的。
baidu似乎不一样,根本就不询问是否更新,直接是下载一次。

重复下载的多了就这样了
下载后的数据太多,所以导致处理不及时,转到服务器上的速度慢,由于数据量大,处理的机器少,为了保障所谓的效果,就没有办法清除过期的数据和正确的刷新数据

  ban 发表于2005-06-28 8:31 PM  IP: 210.82.108.* 啥也不说了,看看每天baidu和google来多少人就知道了
我的数据显示baidu至少来6000,google只来2000,其他搜索引擎都是零星的一点而已
  baidu 发表于2006-04-12 9:56 PM  IP: 222.67.43.* baidu is shit
  过客 发表于2006-04-25 2:55 PM  IP: 59.108.23.* 百度对我比较客气了,几乎所有的网页都抓了,www.uhome.com.cn,但GG好像没收录几个,鄙视google
  新天地配音网 发表于2006-04-26 5:31 PM  IP: 211.137.205.* 支持baidu
总之,我的网站流量绝大部分来自baidu,更新也比较快,新内容2天就可以搜到,别的都不行。
  网狼 发表于2006-04-29 4:10 PM  IP: 218.19.158.* 我最近发现有个叫五洲搜索的搜索引擎好像搜索能力还可以,虽然不是很完善,但是我觉得他的搜索规则,也就是关键词的组合和中文分词比较过关,有些方面已经超过了中搜,应该有潜力。地址是:http://www.mssou.com
  五洲搜索 发表于2006-04-29 4:19 PM  IP: 218.19.158.* 抓取方面,百度比较全面,雅虎的抓取数量最多,gg相对少一点,前二者更新比gg快,中搜好像也抓,但是似乎一辈子只抓一次。

 

信息录入:dping    责任编辑:dping 
  • 上一个信息:

  • 下一个信息:
  • 发表评论】【加入收藏】【告诉好友】【打印此文】【关闭窗口
    最新热点 最新推荐 相关信息
    搜索登陆入口
    免费登录新浪爱问搜索引擎!
    如何让你的网站访问量井喷—…
      网友评论:(只显示最新10条。评论内容只代表网友观点,与本站立场无关!)
    极品网
    | 设为首页 | 加入收藏 | 友情链接 | 版权声明 |
    极品网

    Copyright 2006 Jpinw.com 极品网

    备案号:申请中

    极品网