详解百度site收录查询语法的结果数
我知道大多数站长,会使用不带关键词的site语法来进行收录量观察。这是一种方法,但很不准确。
site语法设定的初衷,其实是期望用户可以设定约束搜索范围,实现更加精准的搜索。这同intitle,inurl,本质上是相同的。而在这些高级语法下的结果数,和常规搜索一样,都是“估值”,而非精确值。因此,很有可能site下的“结果数”减少了,实际被索引数却可能增加了。
更加精确的方法是什么呢?
...
我知道大多数站长,会使用不带关键词的site语法来进行收录量观察。这是一种方法,但很不准确。
site语法设定的初衷,其实是期望用户可以设定约束搜索范围,实现更加精准的搜索。这同intitle,inurl,本质上是相同的。而在这些高级语法下的结果数,和常规搜索一样,都是“估值”,而非精确值。因此,很有可能site下的“结果数”减少了,实际被索引数却可能增加了。
更加精确的方法是什么呢?
...
今天刚刚发布的文章,10分钟左右就被收录了,排名非常好,流量猛涨。可过了2个小时左右,收录的页面就被删除掉了。这种情况已经频繁出现了很多次,百度到今天依然没有很好的解决这个问题,这些在搜索结果中被删除的网页需要过几天甚至更长的时间才会被重新收录。
连官方也承认了这个缺陷:很抱歉的说明一下,这是我们系统的一个缺陷,正在修复中。预计很快就不会有这种让人faint的事情出现了。
真不知道还要持续多久,就是迟迟未解决。
难怪三大搜索引擎中技术最差。期待有生之年百度能够争气一点。
...回复:如果是内容发生根本性变化,则理论上会被视为一个全新网站,旧有超链失效。
两种情况造成:
1,页面上有这个词;或者页面上曾有这个词,但索引尚未更新。若是这种情况,比较容易解决。删除该词,强制提交页面更新即可。http://tousu.baidu.com/webmaster/add/
...
百度工程师的回答:
1,判定页面重复的算法很复杂。可以肯定的是,仅meta相同,是不会被判为重复的。
2,相同两个帖子被收录(URL可能不同),低权重的页面会不被建索引,或者被高权重页面类聚掉。
...
网友提问:百度的产品一直占据了很好的排名,真的优化的好?还是对自己做了特殊处理?
我记得以前有啊刚上线不久,搜索一些产品,他们就把有啊放到很靠前的位置了。
官方回答:很犀利的提问,呵呵。坦率的说,两者兼而有之。但主要是后者。
这个所谓特殊处理就是阿拉丁。我们宣称阿拉丁机制是“开放”的,既然是开放的,那么百度的自有资源,只是一个子集而已,整合非常容易,并且质量控制会更加得当。只是由于资源自有,所以就没有“百度开放平台”这个尾巴。我们对外也并不强调这一点。
...
官方回答:前面曾经说过,我们内部也对结果页上的时间戳(在url后面)很纠结,有计划整改。实际上有的搜索引擎早已经把这个时间戳去掉了,而代之以网页更新的实际时间。
这个时间戳既然给内部人员也带来了困扰,那么对站长和用户,显见也是有困扰的。所以,我的建议是不必太过关注这个时间戳。如果期望看到精确的spider行为,最直接的手段是分析网站日志。我个人觉得站长如果想做出点名堂,一些起码的技术手段还是要会的,数据分析对SEM极端重要。而不要动辄用“草根”来给自己开脱。
...