百度蜘蛛对于视频站收录的浅析
一、 简述
视频检索系统一种数据流图如下图所示。主要包括网页的抓取、网页上信息的抽取以及建立起索引提供外部可以访问的检索服务几个主要步骤。视频收录指的就是网页的抓取这一步。视频检索实际上也是文本检索,其核心数据只有两种:一种是用于定位视频资源的url,通过该url可以观看视频,通常是视频播放页面的url;另一种是对视频资源的内容进行说明的各种各样的描述信息,通过这些描述信息在用户的检索请求和视频资源之间架起了一座桥梁。因此,对于视频站的收录,核心就是获取视频播放页url及视频的文本描述信息。
...