找回密码
 立即注册

QQ登录

只需一步,快速开始

查看: 1068|回复: 0

[杂谈] 今天我们主要谈谈网络蜘蛛对于文件的处理

[复制链接]
发表于 2012-7-24 15:27:44 | 显示全部楼层 |阅读模式 来自 中国–北京–北京
  今天我们主要谈谈网络蜘蛛对于文件的处理:

  ( 一) 二进制文件处理

  网络上除了有大量的HTM文件和XML文件外,也有大量的二进制文件,为了使网页的内容更加丰富,图片和多媒体文件被网页大量的引用。

  它们在网页上也是以超链接的形式出现的,因而在链接提取的阶段它们也是会被放在待访问队列中。对于二进制文件通过文件的内容来完成文件的索引是不现实的,现在的技术还没有达到可以通过二进制文件来理解文件内容的地步。

  因而对于这些文件的处理一般是采用单独处理的方式, 其内容的理解完全需要依靠二进制文件的锚点描述来完成。锚点描述通常代表了文件的标题或是基本内容。锚点信息一般是由引用网页来提供,而不是放在二进制文件本身。 二进制文件由于种类的差别问题,也需要分别来进行处理 .

  ( 二)脚本文件的处理

  这里说的脚本文件一般指的是包含在网页中的客户端脚本,它会在网页下载到客端的时候才会运行,通常会在客户端上完成一些简单的交互工作。脚本文件一般会在网页中负责网页的显示工作,但由于ajax 技术的广泛使用,它也会负责与服务器端的交互工作。

  由于脚本语言的多样性和复杂性,对它的分析处理无异于 制作一个简单的网页解析程序,正是因为处理脚本文件相当困难,许多小规模的搜索引擎往往会直接省略对它的处理。但是由于现在网站设计者对于无刷新页面要求的提高和对ajax技术的大量使用,如果忽略了对它的处理将会是一项巨大的损失 .

  (三)不问文件类型处理

  对于网页内容的提取分析一直是网络蜘蛛的重要技术环节,对于网上不同文件类型文件的处理,网络蜘蛛通常是采用插件的方式来处理。它会有一个比较智能化的插件管理程序负责管理不同的插件,对于需要处理的不同类型的文件,它会调用不同的插件来处理,之所以是采用插件的形式,主要是出于扩展性方面的考虑。

  互联网上有许多不同类型的文件,不同的文件需要完全不同的处理方式,而这个网络是不断变化的,随时会有新文件类型出现的叮能。而要完成对新类型的处理,最简单的方法就是给新类型编写新的插件,然后将插件直接交由管理程序来管理。同时这个插件的编写最好是由新文件格式的制造者自行完成,通常只有制造者才最了解新格式定义的意义。

发帖求助前要善用【论坛搜索】功能,那里可能会有你要找的答案;

如何回报帮助你解决问题的坛友,好办法就是点击帖子下方的评分按钮给对方加【金币】不会扣除自己的积分,做一个热心并受欢迎的人!

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则 需要先绑定手机号

关闭

站长推荐上一条 /1 下一条

QQ|侵权投诉|广告报价|手机版|小黑屋|西部数码代理|飘仙建站论坛 ( 豫ICP备2022021143号-1 )

GMT+8, 2024-11-27 23:01 , Processed in 0.051982 second(s), 9 queries , Redis On.

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表