|
要让搜索引擎发现网站主页,就必要有外部衔接衔接到主页,找到主页后,蜘蛛沿着内部衔接找到内部衔接找到更深的内容页,所以需求网站要有杰出的布局,复合逻辑,而且一切页面可以经过可匍匐的通常 HTML衔接到达,javascript衔接,flash中的衔接等搜索引擎蜘蛛通常不能盯梢匍匐,就会形成录入问题。
网站一切页面离主页点击间隔不能太远,最好在四五次点击之内。要被搜索引擎引擎录入,页面需求最基本的权重,杰出的网站布局可以恰当传递权重,使尽量多的页面到达录入的门槛。
找到网页后能不恩那个抓取页面内容
被发现的URL有必要是可以抓取的。数据库动态生成,带有过多参数的URL,Session ID,整个页面是Flsah,框架布局(frame),,可疑的转向,很多仿制内容等都可以使搜索引擎敬而远之。
某些问斩站长可能不期望录入,除了不衔接到这些文件,更稳妥的办法是运用robots文件或mata robots标签制止录入。
抓取页面后怎样提取有用信息
关键字在页面后重要方位的合理散布,重要标签的编撰,HTML代码精简,最少的兼容性等,可以协助搜索引擎了解页面内容,提取有用的信息,这有些在第5章“页面优化”有些,网站可以被视为搜索引擎友爱的。
关联文章引荐:网站页面代码精简的惯例办法
网站搜索引擎不友爱的网站举目皆是,尤其是一些中小公司网站。不过这样网站不太好举例,没得到网站主人的答应就作为负面案子评论十分不恰当。
|
|