不为人知的PDF文档在网站优化中的作用

zzao*** · 发表于 2011-9-22 13:13:06

Q：Google是否能够收录任何类型的PDF文件？

A：通常情况下，我们能够收录任何文字内容，没用密码保护或者加密处理的PDF文件。假如文件中的文字是图片格局，我们会用OCR算法来处理这些文字。简朴点说只要你有办法把一个PDF文件里的文字 “弄” 出来做成普通文档，我们就能收录这个PDF文件。

Q：Google怎么处理PDF文件里的图片？

A：目前PDF里的图片还不会被索引，你最好是用HTML页面来展示你的图片。如何让你的图片获取更好的排名，可以参考Google匡助中央的相关文档。

Q：Google如何看待PDF文件里的链接？

A：通常情况下，PDF文档里的链接和HTML文件里的链接效果一样：可以传递PR以及其他一些链接效应，Google在爬行到这些链接的时候会做平等的“跟随记实（我瞎编的词，你懂就行）”处理。目前PDF文档还不支持 “nofollow” 属性标签！

Q：如何阻止Google收录我的PDF文档；或者文档已经收录了，怎么删除索引？

A：防止PDF文件被索引最简朴的方法就是在HTTP头部添加X-Robots标签：Noindex。（关于X-Robots，大家可以参考文档：谷歌发布Robots.txt和抓取以及索引枢纽文档，以及Google官方的Robots meta tag and X-Robots-Tag HTTP header specificati**）。对于已经收录的PDF文档，在你添加Noindex标签后，Google会在下次更新时予以删除，假如想更快的删除，可以到Google站长工具后台去操纵。

Q：PDF文件能获得高排名吗？

A：当然，PDF的排名和其他网页类似。这里有三个例子［mortgage market review］，［irs form 2011］以及［parace**ol expert report］等，在Google搜索时，PDF文档的排名都很高，非常感谢这些PDF文档里的高质量内容以及从其他页面过来的链接。

Q：假如我的页面同时提供HTML和PDF两种格局，是不是会泛起重复内容的问题？

A：通常情况下，我们都建议你对统一份内容只提供一份Copy。假如由于一些特殊原因必需提供多份Copy（包括页面表现形式，文档格局等等）时，你可以采用指定尺度化URL的方法来防止这个问题，你可以通过在网站舆图中指定，以及一些常规的URL尺度化指定方法来设置。（关于尺度化的问题，大家可以参考文档：URL尺度化，以及Google官方相应的文档。）

Q：我能不能控制PDF文档在搜索引擎中展现的标题？

A：我们采用两个元素来确定一个PDF文档的标题，一是PDF自身元标签中的标题设置（Metadata，这些在PDF制作软件中都有相应设置的），一个是从起来页面链接过来的锚文本。要想搜索引擎能更好的确定你的PDF文档标题，最好这两个方面都规范一下。

原文：PDFs in Google search results

以上的QA我们关注两个问题：

1：关于PDF文件中的链接，这个大家应该都知道，是外链的一种形式，所以PDF文档共享也是增加外链的一种方式。

2：关于PDF排名的，Google并没有夸大其先天优胜性，其排名参考因素和其他类型的网页一样，并没有什么特殊。

问题是良多人都在问，为什么Google搜索的时候，常常会泛起PDF排在前面。

这个问题，我们假如按照这个QA排除掉其特殊性，就个人经验来说，在国外PDF文档的引用和传播比较频繁，而且良多是权势巨子站点才提供相应的PDF格局文档，这其中包括一些ZF讲演，教育、健康信息等等一些高质量的长篇的完整的文档…海内好像在这方面并不感冒！所以你会常常看到Google首页泛起PDF的情况。

附：Matt Cutts关于PDF文件优化的视频

		自动登录	找回密码
密码			立即注册

[软文] 不为人知的PDF文档在网站优化中的作用

浏览过的版块

站长推荐 /1