|
|
发表于 2011-9-22 13:13:06
|
|阅读模式
来自 中国–河南–郑州
Q:Google是否能够收录任何类型的PDF文件?
A:通常情况下,我们能够收录任何文字内容,没用密码保护或者加密处理的PDF文件。假如文件中的文字是图片格局,我们会用OCR算法来处理这些文字。简朴点说只要你有办法把一个PDF文件里的文字 “弄” 出来做成普通文档,我们就能收录这个PDF文件。
Q:Google怎么处理PDF文件里的图片?
A:目前PDF里的图片还不会被索引,你最好是用HTML页面来展示你的图片。如何让你的图片获取更好的排名,可以参考Google匡助中央的相关文档。
Q:Google如何看待PDF文件里的链接?
A:通常情况下,PDF文档里的链接和HTML文件里的链接效果一样:可以传递PR以及其他一些链接效应,Google在爬行到这些链接的时候会做平等的“跟随记实(我瞎编的词,你懂就行)”处理。目前PDF文档还不支持 “nofollow” 属性标签!
Q:如何阻止Google收录我的PDF文档;或者文档已经收录了,怎么删除索引?
A:防止PDF文件被索引最简朴的方法就是在HTTP头部添加X-Robots标签:Noindex。(关于X-Robots,大家可以参考文档:谷歌发布Robots.txt和抓取以及索引枢纽文档,以及Google官方的Robots meta tag and X-Robots-Tag HTTP header specificati**)。对于已经收录的PDF文档,在你添加Noindex标签后,Google会在下次更新时予以删除,假如想更快的删除,可以到Google站长工具后台去操纵。
Q:PDF文件能获得高排名吗?
A:当然,PDF的排名和其他网页类似。这里有三个例子 [mortgage market review], [irs form 2011] 以及 [parace**ol expert report] 等,在Google搜索时,PDF文档的排名都很高,非常感谢这些PDF文档里的高质量内容以及从其他页面过来的链接。
Q:假如我的页面同时提供HTML和PDF两种格局,是不是会泛起重复内容的问题?
A:通常情况下,我们都建议你对统一份内容只提供一份Copy。假如由于一些特殊原因必需提供多份Copy(包括页面表现形式,文档格局等等)时,你可以采用指定尺度化URL的方法来防止这个问题,你可以通过在网站舆图中指定,以及一些常规的URL尺度化指定方法来设置。(关于尺度化的问题,大家可以参考文档:URL尺度化,以及Google官方相应的文档。)
Q:我能不能控制PDF文档在搜索引擎中展现的标题?
A:我们采用两个元素来确定一个PDF文档的标题,一是PDF自身元标签中的标题设置(Metadata,这些在PDF制作软件中都有相应设置的),一个是从起来页面链接过来的锚文本。要想搜索引擎能更好的确定你的PDF文档标题,最好这两个方面都规范一下。
原文:PDFs in Google search results
以上的QA我们关注两个问题:
1:关于PDF文件中的链接,这个大家应该都知道,是外链的一种形式,所以PDF文档共享也是增加外链的一种方式。
2:关于PDF排名的,Google并没有夸大其先天优胜性,其排名参考因素和其他类型的网页一样,并没有什么特殊。
问题是良多人都在问,为什么Google搜索的时候,常常会泛起PDF排在前面。
这个问题,我们假如按照这个QA排除掉其特殊性,就个人经验来说,在国外PDF文档的引用和传播比较频繁,而且良多是权势巨子站点才提供相应的PDF格局文档,这其中包括一些ZF讲演,教育、健康信息等等一些高质量的长篇的完整的文档…海内好像在这方面并不感冒!所以你会常常看到Google首页泛起PDF的情况。
附:Matt Cutts关于PDF文件优化的视频
|
|