SEO

SEO 知识量:6 - 17 - 62

2.3 网站架构><

W3C标准- 2.3.1 -

W3C即万维网联盟,到目前为止,W3C已发布了几百项影响深远的Web技术标准及实施指南,现在流行的浏览器都在根据W3C标准而不断改进,使用旧的IE浏览器的人越来越少,搜索引擎也越来越重视网站是否符合W3C标准,因此,符合标准的网站会得到搜索引擎更好的排名。

分离内容与表现- 2.3.2 -

现代网页设计要求实现网页内容与表现的分离,过去人们常用DIV+CSS的方式实现这一点,HTML5出现后,更多的语义元素加入了HTML标准,更加丰富了分离的实现。

语义元素负责构建页面的结构和主要内容,CSS(层叠样式表)负责页面的表现和美化布局,两者分工合作,可以实现诸多好处。

  • 代码更加精简,可以提高搜索引擎spider的爬行效率。

  • 避免表格嵌套问题,通过减少不必要的表格,提高网页对于搜索引擎spider的可读性。

  • 提高页面渲染速度,减少多余的HTML表现元素,可以更快的打开页面。

  • 提高可维护性,分离后,可以更方便的修改内容或布局。

  • 保持视觉统一,利用CSS技术,可以一次性调整整个网站的色彩和风格,保持视觉一致性。

  • 提高搜索排名,与使用表格创建的网站相比,通过网页内容与表现的分离设计,现代网页更受搜索引擎的喜欢,通常排名更高。

页面的静态化- 2.3.3 -

动态页面是由脚本文件(例如:PHP、JSP或ASP等)动态生成的页面,通常涉及后台业务逻辑和数据库的操作,可以根据用户的请求动态生成所需的内容。而静态页面或文件是指HTML、CSS等不会在运行期间自行改变的文件。

虽然搜索引擎公司都声称可以收录动态页面,但是动态页面地址栏的“?”语法有时会让搜索蜘蛛遇到麻烦,因此,通常静态页面收录速度更快,也更容易。此外,静态页面可以降低系统负载,提高网页打开速度,安全性和稳定性也更高。因此,对于小型网站来说,页面静态化方案是首选。

需要注意的是页面的静态化也有缺点,最重要的是需要一套科学的页面更新策略。而且,如果页面数量较多,所需的存储空间更大,页面维护更新的复杂性也会越来越大。对于较大的网站可以考虑部分静态化或伪静态化技术。

目录级别问题- 2.3.4 -

对于搜索引擎来说,如果文件目录嵌套太多,例如超多了3层目录,那么深层目录的页面很可能不会被收录,因为目录级别越高,搜索蜘蛛需要爬行的时间就越长,很可能会爬行超时。通常目录级别越高,页面获得的搜索权重越低。因此,越是重要的页面,目录级别要越简单。

目录名称问题- 2.3.5 -

目录的路径和文件名也会影响搜索排名,如果目录使用关键字进行命名,对于SEO来说会有积极的作用。需要注意的是,对于多个单词组成的文件名,应当使用连字符“-”或空格码“%20”进行分割,不要使用下划线“_”,因为有些搜索引擎可能还不支持下划线作为词组分隔符。

网页大小与SEO- 2.3.6 -

越大的页面打开速度越慢,同样,搜索引擎也不喜欢太大的页面。可以使用压缩页面代码、内容分页等方法让页面瘦身,网络上有许多可用的压缩工具。

robots.txt- 2.3.7 -

robots.txt是一个纯文本文件,但是对于一个网站来说却很重要,因为,当搜索引擎访问一个网站时,会首先查找robots.txt文件,并按照文件所列的规则来检索收录网站文件。如果网站没有robots.txt文件,搜索引擎就会沿着链接抓取。

需要注意的是,robots.txt文件必须放到网站根目录下,且文件名必须全部小写。下面列举robots.txt的具体用法:

规则代码
禁止所有搜索引擎访问网站的任何页面

User-agent:*

Disallow:/

允许所有搜索引擎访问网站任何页面(也可以创建一个空文件robots.txt)

User-agent:*

Disallow:

或者

User-agent:*

Allow:/

只禁止百度蜘蛛访问网站

User-agent:

baiduspider

Disallow:/

只允许百度蜘蛛访问网站

User-agent:

baiduspider

Disallow:

User-agent:*

Disallow:/

禁止搜索引擎访问特点目录

User-agent:*

Disallow:/cgi-bin/

Disallow:/tmp/

常见的搜索引擎蜘蛛名称如下:

蜘蛛名称搜素引擎公司
Baiduspide
www.baidu.com
YodaoBotwww.youdao.com
ia_archiverwww.alexa.com
Googlebot
www.google.com
Sosospiderwww.soso.com
Yahoo!  Slurp
www.yahoo.com.cn
Bingbot
www.cn.bing.com
360Spide
www.so.com/
Sogouspide
www.sogou.com

注意:谷歌的蜘蛛可以识别Allow的标识,其他的搜索引擎则不一定支持。蜘蛛的名称可能随时会改变,想要知道最新的变化情况,查看一下各大网站的robots.txt就行了。

可以使用“*”匹配任意个字符;使用“$”匹配网址的结束字符。例如:禁止访问php后缀的文件可以设置为:Disallow:/*.php$

使用robots.txt的好处有:

  • 引导搜索引擎检索网页。

  • 避免无用的搜索引擎占用宝贵的带宽。

  • 禁止搜索引擎检索敏感信息。

  • 控制搜索引擎造成的访问压力。

  • 避免重复内容被检索,影响网站收录质量和排名。

需要注意,设置robots.txt会暴露敏感文件的位置,可以通过设置访问权限或将默认的目录主文件index.html更名为其他以降低风险。