SEO 知识量:6 - 17 - 62
W3C即万维网联盟,到目前为止,W3C已发布了几百项影响深远的Web技术标准及实施指南,现在流行的浏览器都在根据W3C标准而不断改进,使用旧的IE浏览器的人越来越少,搜索引擎也越来越重视网站是否符合W3C标准,因此,符合标准的网站会得到搜索引擎更好的排名。
现代网页设计要求实现网页内容与表现的分离,过去人们常用DIV+CSS的方式实现这一点,HTML5出现后,更多的语义元素加入了HTML标准,更加丰富了分离的实现。
语义元素负责构建页面的结构和主要内容,CSS(层叠样式表)负责页面的表现和美化布局,两者分工合作,可以实现诸多好处。
代码更加精简,可以提高搜索引擎spider的爬行效率。
避免表格嵌套问题,通过减少不必要的表格,提高网页对于搜索引擎spider的可读性。
提高页面渲染速度,减少多余的HTML表现元素,可以更快的打开页面。
提高可维护性,分离后,可以更方便的修改内容或布局。
保持视觉统一,利用CSS技术,可以一次性调整整个网站的色彩和风格,保持视觉一致性。
提高搜索排名,与使用表格创建的网站相比,通过网页内容与表现的分离设计,现代网页更受搜索引擎的喜欢,通常排名更高。
动态页面是由脚本文件(例如:PHP、JSP或ASP等)动态生成的页面,通常涉及后台业务逻辑和数据库的操作,可以根据用户的请求动态生成所需的内容。而静态页面或文件是指HTML、CSS等不会在运行期间自行改变的文件。
虽然搜索引擎公司都声称可以收录动态页面,但是动态页面地址栏的“?”语法有时会让搜索蜘蛛遇到麻烦,因此,通常静态页面收录速度更快,也更容易。此外,静态页面可以降低系统负载,提高网页打开速度,安全性和稳定性也更高。因此,对于小型网站来说,页面静态化方案是首选。
需要注意的是页面的静态化也有缺点,最重要的是需要一套科学的页面更新策略。而且,如果页面数量较多,所需的存储空间更大,页面维护更新的复杂性也会越来越大。对于较大的网站可以考虑部分静态化或伪静态化技术。
对于搜索引擎来说,如果文件目录嵌套太多,例如超多了3层目录,那么深层目录的页面很可能不会被收录,因为目录级别越高,搜索蜘蛛需要爬行的时间就越长,很可能会爬行超时。通常目录级别越高,页面获得的搜索权重越低。因此,越是重要的页面,目录级别要越简单。
目录的路径和文件名也会影响搜索排名,如果目录使用关键字进行命名,对于SEO来说会有积极的作用。需要注意的是,对于多个单词组成的文件名,应当使用连字符“-”或空格码“%20”进行分割,不要使用下划线“_”,因为有些搜索引擎可能还不支持下划线作为词组分隔符。
越大的页面打开速度越慢,同样,搜索引擎也不喜欢太大的页面。可以使用压缩页面代码、内容分页等方法让页面瘦身,网络上有许多可用的压缩工具。
robots.txt是一个纯文本文件,但是对于一个网站来说却很重要,因为,当搜索引擎访问一个网站时,会首先查找robots.txt文件,并按照文件所列的规则来检索收录网站文件。如果网站没有robots.txt文件,搜索引擎就会沿着链接抓取。
需要注意的是,robots.txt文件必须放到网站根目录下,且文件名必须全部小写。下面列举robots.txt的具体用法:
规则 | 代码 |
---|---|
禁止所有搜索引擎访问网站的任何页面 | User-agent:* Disallow:/ |
允许所有搜索引擎访问网站任何页面(也可以创建一个空文件robots.txt) | User-agent:* Disallow: 或者 User-agent:* Allow:/ |
只禁止百度蜘蛛访问网站 | User-agent: baiduspider Disallow:/ |
只允许百度蜘蛛访问网站 | User-agent: baiduspider Disallow: User-agent:* Disallow:/ |
禁止搜索引擎访问特点目录 | User-agent:* Disallow:/cgi-bin/ Disallow:/tmp/ |
常见的搜索引擎蜘蛛名称如下:
蜘蛛名称 | 搜素引擎公司 |
---|---|
Baiduspide | www.baidu.com |
YodaoBot | www.youdao.com |
ia_archiver | www.alexa.com |
Googlebot | www.google.com |
Sosospider | www.soso.com |
Yahoo! Slurp | www.yahoo.com.cn |
Bingbot | www.cn.bing.com |
360Spide | www.so.com/ |
Sogouspide | www.sogou.com |
注意:谷歌的蜘蛛可以识别Allow的标识,其他的搜索引擎则不一定支持。蜘蛛的名称可能随时会改变,想要知道最新的变化情况,查看一下各大网站的robots.txt就行了。
可以使用“*”匹配任意个字符;使用“$”匹配网址的结束字符。例如:禁止访问php后缀的文件可以设置为:Disallow:/*.php$
使用robots.txt的好处有:
引导搜索引擎检索网页。
避免无用的搜索引擎占用宝贵的带宽。
禁止搜索引擎检索敏感信息。
控制搜索引擎造成的访问压力。
避免重复内容被检索,影响网站收录质量和排名。
需要注意,设置robots.txt会暴露敏感文件的位置,可以通过设置访问权限或将默认的目录主文件index.html更名为其他以降低风险。
Copyright © 2017-Now pnotes.cn. All Rights Reserved.
编程学习笔记 保留所有权利
MARK:3.0.0.20240214.P35
From 2017.2.6