一个规范的网站,网站地图肯定是少不了的。一个单独的网站地图页面不仅可以让用户对整个网站的目录结构及内容有一个很好的认识且一目了然,而且方便百度蜘蛛跟踪连接爬行到网站所有主要部分内容。
网站地图主要有两种:
HTML网站地图
下面我们一个个来学习这两种网站地图。
HTML网站地图
HTML版本的网站地图主要是给用户看的,主要列出了网站上所有主要连接的页面。特指HTML版本网站地图英文是sitemap,其中s需要小写。
小规模网站,其网站地图可以列出网站上所有的页面。
规模稍大的网站,一个网站地图列出所有页面不是很现实。可以只列出网站上主要连接(一级分类,二级分类)。也可以将网站地图分成多个文件,主网站地图列出通往次级网站地图的连接,次级网站地图在列出一部分页面连接。这样,多个网站地图页面加一起,就可以列出所有或绝大部分重要页面了。
如果有一个良好的导航系统或者链接结构的网站,不一定要列出完整所有页面的网站地图。其实,网站地图和分类结构大同小异。
XML版本网站地图主要是给搜索引擎看的,由XML标签组成,该文件必须是utf8编码。实际上,就是列出网站要被收录的页面链接。特指XML版本网站地图英文是Sitemap,其中s通常是大写。
简单的可以是一个文本文件,列出页面的链接,一行一个,这样搜索引擎就能理解和抓取文件的内容了。
标准的文件如下:
<urlset xmlns="http://www.google.com/schemas/sitemap/0.84">
<url>
<loc>http://wxlpsy.com/category-2.html</loc>
<lastmod>2016-11-07</lastmod>
<changefreq>weekly</changefreq>
<priority>0.4</priority>
</url>
</urlset>
标签解读
urlset:声明文件所使用的Sitemap协议版本,是必须要的标签
url:是它下面所有网址的母标签,是必须要的标签
loc:列出页面完整的url,是必须要的标签
lastmod:表示页面最后一次更新时间,此标签可选。
priority:可选标签,表示链接的相对重要程度
changefreq:代表文件的更新频率,是可选标签。可以有以下值:
changefreq标签值
always:表示一直变动,指每次访问页面内容都不同
hourly:每小时
daily:每天
weekly:每周
monthly:每月
yearly:每年
never:从不改变
设置频率更新值是给搜索引擎一个参考。但是,搜索引擎不一定就认为更新频率就如站长设置的一样。
最多可以列出5w个URL,且文件大小不能超过10MB。
如果网站要收录的URL太多,可以分成多个网站地图文件。
一个网站最多可以有1000个文件,可以列出5000w个网址。
可以通过站长工具后台提交,百度、360、google都支持该功能。另一种可以放到robots.txt 文件了通知搜索引擎,如下:
Sitemap: http://www.e926.com/sitemap.xml
主流的搜索引擎都支持robots文件制定网站地图文件位置。