本文资料来源于网站
1.0 前言
Sitemap 可方便网站管理员通知搜索引擎他们网站上有哪些可供抓取的网页。最简单的 Sitemap 形式,就是XML 文件,在其中列出网站中的网址以及关于每个网址的其他元数据(上次更新的时间、更改的频率以及相对于网站上其他网址的重要程度为何等),以便搜索引擎可以更加智能地抓取网站。(来源百度百科)
通常,sitemaps(中文:站点地图)没有人看,一般都是收录爬虫(例:百度蜘蛛)看,用于更好的收录网站
1.1 xml格式
标准:
<!--来源:https://www.sitemaps.org/protocol.html-->
<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
<url>
<loc>http://www.example.com/</loc>
<lastmod>2005-01-01</lastmod>
<changefreq>monthly</changefreq>
<priority>0.8</priority>
</url>
<url>
<loc>http://www.example.com/</loc>
<lastmod>2005-01-01</lastmod>
<changefreq>monthly</changefreq>
<priority>0.8</priority>
</url>
...
</urlset>
其中:
Sitemap必须:
- 以开始标签开始,以结束标签结束
<urlset></urlset>
- 在
<urlset>
标签内指定名称空间(协议标准) <url>
包括每个URL的条目,作为父XML标记- 为每个父标记
<loc>
包括一个子条目<url>
参数列表:
<urlset>
是协议标准<url>
父标记<loc>
网站地址,必须以协议开头(http://或https://)<lastmod>
网页的最后修改日期,不是xml的[此参数可选]<changefreq>
页面更改的频率,有效参数有:
- always
- hourly
- daily
- weekly
- monthly
- yearly
- never
( 应使用值“always”来描述每次访问时都会更改的文档。值“从不”应用于描述存档的URL。请注意,此标记的值被认为是提示而不是命令。即使搜索引擎爬网程序在做出决定时可能会考虑此信息,但它们可能比对“每小时”标记的页面进行搜索的频率要低,而对“每年”标记的页面进行搜索的频率则要比对搜索的频率更高。爬网程序可能会定期爬网标记为“never”的页面,以便它们可以处理对这些页面的意外更改)[此参数可选]
<priority>
此URL相对于您网站上其他URL的优先级。有效值的范围是0.0到1.0。[此参数可选]
详细请见网站
1.2 常见问题
来源:CSDN
作者:N-n-N
链接:https://blog.csdn.net/qq_40832960/article/details/104105268