网站IIS数据定义（一）

看到M总写了很长串的新人学习博文，这边也效仿下，把一些SEO的基本知识一一的整理下，上一篇的“robots.txt文件揭秘”，就算是写的第一篇吧，今天说下IIS日志。

日志基础：

#Software: Microsoft Internet Information Services 6.0

#Version: 1.0（版本号1.0）

#Date: 2011-11-20 00:02:15（日期时间）

#Fields: date time s-sitename s-ip cs-method cs-uri-stem cs-uri-query s-port cs-username c-ip cs(User-Agent) sc-status sc-substatus sc-win32-status

c-ip：客户端IP地址。

cs-username：用户名，访问服务器的已经过验证用户的名称，匿名用户用连接符-表示。

s-sitename：服务名，记录当记录事件运行于客户端上的Internet服务的名称和实例的编号。

s-computername：服务器的名称。

s-ip：服务器的IP地址。

s-port：为服务配置的服务器端口号。

cs-method：请求中使用的HTTP方法，GET/POST。

cs-uri-stem：URI资源，记录做为操作目标的统一资源标识符（URI），即访问的页面文件。

cs-uri-query：URI查询，记录客户尝试执行的查询，只有动态页面需要URI查询，如果有则记录，没有则以连接符-表示。即访问网址的附带参数。

sc-status：协议状态，记录HTTP状态代码，200表示成功，403表示没有权限，404表示找不到该页面，具体说明在下面。

sc-substatus：协议子状态，记录HTTP子状态代码。

sc-win32-status：Win32状态，记录Windows状态代码。

sc-bytes：服务器发送的字节数。

cs-bytes：服务器接受的字节数。

time-taken：记录操作所花费的时间，单位是毫秒。

cs-version：记录客户端使用的协议版本，HTTP或者FTP。

cs-host:记录主机头名称，没有的话以连接符-表示。注意：为网站配置的主机名可能会以不同的方式出现在日志文件中，原因是HTTP.sys使用Punycode编码格式来记录主机名。

cs(User-Agent)：用户代理，客户端浏览器、操作系统等情况。

cs(Cookie)：记录发送或者接受的Cookies内容，没有的话则以连接符-表示。

cs(Referer)：引用站点，即访问来源。

其中：

cs-method：请求中使用的HTTP方法。GET和POST两个方法是不一样的，一般来说GET是正常的，出现POST的时候需要注意。

sc-status：协议状态，记录HTTP状态代码，200表示成功，403表示没有权限，404表示找不到该页面，具体说明在下面。

状态码分很多种，1XX：这一类型的状态码，代表请求已被接受，需要继续处理；2XX:这一类型的状态码，代表请求已成功被服务器接收、理解、并接受;3XX这类状态码代表需要客户端采取进一步的操作才能完成请求。通常，这些状态码用来重定向，后续的请求地址（重定向目标）在本次响应的 Location 域中指明;4XX:这类的状态码代表了客户端看起来可能发生了错误，妨碍了服务器的处理。

我们需要了解的是各个状态码的含义，以便了解搜索引擎对网站的抓取情况。200表示成功访问，是日志中常见的返回码；304禁止访问；404请求错误；301永久重定向.....这些都是一些非常常见的状态码，如遇到304,404等表示有问题的代码的时候就要引起注意了，后面会更详细的说到。

例：2011-11-20 00:02:15 W3SVC1603690642 114.80.202.13 GET /data/config.php art=1322 80 - 123.125.71.48 Mozilla/5.0+(compatible;+Baiduspider/2.0;++http://www.baidu.com/search/spider.html) 404 0 64

以上这个是列举的百度蜘蛛爬行的记录，可以看到访问的是“/data/config.php art=1322”页面，后面的+Baiduspider则表示是百度蜘蛛，再稳固一遍：谷歌蜘蛛，为googlebot；yahoo蜘蛛，Yahoo!slurp；bing蜘蛛MSNbot。后面的404则表示不存在该页面，既然不存在该页面，蜘蛛怎么会抓取呢？是不是网站中有入口，这些404的比例有多大？如果大部分iis日志状态妈都是404，那是否对网站api明有影响？又应该怎么去处理？这些都是应该去发散思考的。例：http://www.seotcs.com/blog/?p=885，

这是前段时间写的一篇博客，可以看下。

暂时先说到这，下回再分解。

WJMonitor舆情之声

网站IIS数据定义（一）

最新文章

热门文章