400-685-0732

WJMonitor舆情之声

企业大数据智能舆情监测管理解决方案

全网监测海量数据按需发布监测预警

实时把握舆情动态精准追溯信息源头

获取验证码
企业采购 个人使用
当前位置: 首页 > SEO博客 > 网站IIS数据定义(一)

网站IIS数据定义(一)

时间:2011-12-28 19:52:59
看到M总写了很长串的新人学习博文,这边也效仿下,把一些SEO的基本知识一一的整理下,上一篇的“robots.txt文件揭秘”,就算是写的第一篇吧,今天说下IIS日志。

日志基础:

#Software: Microsoft Internet Information Services 6.0

#Version: 1.0(版本号1.0)

#Date: 2011-11-20 00:02:15(日期 时间)

#Fields: date time s-sitename s-ip cs-method cs-uri-stem cs-uri-query s-port cs-username c-ip cs(User-Agent) sc-status sc-substatus sc-win32-status

c-ip:客户端IP地址。

cs-username:用户名,访问服务器的已经过验证用户的名称,匿名用户用连接符-表示。

s-sitename:服务名,记录当记录事件运行于客户端上的Internet服务的名称和实例的编号。

s-computername:服务器的名称。

s-ip:服务器的IP地址。

s-port:为服务配置的服务器端口号。

cs-method:请求中使用的HTTP方法,GET/POST。

cs-uri-stem:URI资源,记录做为操作目标的统一资源标识符(URI),即访问的页面文件。

cs-uri-query:URI查询,记录客户尝试执行的查询,只有动态页面需要URI查询,如果有则记录,没有则以连接符-表示。即访问网址的附带参数。

sc-status:协议状态,记录HTTP状态代码,200表示成功,403表示没有权限,404表示找不到该页面,具体说明在下面。

sc-substatus:协议子状态,记录HTTP子状态代码。

sc-win32-status:Win32状态,记录Windows状态代码。

sc-bytes:服务器发送的字节数。

cs-bytes:服务器接受的字节数。

time-taken:记录操作所花费的时间,单位是毫秒。

cs-version:记录客户端使用的协议版本,HTTP或者FTP。

cs-host:记录主机头名称,没有的话以连接符-表示。注意:为网站配置的主机名可能会以不同的方式出现在日志文件中,原因是HTTP.sys使用Punycode编码格式来记录主机名。

cs(User-Agent):用户代理,客户端浏览器、操作系统等情况。

cs(Cookie):记录发送或者接受的Cookies内容,没有的话则以连接符-表示。

cs(Referer):引用站点,即访问来源。

其中:

cs-method:请求中使用的HTTP方法。GET和POST两个方法是不一样的,一般来说GET是正常的,出现POST的时候需要注意。

sc-status:协议状态,记录HTTP状态代码,200表示成功,403表示没有权限,404表示找不到该页面,具体说明在下面。

状态码分很多种,1XX:这一类型的状态码,代表请求已被接受,需要继续处理;2XX:这一类型的状态码,代表请求已成功被服务器接收、理解、并接受;3XX这类状态码代表需要客户端采取进一步的操作才能完成请求。通常,这些状态码用来重定向,后续的请求地址(重定向目标)在本次响应的 Location 域中指明;4XX:这类的状态码代表了客户端看起来可能发生了错误,妨碍了服务器的处理。

我们需要了解的是各个状态码的含义,以便了解搜索引擎对网站的抓取情况。200表示成功访问,是日志中常见的返回码;304禁止访问;404请求错误;301永久重定向.....这些都是一些非常常见的状态码,如遇到304,404等表示有问题的代码的时候就要引起注意了,后面会更详细的说到。

例:2011-11-20 00:02:15 W3SVC1603690642 114.80.202.13 GET /data/config.php art=1322 80 - 123.125.71.48 Mozilla/5.0+(compatible;+Baiduspider/2.0;++http://www.baidu.com/search/spider.html) 404 0 64

以上这个是列举的百度蜘蛛爬行的记录,可以看到访问的是“/data/config.php art=1322”页面,后面的+Baiduspider则表示是百度蜘蛛,再稳固一遍:谷歌蜘蛛,为googlebot;yahoo蜘蛛,Yahoo!slurp;bing蜘蛛MSNbot。后面的404则表示不存在该页面,既然不存在该页面,蜘蛛怎么会抓取呢?是不是网站中有入口,这些404的比例有多大?如果大部分iis日志状态妈都是404,那是否对网站api明有影响?又应该怎么去处理?这些都是应该去发散思考的。例:http://www.seotcs.com/blog/?p=885,

iis日志404

这是前段时间写的一篇博客,可以看下。

暂时先说到这,下回再分解。
分享按钮