首页 > 百度营销 >蜘蛛日志分析,通过日志分析蜘蛛抓取频次和访问行为

蜘蛛日志分析,通过日志分析蜘蛛抓取频次和访问行为

    347℃       李雨宸      发布时间:2020-11-19 14:31
  

蜘蛛日志分析,是服务器记录搜索引擎蜘蛛爬取网站内容的日志。服务器日志保存了用户访问,蜘蛛爬取,错误提醒,ftp上传下载等重要服务器日志,通过日志分析相关数据,可以发现网站服务管理的问题故障所在,并且通过蜘蛛抓取的次数和行为,调整网页结构和关键词布局,有助于及时的调整优化网站进而进一步的提高蜘蛛抓取的次数提高网站权重好排名。


什么是网站日志


网站日志是收集检测Web服务器处理网站运行和接收指令时产生的一种特定格式的信息文件,完善的网站日志记录和准确的日志分析是保持网站服务系统正常运行、积极正确的排查故障的基础。

我们平时所访问的网站都是通过各种Web服务器来运行的,常见的Web服务器有:apache,nginx,iis,等等类型。网站的正常运行离不来这些Web服务器的服务,通过蜘蛛日志分析网站的蜘蛛爬取痕迹,进一步了解网战运行的真实情况。


什么是蜘蛛日志分析 


假如通过apache的环境设置一个反向代理服务器,来完成需求。一旦有访问指令到达Web的服务端,就会迅速产生相应的日志数据。蜘蛛日志就是检测当天用户浏览发送指令时服务器产生浏览记录的数据文件。 

蜘蛛爬行产生的浏览访问痕迹就会被提取遗留在这里。这个以log为尾的文件就默认保留了最近一天的所有浏览痕迹,而之前的旧痕迹会自动被分割压缩。

 

日志分析蜘蛛抓取频次


蜘蛛是一种被设置的提取网站内容的计算机程序 ,每一个搜索引擎都会有各自的蜘蛛类型。

根据日志的记录可以分析每天每段时间网站产生的新的访问链接数量、爬行获取访问网页的质量优劣,并进一步分析日志目录统计的抓取次数的数据,同时兼顾网站站点可承受的抓取频次的阙值。

 分析目录抓取次数:可以了解搜索引擎服务的蜘蛛的喜好。通过蜘蛛和其他目录抓取量大小的比较,只要出现异常,就可以进入目录进行查看,是否有问题文件,以便及时优化。

分析页面抓取次数:页面抓取量是比较稳定的,一般不会出现页面抓取量大而出现异常的情况。

我们分析每个搜索引擎的蜘蛛对每一个网站目录的抓取情况,更有利于进行对网站的不同区域进行优化,根据网站流量上升和下降,你可以及时的分析了解目录流量的升降情况,然后再做出相对应的升降调整,并进一步对网站中的链接结构做出适当的优化升级。

  

日志分析蜘蛛访问行为


从网站的日志记录中我们可以搜查到特定的每一个用户访问路径,然后便能知道本网站服务器蜘蛛的爬取访问路径。由此,我们可以适当优化网站链接和内容来引导更多的蜘蛛可以爬取更有价值的页面。

在日志分析时,我们可以看到相关的搜索次数、访问时间、目录抓取次数、页面抓取次数、访问爬取路径等;来了解访客的行为偏好。同时还能分析了解用户区域、信息地址以及浏览信息来源,以便更好的防范网站恶意攻击,避免不必要的资源浪费。同时也可以根据网站日志中的数据分析网站的问题所在,例如网站无效链接、程序纰漏、失效页面等等; 


蜘蛛对网站内容的爬行检索是一个持续的过程。在网站运行的每个区域都会存在,根据蜘蛛爬行的数据反馈情况来找到网站的问题,并及时弥补漏洞,这样才能升高蜘蛛抓取的频次。

  

如何查看网站日志文件 


服务器和站点不同存放的日志文件的位置也不同,但查看获取方法其实并不复杂,根据各自的服务器选择网站属性,网站日志文件存放在文件-wwwlogs文件夹中,或者执行相关命令,就可以找到日志文件所在的位置,然后下载下来。

1.IIS7下面默认日志文件的存放路径:%SystemDrive%\inetpub\logs\LogFiles 查看方法就是点击进入对应网站,查找网站名称,然后找到相对应服务器的id自生成的日志文件夹。

2,Linux服务器查看日志,进入日志文件所在的文件目录,比如: cd /opt/tomcat7/logs 或者分析查找需求通过指令打开网站日志文件,比如:tail  -f   catalina.out

3,需要通过redis的配置文件来查找日志,打开配置文件后直接搜 "logfile"查找将路径。例如:logfile "d:/redislog/redis.log"  然后建立d:\redislog 文件夹,依靠这个配置文件启动redis,启动之后就可以去d:\redislog\redis.log文件夹去查看日志信息。 


网站蜘蛛日志分析工具 


网站日志分析在web服务系统中问题错误分析方面起着决定性的作用。日志分析工具并不是简单的数据展示,而是在指定特定时间和指令内对日志信息的分析排查。

1、Weblog expert

强大的日志数据分析器Weblog expert会给你排查广泛全面的信息,迅速生成方便易懂的信息数据和表格信息数据:网站活动统计数据,搜索活动数量,文件存取路径和问题数据的相关信息统计。  

相关下载网站:http://www.weblogexpert.com

 2、 LogForensics

 LogForensics蜘蛛日志分析工具,能够迅速的查找故障数据,排查所有包含可疑url(CGI)和IP的数据来源。

相关下载地址:https://security.tencent.com/index.php/ opensource/detail/15

  3、GoAccess

 GoAccess可视化web日志分析工具,安全,快速便捷,功能强大支持所有Web格式,快速跟踪分析服务器统计数据,对浏览器的依赖很小。默认快速生成相关HTML等信息报告。

相关下载地址:https://goaccess.io/

 4、AWStats

 AWStats是一个需要在perl支持下的日志分析工具,他主要是针对分析apache和Diis 的日志文件, 并且运行速度,分析详细,运用广泛的一个日志工具。

下载地址:http://awstats.sourceforge.net


蜘蛛日志分析是网站管理员和seo技术人员主要责任,学会日志数据分析,才能查漏补缺、防止网站权重降低和被恶意侵害的情况。只有完善健康的网站运行环境才能抵御恶性插件的侵略,才能进一步正确的调整网站发展的方向,满足更多用户的喜好,进一步促进蜘蛛抓取的提高,从而更好指导管理网站的运行。


本文作者:(陈梦,李雨宸

版权声明:本站原创,转载必究。
阅读原文:https://www.seotop.com/article/546.html

Top推荐
投稿须知

#付费约稿# 诚邀优秀编辑,作者投稿到本站,采用后付稿费。 我要约稿

相关推荐
核心产品
百度营销
SEO优化
新浪微博
媒体资源
软文发布
直播带货
新闻评论
知识营销
百度知道
知乎问答
悟空问答
营销资讯
百度营销
SEO优化
品牌策划
扫码咨询