从日志中提取死链接程序

  • By 青岛seo
  • 2014-11-11
  • 点击:
  • 作弊,链接

最近我经手的网站被入侵,删除程序后产生了大量的死链接,这些链接已经被百度收录,如果单纯ROBOTS封禁治标不治本,而且按我的经验,即使网页打不开,百度也不大会删除掉这些死链接(但也不会放出来),一旦取消了ROBOTS封禁,百度又会疯狂抓取,还是将死链接提交给百度处理最为合适。

 我将一个月的日志文件下载到本地,提取这一个月的日志文件中的死链接,主要程序如下:

1 import os,re
2 l=os.listdir(r"d:\W3SVC1133556837")
3 for x in l:
4     f=open(r"d:\W3SVC1133556837\\"+x)
5     ret=r'/huodong/ningxia/images/fhtrfy/.*?/.*?\.html'
6     for eachline in f:
7         str=re.findall(ret,eachline)
8         if str:
9             print '<url><loc>域名'+str[0]+'</loc></url>'

第一行导入os和re两个模块;第二行列出文件夹所有的文件名(也就是一个月的日志文件名,30个);第三行是for循环,逐一读取并处理日志文件;第四行打开具体的日志文件,注意6837后面两个反斜线,第一个是第二个的转义;第五行是正则表达式,匹配将要删除的死链接;第6、7、8、9行代码的意思是以行为单位按照指定的规则抽取这些链接,注意第九行,因为我的死链接是以XML文件的形式提交给百度的,得符合XML的规范。

最后再附上XML文件死链接的代码:

<?xml version="1.0" encoding="UTF-8" ?>
<urlset>
<url><loc>死链接1</loc></url>
<url><loc>死链接2</loc></url>
<url><loc>死链接3</loc></url>
<url><loc>死链接N</loc></url>
</urlset>

最多可以有5万条,将XML文件上传至网站,然后在百度站长平台后台提交即可,百度的反应还是非常快的。

你可能对它们感兴趣

相关链接的作用及帝国CMS设置相关链接
交换友情链接需要注意的地方
404页面处理与死链接检查工具Xenu
百度又要大力惩罚内容作弊了