挖掘数据碰到验证码的初步解决方案

        网站规模较大的时候,SEO就不可避免地遇到信息量的瓶颈,要想网站在SEO方面表现得更好,必须得有丰富的基础信息,靠人工手动编辑是不现实的,必须到合适的数据源上采集数据,有的网站对于频繁请求会有限制,弹出验证码是限制访问的一种方式,我用python写的几行代码,很简单,主要是思路上的东西,抛砖引玉。

        以批量查询URL的X度收录情况为例,在地址中输入URL,如果收录,页面中会有X度为您找到相关结果约xxx个,如果没有收录,会显示很抱歉,没有找到与xxx相关的网页,如果请求次数过多弹出验证码,就没有跟结果有关的数据,可以以此为突破口,代码如下(python),html指查询请求的网页URL:

time.sleep(1)
while 1:
    f=urllib.urlopen(url)
    html=f.read()
    f.close()
    if "找到" not in html:
        time.sleep(600)
        continue
    if "找到相关结果" in html:
        执行相关函数
    elif "没有找到" in html:
        执行相关函数
    break

在查询的时候最好设置间隔时间,以免验证码频繁弹出,代码中我每查询一次就延迟一秒,遇到验证码程序自动停止运行10分钟,然后自动开始运行。

你可能对它们感兴趣

批量获取爱站的网站关键词排名(带真实URL)