分类 Python 下的文章

python调用浏览器批量打开网址

需求:网站有7000多个栏目,现在需要逐个打开检查页面显示是否异常

最笨的方法当然是人肉一个个栏目URL点击打开

python2.7脚本:

import webbrowser
import codecs
import time
with open('C:\\Users\\asus\\Desktop\\text.txt') as fp:
  for ebayno in fp:
    url = ebayno.strip()
    time.sleep(1)
    webbrowser.open(url)

注意2个问题:
1,上面txt文件是用utf-8保存的一行一个URL
2,txt文件的路劲要写对,linux和windows下路径写法肯定不一样。我第一次使用windows下调python,最开始写成C:UsersasusDesktoptext.txt,死活不对,经过群友提示,加成双斜杠就OK了。

python批量查询网址是否被百度收录

一个栏目下的内容达到10万条,但百度站长工具显示该栏目只收录了四五千条,意味着大量的内容被百度视为重复或垃圾内容,这种内容要么就是网站做改造,做专题,吸引蜘蛛,争取让这些内容被收录,或者把他们删除掉。

如果要把这些未被收录的删除掉,同时保留那些已经被收录的,就需要批量查询这10万网址哪些已收录,哪些未收录。

python批量查询网址是否被百度收录代码如下:

阅读剩余部分

python批量查询网页的HTTP状态码

最近业余时间在改版一个网站,改版之前频繁调整了一些栏目的属性,包括栏目的层级,这种最怕就是调整了栏目的从属关系,导致了栏目的URL地址改变,一旦改版就导致整个栏目及其下面的文章页地址变更,成为死链。而栏目有几千个,更加大意不得。

在栏目调整前,我把数据库和程序复制出去新建了一个镜像站,用镜像站里调整,然后把栏目地址数据导出来,然后前面批量加上线上域名,然后批量查询组装出来的地址是否能正常访问,能访问就说明没问题,返回404错误就说明调整后的栏目地址,是原来网站不存在的,就要排查错误。

阅读剩余部分