当前位置:脚本大全 > > 正文

python爬虫模块教程(Python爬虫之UserAgent的使用实例)

时间:2022-01-26 01:02:03类别:脚本大全

python爬虫模块教程

Python爬虫之UserAgent的使用实例

问题: 在Python爬虫的过程中经常要模拟UserAgent, 因此自动生成UserAgent十分有用, 最近看到一个Python库(fake-useragent),可以随机生成各种UserAgent, 在这里记录一下, 留给自己爬虫使用。

安装 pip install fake-useragent

使用案例

基本使用

  • ?
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • from fake_useragent import UserAgent
  • ua = UserAgent()
  • ua.ie
  • # Mozilla/5.0 (Windows; U; MSIE 9.0; Windows NT 9.0; en-US);
  • ua.msie
  • # Mozilla/5.0 (compatible; MSIE 10.0; Macintosh; Intel Mac OS X 10_7_3; Trident/6.0)'
  • ua['Internet Explorer']
  • # Mozilla/5.0 (compatible; MSIE 8.0; Windows NT 6.1; Trident/4.0; GTB7.4; InfoPath.2; SV1; .NET CLR 3.3.69573; WOW64; en-US)
  • ua.opera
  • # Opera/9.80 (X11; Linux i686; U; ru) Presto/2.8.131 Version/11.11
  • ua.chrome
  • # Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.2 (KHTML, like Gecko) Chrome/22.0.1216.0 Safari/537.2'
  • ua.google
  • # Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_4) AppleWebKit/537.13 (KHTML, like Gecko) Chrome/24.0.1290.1 Safari/537.13
  • ua['google chrome']
  • # Mozilla/5.0 (X11; CrOS i686 2268.111.0) AppleWebKit/536.11 (KHTML, like Gecko) Chrome/20.0.1132.57 Safari/536.11
  • ua.firefox
  • # Mozilla/5.0 (Windows NT 6.2; Win64; x64; rv:16.0.1) Gecko/20121011 Firefox/16.0.1
  • ua.ff
  • # Mozilla/5.0 (X11; Ubuntu; Linux i686; rv:15.0) Gecko/20100101 Firefox/15.0.1
  • ua.safari
  • # Mozilla/5.0 (iPad; CPU OS 6_0 like Mac OS X) AppleWebKit/536.26 (KHTML, like Gecko) Version/6.0 Mobile/10A5355d Safari/8536.25
  • # and the best one, random via real world browser usage statistic
  • ua.random
  • 注意:

    fake-useragent 将收集到的数据缓存到temp文件夹, 例如 /tmp, 更新数据:

  • ?
  • 1
  • 2
  • 3
  • from fake_useragent import UserAgent
  • ua = UserAgent()
  • ua.update()
  • 有时候会因为网络或者其他问题,出现异常(fake_useragent.errors.FakeUserAgentError: Maximum amount of retries reached), 可以禁用服务器缓存(从这里踩了一个坑, 没仔细看文档的锅):

  • ?
  • 1
  • 2
  • from fake_useragent import UserAgent
  • ua = UserAgent(use_cache_server=False)
  • 可以自己添加本地数据文件(v0.1.4+)

  • ?
  • 1
  • 2
  • 3
  • 4
  • 5
  • import fake_useragent
  • # I am STRONGLY!!! recommend to use version suffix
  • location = '/home/user/fake_useragent%s.json' % fake_useragent.VERSION
  • ua = fake_useragent.UserAgent(path=location)
  • ua.random
  • 其他功能用到的也不是很多,详细见文档吧。

    总结

    以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作具有一定的参考学习价值,谢谢大家对开心学习网的支持。如果你想了解更多相关内容请查看下面相关链接

    原文链接:https://blog.csdn.net/anonymous_qsh/article/details/79349068

    上一篇下一篇

    猜您喜欢

    热门推荐