爬虫时遇到需要登陆的网站如何解决 -欧洲杯足彩官网

`
小taomi_77
  • 浏览: 39642 次
  • 性别:
  • 来自: 成都
博主相关
  • 博客
  • 微博
  • 相册
  • 收藏
  • 文章分类
    社区版块
    • ( 0)
    • ( 51)
    • ( 0)
    存档分类
    最新评论

    爬虫时遇到需要登陆的网站如何解决

    数据为主的互联网时代,谁掌握了有价值的数据就等于掌握了商机,爬虫行业的出现就显得尤为重要。爬虫就是为了获取数据而诞生。那些价值高的网站数据应对爬虫做的策略也不是一般的多,并且还很严。比如很多网站会限制访客的访问行为,花还有些网站是需要进行登陆才能获取数据。针对这种需要登陆的网站最有用的方法就是获取目标网站的cookie,然后再使用cookie配合代理ip进行数据采集分析。
    需要登陆的网站一般有2种方式进行登陆。
    1 使用表单登陆
    这种情况属于post请求,即先向服务器发送表单数据,服务器再将返回的cookie存入本地。
    import requests
    data = {'data1':'xxxxx', 'data2':'xxxxx'}
    response = requests.post(url=url, data=data)
    2 使用cookie登陆
    使用cookie登陆,服务器会认为你是一个已登陆的用户,所以就会返回给你一个已登陆的内容。因此,需要验证码的情况可以使用带验证码登陆的cookie解决。
    #! -*- encoding:utf-8 -*-
    import requests
    import random
    import requests.adapters

    # 要访问的目标页面
    targeturllist = [
    "https://httpbin.org/ip",
    "https://httpbin.org/headers",
    "https://httpbin.org/user-agent",
    ]

    # 代理服务器(产品欧洲杯足彩官网 www.16yun.cn)
    proxyhost = "t.16yun.cn"
    proxyport = "31111"

    # 代理隧道验证信息
    proxyuser = "username"
    proxypass = "password"

    proxymeta = "http://%(user)s:%(pass)s@%(host)s:%(port)s" % {
    "host": proxyhost,
    "port": proxyport,
    "user": proxyuser,
    "pass": proxypass,
    }

    # 设置 http和https访问都是用http代理
    proxies = {
    "http": proxymeta,
    "https": proxymeta,
    }

    # 访问三次网站,使用相同的session(keep-alive),均能够保持相同的外网ip
    s = requests.session()

    # 设置cookie
    cookie_dict = {"jsession":"123456789"}
    cookies = requests.utils.cookiejar_from_dict(cookie_dict, cookiejar=none, overwrite=true)
    s.cookies = cookies

    for i in range(3):
    for url in targeturllist:
    r = s.get(url, proxies=proxies)
    print r.text

    若存在验证码,此时采用response = requests_session.post(url=url_login, data=data)是不行的,做法应该如下:
    response_captcha = requests_session.get(url=url_login, cookies=cookies)
    response1 = requests.get(url_login) # 未登陆
    response2 = requests_session.get(url_login) # 已登陆,因为之前拿到了response cookie!
    response3 = requests_session.get(url_results) # 已登陆,因为之前拿到了response cookie!
    cookie的获取虽然也是爬虫获取数据的一个重要步骤,但是也还需要有其他的辅助,比如代理ip的使用,之前分享过代理ip的详细使用过程。如果有小伙伴对代理ip有需要的推荐使用亿牛云的代理,小编认识的很多爬虫朋友都使用他们家,并且都觉得是很靠谱的代理商。
    分享到:
    评论

    相关推荐

      解决爬虫中遇到的js加密问题

      本文详细介绍了网站的反爬虫策略,在这里把我写爬虫以来遇到的各种反爬虫策略和应对的方法总结一下。 从功能上来讲,爬虫一般分为数据采集,处理,储存三个部分。这里我们只讨论数据采集部分。 一般网站从三个方面...

      js动态加载以及javascriptvoid(0)的爬虫欧洲杯足彩官网的解决方案.docx

      本讲义为高级爬虫课程的一部分...通过对各种爬虫的主流技术进行研究得出了关于目前网络爬虫所遇到的问题与欧洲杯足彩官网的解决方案进行了较为详细的阐述。在实例中,选用了对国内主流的豆瓣,猫眼电影,今日头条等进行实际的数据抓取。

      try 中的语句,永远不会引发此异常问题5noclassdeffounderror发生在jvm在动态运行时,根据你提供的类名,在classpath中找到对应的类

      c#已经封装了http访问和多线程,这对编写网络爬虫提供了方便,而要c#网络爬虫程序需要解决以下问题: html分析:需要某种html解析器来分析爬虫程序遇到的每一个页面。 页面处理:需要处理每一个下载得到的页面。下载...

      主讲老师: 赵俊 本讲义为高级爬虫课程的一部分。通过对各种爬虫的主流技术进行研究得出了关于目前网络爬虫所遇到的问题与欧洲杯足彩官网的解决方案进行了较为详细的阐述。

      该excel文件是本人在学习使用python做爬虫过程中遇到的问题及解决办法、参考网站链接等信息【请忽略出现文件位置这列】。供交流学习使用。

      通过实战项目练习解决一般爬虫中遇到的问题。通过每个项目的 readme,了解爬取过程分析。对于精通爬虫的 pyer,这将是一个很好的例子减少重复收集轮子的过程。项目经常更新维护,确保即下即用,减少爬取的时间。对于...

      相信各位在写 python 爬虫的时候会在爬取网站时遇到一些登陆的问题,比如说登陆时遇到输入验证码比如说登录时遇到图片拖拽等验证,如何解决这类问题呢?一般有两种方案。 使用 cookie 登陆 我们可以通过使用 cookies...

      基本上都是需要用户登录之后,才能看到有价值的东西,其实很简单,我们可以使用python提供的cookielib模块,实现每次访问都带着源网站给的cookie信息去访问,这样只要我们成功模拟了登录,爬虫处于登录状态,那么...

      最近一直在研究爬虫和lucene,虽然开始决定选用heritrix来执行爬虫操作,但是后来发现用它来做还是存在一定的问题,比如需要程序生成相应的xml文件,对于同一个job,怎样才能保证重复运行该job时文件夹始终是同一个...

      在python写爬虫的时候,html.getcode()会遇到403禁止访问的问题,这是网站对自动化爬虫的禁止,要解决这个问题,需要用到python的模块urllib2模块 urllib2模块是属于一个进阶的爬虫抓取模块,有非常多的方法,比方说...

      主要介绍了python爬虫headers处理及网络超时问题欧洲杯足彩官网的解决方案,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下

      最近在学习网页爬虫时就遇到了这样一种问题,中文网站爬取下来的内容往往中文显示乱码。看过我之前博客的同学可能知道,之前爬取的一个学校网页就出现了这个问题,但是当时并没有解决,这着实成了我一个心病。这不,...

      我们做爬虫项目时,总会遇到被封ip,这里的免费代理池就是解决ip被封问题

      通过实战项目练习解决一般爬虫中遇到的问题。实战多种网站、电商数据爬虫。包含:淘宝商品、微信公众号、大众点评、招聘网站、闲鱼、阿里任务、scrapy博客园、微博、百度贴吧、豆瓣电影、包图网、全景网、豆瓣音乐、...

      可能有人注意到,我使用的是python2 -m pip …(这种写法是为了解决python 2和3共存时pip的冲突问题,具体解释在本页最后。) 本以为结束了,却掉进了第二个坑: 看到这个,很明显是安装markupsafe时出错了,但后面的 ...

      除了搜索引擎之外,新闻网站还需要爬虫来聚合数据源。看来,只要你想聚合大量的信息,你可以考虑使用爬虫。 建立一个网络爬虫有很多因素,特别是当你想扩展系统时。这就是为什么这已经成为最流行的系统设计面试问题...

      它为求职者提供了一个实用的指南,帮助他们掌握爬虫面试中可能遇到的关键问题和概念。 使用场景及目标: 本篇文章适用于求职者准备涉及爬虫的面试场景。它的目标是帮助求职者理解并掌握这些概念,从而在面试中更好地...

    global site tag (gtag.js) - google analytics
    网站地图