python获取历届春晚数据

电子说

1.3w人已加入

描述

不知道今年的春晚大家看了吗?小编表示没有看,而且是已经很多年没有完整的看过春晚了,关于看春晚的热情都是小时候的事了。如今,距离第一届春晚 1983 年,整整过去了 39年,看过那么多春晚,哪一年、哪些节目、哪些人你还留有深刻印象呢?接下来,通过 Python 数据分析。

在网上找了很久发现没有关于春晚完整的数据,都是不连贯的,节目单表是每一年春晚上表演的节目,包括:节目类型、节目名、演员名这几项数据。这里我们就使用Python 抓取这类表格数据,方法简单,几行代码就能搞定,简单的示例代码如下:

#! -*- encoding:utf-8 -*-    import requests    import random    # 要访问的目标页面    targetUrl = "http://httpbin.org/ip"    # 要访问的目标HTTPS页面    # targetUrl = "https://httpbin.org/ip"    # 代理服务器(产品官网 www.16yun.cn)    proxyHost = "t.16yun.cn"    proxyPort = "31111"    # 代理验证信息    proxyUser = "username"    proxyPass = "password"    proxyMeta = "http://%(user)s:%(pass)s@%(host)s:%(port)s" % {        "host" : proxyHost,        "port" : proxyPort,        "user" : proxyUser,        "pass" : proxyPass,    }    # 设置 http和https访问都是用HTTP代理    proxies = {        "http"  : proxyMeta,        "https" : proxyMeta,    }    #  设置IP切换头    tunnel = random.randint(1,10000)    headers = {"Proxy-Tunnel": str(tunnel)}    resp = requests.get(targetUrl, proxies=proxies, headers=headers)    print resp.status_code    print resp.text

抓取下来的数据都比较混乱,需要用 Python 清洗处理一下就可以分析,这些不是重点,重点是在获取数据的过程中,目标网站有封反爬策略比如封ip,所以在访问过程中我加了代理,代码部分主要是关于如何使用动态转发模式代理示例,在学习爬虫中对代理有疑问的可以看下这里https://www.16yun.cn/。在获取数据之后就可以直接进入分析环节,从中我们可以看到谁导演春晚次数最多?谁主持春晚次数最多?谁上春晚次数最多等数据。

 

若有收获,就点个赞吧

  审核编辑:鄢孟繁

 

 

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分