入门Python，掌握数据分析常用工具

电子工程师 2019-05-05 2969

电子说

1.4w人已加入

描述

研究生三年，作为一名非计算机专业的学生，能够从一名纯小白(Python不会，机器学习没听说过)到最后校招拿到几个不错的offer，个人感觉可以给自己打个及格分吧。写本文的目的，一是对自己研究生阶段所学习的知识做一个总结，二是希望对那些刚接触机器学习，准备往这个方向发展的同学们提供一些可借鉴的经验。

1、入门Python，掌握数据分析常用工具

第一次接触Python是在2016年4月，本科阶段的工作差不多完成，就开始联系研究生阶段的导师，希望能够跟他做一些项目。他给我安排的第一个工作便是使用Python爬取空气质量数据，并告诉我可以使用scrapy这个库。我与Python的邂逅，便从这个爬虫开始了。

由于上来就写的是爬虫，所以关于Python的基础我也没有系统的学习，不过还是推荐给大家廖雪峰老师的免费教程：https://www.liaoxuefeng.com/wiki/0014316089557264a6b348958f449949df42a6d3a2e542c000

如果想要深入了解一些Python的知识，推荐大家学习《流畅的Python》一书，封面如下。这本书我看了前面的九章，讲的十分不错，加深了自己对于Python里面内存管理、常用函数、类等的认识。

除了Python的基础知识，想要往数据分析、机器学习方向发展的话，还需要掌握一些常用的库，包括Pandas、Numpy、Matplotlib、Sklearn等等。

关于前三个，推荐的书是《利用Python进行数据分析》：

关于Sklearn的使用，包括调用常见的机器学习算法、使用网格搜索寻找最优的参数，可以参考的一本书是《Python机器学习及实践从零开始通往Kaggle竞赛之路》

如果上面的书你都看完了，我觉得算是入门Python数据分析了。

2、初识机器学习，反复读反复看

第一次听说机器学习这个名词，大概是在2016年8月份，是我现在的舍友向我提到的，当时并没有太在意，直到研究生阶段开始，才慢慢有所接触。当时身边的人的普遍反应是，这家伙大家都在学，特别能挣钱。也许当时自己也是想着能多挣钱，才会开始入门机器学习的吧。不过现在，已经开始慢慢把机器学习当做一种兴趣，一种爱好去看待了。

想必大家都知道，入门机器学习，不得不看的三本书是吴军老师的《数学之美》、李航博士的《统计学习方法》和周志华老师的《机器学习》，也就是所谓的西瓜书。

但是有时候，有些算法比如SVM，说实话两本书讲的都不是最好的，还是得结合网上比较流行的帖子进行学习，整理了几个我看过的一些比较好的帖子，分享给大家：

SVM：http://blog.pluskid.org/?page_id=683Word2Vec：https://blog.csdn.net/itplus/article/details/37969519EM算法：https://blog.csdn.net/randy_01/article/details/88407432

其他的算法，大家结合两本书进行学习就可以了。值得一提的是，Xgboost和LightGBM是在面试阶段比较常考的两个机器学习方法，但是在上面的几本书中都没有涉及，我之前整理了一个简单的帖子，希望对大家有所帮助（最后的参考资料里面会有）。

机器学习

除了书籍资料外，视频资料推荐的主要是吴恩达老师和李宏毅老师的机器学习入门课，地址如下：

吴恩达机器学习：https://www.bilibili.com/video/av50747658?from=search&seid=9310704140991725193李宏毅机器学习：https://www.bilibili.com/video/av35932863?from=search&seid=16150707490146939986

如果你是刚入门机器学习的话，我的建议就是反复看，反复读，直到你能不依靠书本将模型的原理解释清楚为止。

3、面试不断碰壁，Leetcode得刷，得多刷

理想很丰满，现实很残酷，在自己刚学了点机器学习知识的时候，就出去面试闯荡，结果却是不断的碰壁，机器学习理论和经验少是一方面，数据结构题也是一问三不知，能想到的，只有时间或者空间复杂度最差的那种解法。所以我说啊，Leetcode不仅得刷，还得多刷。

不过咱也没必要着急，你得有一个计划，比如每天做三道五道，日积月累才行。尽管我现在在面试的过程中还是有一些问题写不出来，但大部分情况下，还是能够得到一个比较优的解。

关于刷leetcode这事，你可以往两个方向上走。一是按照从easy到medium到hard的方向。二是按照分类走，比如先刷树相关的，再刷数组相关的，依次类推。我自己是用的第一种方式啦，不过从校招面试的经验看，面试官关注的题主要集中在数组、链表、二叉树和动态规划上面，可以先把这几部分的弄明白。

在语言选择上，建议还是不要用Python吧，Python的小trick还是有点多的，就比如字符串表达式的值，我们用eval函数就可以得到，但是在真正面试的时候，这样是绝对不行的，所以建议还是Java或者C++吧。毕竟这两门语言，你总要掌握一门的。

除了在Leetcode上面刷题外，有两本书可以给大家参考，一是《剑指offer》，二是《程序员代码面试指南：IT名企算法与数据结构题目最优解》，封面如下：

4、相遇深度学习，论文积累是关键

关于深度学习，也是研一下才开始慢慢学习的，当时主要接触的是CNN、LSTM这些个算法，对于一些比较深入的如GAN、Seq2Seq、Transformer之类的，还没有接触。真正带我相遇深度学习的，可以说是李宏毅老师的深度学习课：https://www.bilibili.com/video/av9770302?from=search&seid=6099263941108862254

当然，吴恩达老师的课也十分精彩：https://mooc.study.163.com/university/deeplearning_ai#/c

除此之外，不得不提的一本书是我们所谓的深度学习圣经，不过说实话，我觉得这本书虽然写得好，但还是有一定阅读难度的：

个人感觉，深度学习这东西，重在不断积累和反思吧，多读论文，多写代码。论文的话大家平常可以多关注PaperWeekly这个公众号，代码的话我建议如果论文给出了参考代码，大家可以尝试着去敲一敲，不仅加深自己对于论文思路的认识，还可以提升自己的动手实践能力。

5、推荐与计算广告，广度优先VS深度优先

在整个研究生阶段，我其实并没有形成一个主要的研究方向，大家可能看我平时的公众号推荐系统相关的东西比较多，但我并不是研究这个的，主要还是自己对这个东西比较感兴趣，所以看的多了些。推荐系统的两本入门书籍是《推荐系统实践》和《推荐系统与深度学习》：

深度学习领域还是挺多的，如推荐系统和计算广告、CV、NLP等等，这就引出了广度优先VS深度优先的问题。个人感觉还是深度优先为主吧，确定好自己的一个研究方向，然后在这个领域进行深挖。不过同时，也要兼顾广度，深度学习的东西都是相通的，比如Transformer最开始主要应用于文本领域，GAN主要应用于图像领域，这两种方法现在也都开始在推荐系统中使用。

最近自己要开始研究计算广告方面的知识了，因为自己入职之后可能从事这一方面的工作，那还是给大家推荐两本书吧，一本是大家所熟知的《计算广告》，另一本是黄皮书《互联网广告的市场设计》，想要入门这个方向的同学，建议先看黄皮书，再看《计算广告》一书。

6、Hive和Spark，数据处理的标配

Hive和Spark大家还是要学一下的，使用Hive来存储数据，使用spark sql和Hive sql来处理数据，感觉是互联网里面的主流方式。关于hive，掌握一些常用的函数的使用方法，如concat_ws,row_number,case..when,if,get_json_object等等，对于spark sql，掌握其运行的基本原理，以及一些常见问题的处理方法。首先，学会如何处理数据倾斜，有时候因为一个数据倾斜问题，一整天都浪费在调试一个spark代码中了，其次，学习如何尽量减少spark任务的空间占用，同时加速spark任务运行速度，spark作业在线上调用时，会占用公共资源，你的任务占用的资源越多，别人占用的资源就越少，同时，如果你的任务运行的快，也可以给别人的任务更多的空间。spark可以通过很多语言来实现，不过我建议还是学习一下scala吧，毕竟可以和java无缝衔接。除了spark和hive，掌握一定的excel知识也是必要的。

那么这里有两本书推荐给大家，《Hive编程指南》和《Spark内核机制解析及性能调优》：

打开APP阅读更多精彩内容