机器学习论文简析

消耗积分:1 | 格式:rar | 大小:0.7 MB | 2017-09-30

分享资料个

　　人工智能和机器学习领域的学术论文汗牛充栋。每年的各大顶级会议、研讨班录用好几千篇论文，即便是亲临现场也很难追踪到所有的前沿信息。在时间精力有限的情况下，选择精读哪些论文，学习哪些热门技术就成为了AI学者和从业人员所头痛的问题。本栏目旨在要帮助大家筛选出有意思的论文，解读出论文的核心思想，为精读提供阅读指导。

　　NIPS（Neural Information Processing Systems，神经信息处理系统进展大会）是每年12月由NIPS基金会主办的人工智能和机器学习顶级会议，每年大会都吸引了机器学习、人工智能、统计等领域的众多国际专家前来参与。笔者从NIPS 2016会议文章中精选出10篇有意思的文章，为读者解惑。

　　Using Fast Weights to Attend to the Recent

　　亮点：在Short-Term Memory、Long-Term Memory以及LSTM之外，有什么更好的Attention机制呢？

　　本文作者阵容豪华，有来自多伦多大学的Jimmy Ba、Google DeepMind的Volodymyr Mnih、Joel Leibo以及Catalin Ionescu，外加Geoffrey Hinton坐镇。文章一开始讲明了现在的问题，在传统的Recurrent Neural Networks（RNN）领域，有两种形式的Memory。这两种Memory形式有不一样的结构、目的和容量（Capacity）。Short-Term Memory直接通过Hidden Vector来存放信息，容量是O（H），这里H是Hidden Units的数量。而另一方面，Long-Term Memory通过现在的输入信息和Hidden Vector，来得到下一步的输出信息以及新的Hidden Vector，总共的容量是O（H2）+O（IH）+O（HO），这里I和O是输入单元以及输出单元的数量。另外一种比较传统的Long Short-Term Memory Networks（LSTM）依然只拥有O（H）的处理Short-Term Memory的能力。文章的核心是想提出一种能够更加有效地提供记忆的机制。当然，文章用了一小节从生理学的角度来讲如何有这样的启发，不过这恐怕主要想把文章的立意拔高，其实和后面的主要模型部分并没有直接的联系。简单说来，这篇文章提出的模型基于传统的RNN进行了这样的改进：

　　下一步的Hidden Vector来自于两个因素：

　　当前的Hidden Vector和当前的输入信息；

　　一个类似Attention机制的但这篇文章叫做Fast Weights的Matrix作用于之前的Hidden Vector。

　　这个Fast Weights随着时间的推移，会有一个衰减信息。

　　如何理解Fast Weights呢？直观来说， Fast Weights是一个Attention机制，把现在的Hidden Vector和过去的任意Hidden Vector进行比较，通过Outer Product的结果来决定Attention的强度。有了这么一种Attention机制，整个模型就能够对过去类似的记忆进行回忆，产生一个可以对近期的信息进行综合反应的效果。在稳定Fast Weights的目的下，文章还使用了Layer Normalization技术。文章的一些实验结果惊人，比如在一个人造的数据集上，模型效果能够很容易达到0错误率。而在MNIST的数据上做Visual Attention，提出的模型也能有非常不错的效果。总之，这篇文章值得泛读。对于研究Attention机制的读者来说，是一个精读的材料。

　　Learning Structured Sparsity in Deep Neural Networks

　　亮点：如何把前几年盛行的Structured Sparisity和DNN结合？这篇文章给出了思路。

　　这篇文章来自匹兹堡大学的研究人员，核心内容非常清晰，那就是要引入Structured Sparsity到DNN来，使得最终的DNN有一个比较紧凑的表示，加快运算速度，同时能够得到硬件友善的表现形式，让硬件能够比较快地执行。虽然之前已经有了一些工作来对DNN进行压缩，但这篇文章的作者认为，这些压缩方法（比如直接使用L1 Regularization），可能会让网络得到一些随机（Random）的链接，使得内存访问变得不常规（Iregular）。在这样的情况下，新的模型，虽然表面上有很大的Sparsity，但是并没有加快运算速度，有时候甚至还有减少。另外一种最近的思路，就是最近采用的Low-Rank Approximation方法。简单说来这种方法为先训练DNN，然后每层得到的Tensor被分解，并且被更小的Factor所替代逼近。这种方法的好处是能够达到加速，坏处则是需要最终重新Fine-Tune模型的精度。显然，这篇文章就是要解决上述缺点。文章作者把前几年火热的Structured Sparisty Learning（SSL）和DNN相结合。具体说来，就是采用了Group Lasso的方法来让DNN的参数能够结构化置0。在这篇文章里，作者采用了三种方法：

　　惩罚（Penalizing）不重要的Filter和Channel：把一些Filter和Channel置0；

　　学习任意形状的Filter：在2D空间上学习通过置0，达到学习任意形状的要求；

　　缩短DNN的层数：彻底移除整个层，通过增加Shortcut的方法来达到不产生断层的情况。

　　文章并没有提供在SSL和DNN相结合的情况下的Learning算法。实验部分非常详实，用LeNet在MNIST、ConvNet和ResNet在CIFAR-10以及AlexNet在ImageNet上都做了实验。总体的感觉是，在很多例子的情况下，更加Sparsity的DNN反而带来了精度的提高。

下载并关注上传者 低至0.43元/天 开通VIP 免费下载

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

发评论

相关下载
相关文章

下载排行榜

暂无相关数据

机器学习论文简析

中国商用服务机器人行业简析

5G AAU 功放控制和监测模块简析

倒F天线IEEE论文英文版.pdf

硕士学位论文《家庭智能网关的研究与实现》

信号处理与机器学习的结合论文

基于深度学习的机器人示教系统设计与实现

基于终身机器学习的主题挖掘评分和评论推荐模型

基于评分矩阵与评论文本的深度学习模型

机器学习必学的Python代码示例集

基于深度学习的评论文本推荐方法

基于DSP和PC的农业机器人控制系统

机器学习可靠性与算法优化

基于自然邻居的标记分布机器学习算法

轻量级分布式机器学习系统及算法

简析获取单片机代码运行时间的方法资料下载

简析光耦电路中为何有串联与并联电阻资料下载

简析三极管开关电路设计资料下载

一种可分享数据和机器学习模型的区块链

简析比较器的原理及应用资料下载

简析555电压检测电路资料下载

简析运放并联的可行性资料下载

简析三种IGBT驱动电路和保护方法资料下载

简析二极管限幅电路工作原理资料下载

芯片设计与机器学习工具资料下载

简析晶振振荡电路的设计资料下载

简析电源模块热设计注意事项资料下载

简析用电阻设定增益的单端至差分转换器资料下载

使用TensorFlow建立深度学习和机器学习网络

python机器学习笔记资料免费下载

机器学习的个人学习笔记

机器学习实战的源代码资料合集

简析Modbus与MQTT的区别

岩土工程监测中振弦采集仪的布设方案及实施步骤简析

简析智慧灯杆一键告警功能的实用场景

简析电气火灾的原因及其对策

【鸿蒙】OpenHarmony 4.0蓝牙代码结构简析

简析电动汽车充电桩检测技术应用及分析

储能的三大应用场景简析

AFE8092帧同步特性简析

机器学习发展历程

机器学习有哪些算法？机器学习分类算法有哪些？机器学习预判有哪些算法？

机器学习theta是什么？机器学习tpe是什么？

机器学习是什么意思？机器学习属于什么分支？机器学习有什么用处？

机器学习与数据挖掘的区别 机器学习与数据挖掘的关系

数据挖掘与机器学习专业就业方向

机器学习算法入门 机器学习算法介绍 机器学习算法对比

机器学习算法总结 机器学习算法是什么 机器学习算法优缺点

机器学习算法汇总 机器学习算法分类 机器学习算法模型

机器学习和深度学习的区别

机器学习可以分为哪几类？机器学习技术有哪些？

机器学习算法的随机数据生成简析

吉方工控AI智慧社区解决方案简析

机器学习是什么，机器学习的定义

c++学习之析构函数和const总结

C++之继承中构造和析构学习的总结

自监督学习与Transformer相关论文

2020年图机器学习的发展趋势

机器学习该怎么学习

最新机器学习工具对材料进行计算建模相结合

开辟新篇章!谷歌机器学习又有新进展!

Pedro Domingos教授的研究论文汇集机器学习研究人员的经验教训

下载排行榜

机器学习与数据挖掘的区别机器学习与数据挖掘的关系

机器学习算法入门机器学习算法介绍机器学习算法对比

机器学习算法总结机器学习算法是什么机器学习算法优缺点

机器学习算法汇总机器学习算法分类机器学习算法模型