×

机器学习训练秘籍中文版电子书PDF免费下载

消耗积分:0 | 格式:rar | 大小:5.40 MB | 2023-08-09

ah此生不换

分享资料个

  机器学习(machine learning) 已然成为无数重要应用的基石——如今,在网络搜索、垃圾邮件检测、语音识别以及产品推荐等领域,你都能够发现它的身影。如果你或你的团队正在研发一款机器学习相关应用,并期待取得较快进展,那么这本书将会是你的得力助手。

 

  案例:建立猫咪图片初创公司

  想象一下,你正在建立一家初创公司,这家公司的产品目标是为猫咪爱好者们提供数不尽的猫咪图片,你打算应用 神经网络(neural network) 技术来构建一套计算机视觉系统,通过该系统来识别图片中的猫。

  但悲剧的是,目前你的学习算法准确度还不够好。为了改进这个猫咪检测器,你正面临着巨大的压力。可你该怎么做呢?

  你的团队给出了许多建议,例如:

  ● 获取更多的数据,即收集更多的猫咪图片

  ● 收集更加多样化的训练数据集,图片中猫的位置可能不常见,也有可能颜色奇异,或者拍摄时使用不同的相机参数

  ● 通过增加梯度下降的迭代次数,使算法训练得久一些

  ● 尝试一个拥有更多层/更多隐藏元/更多参数的,规模更大的神经网络

  ● 尝试一个更小的神经网络

  ● 尝试加入正则化(例如 L2 正则化)

  ● 改变神经网络的架构(激活函数,隐藏元数量等等)

  ● 。..

  在上面众多的方向中,如果你做出了正确的选择,就将建立起一个效果领先的猫咪图片识别平台,并带领你的公司取得成功。但如果你选择了一个糟糕的方向,则可能因此浪费掉几个月的时间。那么你该如何做出决定呢?

  这本书将告诉你应该怎么做。众多的机器学习问题会留下一些线索,告诉你什么样的尝试有用,什么样的没用。而学会解读这些线索将会节省你几个月甚至几年的开发时间。

  先修知识与符号说明

  如果你有学习过机器学习相关课程(例如我在 Coursera 开设的机器学习 MOOC),或者有过监督学习的应用经验,这本书的内容对你而言则不难理解。

  本书假设你熟悉 监督学习(supervised learning) 概念,即使用标注(labeled)的训练样本(x,y) 来学习一个从 x 映射到 y 的函数。监督学习算法主要包括线性回归(linear regression)、对数几率回归(logistic regression,又译作逻辑回归、逻辑斯蒂回归)和神经网络(neural network)。虽然机器学习的形式有许多种,但当前具备实用价值的大部分机器学习算法都来自于监督学习。

  我将经常提及神经网络(也被人们称为“深度学习” ),但你只需对这个概念有基础的了解便可以阅读本书后面的内容。

  规模驱动机器学习发展

  关于深度学习(神经网络)的一些想法在几十年前就有了,那为什么它们到现在才流行起来了呢?

  推动其近期发展的主要因素有两个:

  - 数据可用性(data availability) :如今人们在数字设备(笔记本电脑、移动设备等)上花费的时间越来越多,对应的数字化行为与活动产生了海量的数据,而这些数据都可以提供给我们的学习算法用来训练。

  - 计算规模(computational scale) :在近几年前,我们才开始有能力训练出规模足够大的神经网络来使用现有的海量数据集。

  具体来说,即使你积累了更多的数据,但应用在类似于对数几率回归(logistic regression)这样较传统的学习算法上,其性能表现(performance)也将趋于 “平稳” 。这意味着算法的学习曲线将 “变得平缓” ,就算提供更多的数据,算法的性能也将不再提升。

  传统学习算法似乎并不知道要如何来处理现今这般规模量级的数据。

  在同样的监督学习任务下,选择训练一个小型的神经网络(neutral network, NN),你可能会获得较好的性能表现:

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

评论(0)
发评论

下载排行榜

全部0条评论

快来发表一下你的评论吧 !