×

机器学习方法迁移学习的发展和研究资料说明

消耗积分:1 | 格式:pdf | 大小:0.75 MB | 2020-07-16

隔壁老刘123

分享资料个

  近年来,迁移学习已经引起了广泛的关注和研究。迁移学习是运用已存有的知识对不同但相关领域问题进行求解的一种新的机器学习方法。它放宽了传统机器学习中的两个基本假设:(1) 用于学习的训练样本与新的测试样本满足独立同分布的条件;(2) 必须有足够可利用的训练样本才能学习得到一个好的分类模型。目的是迁移已有的知识来解决目标领域中仅有少量有标签样本数据甚至没有的学习问题。对迁移学习算法的研究以及相关理论研究的进展进行了综述,并介绍了在该领域所做的研究工作,特别是利用生成模型在概念层面建立迁移学习模型。最后介绍了迁移学习在文本分类、协同过滤等方面的应用工作,并指出了迁移学习下一步可能的研究方向。

  随着社会发展的信息化和网络化,人们在日常生活和工作中无时无刻不在获取信息,分析信息,并以此作为决策的依据。在一定程度上,信息的拥有量已经成为决定和制约人类社会发展的重要因素。想要高效、准确地寻找到所需的信息,信息分类是必不可少的第一步。通过分类,信息可以得到有效的组织管理,有利于快速、准确地定位信息。分类学习问题,是机器学习中一种重要的学习方法,目前已经得到广泛的研究与发展。 在传统分类学习中,为了保证训练得到的分类模型具有准确性和高可靠性,都有两个基本的假设:(1) 用于学习的训练样本与新的测试样本满足独立同分布的条件;(2) 必须有足够可利用的训练样本才能学习得到一个好的分类模型。但是,在实际应用中我们发现,这两个条件往往无法满足。首先,随着时间的推移,原先可利用的有标签的样本数据可能变得不可用,与新来的测试样本的分布产生语义、分布上的缺口。比如,股票数据就是很有时效性的数据,利用上月份的训练样本学习得到的模型并不能很好地预测本月份的新样本。另外,有标签的样本数据往往很匮乏,而且很难获得。在 Web 数据挖掘领域,新数据不断涌现,已有的训练样本已经不足以训练得到一个可靠的分类模型,而标注大量的样本又非常费时费力,而且由于人的主观因素容易出错,这就引起了机器学习中另外一个重要问题,如何利用少量的有标签训练样本或者源领域数据,建立一个可靠的模型对目标领域数据进行预测(源领域数据和目标领域数据可以不具有相同的数据分布).He 等人[1]指出数据分类首先要解决训练集样本抽样问题,如何抽到具有代表性的样本集作为训练集是一个值得研究的重要问题。提出极小样本集抽样方法用于基于超曲面分类算法,该方法可感知非结构化数据的分布,并以极小样本集作为代表子集。该文还指出了极小样本集有多少种表达方式,给出了样本缺失情况下准确率的精确估计。文献[1]表明,在实际中保证训练得到的分类模型具有高准确性和可靠性的两个基本假设并不是每种算法都能做到的,因此研究迁移学习变得非常重要。 近年来,迁移学习已经引起了广泛的关注和研究[2−18]。根据维基百科的定义∗∗,迁移学习是运用已存有的知识对不同但相关领域问题进行求解的一种新的机器学习方法。它放宽了传统机器学习中的两个基本假设,目的是迁移已有的知识来解决目标领域中仅有少量有标签样本数据甚至没有的学习问题。迁移学习广泛存在于人类的活动中,两个不同的领域共享的因素越多,迁移学习就越容易,否则就越困难,甚至出现“负迁移”[19,20]的情况,产生副作用。比如:一个人要是学会了骑自行车,那他就很容易学会开摩托车;一个人要是熟悉五子棋,也可以轻松地将知识迁移到学习围棋中。但是有时候看起来很相似的事情,却有可能产生“负迁移”现象。比如,学会骑自行车的人来学习三轮车反而不适应,因为这两种车型的重心位置不同[21,22]。近几年来,已经有相当多的研究者投入到迁移学习领域中,每年在机器学习和数据挖掘的顶级会议中都有关于迁移学习的文章发表,比如,ICML, SIGKDD,NIPS,ICDM 以及 CIKM 等。下面针对迁移学习研究展开系统的综述,特别是从迁移学习采用的技术角度进行介绍。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

评论(0)
发评论

下载排行榜

全部0条评论

快来发表一下你的评论吧 !