如何使用MapReduce进行大数据的主动学习-电子发烧友网

　　针对传统的主动学习算法只能处理中小型数据集的问题，提出一种基于MapReduce的大数据主动学习算法。首先，在有类别标签的初始训练集上，用极限学习机（ ELM）算法训练一个分类器，并将其输出用软最大化函数变换为一个后验概率分布。然后，将无类别标签的大数据集划分为Z个子集，并部署到Z个云计算节点上。在每一个节点，用训练出的分类器并行地计算各个子集中样例的信息熵，并选择信息熵大的前q个样例进行类别标注，将标注类别的Z×q个样例添加到有类别标签的训练集中。重复以上步骤直到满足预定义的停止条件。在Artificial、Skin、Statlog和Poker 4个数据集上与基于ELM的主动学习算法进行了比较，结果显示，所提算法在4个数据集上均能完成主动样例选择，而基于ELM的主动学习算法只在规模最小的数据集上能完成主动样例选择。实验结果表明，所提算法优于基于极限学习机的主动学习算法。

　　大数据具有以下几个特征：海量（ Volume）、多模态（Variety）、变化速度快（Velocity）、蕴含价值高（Value）和可靠性高（ Veracity）。在大数据环境下，传统的机器学习面临着巨大的挑战，其中也包括主动学习。主动学习算法大致可以分为两大类：基于池的主动学习算法和基于流的主动学习算法。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

如何使用MapReduce进行大数据的主动学习

Python语言在AI、大数据方面的重要性

面向汽车应用的单边半主动变速器SENT

基于MapReduce并行处理的机电特种设备故障诊断

大数据在物流行业的应用

大数据环境下的移动学习发展趋势

基于大数据分析LTE下行速率影响因素研究案例

基于MapReduce的时间序列索引及数据查询

MapReduce框架下分布式编码计算容错算法

大数据分解-融合研究综述

车联网场景下汽车大数据应用模式综述

基于神经网络的大数据脚本攻击智能检测

大数据环境下风险访问控制研究综述

基于深度迁移学习网络的肺结节辅助CT诊断

引入需求预测过程的主动服务推荐方法

一种改进的主动标记分布学习算法

一种改进的主动标记分布学习算法

一种面向MapReduce的中间数据传输流水线优化机制

基于MapReduce和加权网络信息熵的DBWGIE-MR算法

ADALM SDR主动学习模块

教育大数据可视化分析研究的综合分析

医疗大数据面临的挑战及相应的隐私保护技术

SDR 主动学习模块

关于对大数据的专题研究

基于MapReduce/Spark的大规模压缩模糊K-近邻算法

ADALM-PLUTO主动学习模块的使用手册

大数据时代有什么样的利与弊

大数据有什么样的特点

大数据环境下的移动学习发展是怎么样的

使用相似连接进行多源数据并行预处理的方法概述

水文大数据标准化方法和水文大数据共享平台关键技术的设计和资料概述

如何结合改进主动学习的SVD-CNN进行弹幕文本分类算法资料说明

IP 地址大数据分析如何进行网络优化?

spark为什么比mapreduce快？

“新基建”重新定义大数据安全

大数据技术主要学什么 大数据技术就业方向

计算机视觉中的主动学习

大数据技术种类分析

MapReduce和Spark概要介绍

如何对大数据进行分析和处理？

大数据开发培训学习-大数据安全的含义和特点

基于Hadoop的产品大数据分布式存储优化

基于深度学习技术的电表大数据检测系统

谷歌大脑和DeepMind联合发布堪称AI界的MapReduce

深度主动学习的相关工作全面概述

学习大数据前必须知道的知识

机器学习如何帮助解决大数据转换及管理问题？

零基础可以学习大数据开发吗？学什么内容？

大数据和机器学习的数据如何演变

萌新学习大数据前需要具备什么编程基础？

学习大数据的三个准备及入手点

大数据资源和技术运用将决定制信息权的争夺，左右着作战主动权

大数据分析是如何进行数据采集？

学大数据前需要学习Java吗？

内部和外部扫描：机器学习，大数据分析与AI

大数据对于学习语言的方式有什么影响

大数据分析与机器学习有什么区别

特斯拉申请新专利 用驾驶大数据进行更加深度的机器学习

想要学习大数据，这些相关技术必不可少

视觉大数据领域的最好分析方法之一：深度学习

大数据有哪些岗位 学习方向又是怎样

零基础怎样成为大数据工程师

下载排行榜

ECM96智能电测仪表使用说明书

矽力杰 Silergy SY7215A 同步升压调节器 规格书 Datasheet 佰祥电子

WTK6900FC 鼾声识别功能说明书V1

SY50655 用于高输入电压应用的伪固定频率SSR反激式稳压器英文资料

华润微 CRTE280P06L2-G -60V Trench P-MOSFET 技术参数与应用解析

IP5356H_G3 支持高压SCP/PD3.0等全协议并集成USB2.0智能监测的移动电源 SOC

大数据技术主要学什么大数据技术就业方向

特斯拉申请新专利用驾驶大数据进行更加深度的机器学习

大数据有哪些岗位学习方向又是怎样

矽力杰 Silergy SY7215A 同步升压调节器规格书 Datasheet 佰祥电子