Spark下的并行多标签最近邻算法-电子发烧友网

　　随着大数据时代的到来，大规模多标签数据挖掘方法受到广泛关注。多标签最近邻算法ML_KNN是一种简单高效、应用广泛的多标签分类方法，其分类精度在很多应用中都高于其他常见的多标签学习方法。然而随着需要处理的数据规模越来越大，传统串行ML-KNN算法已经难以满足大数据应用中时间和存储空间上的限制。结合Spark的并行机制和其基于内存的迭代计算特点，提出了一种基于Spark并行框架的ML_KNN算法SML-KNN。在Map阶段分别找到待预测样本每个分区的K近邻，随后Reduce阶段根据每个分区的近邻集合确定最终的K近邻，最后并行地对近邻的标签集合进行聚合，通过最大化后验概率准则输出待预测样本的目标标签集合。串行和并行环境下的对比实验结果表明，SML_KNN在保证分类精度的前提下性能与计算资源呈近似线性关系，提高了ML_KNN算法对大规模多标签数据的处理能力。

Spark下的并行多标签最近邻算法

下载并关注上传者 低至0.43元/天 开通VIP 免费下载

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

Spark下的并行多标签最近邻算法

基于并行Boosting算法的雷达目标跟踪检测系统

多模态MR和多特征融合的GBM自动分割算法

异构环境下的多DAG任务调度算法综述

Spark分布式平台的ALS加速算法设计方案

基于并行约束规划的大数据平台最大团识别算法

融合光流的复杂场景下平面物体跟踪算法

申威.太湖之光深度学习库中的并行卷积算法

射频识别技术在室内定位中的应用综述

基于深度级联孪生网络的通信信号调制识别算法

面向K近邻分类性能的遗传训练集优化算法

基于自然邻居的标记分布机器学习算法

深层转导式非负矩阵分解并行算法

基于NB-IoT终端的指纹匹配定位算法

针对大规模高维数据的最近邻检索方法

数据挖掘的改进k近邻高维分类算法综述

基于改进的Canopu和共享最近邻的聚类算法

改进的DBSCAN聚类算法在Spark平台上的应用

基于Spark平台的并行化关联规则挖掘方法

基于哈希算法和近邻算法的缓存数据选择策略

基于近邻传输的粒度支持向量机学习算法

一种基于自然最近邻的密度峰值聚类算法

利用采样安全系数的多类不平衡过采样算法

基于k近邻的完全随机森林算法KCRForest

基于语义耦合相关的判别式跨模态哈希特征表示学习算法

基于SDN流量定向的多协议标签交换算法

基于布谷鸟搜索算法与多目标函数的多文档摘要方法

基于MapReduce/Spark的大规模压缩模糊K-近邻算法

基于多标签策略进行答案搜索的CKBQA系统

如何使用FPGA实现嵌入式多核处理器及SUSAN算法并行化

如何实现RFID系统上行链路的多标签冲突检测算法

使用Spark实现大规模单图上的子图匹配算法SQM的资料说明

NVIDIA DGX Spark快速入门指南

小红书：通过商品标签API自动生成内容标签，优化社区推荐算法

云里物里推出全新多按键仓储标签

xgboost的并行计算原理

spark为什么比mapreduce快？

在多FPGA集群上实现高级并行编程

spark运行的基本流程

Spark基于DPU的Native引擎算子卸载方案

Spark基于DPU Snappy压缩算法的异构加速方案

NVIDIA 携手腾讯开发和优化 Spark UCX 实现性能跃升

为Spark ML算法提供GPU加速度

SPARK语言可否取代 C语言？

介绍当前比较常见的几种近邻搜索算法

利用Apache Spark和RAPIDS Apache加速Spark实践

Moku:Pro多仪器并行模式概述及应用亮点

一文详细了解APACHE SPARK开源框架

一种基于标签比例信息的迁移学习算法

一种基于伪标签半监督学习的小样本调制识别算法

Apache Spark 3.2有哪些新特性

多场景模式下算法有什么差异吗

剖析Spark的两种核心Shuffle

数据规模下使用Spark时遇到的挑战

Spark SQL的概念及查询方式

深度学习：小样本学习下的多标签分类问题初探

关于多标签学习的新趋势

大数据分析中Spark，Hadoop，Hive框架该用哪种开源分布式系统

怎样在不使用Spark应用程序的情况下使Spark Core运行

详解机器学习分类算法KNN

如何使用Spark Core来控制Internet上的伺服器

基于半监督学习的多示例多标签改进算法

下载排行榜