如何使用改进后的K-Means进行网络自媒体空间数据挖掘概述

消耗积分:0 | 格式:rar | 大小:1.52 MB | 2018-12-19

分享资料个

　　在手机、平板电脑等电子媒介的人均持有率大于一的今天，网络自媒体的传播达到了前所未有的巅峰。本文通过基于Hadoop平台的mahout数据挖掘框架，选用经过Canopy算法优化后的K-means聚类分析算法，对数据进行聚类分析，对内涵众多信息的网络自媒体推文进行数据挖掘，以发现微博数据中蕴含的与当下社会和生活相关的热点词，后通过ArcGIS，对文本类簇进行核密度分析，再做渔网栅格化分析，使离散的类簇样本具备邻接性，能在可视化中直观地看到类簇主题的主要分布情况，以研究人们日常生活中的习惯、了解单一个人的喜好，以及对某个社会事件的评价等日常生活中隐含着关于社会和生活相关的信息。

　　在互联网技术快速发展的今天，网络自媒体在近些年得到了爆炸式的增长，它以病毒传播的形式快速地渗透到了各行各业中，给予了所有人展示自我和了解他人的途径［1］。新浪微博作为国内大型网络自媒体平台之一，它具有庞大的用户基础，以及由这基数庞大的用户群体所产生的与个人生活或社会现象等与各行各业相关的大量信息；随着Web2.0 时代的发展成熟，微博除了基于常规数据的数据挖掘以外，还有大量的包含有经纬度位置属性的数据；这些空间位置数据可以很好地将我们的信息挖掘结果通过各大地图的前端API 很直观地展示出来，让我们能很好地发现各种个人生活或社会现象等与各行各业、个人相关的话题或者感兴趣的商品等事物的空间分布规律等的空间信息，因此基于微博的数据挖掘研究是十分有价值的科研方向。

　　空间数据挖掘与知识发现（SDMKD， Spatial Data Mining and Knowledge Discovery）是数据挖掘和知识发现的分支学科，它通过对空间数据集进行一系列的处理，最终得到空间特征规则、空间聚类规则以及空间分布规律等能够直观展现空间实体的信息。最早开始关注、了解空间数据挖掘这一领域的人，是李德仁院士，他曾经在二十世纪末期召开的国际地理信息系统学术会议上，由他首次提出空间数据挖掘和知识发现理论，且研究并提出了空间数据挖掘和知识发现的理论框架。在现存的空间数据库里蕴含着巨量的信息，其中包括山高、河宽等可以使用地理信息系统的查询工具发现的浅层信息；但除了浅层信息以外还有很多深层次的，如空间分类规则、空间偏差等信息则难以利用地理信息系统的查询方法来获取，只能通过运算或者挖掘等手段才能够发现这些信息。

　　由于云计算的迅速崛起，为我们在解决机器学习中的聚类问题时面临的复杂、大量的迭代计算提供了出色的解决方案；其中在众多的分布式计算框架中，开源框架Hadoop 以其稳定的性能和廉价的成本被众多企业和科研机构所青睐，与传统并行框架相比，它具有高效、高可用、易部署等特点；apache 组织在该平台基础上开发了一个针对机器学习算法的计算框架——mahout；本文将以使用mahout 加上Hadoop组成的平台为基础：Hadoop 生态中的HDFS 为数据存储系统；Hadoop 生态中的MapReduce 为分布式计算框架；然后选用Canopy 算法优化后的K-means 聚类分析算法，利用搭载在Hadoop 集群上的Mahout数据挖掘框架来实现并行的聚类算法操作，最后，使用可视化分析的手段，将带有主题的类簇展示在地图上，用这种更直观的方式来分析这些微博数据所蕴含的信息，以研究网络舆论中隐含着关于社会和生活中相关的信息，为社会的和谐、稳定的发展提供支持。

下载并关注上传者 低至0.43元/天 开通VIP 免费下载

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

发评论

相关下载
相关文章

下载排行榜

AU6815P 内置 DSP 的 2×32W 立体声 I2S数字输入D类功放芯片中文资料
2026-04-27 3次下载

下载
A-29回音消除模块
2026-05-07 2次下载

下载
PC4139 32V低噪音大电流白光LED恒流驱动器数据手册
2026-04-27 2次下载

下载
双麦阵列回音消除及降噪模块 A-47 说明书
2026-05-07 2次下载

下载
人形机器人执行、感知系统技术及市场解析
2026-05-20 2次下载

下载
WD8002D产品规格书
2026-04-27 1次下载

下载

如何使用改进后的K-Means进行网络自媒体空间数据挖掘概述

基于Oracle-Spatial空间数据共享系统设计

基于数据挖掘与网络药理学的肝癌中药处方规律

基于改进协同过滤算法的时间权重推荐

基于改进YOLOv的静态手势实时识别方法

融合标签语义的微博热点话题挖掘方法

可提取非线性结构的子空间聚类方法

改进神经网络的港口货运量预测模型

数据挖掘的改进k近邻高维分类算法综述

集成簇内和簇间距离的加权k-means聚类方法

基于数据挖掘的核医学文本关联规则挖掘方法

采用自监督CNN进行单图像深度估计的方法

空间数据中心私有云资源分配管理研究及分析

一种基于改进乌鸦算法的车载网络频率分配方案

一种基于YOLOv的行人车辆目标检测算法

用于非精确图匹配的改进图卷积神经网络模型

基于多媒体社会事件的分析研究综述

跨媒体数据分析与推理技术综述

数据挖掘在恶性肿癌与工业污染之间的应用

一种融合深度网络的改进快速生成超像素算法

极小负co-location模式的设计方案及思路

教育大数据可视化分析研究的综合分析

针对高维稀疏数据的可重叠子空间K-Means聚类算法

结合时间和空间数据的移动对象数据索引PM-tree

基于距离和密度的并行二分K-means算法

可划分边界区域数据的粗糙K-Means算法

一种改进的聚类联合相似度推荐算法

结合改进Fisher判别准则与GRV模块的卷积神经网络

如何使用FPGA实现空间图像CCSDS压缩算法的设计

如何使用数据库技术实现空间数据共享系统的设计

海量影像数据集入库的策略方法详细说明

海量空间数据库应该如何进行实施策略

震有科技亮相网络空间数智融安学术论坛

安宝特产品丨FME：为您的决策提供最接近准确的空间数据支撑

数字化车间数据中台的功能作用及应用场景

Wherobots获2150万美元融资，加速空间智能云平台发展

中易云数字孪生系统3D建模提高公共安全和应急响应效率

深入理解 Sora 的技术原理

GIS可处理非地理空间数据吗

gis空间分析包括哪些内容

gis中常用的空间分析方法

arcgis空间参考与数据框不匹配如何解决

mapgis区属性赋参数

“太阳能防外损地钉”推动电缆数字化运维

中易云GIS场景信息管理平台提供强大的空间分析功能

机器学习与数据挖掘的区别 机器学习与数据挖掘的关系

人工智能有哪些算法

赋能现代时空数据：PIE-Engine Server全面支持STAC时空资产目录规范

物体检测与跟踪算法

如何简化空间数据记录

大学课程 数据分析 实战之K-means算法（2）算法代码

YOLOv5中的autoanchor.py代码解析

K-means聚类算法指南

深度学习与图神经网络学习分享：Transformer

基于距离的聚类算法K-means的设计实现

K-MEANS聚类算法概述及工作原理

每日一课 | 智慧灯杆之大数据分析及挖掘技术

Orange通过基于云的数据湖协助法国航天局实现以数据为中心的战略转型

无人机倾斜摄影技术成为获取城市空间数据框架的重要手段

河南省将持续完善高速宽带网络，构建覆盖全省的高速光纤宽带网

无人机倾斜摄影三维建模技术助力整体智慧城市空间数据的搭建

基于GIs和webGIS技术实现区域空间资源综合管理系统的子系统设计

下载排行榜

AU6815P 内置 DSP 的 2×32W 立体声 I2S数字输入D类功放芯片中文资料

A-29回音消除模块

PC4139 32V低噪音大电流白光LED恒流驱动器数据手册

双麦阵列回音消除及降噪模块 A-47 说明书

人形机器人执行、感知系统技术及市场解析

WD8002D产品规格书

机器学习与数据挖掘的区别机器学习与数据挖掘的关系

大学课程数据分析实战之K-means算法（2）算法代码