基于LDA主题模型进行数据源选择方法-电子发烧友网

　　联邦搜索是从大规模深层网上获取信息的一种重要技术。给定一个用户查询，联邦搜索系统需要解决的一个主要问题是数据源选择问题，即从海量数据源中选出一组最有可能返回相关结果的数据源。现有的数据源选择算法大多基于数据源的样本文档集和查询之间的关键词匹配，通常无法很好地解决少量样本文档的信息缺失问题。针对这一问题，提出了基于隐含狄利克雷分布（ LDA）主题模型进行数据源选择的方法。首先，使用LDA主题模型获得数据源和查询的主题概率分布；然后，通过比较两者主题概率分布的相近性来对所有数据源进行排序。通过将数据源和查询映射到低维的主题空间来解决高维词条空间稀疏性所带来的信息缺失问题。在TREC FedWeb 2013和2014 Track的测试集上分别进行了实验，并和其他参赛方法的结果进行了比较。在FedWeb 2013测试集上的实验结果显示比其他参赛方法的最好结果提高了24%；在FedWeb 2014测试集上的实验结果显示比传统的基于小文档和大文档的关键词匹配方法分别提高了22%和43%。另外，使用文档片段来代替文档还可以大幅提升系统的效率，更增加了此方法的实用性和可行性。

基于LDA主题模型进行数据源选择方法

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

基于LDA主题模型进行数据源选择方法

快速学习-电影推荐系统设计(数据源解析)

基于终身机器学习的主题挖掘评分和评论推荐模型

基于主题模型的Web服务聚类方法综述

以文本为数据源进行本体构建技术综述

文本挖掘之概率主题模型综述

系统仿真模型可信度评估方法研究综述

面向微博热点话题的改进BBTM模型

无线能量手机协作通信系统的节能中继选择

基于深度学习的遥感影像典型要素提取方法

基于Spark的学术论文热点数据挖掘方法

基于日志的数据组合视图定位更新方法

基于主题分布优化的模糊文本分类方法

基于神经网络与隐含狄利克雷分配的文本分类

融合社交关系和时间因素的主题模型推荐算法

基于改进模型和区域分割的表情动画合成方法

基于多种模型的云南农作物区域气候分析

基于出租车出行数据的预测式可视化分析方法

基于动态加权和卡尔曼滤波的多源雷达信息加权融合方法

基于PCA和SVM模型的滚动轴承故障诊断方法

基于Logit动态的交通方式选择演化博弈模型

面向NoSQL数据库的JSON文档异常检测模型

一种全新的高光谱数据异常检测方法

一种基于贝叶斯方法的网络安全态势感知混合模型

基于随机森林与转换算法实现海洋数据的协同转换

采用多目标蚁群优化算法的主题爬虫方法

一种捕获主题单词信息的主题模型JEA-LDA

基于主题模型和变分自编器的自适应知识方法

针对社交媒体的评论讽刺检测模型

LABVIEW与SQL SERVER的连接方法详细说明

使用Socket通讯机制实现QUEST仿真系统与管理信息系统的数据交换论文

使用相似连接进行多源数据并行预处理的方法概述

边缘AI实现的核心环节：硬件选择和模型部署

使用CAN总线进行数据采集的方法

如何使用ddc进行数据分类

Mybatis 拦截器实现单数据源内多数据库切换

如何使用SQL进行数据分析

为什么选择eda进行数据分析

使用AI大模型进行数据分析的技巧

如何利用海外爬虫IP进行数据抓取

常见的遥感数据源有哪些类型

边缘计算与晶振技术：实现智能靠近数据源的新型计算范式

商汤科技携手国内头部遥感数据平台全面升级SenseEarth数据源

数据网关机干什么的 数据网关与数据采集器的区别

SpringBoot实现动态切换数据源

隧道没信号怎么进行数据采集

weblogic修改数据源需要重启吗

vlookup函数引用的数据源要保留吗

使用pandas进行数据选择和过滤的基本技术和函数

中小企业如何使用 Superset 进行数据分析

多数据源数据转换和同步的ETL工具推荐

基于LDA经典的线性分类方法

无源晶振频率测量方法及仪器选择

SpringBoot多数据源及事务解决方案

comboBox控件的数据绑定方法是什么

成功进行数据整合的案例

为工业物联网提供预测性维护优化数据源

SpringBoot分布式事务的解决方案（JTA+Atomic+多数据源）

在风格迁移中如何进行数据增强

Veritas收购Globanet，新功能将允许用户获得和使用更多数据源

物联网可以成为哪些企业组织的数据源

如何选择云存档数据源

下载排行榜

人形机器人执行、感知系统技术及市场解析

WD431产品规格书

双麦阵列回音消除及降噪模块 A-47 说明书

FS4054H 输入电压范围3.8V~6.8V 输入最大耐压28V 输入过压关闭充电阈值6.8V

A-29回音消除模块

A-68语音处理模组规格书V1

数据网关机干什么的数据网关与数据采集器的区别