近年来,随着信息产业规模化程度的日益加深,数据量呈指数式爆炸增长,庞大数量的多源异构数据带来一系列挑战的同时,也带来了巨大的商机。于是,人们就提出了数据挖掘的概念,以便从大量的数据中发现有价值的规律和知识。本文以“智慧国防”综合应用系统为背景。在整个国防项目中,择优定兵环节是非常重要的环节,需要从所有适龄青年中挑选合适的应征兵员。每年的适龄青年都产生大量的数据,这些数据中蕴含着多个维度的属性特征,以往的择优定兵环节全程人工进行,具有很大的工作量。因此,对待定兵员数据进行数据挖掘,建立合适的择优定兵模型,为武装部工作人员提供择优定兵的智能分析和辅助决策,具有很重要的意义。本文的主要研究内容为数据挖掘在择优征兵工作中的应用,包括择优定兵问题上的数据挖掘模型设计及实现。模型设计具体包括业务理解,数据理解,数据预处理设计,模型的选择、评估与优化。重点研究了不平衡分类问题以及逻辑回归、决策树、随机森林、GBDT等分类模型,并对各个分类模型的参数优化方法、模型评估方法进行了研究。最终得到了在定兵类召回率、F1分数、ROC_AUC上均表现较好的择优定兵模型,该模型在训练集,交叉验证和测试集上均能得到较好的分类结果,具有较好的泛化能力。
近年来,随着信息产业规模化程度的日益加深,数据量呈指数式爆炸增长,各行各业每时每刻都在产生着大量待分析的数据,数据规模从MB、GB 级发展到TB、PB 级甚至EB、ZB 级。为了进一步提高数据信息的利用率,基于数据库的知识发现(Knowledge Discovery in Database,简称KDD)和它的核心技术——数据挖掘(Data Mining)被提出。数据挖掘是从更大范围的概念,就是从大量数据中发现价值的一个处理过程。从数据挖掘中得到的价值和知识可以应用于各种领域,包括经济管理、工业控制、商业营销、项目管理以及科技创新等。
本文以“智慧国防”综合应用系统为背景。在整个国防项目中,征兵业务是非常重要的部分,兵员的择优定兵环节则是重中之重。每年的待定兵员在定兵前产生大量的数据,这些数据中蕴含着兵员在多个维度的属性特征,以往的择优定兵环节全程由武装部工作人员人工进行,具有很大的工作量,费时费力,而且人工操作不可避免地会存在一些差错和局限性。因此,对待定兵员数据进行数据挖掘,建立合适的择优定兵模型,为武装部工作人员提供择优定兵的智能分析和辅助决策,具有很重要的意义。
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
全部0条评论
快来发表一下你的评论吧 !