电子说
不久前刚结束FDDC大赛,武汉大学计算机学院软件工程实验室的Alassea lome团队,获得上市公司营业收入预测赛题第一名,而一人团队GOGOGO则摘得上市公司公告信息抽取赛题桂冠,本文主要将冠军的方案以及大赛亮点进行介绍和回顾。
上月底,2018全球金融数据探索与发现大赛(FDDC)的决赛落幕,10支队伍激烈角逐,也让现场观众见证了AI将如何改变资产管理的未来。
FDDC大赛是全球首场专注金融领域、深入投资实战的技术大赛,由中国证券投资基金业协会(以下简称“基金业协会”)金融科技专业委员会主办,易方达基金、华夏基金、通联数据、阿里云共同承办,奖金池一共高达84万元。
大赛共有两个任务,一是利用AI对上市公司进行营收预测,另一个是对上市公司公告进行信息抽取。这两个都是资产管理中最基本而又最重要的两项工作,往往会决定投资决策的成败。
FDDC大赛,旨在挖掘更多顶尖算法人才,提升资产管理行业的科技化程度。在3个多月的时间里,大赛吸引了全球4231支队伍参与,经过线上初赛和复赛,共有10支队伍进入最终决赛。
最终,来自武汉大学计算机学院软件工程实验室的Alassea lome团队,将预测误差降低至7%,获得上市公司营业收入预测赛题第一名,而一人团队GOGOGO则摘得上市公司公告信息抽取赛题桂冠。
数值预测准确率最高 独特数据处理,将营收预测误差仅7%!
Alassea lome团队来自于武汉大学计算机学院软件工程实验室,团队的导师为蔡恒进,主要研究领域是人工智能、金融信息工程及服务科学。
FDDC大赛上市公司营收预测赛题第一名Alassea Lome团队
这次的“上市公司营收预测”赛题,官方到的数据包括三大财务报表、宏观数据、行业数据、公司经营数据、行情数据等。比赛评测指标是选手对公司二季度的营业收入比率误差的计算,如何准备预测公司半年报实际营收,是这道赛题取胜的关键。
在训练集生成上,团队首先把三大财务报表里面的数据提取出来,接下来引入申万的行业分类这一类别特征。值得注意的是,申万的一级行业分类由28个被团队拆分成30个,同时还加入了能够表征行业数据的指数行情,以及行业估值信息,这里面所有的指标都会经过团队的独特处理。
在公司的维度,团队加入沪深股票日行情以及个股日资金流向,同时引入财务衍生数据和多因子数据。这些特征的比起基本财务数据的优势在于,它们是经过优秀的研究员精心挑选和计算过,可能更具有解释力。
除了刚刚提到的特征,团队还加入了滑窗特征。滑窗特征是什么呢?
以预测公司二季度的营收为例,除了告诉模型一季度营收之外,还告诉公司前四季度的营收。之所以这样做的原因是,金融数据是一个时序非常强的序列,因此团队还告诉模型它的历史上的一些信息。相应的,团队还加入了比率滑窗的特征。
训练方式采取了滑窗模式,五年一滑,但是有三个验证集。模型的最优参数是在三个验证集上的平均loss最小的参数,还列举了不同的模型算法它的表现。
选了那么多特征之后,怎么把最重要的特征筛选出来呢?
首先团队会多轮预跑,得到所有特征的重要性。然后选出来重要特征重新生成训练集,在训练集上进行网格搜索,确定最优的模型参数。
模型部署方面,时序模型不需要训练,它的loss大概在0.48左右。团队的主模型是xgb,辅助模型是Random Forest。模型融合是线性分类器,模型保存了最终部署的27个模型,从行业的角度去选择最终利用哪个模型。
最终,团队的复赛得分是0.43,如果换算成营业收入的误差,在7%以内。
从不同公告找到共性知识结构,做直接的实体全量标注
赛题二是上市公司公告重要信息抽取。
本赛题要求对“股东增减持”、“重大合同”和“定向增发”3 个类型的公司公告进行信息抽取,实际上是对公司关键事件进行结构化提取。
GOGOGO团队获得本赛题第一名。他们首先是对HTML结构的提取,包括一些数据清理和转换、表格识别等。
FDDC大赛上市公司公告信息抽取赛题第一名GOGOGO团队
在算法中,团队运用了反向标注,然后建立一个NER的模型预测实体。GOGOGO的标注不同之处在于,他们做了直接的实体的全量标注。因为现有的很多通用的实体识别,是识别出一个公司名称或者是不是数值,团队直接把它的类型给定义清楚。
实体标注技巧是模型里面比较重要的地方之一,另一方面,团队还用到奥卡姆剃刀原则。
奥卡姆剃刀原则主要表现在人倾向于用一个简单的方法表现一个内容,会用简单的方法不会用复杂的方法。比如,有很多合同里面没有乙方的表示,默认发公告的一方就是乙方。
模型验证策略方面,团队在研究这个问题的时候,发现召回率是很重要的,信息一旦漏掉了是捞不回来的,因此可以通过人工的方法提高它。第二是模型效率的问题,因为用到很多抽象的方法,很多情况下并没有通篇读,所以速度非常高,基本上控制在秒级。整个过程中大部分时间还是在实体识别里面。
10支团队瓜分近百万奖金,AI再度深入投资实战
FDDC大赛是全球首场专注金融领域、深入投资实战的技术大赛,历时3个多月,4231支队伍经过线上初赛和复赛,共有10支队伍进入决赛,于8月29日在北京进行现场答辩,8月30日,两道赛题的前三名共6个团队参加了终极对决。
本次大赛特设84万奖池,冠军更是能获得高达25万的丰厚奖金。
这次比赛结果是:
赛题一(上市公司营收预测)
第一名:Alassea lome团队:吴云、万珊红、洪成晨、潘航、刘帅
第二名:Quant_duet团队:林汉轩、邱爽
第三名:智能金融团队:汪志文
大赛评委之一,香港科技大学副教授、惠理投资中心副主任尤海峰点评:
智能金融团队根据财务报表相互关联的特点,创造性的把GPDT和DNN两种算法结合起来,先用GPDT的算法自动的构造组合特征,在此基础上结合DNN深度学习的方法进行预测,取得了很好的效果。
FDDC大赛上市公司营收预测赛题第三名智能金融团队
Quant duet团队首先把财务数据进行了拆分,把历史的营收和其他的财务数据给分割出来,剔除了历史营收的财务数据,构建了多因子的预测模型,然后又把单独拿出来的历史营收数据和市场数据相结合,用一个全连接网络深度学习的模型做预测,最后把两个预测模型给整合起来。
FDDC大赛上市公司营收预测赛题第二名Quant duet团队
这种数据拆分其实是提高了两个模型的独立性,从而在整合的时候、融合的时候能够达到分散错误的效果。
Alassea Lome团队展现了机器学习算法和领域知识很好结合起来的能力。首先他们对数据做了很好的理解、很好的处理和去噪音各种各样的处理,然后根据他们对不同类型的公司理解,在特征选择上和算法选择上都进行了个性化的处理,从而达到很好的预测效果。
赛题二(上市公司公告信息抽取)
第一名:GOGOGO团队:黄泽炽
第二名:Heisenberg团队:冯霁、李永刚、苏洋洋
第三名:Miyabi团队:李灏舟、王夺、丛冠男、胡一川
最具创意极客奖:东风又绿江南岸团队(林建生、宋云生、宫保伟、林刚),智能ABC团队(周武洁、郭炫志);
最具潜力极客奖:KingofWind团队(李立),ASD123团队(肖艳清、杨舰);
通联数据CEO王政点评上市公司公告信息抽取赛题复赛前三团队:
Miyabi团队用表格和分类的方法来抽取,能够快速抽取结果;分类的方法能判断哪些可以抽取。
FDDC大赛上市公司公告信息抽取赛题第三名Miyabi团队
Heisenberg团队有两个亮点:1、有实用价值的系统架构,能很快用到工业界。2、在实体识别的方法比传统的有很大提升。
FDDC大赛上市公司公告信息抽取赛题第二名Heisenberg团队
GOGOGO团队把不同公告的问题找到了一些共性的知识结构,能快速把复杂问题降维。另外,通过章节的识别提升效率。
王政表示,通过这次FDDC大赛,AI在金融领域的应用得到了新的发展,但是以后问题会越来越难、越来越多,期待更多算法专家加入金融行业,推动金融科技的发展。
全部0条评论
快来发表一下你的评论吧 !