图像数据飞速增多,而计算机与人对图像数据的理解间存在语义鸿沟。如何有效地理解、管理和组织图像数据是学术界和工业界面临的一个重大挑战。利用计算机自动生成能够描述图像内容的自然语言描述有助于弥合语义鸿沟,从而提升对图像数据的理解。现有工作致力于英文句子生成。与之不同的是,该文实现了一个面向中文的看图造句系统。通过大规模机器翻译克服了中文训练数据缺乏的冋题,同时提岀了结合中文标签自动预测,对深度模型预测句子进行重排序的增强方法,改善句子生成质量。在两个中文图像句子数据集 Flickr8kcn和 Flickr30k-cn上的实验表明,该文提出的标签增强方法可以有效改善现有两种看图造伺模型( Google模型和 Attention模型)所生成句子的质量。标签增强使得 Google模型在 Flickr8kcn测试集上的CIEr指标从0.474提髙到0.503,lickr3ok-cn测试集上的CIDE指标从0.325提高到0.356.通过标签增强, Attention模型在这两个数据集上的CIDER分别从0.510提高到0536,从0.392提高到到0.41。
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
全部0条评论
快来发表一下你的评论吧 !