电子说
为了设计一部最佳的预告片、给新电影带来最佳宣传效果,美国电影公司20世纪福克斯电影制片厂的研究人员开发了一种深度学习模型,根据电影预告片来预测哪些观众最有可能看这部电影。
简单地说,这一系统提取了颜色、光线、面部、物体、风景等特征,对现有电影观众的预测达到了较高精确度,同时也在即将上映的电影上做了测试。公司表示,将深度学习应用到对观众的预测上,这在电影制片领域还是首次。
在论文中,福克斯的研究者表示:“对新上映的电影来说,预告片是宣传中最重要的因素。好的预告片会提升新电影在影迷中的知名度,成为更多的人讨论的话题,曝光主演,透露影片的主要剧情以及基调。”
研究人员在训练卷积神经网络时,在谷歌云上使用了NVIDIA Tesla P100 GPU以及经过cuDNN加速的TensorFlow框架,数据集是上百部近几年的电影预告片以及观影人数统计。
研究人员表示:“通过为这些特征找到合适的表示,以及在将这些特征输入到经过历年电影数据训练过的模型上后,它通常能发现电影预告片和上映后预期的观众之间有价值的联系。”
这样一来,神经网络可以帮助电影制作方和行者人员在不同的宣传阶段做出实际决策。以下是论智对论文的大致编译,感兴趣的朋友可以根据文末连接查看原论文。
摘要
在各大电影制片厂中,对观众的估计一直是一项重要活动。现在随着技术的发展,我们可以使用卷积网络的深度模型提取电影预告片中每帧的特征,然后对其进行合理预测。我们用视频表示训练混合协同过滤模型,训练出的模型不仅能精准预测观众的观影概率,还能成功地在六至八个月之前就对新电影制作合适的预告片。
模型概览
Merlin Video的混合推荐模型大致结构。一个逻辑回归层将一个基于距离的CF模型和用户看电影的频率和相关性结合起来,生成看新电影的概率。模型是以端到端的形式训练的,逻辑回归的损失函数是经过反向传播到所有训练因素中的
我们对每部电影都从他的预告片中创建一个视频向量。然后一个多层感知器(MLP)经过训练后可以将视频向量映射到新的嵌入空间。该空间中既有电影也有用户,其中的每个用户都由一个用户向量表示,该向量结合了观众的是否观看了电影以及基本信息。而基于距离的混合CF框架用来估计用户和电影之间的相关性,并对他们之间的距离进行编码。最后,一个经过训练的逻辑回归层会将电影和用户之间的距离与用户是否最终观看了电影进行结合,输出最终用户会看电影的概率。
为了让信息高效地流通,整个模型以端到端的形式训练,也就是说,逻辑回归中的损失被反向传播到模型中每个可训练的元素上。
性能评估
我们将Merlin Video模型与此前基于情节的模型进行了对比,另外还包括Recency-Frequency模型(RF)、Probabilistic Matrix Factorization(PMF)以及Collaborative Deep Learning模型(CDL)。
我们用曲线下面积(AUC)作为评估指标,注意,由于Merlin Video的目标是分辨会去看电影的是哪类观众,并为电影制作提供见解,所以那些常用的排名指标,例如Top-k召回,在这里不使用。结果如下:
可以看出,我们之前研发的模型Merlin Text相较于其他方法都有优势,CDL在所有基于文字的算法中表现得最好,而RF模型尽管很简洁,同样在冷启动的场景中表现出了不错的竞争力。
另外,结果还表明,Merlin Video使用了向量后同样在in-matrix环境中表现得不错,但是与其他方法的差别不大。
为了评估Merlin Video对观众的预测是否准确,当电影一上映,我们就开始对比实际观众名单和预测名单。下图展示了预测和实际名单的对比,以2017年的电影《马戏之王(The Greatest Showman)》为例。
高亮出的电影是我们之前准确预测到的电影,从表格中可以看到,第一行基于情节的预测和第二行基于预告片的预测非常不同。例如,根据基于预告片的预测,看过电影《隐藏人物(Hidden Figures)》的观众非常有可能去看《马戏之王》,但是在基于情节的预测上却并非如此。但是,两种方法之间又有相似点,例如二者都认为看过电影《美女与野兽(Beauty and the Beast)》的观众就可用可能去看《马戏之王》。
结语
我们的结果是基于平均池化的视频特征,这些特征直接输入到协同过滤网络中。虽然这需要对模型进行训练,但是平均池化框架会造成严重的时态信息损失。另外,基于文本和视频的两种模型都能生成高质量的预测,但是种类有所不同,这也表明它们可能反应的是电影的不同方面。我们现在正探索能够将文字情节数据和各帧的特征结合起来的方法,从而创建能更好反映视频内容的向量。
全部0条评论
快来发表一下你的评论吧 !