云音乐刷屏H5背后来自一个会说“情话”的人工智能

工程师谭军 发表于 2018-07-11 15:27:04 收藏 已收藏
赞(0) •  评论(0

云音乐刷屏H5背后来自一个会说“情话”的人工智能

工程师谭军 发表于 2018-07-11 15:27:04

前阵子刷屏了的网易云音乐刷脸推歌着实让大家内心又骚动了一把。

「上传一张个人照片,AI会分析你的面部特征并推荐你一首歌。识别二维码即可体验」

利用网易AI的人脸关键点定位技术,对自己的照片进行了一番扫描计算,边扫还边向你发射糖衣炮弹:

“很治愈的长相,看着就会觉得幸福”

“恩,一双自带浪漫BGM的眼睛”

“这是一张连AI都心动的脸”

啧啧啧,这情话值Max的小AI,社交媒体上的小姐姐们表示根本停不下来了。

虽然情话AI稍微有点拍马屁的嫌疑,但是肩负“传播正能量,弘扬真善美”光荣使命的它,其背后还是有科学依据的。

01

美学依据:

『美丑看比例,拒绝强行帅』

虽然随着社会和流行文化的更迭发展,人们的审美会存在一定差异,比如有人会为某亮和某晗,创造了“丑帅”、“阴柔美”之类的新名词,这类“强行帅”都是粉丝中了明星人格buff后创造的,也就是常说的情人眼里出西施。如果单纯从艺术角度判断美丑,千百年来的标准并没有太多变化,那就是比例论。

大家都知道达芬奇非常尊崇黄金分割(黄金比例),在他的人像画中很好地践行了这个理论,也正是他提出了人的完美面孔比例,比如脸部的宽高比、内眼角角度、眼间距占比、嘴巴占脸宽比等等维度。

云音乐刷屏H5背后来自一个会说“情话”的人工智能

但是这套理论太不方便了,不利于传播,老百姓总不能为了判断美丑随身带一把尺去量人的鼻翼有多宽大吧。于是一位整形医生根据这套比例结合自己十多年的整容经验,打造了一个据说只有最美的人才能完美嵌套的面部比例面具-马夸特面具。

云音乐刷屏H5背后来自一个会说“情话”的人工智能

你不要觉得玄乎,这个面具其实经历了很多验证的。你可以尝试拿明星的正面照去套,好看的往往不会偏差太多。比如章子怡,面部线条和五官与这个面具无缝对接。除了国际章,我还拿了其他在常人眼中好看的明星的正面照去比对,也相差无几。

云音乐刷屏H5背后来自一个会说“情话”的人工智能

「国际章和“凡间天使”奥黛丽的脸,真的是百看不厌」  

图片来源 百度图片

至此,马夸特面具和达芬奇的人脸比例就构成了情话AI的美学理论基础。

但是这里有个bug:人是会动的。为什么几乎所有主播的镜头总是放在侧上方?因为这个角度人脸看起来最好看,面部比例最匹配马夸特面具。所以这就出现了对情话AI的另一个要求:测量真实性。

02

数据依据:

『良心AI,童叟无欺』

为了保证全民公平测量,本次H5调用了网易AI的人脸分析接口,通过对面部关键点的定位,无论照片处于什么角度或者什么环境都能准确识别。无论你是正拍

云音乐刷屏H5背后来自一个会说“情话”的人工智能

还是侧拍,

云音乐刷屏H5背后来自一个会说“情话”的人工智能

都能准确捕捉到你的面部数据。

另外,此次H5在发布当天就轻松达到千万级的PV,这意味着情话AI在一天内要识别分析千万级的人脸图像,并且至少说1000万次情话。

当然这不算什么,利用分布式技术,网易AI的日常广告服务就可以支撑2000万日访问量,现在的千万PV,还能再来一轮。

03

AI人脸分析的普及和『bug』

可能直至这次的刷脸推歌,很多人才意识到人脸分析技术居然有这功效,但事实上,人脸分析已经不是什么高科技技术了,iPhone X的人脸解锁、支付宝的人脸验证、还有每次张学友演唱会警察叔叔都能通过人脸识别抓到逃犯,这些都是人脸分析技术的一种。

早几年谷歌就利用这项技术做了一个脑回路清奇的应用-看看你的照片和博物馆的哪副画作最像。

识别效果大家可以感受下。左上角是匹配度,右下角是画作来源。(图片来源 Twitter)

先来一组低分的。

云音乐刷屏H5背后来自一个会说“情话”的人工智能

云音乐刷屏H5背后来自一个会说“情话”的人工智能

再来一组高分的。

云音乐刷屏H5背后来自一个会说“情话”的人工智能

云音乐刷屏H5背后来自一个会说“情话”的人工智能

准确度几分我不知道,传神度可以说是满分了。

为什么会出现如此奇葩的匹配结果呢?

要解释这个问题,我们首先要知道人脸识别的两个过程:采集(特征提取)、匹配(模型构建+特征比对)。

谷歌的“人与画像”就是先采集你的照片,再与博物馆的画作匹配;iPhone X在新机设置Face ID时会让你在镜头前转来转去以及眨眼睛,目的也是采集你的面部信息,为了之后每次解锁屏幕的时候做匹配。

云音乐刷屏H5背后来自一个会说“情话”的人工智能

所以识别结果的准确率主要受制于两个因素,

一、采集准确率,

二、用于模型构建的训练人脸库的大小。

解释下:用儿童玩具相机拍的你和Canon 5D拍的肯定不一样,前者拍的可能你爸妈都不一定认得出,这就是「采集准确率低」;但是如果用儿童相机全程跟踪连拍你一整天最后形成一个照片集,你爸妈或许能从一些“招牌动作”(特征)辨别出这就是你,这就是因为「训练人脸库很庞大」。

所以为了做好人脸识别,AI工程师们一边需要用更高级的设备采集人脸图像,一边需要扩充用于模型构建的训练人脸库。

比如iPhone X采用了 TrueDepth 摄像系统,双摄像头,其中一个为红外摄像头,还包含各种传感器。它跟2D人脸识别的区别就是使用了结构光,通过右边一个小投影仪投射带形状信息的红外光斑到人脸上,左边的摄像头采集光斑的信息,根据形变和大小等逐一确定各个位置的深度和方向信息,最后得到人脸的点云生成3D模型。这样的结果就是以防坏人拿着你的平面照片就解锁你的手机了。

云音乐刷屏H5背后来自一个会说“情话”的人工智能

图片来源 站长之家

在扩充训练人脸数据库上,出于对个人隐私信息的保护,AI工程师通常使用的是志愿者提供的人脸图片数据(只有约1万人),可想而知这个人脸信息有多稀缺。不过也不用担心,AI工程师们还会利用数据扩增技术对这些原始数据进行扩增,一般能够把数据规模提升数十倍甚至上百倍。

收藏

相关话题
文章来源专栏

评论(0)

加载更多评论

参与评论

相关文章

分享到

QQ空间 QQ好友 微博
取消