机器学习多模态落地存在哪些挑战

西西 2022-10-11 780

人工智能

624人已加入

多模态机器学习，英文全称 MultiModal Machine Learning (MMML)，旨在通过机器学习的方法实现处理和理解多源模态信息的能力。

当下，多模态技术有着相当广泛的应用场景，如淘宝搜图、AI字幕、AI虚拟数字人、仿人交互、智能助手、商品推荐和信息流广告、视频帧人脸帧的图向量检索、语音交互等等。

不过, 要说多模态技术真正实现了落地，似乎还太早，从多模态数据标注到跨模态转化，多模态仍然存在一些待解决的挑战。

多模态面临的挑战以及未来的可创新方向，天然的吸引着关注。毕竟不论是为了毕业还是申博亦或是未来的就业机会。论文都是绕不开的永恒话题，而没有创新，就没有好的论文。

面前摆放着多模态这盘“当红辣子鸡”，剩下的工作就是如何找创新点、get idea，写好论文了。写出好的论文，才是硬道理~

为了找到创新方向，大量精读前沿论文是必不可少的一步。

但其实，精读论文只是第一步。

后面更重要的是，通过精读进行论文复现、从优秀的工作中找到灵感、为自己的工作提供营养……

更可怕的是，在第一步就被卡住。

不免感慨，如果有一位科研过硬的前辈指导，天下哪还有难读的论文……

毕竟导师总是放养，师哥师姐也总是忙……

编辑：黄飞

打开APP阅读更多精彩内容