2025年Next Token Prediction范式会统一多模态吗
大连理工提出基于Wasserstein距离(WD)的知识蒸馏方法
中国电提出大模型推理加速新范式Falcon
探索对抗训练的概率分布偏差:DPA双概率对齐的通用域自适的目标检测方法
SparseViT:以非语义为中心、参数高效的稀疏化视觉Transformer
基于移动自回归的时序扩散预测模型
港大提出SparX:强化Vision Mamba和Transformer的稀疏跳跃连接机制
Mamba入局图像复原,达成新SOTA
准确性超Moshi和GLM-4-Voice,端到端语音双工模型Freeze-Omni
CNN, RNN, GNN和Transformer模型的统一表示和泛化误差理论分析
复旦提出大模型推理新思路:Two-Player架构打破自我反思瓶颈
浙大、微信提出精确反演采样器新范式,彻底解决扩散模型反演问题
经典图神经网络(GNNs)的基准分析研究
一种信息引导的量化后LLM微调新算法IR-QLoRA
适配器微调在推荐任务中的几个关键因素
OCR终结了?旷视提出可以文档级OCR的多模态大模型框架Vary,支持中英文,已开源!
再登Nature!DeepMind大模型突破60年数学难题,解法超出人类已有认知
NeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界
ICLR 2024高分投稿:用于一般时间序列分析的现代纯卷积结构
GPT推断中的批处理(Batching)效应简析