深度之眼论文精选汇总 2026大模型必读论文

Section 01

原生统一全模态模型

Unified Multimodal Models · 原生多模态理解与生成统一架构

#	论文标题	资源链接
01	Show-o2: Improved Native Unified Multimodal Models NeurIPS 2025 结合自回归建模与流匹配技术，基于3D因果变分自编码器空间，实现图像与视频模态的可扩展性，同时保证有效的多模态理解与生成。设计了两阶段训练方案，在文本、图像和视频等多种模态下展现出广泛的通用性。	📄PDF 💻GitHub
02	UniG2U-Bench: Do Unified Models Advance Multimodal Understanding? 评估统一模型在多模态理解任务中的表现，探讨统一架构是否真正推动了多模态理解的发展。	📄PDF 💻GitHub
03	Ming-Lite-Uni: Advancements in Unified Architecture for Natural Multimodal Interaction 开源多模态框架，具有全新设计的统一视觉生成器和原生多模态自回归模型。引入多尺度可学习令牌和多尺度表示对齐策略，使原生多模态AR模型能够执行文本到图像生成及基于指令的图像编辑任务。	📄PDF 💻GitHub
04	Scaling Laws for Native Multimodal Models ICCV 2025 研究原生多模态模型的缩放定律，揭示模型规模、数据量与性能之间的定量关系。	📄PDF
05	Uni-MMMU: A Massive Multi-discipline Multimodal Unified Benchmark 大规模多学科多模态统一基准测试，用于评估统一多模态模型在跨学科任务上的综合能力。	📄PDF 💻GitHub
06	Mobile-O: Unified Multimodal Understanding and Generation on Mobile Device 面向移动设备的统一多模态理解与生成模型，实现端侧高效部署，兼顾性能与资源约束。	📄PDF 💻GitHub
07	M4U: Evaluating Multilingual Understanding and Reasoning for Large Multimodal Models WACV 2026 评估大型多模态模型的多语言理解与推理能力，构建跨语言多模态评测基准。	📄PDF 💻GitHub
08	Tuna: Taming Unified Visual Representations for Native Unified Multimodal Model 驯化统一视觉表征，为原生统一多模态模型提供更稳定、更有效的视觉表示方法。	📄PDF
09	UniEval: Unified Holistic Evaluation for Unified Multimodal Understanding and Generation 统一的多模态理解与生成综合评估框架，为统一模型提供全方位、一体化的评测方案。	📄PDF 💻GitHub
10	UniModel: A Visual-Only Framework for Unified Multimodal Understanding and Generation 纯视觉框架实现统一多模态理解与生成，探索仅依赖视觉模态的多模态统一方案。	📄PDF

Section 02

世界模型（World Models）

World Models · 从自动驾驶到机器人操作的世界建模与仿真

#	论文标题	资源链接
01	LiDARCrafter: Dynamic 4D World Modeling from LiDAR Sequences AAAI 基于LiDAR序列的动态4D世界建模，利用激光雷达数据构建高保真时空场景表示。	📄PDF 🌐Project
02	OccTENS: 3D Occupancy World Model via Temporal Next-Scale Prediction 基于时序下一尺度预测的3D占据世界模型，实现精细化的三维场景理解与预测。	📄PDF
03	FlowDreamer: A RGB-D World Model with Flow-based Motion Representations for Robot Manipulation 基于光流运动表示的RGB-D世界模型，面向机器人操作任务的场景动态理解与预测。	📄PDF 💻GitHub
04	UniDrive-WM: Unified Planning and Generation World Model For Autonomous Driving 面向自动驾驶的统一规划与生成世界模型，将规划与场景生成能力统一建模。	📄PDF 🌐Project
05	Pre-Trained Video Generative Models as World Simulators AAAI 将预训练视频生成模型作为世界模拟器，探索视频生成模型在环境仿真中的潜力。	📄PDF
06	COSMOS POLICY: Fine-Tuning Video Models for Visuomotor Control and Planning 微调视频模型用于视觉运动控制与规划，将视频生成能力迁移到机器人控制领域。	📄PDF 🌐Project
07	Navigation World Models CVPR 2025 面向导航任务的世界模型，使智能体能够对环境进行预测性建模以辅助导航决策。	📄PDF 💻GitHub
08	AETHER: Geometric-Aware Unified World Modeling ICCV 2025 几何感知的统一世界建模方法，将几何信息融入世界模型以提升场景理解精度。	📄PDF
09	End-to-End Driving with Online Trajectory Evaluation via BEV World Model ICCV 2025 基于BEV世界模型的端到端驾驶系统，通过在线轨迹评估实现安全自动驾驶。	📄PDF 💻GitHub
10	DrivingGPT: Unifying Driving World Modeling and Planning with Multi-modal Autoregressive Transformers ICCV 2025 统一驾驶世界建模与规划的多模态自回归Transformer，将场景理解与驾驶决策联合建模。	📄PDF 💻GitHub
11	Mastering Diverse Control Tasks Through World Models Nature 通过世界模型掌握多样化的控制任务，发表于Nature，探索世界模型在广泛控制场景中的通用性。	📄PDF

Section 03

Vision-Language-Action（VLA）模型

VLA Models · 视觉-语言-动作模型，连接感知与执行的统一架构

#	论文标题	资源链接
01	VLA-Adapter: An Effective Paradigm for Tiny-Scale Vision-Language-Action Model AAAI 面向超小规模VLA模型的高效适配器范式，在资源受限场景中实现有效的视觉-语言-动作建模。	📄PDF
02	How Fast Can I Run My VLA? Demystifying VLA Inference Performance with VLA-Perf 首次系统研究VLA推理性能的全景图。引入VLA-Perf分析模型，研究模型缩放、架构选择、长上下文视频输入、异步推理等对性能的影响，并提供15条关键结论用于指导未来VLA模型与系统设计。	📄PDF 💻GitHub
03	AsyncVLA: An Asynchronous VLA for Fast and Robust Navigation on the Edge 面向边缘设备的异步VLA模型，在计算受限条件下实现快速鲁棒的导航能力。	📄PDF 💻GitHub
04	Balancing Signal and Variance: Adaptive Offline RL Post-Training for VLA Flow Models AAAI 平衡信号与方差的适应性离线RL后训练方法，用于VLA流模型的优化。	📄PDF
05	MoLe-VLA: Dynamic Layer-skipping Vision Language Action Model via Mixture-of-Layers for Efficient Robot Manipulation AAAI 基于Mixture-of-Layers的动态层跳过VLA模型，通过选择性跳过网络层实现高效机器人操作。	📄PDF
06	VLANeXt: Recipes for Building Strong VLA Models 构建强VLA模型的实践指南，提供系统化的模型构建方法论和关键技巧。	📄PDF 💻GitHub
07	Phantom Menace: Exploring and Enhancing the Robustness of VLA Models Against Physical Sensor Attacks AAAI 探索并增强VLA模型对物理传感器攻击的鲁棒性，研究对抗攻击对视觉-语言-动作模型的安全威胁。	📄PDF
08	GraphCoT-VLA: A 3D Spatial-Aware Reasoning Vision-Language-Action Model for Robotic Manipulation with Ambiguous Instructions AAAI 3D空间感知推理VLA模型，利用图结构思维链处理模糊指令下的机器人操作任务。	📄PDF
09	Spec-VLA: Speculative Decoding for Vision-Language-Action Models with Relaxed Acceptance EMNLP 2025 面向VLA模型的推测解码加速方法，通过宽松接受策略提升推理效率而不牺牲决策质量。	📄PDF 💻GitHub
10	VQ-VLA: Improving Vision-Language-Action Models via Scaling Vector-Quantized Action Tokenizers ICCV 2025 通过扩展向量量化动作分词器改进VLA模型，提升动作空间的表示效率。	📄PDF 💻GitHub
11	JARVIS-VLA: Post-Training Large-Scale Vision Language Models to Play Visual Games with Keyboards and Mouse Findings ACL 后训练大规模视觉语言模型，使其通过键盘和鼠标操作视觉游戏，拓展VLA在游戏交互中的应用。	📄PDF 💻GitHub
12	VLA-Mark: A Cross Modal for Large Vision-Language Alignment Models EMNLP 2025 大型视觉-语言对齐模型的跨模态标记方法，增强VLA中视觉与语言之间的对齐能力。	📄PDF 💻GitHub
13	CoT-VLA: Visual Chain-of-Thought Reasoning for Vision-Language-Action Models CVPR 2025 面向VLA模型的视觉思维链推理，将视觉推理过程显式化以提升模型的可解释性和决策质量。	📄PDF 🌐Project

Section 04

Agent 系统（Agentic Systems）

Agentic Systems · 智能体系统，从罕见病诊断到智能手机操控的自主决策

#	论文标题	资源链接
01	An Agentic System for Rare Disease Diagnosis with Traceable Reasoning Nature 具有可追溯推理能力的罕见病诊断智能体系统，发表于Nature，将AI推理能力应用于医学诊断。	📄PDF
02	ClawMobile: Rethinking Smartphone-Native Agentic Systems 重新思考智能手机原生智能体系统，探索在移动端原生实现自主Agent交互的新范式。	📄PDF 💻GitHub
03	CorrectAD: A Self-Correcting Agentic System to Improve End-to-End Planning in Autonomous Driving AAAI 具有自纠正能力的智能体系统，提升自动驾驶中端到端规划的准确性和鲁棒性。	📄PDF
04	Policy Search, Retrieval, and Composition via Task Similarity in Collaborative Agentic Systems AAAI 在协作智能体系统中通过任务相似度进行策略搜索、检索与组合，实现高效的多Agent协作。	📄PDF
05	AdaptJobRec: Enhancing Conversational Career Recommendation Through an LLM-Powered Agentic System AAAI 基于LLM的智能体系统增强对话式职业推荐，提升求职推荐系统的个性化与交互体验。	📄PDF
06	Fact2Fiction: Targeted Poisoning Attack to Agentic Fact-checking System AAAI 针对智能体事实核查系统的定向投毒攻击，研究Agent系统在对抗性环境中的安全脆弱性。	📄PDF
07	Preacher: Paper-to-Video Agentic System 论文转视频的智能体系统，自动化将学术论文内容转化为可理解的视频演示。	📄PDF 💻GitHub
08	SwarmAgentic: Towards Fully Automated Agentic System Generation via Swarm Intelligence EMNLP 2025 通过群体智能实现全自动化智能体系统生成，利用群体协作的涌现能力构建自主Agent。	📄PDF 💻GitHub
09	Inherent and Emergent Liability Issues in LLM-based Agentic Systems: A Principal-Agent Perspective ReALM 从委托-代理视角分析基于LLM的智能体系统中固有的和涌现的责任问题。	📄PDF
10	X-WebAgentBench: A Multilingual Interactive Web Benchmark for Evaluating Global Agentic System Findings ACL 面向全球智能体系统评估的多语言交互式Web基准测试，覆盖多语种多场景的Agent评测。	📄PDF
11	From Conversation to Orchestration: HCI Challenges and Opportunities in Interactive Multi-Agentic Systems ACM 从对话到编排：交互式多智能体系统中的人机交互挑战与机遇。	📄PDF
12	VibeMus: Proactive Agentic System for Music Personalization ACM 面向音乐个性化的主动智能体系统，根据用户偏好自动推荐和调整音乐内容。	📄PDF

Section 05

有效表征提取

Representation Learning · 加速下游神经网络学习的高效表征方法

#	论文标题	资源链接
01	History Compression via Language Models in Reinforcement Learning 在强化学习中通过语言模型进行历史压缩，利用LM将长期交互历史压缩为紧凑的语义表示。	📄PDF 💻GitHub
02	Semantic HELM: A Human-Readable Memory for Reinforcement Learning 语义HELM：面向强化学习的可读记忆系统，将RL智能体的经验以人类可读的形式存储与检索。	📄PDF 💻GitHub
03	Learning Transferable Visual Models from Natural Language Supervision (CLIP) 经典CLIP论文——从自然语言监督中学习可迁移的视觉模型，开创性工作连接视觉与语言表征。	📄PDF 💻GitHub
04	Representation Learning with Contrastive Predictive Coding 基于对比预测编码的表示学习，提出CPC方法通过预测未来表征来学习通用表示。	📄PDF 💻GitHub
05	Efficient Policy Adaptation with Contrastive Prompt Ensemble for Embodied Agents NeurIPS 2023 基于对比提示集成的具身智能体高效策略适应方法，通过提示学习实现跨任务策略迁移。	📄PDF
06	ReCoRe: Regularized Contrastive Representation Learning of World Model 世界模型的正则化对比表示学习方法，提升世界模型学习到的表征质量。	📄PDF

Section 06

自然语言翻译

Language Grounding · 将自然语言指令翻译为可执行的动作与策略

#	论文标题	资源链接
01	Natural Language Conditioned Reinforcement Learning with Inside-out Task Language Development and Translation 自然语言条件强化学习，通过由内而外的任务语言开发与翻译机制连接语言与RL策略。	📄PDF 💻GitHub
02	STARLING: Self-supervised Training of Text-based Reinforcement Learning Agent with Large Language Models 利用LLM对基于文本的RL智能体进行自监督训练，将语言模型的先验知识迁移到RL中。	📄PDF 💻GitHub
03	Grounding Language to Non-Markovian Tasks with No Supervision of Task Specifications 在无任务规范监督的情况下将语言指令绑定到非马尔可夫任务，实现零样本语言驱动策略。	📄PDF
04	Learning Rewards from Linguistic Feedback 从语言反馈中学习奖励信号，将人类的自然语言评价转化为RL可使用的奖励函数。	📄PDF 💻GitHub
05	Code as Policies: Language Model Programs for Embodied Control 经典论文"以代码为策略"——将语言模型生成的代码直接作为具身控制策略，开创LLM驱动机器人控制的新范式。	📄PDF 💻GitHub
06	LLM-Planner: Few-shot Grounded Planning for Embodied Agents with Large Language Models 利用LLM进行少样本场景理解的具身智能体规划，将高层语言指令分解为可执行的动作序列。	📄PDF 💻GitHub
07	Informing Reinforcement Learning Agents by Grounding Natural Language to Markov Decision Processes 将自然语言扎根到马尔可夫决策过程中，为RL智能体提供结构化的语言指导信息。	📄PDF

Section 07

隐式奖励函数设计

Implicit Reward Design · 通过语言模型和VLM隐式引导强化学习奖励信号

#	论文标题	资源链接
01	Reward Design with Language Models 利用语言模型进行奖励设计，将LLM的语义理解能力隐式转化为RL奖励信号。	📄PDF 💻GitHub
02	Read and Reap the Rewards: Learning to Play Atari with the Help of Instruction Manuals 借助说明书学习玩Atari游戏——利用自然语言手册隐式指导RL智能体的奖励探索方向。	📄PDF 💻GitHub
03	Grounding Large Language Models in Interactive Environments with Online Reinforcement Learning 通过在线RL将LLM扎根到交互环境中，隐式地从环境反馈中优化语言模型的指导能力。	📄PDF 💻GitHub
04	Vision-Language Models are Zero-Shot Reward Models for Reinforcement Learning 视觉-语言模型可作为RL的零样本奖励模型，直接利用VLM的视觉语义判断作为隐式奖励信号。	📄PDF 💻GitHub
05	Accelerating Reinforcement Learning of Robotic Manipulations via Feedback from Large Language Models 通过LLM反馈加速机器人操作的强化学习过程，将大模型的先验知识隐式注入训练循环。	📄PDF
06	Guide Your Agent with Adaptive Multimodal Rewards 使用自适应多模态奖励引导智能体，结合多种信息源构建隐式奖励信号。	📄PDF 💻GitHub
07	Language Reward Modulation for Pretraining Reinforcement Learning 面向RL预训练的语言奖励调制，利用语言信号在预训练阶段调节奖励函数的形状。	📄PDF 💻GitHub

Section 08

显式奖励函数设计

Explicit Reward Design · 通过LLM生成可执行的代码化奖励函数

#	论文标题	资源链接
01	Language to Rewards for Robotic Skill Synthesis 从语言描述到奖励函数——面向机器人技能合成的显式奖励设计方法（Google DeepMind）。	📄PDF 💻GitHub
02	Self-Refine: Iterative Refinement with Self Feedback 自精炼方法：通过自我反馈进行迭代改进，为奖励函数的自我优化提供框架。	📄PDF 💻GitHub
03	Self-Refined Large Language Model as Automated Reward Function Designer for Deep Reinforcement Learning in Robotics 将自精炼LLM作为深度RL的自动奖励函数设计器，为机器人任务生成高质量代码化奖励。	📄PDF 💻GitHub
04	Eureka: Human-Level Reward Design via Coding Large Language Models 利用GPT-4等先进LLM的零样本生成和代码编写能力进行进化式奖励函数优化。在29个开源RL环境中，Eureka在83%的任务上超越人类专家，平均提升52%的归一化性能。首次展示模拟Shadow Hand能够执行转笔技巧。	📄PDF 💻GitHub
05	Text2Reward: Reward Shaping with Language Models for Reinforcement Learning 用语言模型为RL进行奖励塑形，将自然语言任务描述自动转化为可执行的奖励函数代码。	📄PDF 💻GitHub

Section 09

决策问题中的大模型运用（直接决策者）

LLM as Direct Decision Maker · 大语言模型直接参与动作选择与策略生成

#	论文标题	资源链接
01	Unleashing the Power of Pre-trained Language Models for Offline Reinforcement Learning (LaMo) 提出LaMo框架，将预训练语言模型有效应用于离线RL。基于Decision Transformer，使用LoRA微调、非线性MLP嵌入和辅助语言预测损失，在稀疏奖励任务中表现优异，在数据有限场景中展现出卓越性能。	📄PDF 💻GitHub
02	Can Wikipedia Help Offline Reinforcement Learning? 探索Wikipedia知识能否帮助离线RL——利用百科知识为策略学习提供先验信息。	📄PDF 💻GitHub
03	Pre-Trained Language Models for Interactive Decision Making 预训练语言模型用于交互式决策，将LM的推理能力直接融入决策过程。	📄PDF 💻GitHub
04	Think Before You Act: Unified Policy for Interleaving Language Reasoning with Actions "先思考后行动"——统一策略框架将语言推理与动作执行交织进行，提升决策质量。	📄PDF
05	AMAGO: Scalable In-Context Reinforcement Learning for Adaptive Agents 可扩展的上下文内强化学习框架，使智能体能够通过上下文学习适应多样化任务。	📄PDF 💻GitHub
06	RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control RT-2：视觉-语言-动作模型将互联网知识迁移到机器人控制，Google Robotics经典工作。	📄PDF 💻GitHub

Section 10

决策问题中的大模型运用（间接决策者）

LLM as Indirect Decision Helper · 大语言模型辅助策略学习与训练

#	论文标题	资源链接
01	Keep CALM and Explore: Language Models for Action Generation in Text-based Games 在文字游戏中使用语言模型生成动作，通过"保持冷静"的探索策略提升文本交互能力。	📄PDF 💻GitHub
02	Do As I Can, Not As I Say: Grounding Language in Robotic Affordances "照我做的做，别照我说的做"——将语言扎根到机器人可执行的操作中，Google SayCan经典工作。	📄PDF 💻GitHub
03	Language Instructed Reinforcement Learning for Human-AI Coordination 面向人机协同的语言指导强化学习，通过自然语言指令促进人类与AI智能体的协作。	📄PDF
04	Large Language Model is a Good Policy Teacher for Training Reinforcement Learning Agents 大语言模型是训练RL智能体的优秀策略教师，利用LLM生成教学信号辅助策略学习。	📄PDF 💻GitHub

Section 11

多模态世界模型

Multimodal World Models · 基于Transformer的世界建模与序列决策

#	论文标题	资源链接
01	Decision Transformer: Reinforcement Learning via Sequence Modeling 决策Transformer——将RL问题转化为序列建模问题，开创性地用Transformer架构进行策略学习。	📄PDF 💻GitHub
02	Transformers are Sample Efficient World Models (IRIS) Transformer是样本高效的世界模型（IRIS），探索Transformer作为世界模型在RL中的表现。	📄PDF 💻GitHub
03	Transformer Based World Models Are Happy With 100k Interactions (TWM) 基于Transformer的世界模型仅需10万次交互即可有效学习，大幅降低世界模型的训练数据需求。	📄PDF 💻GitHub
04	TransDreamer: Reinforcement Learning with Transformer World Models 利用Transformer世界模型进行强化学习，将世界模型与策略学习结合以提升样本效率。	📄PDF 💻GitHub
05	Reinforcement Learning with Action-Free Pre-Training from Videos 从视频中无动作预训练的强化学习，仅利用视觉观测预训练世界模型后进行策略微调。	📄PDF 💻GitHub

Section 12

策略解释器

Policy Explanation · 强化学习策略的可解释性研究

#	论文标题	资源链接
01	A Survey of Explainable Reinforcement Learning 可解释强化学习综述，系统梳理RL策略解释方法的研究进展与未来方向。	📄PDF
02	State2Explanation: Concept-based Explanations to Benefit Agent Learning and User Understanding 基于概念的状态解释方法，将智能体的状态映射到人类可理解的概念空间，双向促进学习与理解。	📄PDF
03	Understanding Language in the World by Predicting the Future 通过预测未来来理解世界中的语言，将语言理解与世界模型的预测能力结合。	📄PDF

Section 13

隐式/潜空间推理

Latent Reasoning · 在潜空间中执行推理，消除显式文本生成的开销

#	论文标题	资源链接
01	AIN-OF-THOUGHT: An Empirical Study of Causal Structure 思维链中的因果结构实证研究，探讨CoT推理中的因果关系与结构特性。	📄PDF 💻GitHub
02	LaST0: Latent Spatio-Temporal Chain-of-Thought for Robotic Vision-Language-Action Model 面向机器人VLA模型的潜在时空思维链方法，在潜空间中建模时空推理过程。	📄PDF 💻GitHub
03	Latent Reasoning VLA (LaRA-VLA): Latent Thinking and Prediction for Vision-Language-Action Models ICML 2026 将多模态CoT推理内化为连续潜在表示的统一VLA框架。在潜空间中执行统一推理与预测，消除推理时的显式CoT生成，推理延迟降低高达90%，证明潜空间推理是实时具身控制的有效高效范式。	📄PDF 💻GitHub
04	Beyond Imitation: Reinforcement Learning for Active Latent Planning 超越模仿学习：面向主动潜空间规划的强化学习，在潜在空间中进行前瞻性规划。	📄PDF 💻GitHub
05	LaST-VLA: Thinking in Latent Spatio-Temporal Space for Vision-Language-Action in Autonomous Driving 面向自动驾驶的潜在时空思维VLA模型，在潜空间中融合时空推理进行驾驶决策。	📄PDF 💻GitHub
06	Efficient Post-Training Refinement of Latent Reasoning in Large Language Models AAAI 大语言模型中潜空间推理的高效后训练精炼方法，在保持性能的同时优化推理效率。	📄PDF
07	LaViT: Aligning Latent Visual Thoughts for Multi-modal Reasoning 对齐潜在视觉思维用于多模态推理，将视觉信息的潜在表示与推理过程对齐。	📄PDF 💻GitHub
08	Reason-IAD: Knowledge-Guided Dynamic Latent Reasoning for Explainable Industrial Anomaly Detection 知识引导的动态潜空间推理用于可解释工业异常检测，将领域知识融入潜在推理过程。	📄PDF 💻GitHub
09	Parallel Latent Reasoning for Sequential Recommendation 面向序列推荐的并行潜空间推理，在潜在空间中并行处理多个推荐候选以提升效率。	📄PDF
10	Latent Chain-of-Thought as Planning: Decoupling Reasoning from Verbalization 将潜在思维链视为规划过程，解耦推理与语言化表达，在潜空间中执行计划生成。	📄PDF 💻GitHub

Section 14

合成数据

Synthetic Data · 利用AI自动生成高质量训练数据，缓解数据稀缺瓶颈

#	论文标题	资源链接
01	KODCODE: A Diverse, Challenging, and Verifiable Synthetic Dataset for Coding Findings ACL 面向编程领域的多样化、高挑战性、可验证合成数据集，为代码模型训练提供高质量数据。	📄PDF 💻GitHub
02	MegaPairs: Massive Data Synthesis for Universal Multimodal Retrieval ACL 2025 面向通用多模态检索的大规模数据合成，通过合成方法生成海量多模态检索训练对。	📄PDF 💻GitHub
03	Key-Point-Driven Data Synthesis with Its Enhancement on Mathematical Reasoning AAAI 关键点驱动的数据合成及其在数学推理上的增强效果，通过关键点引导生成高质量推理数据。	📄PDF
04	DemoGen: Synthetic Demonstration Generation for Data-Efficient Visuomotor Policy Learning 低成本全合成演示生成方法，仅需每个任务一个人工采集的演示，通过3D点云编辑重新排列场景物体生成空间增强演示。显著提升真实世界操作任务中的策略性能，可扩展至可变形物体和灵巧手等挑战场景。	📄PDF 💻GitHub
05	Zero-Shot Class Unlearning in CLIP with Synthetic Samples WACV 2025 利用合成样本实现CLIP模型中的零样本类别遗忘，为模型可控编辑提供合成数据方法。	📄PDF
06	DriveDreamer4D: World Models Are Effective Data Machines for 4D Driving Scene Representation CVPR 2025 世界模型作为有效的数据机器用于4D驾驶场景表示，利用世界模型生成合成驾驶数据。	📄PDF 💻GitHub
07	OmniSQL: Synthesizing High-quality Text-to-SQL Data at Scale 大规模合成高质量Text-to-SQL数据，通过自动化的数据生成流水线构建SQL训练数据集。	📄PDF 💻GitHub
08	LLM-Friendly Knowledge Representation for Customer Support COLING Industry 面向客户支持的LLM友好知识表示，优化知识库的表示形式以提升LLM的客服能力。	📄PDF
09	APIGen-MT: Agentic Pipeline for Multi-Turn Data Generation via Simulated Agent-Human Interplay 通过模拟Agent-Human交互的多轮数据生成智能体流水线，自动化构建多轮对话API调用数据集。	📄PDF 🤗Model 🌐Website

Section 15

实时多模态对话系统

Real-time Multimodal Dialogue · 流式音视频理解与实时交互响应

#	论文标题	资源链接
01	ROMA: Real-time Omni-Multimodal Assistant with Interactive Streaming Understanding 实时全模态助手，将连续输入作为同步多模态单元处理，对齐密集音频与离散视频帧。引入轻量级speak head解耦响应发起与生理解码，通过两阶段课程学习逐步优化流式理解和主动响应能力。在12个基准上主动任务达到SOTA水平。	📄PDF 💻GitHub
02	RIVER: A Real-Time Interaction Benchmark for Video LLMs 面向视频大模型的实时交互基准测试，标准化评估视频LLM在实时交互场景下的表现。	📄PDF 💻GitHub
03	AFFECTMIND: Proactive Knowledge Grounding with Affective Multimodal Signals for Aligned Marketing Dialogue 利用情感多模态信号进行主动知识扎根的营销对话系统，将情感计算融入对话生成。	📄PDF
04	A Decade Later: Evolution of Real-Time Embedded Virtual Presence Systems (An HCI Perspective) 十年后回顾：实时嵌入式虚拟存在系统的演进（人机交互视角），系统梳理该领域的十年发展。	📄PDF
05	Router-Suggest: Dynamic Routing for Multimodal Auto-Completion in Visually-Grounded Dialogs 面向视觉扎根对话的多模态自动补全动态路由，根据对话上下文智能选择模态通道。	📄PDF 💻GitHub
06	FlashLabs Chroma 1.0: A Real-Time End-to-End Spoken Dialogue Model with Personalized Voice Cloning 实时端到端口语对话模型，支持个性化声音克隆，实现自然的语音交互体验。	📄PDF 🤗Model
07	Reproducing Proficiency-Conditioned Dialogue Features with Full-Duplex Spoken Dialogue Models IWSDS 利用全双工口语对话模型复现熟练度条件下的对话特征，研究对话能力水平的建模。	📄PDF

Section 16

高性能、低成本推理基础设施

LLM Inference Infrastructure · KV Cache压缩、注意力优化、吞吐量提升

#	论文标题	资源链接
01	Large-Scale LLM Inference with Heterogeneous Workloads: Prefill-Decode Contention and Asymptotically Optimal Control 针对异构LLM推理负载，开发随机控制框架调度GPU集群工作负载。分析Prefill-Decode阶段的资源争用，设计门控路由策略实现渐近最优分配，并扩展支持SLI约束（延迟和公平性）。	📄PDF
02	Making MoE-based LLM Inference Resilient with TARRAGON 利用TARRAGON使基于MoE的LLM推理更具弹性，解决混合专家模型在推理中的韧性挑战。	📄PDF
03	SlimInfer: Accelerating Long-Context LLM Inference via Dynamic Token Pruning AAAI 通过动态Token剪枝加速长上下文LLM推理，在保证质量的前提下减少不必要的计算量。	📄PDF
04	PackInfer: Compute- and I/O-Efficient Attention for Batched LLM Inference 面向批处理LLM推理的计算和I/O高效注意力机制，优化批量推理时的资源利用。	📄PDF
05	KeepKV: Achieving Periodic Lossless KV Cache Compression for Efficient LLM Inference AAAI 实现周期性无损KV Cache压缩以提升LLM推理效率，在不丢失信息的情况下压缩注意力缓存。	📄PDF
06	Accelerating LLM Inference Throughput via Asynchronous KV Cache Prefetching AAAI 通过异步KV Cache预取加速LLM推理吞吐量，利用预计算减少推理延迟。	📄PDF
07	Fast KVzip: Efficient and Accurate LLM Inference with Gated KV Eviction 带门控KV驱逐的高效精确LLM推理，通过智能化的KV缓存淘汰策略优化推理性能。	📄PDF 💻GitHub

Section 17

安全、对齐与系统可控性、可部署性

Safety, Alignment & Deployability · 确保LLM系统的安全性、对齐性与可控部署

#	论文标题	资源链接
01	ReasAlign: Reasoning Enhanced Safety Alignment against Prompt Injection Attack 推理增强的安全对齐方法，通过强化推理能力防御提示注入攻击，提升模型安全性。	📄PDF 💻GitHub
02	Where to Start Alignment? Diffusion Large Language Model May Demand a Distinct Position AAAI 探讨扩散大语言模型的对齐起点问题，指出扩散式LLM可能需要独特的对齐策略。	📄PDF
03	STAR-S: Improving Safety Alignment through Self-Taught Reasoning on Safety Rules 通过安全规则的自我教学推理提升安全对齐效果，使模型自主学习和内化安全准则。	📄PDF 💻GitHub
04	AsFT: Anchoring Safety During LLM Fine-Tuning Within Narrow Safety Basin AAAI 在狭窄安全基线内锚定LLM微调过程中的安全性，防止微调导致的安全退化。	📄PDF 💻GitHub
05	Hidden in the Noise: Unveiling Backdoors in Audio LLMs Alignment Through Latent Acoustic Pattern Triggers AAAI 揭示隐藏在音频LLM对齐中的后门——通过潜在声学模式触发器进行的隐蔽攻击研究。	📄PDF