深度之眼论文精选汇总

2026 大模型必读论文 · 研究方向17
深度之眼整理  |  涵盖原生统一多模态模型、世界模型、VLA、Agent系统、表征学习、奖励设计、推理优化等前沿方向
17
研究方向
127
精选论文
6
顶级会议
目 录
Section 01
原生统一全模态模型
Unified Multimodal Models · 原生多模态理解与生成统一架构
# 论文标题 资源链接
01
Show-o2: Improved Native Unified Multimodal Models
NeurIPS 2025
结合自回归建模与流匹配技术,基于3D因果变分自编码器空间,实现图像与视频模态的可扩展性,同时保证有效的多模态理解与生成。设计了两阶段训练方案,在文本、图像和视频等多种模态下展现出广泛的通用性。
02
UniG2U-Bench: Do Unified Models Advance Multimodal Understanding?
评估统一模型在多模态理解任务中的表现,探讨统一架构是否真正推动了多模态理解的发展。
03
Ming-Lite-Uni: Advancements in Unified Architecture for Natural Multimodal Interaction
开源多模态框架,具有全新设计的统一视觉生成器和原生多模态自回归模型。引入多尺度可学习令牌和多尺度表示对齐策略,使原生多模态AR模型能够执行文本到图像生成及基于指令的图像编辑任务。
04
Scaling Laws for Native Multimodal Models
ICCV 2025
研究原生多模态模型的缩放定律,揭示模型规模、数据量与性能之间的定量关系。
05
Uni-MMMU: A Massive Multi-discipline Multimodal Unified Benchmark
大规模多学科多模态统一基准测试,用于评估统一多模态模型在跨学科任务上的综合能力。
06
Mobile-O: Unified Multimodal Understanding and Generation on Mobile Device
面向移动设备的统一多模态理解与生成模型,实现端侧高效部署,兼顾性能与资源约束。
07
M4U: Evaluating Multilingual Understanding and Reasoning for Large Multimodal Models
WACV 2026
评估大型多模态模型的多语言理解与推理能力,构建跨语言多模态评测基准。
08
Tuna: Taming Unified Visual Representations for Native Unified Multimodal Model
驯化统一视觉表征,为原生统一多模态模型提供更稳定、更有效的视觉表示方法。
09
UniEval: Unified Holistic Evaluation for Unified Multimodal Understanding and Generation
统一的多模态理解与生成综合评估框架,为统一模型提供全方位、一体化的评测方案。
10
UniModel: A Visual-Only Framework for Unified Multimodal Understanding and Generation
纯视觉框架实现统一多模态理解与生成,探索仅依赖视觉模态的多模态统一方案。
Section 02
世界模型(World Models)
World Models · 从自动驾驶到机器人操作的世界建模与仿真
# 论文标题 资源链接
01
LiDARCrafter: Dynamic 4D World Modeling from LiDAR Sequences
AAAI
基于LiDAR序列的动态4D世界建模,利用激光雷达数据构建高保真时空场景表示。
02
OccTENS: 3D Occupancy World Model via Temporal Next-Scale Prediction
基于时序下一尺度预测的3D占据世界模型,实现精细化的三维场景理解与预测。
03
FlowDreamer: A RGB-D World Model with Flow-based Motion Representations for Robot Manipulation
基于光流运动表示的RGB-D世界模型,面向机器人操作任务的场景动态理解与预测。
04
UniDrive-WM: Unified Planning and Generation World Model For Autonomous Driving
面向自动驾驶的统一规划与生成世界模型,将规划与场景生成能力统一建模。
05
Pre-Trained Video Generative Models as World Simulators
AAAI
将预训练视频生成模型作为世界模拟器,探索视频生成模型在环境仿真中的潜力。
06
COSMOS POLICY: Fine-Tuning Video Models for Visuomotor Control and Planning
微调视频模型用于视觉运动控制与规划,将视频生成能力迁移到机器人控制领域。
07
Navigation World Models
CVPR 2025
面向导航任务的世界模型,使智能体能够对环境进行预测性建模以辅助导航决策。
08
AETHER: Geometric-Aware Unified World Modeling
ICCV 2025
几何感知的统一世界建模方法,将几何信息融入世界模型以提升场景理解精度。
09
End-to-End Driving with Online Trajectory Evaluation via BEV World Model
ICCV 2025
基于BEV世界模型的端到端驾驶系统,通过在线轨迹评估实现安全自动驾驶。
10
DrivingGPT: Unifying Driving World Modeling and Planning with Multi-modal Autoregressive Transformers
ICCV 2025
统一驾驶世界建模与规划的多模态自回归Transformer,将场景理解与驾驶决策联合建模。
11
Mastering Diverse Control Tasks Through World Models
Nature
通过世界模型掌握多样化的控制任务,发表于Nature,探索世界模型在广泛控制场景中的通用性。
Section 03
Vision-Language-Action(VLA)模型
VLA Models · 视觉-语言-动作模型,连接感知与执行的统一架构
# 论文标题 资源链接
01
VLA-Adapter: An Effective Paradigm for Tiny-Scale Vision-Language-Action Model
AAAI
面向超小规模VLA模型的高效适配器范式,在资源受限场景中实现有效的视觉-语言-动作建模。
02
How Fast Can I Run My VLA? Demystifying VLA Inference Performance with VLA-Perf
首次系统研究VLA推理性能的全景图。引入VLA-Perf分析模型,研究模型缩放、架构选择、长上下文视频输入、异步推理等对性能的影响,并提供15条关键结论用于指导未来VLA模型与系统设计。
03
AsyncVLA: An Asynchronous VLA for Fast and Robust Navigation on the Edge
面向边缘设备的异步VLA模型,在计算受限条件下实现快速鲁棒的导航能力。
04
Balancing Signal and Variance: Adaptive Offline RL Post-Training for VLA Flow Models
AAAI
平衡信号与方差的适应性离线RL后训练方法,用于VLA流模型的优化。
05
MoLe-VLA: Dynamic Layer-skipping Vision Language Action Model via Mixture-of-Layers for Efficient Robot Manipulation
AAAI
基于Mixture-of-Layers的动态层跳过VLA模型,通过选择性跳过网络层实现高效机器人操作。
06
VLANeXt: Recipes for Building Strong VLA Models
构建强VLA模型的实践指南,提供系统化的模型构建方法论和关键技巧。
07
Phantom Menace: Exploring and Enhancing the Robustness of VLA Models Against Physical Sensor Attacks
AAAI
探索并增强VLA模型对物理传感器攻击的鲁棒性,研究对抗攻击对视觉-语言-动作模型的安全威胁。
08
GraphCoT-VLA: A 3D Spatial-Aware Reasoning Vision-Language-Action Model for Robotic Manipulation with Ambiguous Instructions
AAAI
3D空间感知推理VLA模型,利用图结构思维链处理模糊指令下的机器人操作任务。
09
Spec-VLA: Speculative Decoding for Vision-Language-Action Models with Relaxed Acceptance
EMNLP 2025
面向VLA模型的推测解码加速方法,通过宽松接受策略提升推理效率而不牺牲决策质量。
10
VQ-VLA: Improving Vision-Language-Action Models via Scaling Vector-Quantized Action Tokenizers
ICCV 2025
通过扩展向量量化动作分词器改进VLA模型,提升动作空间的表示效率。
11
JARVIS-VLA: Post-Training Large-Scale Vision Language Models to Play Visual Games with Keyboards and Mouse
Findings ACL
后训练大规模视觉语言模型,使其通过键盘和鼠标操作视觉游戏,拓展VLA在游戏交互中的应用。
12
VLA-Mark: A Cross Modal for Large Vision-Language Alignment Models
EMNLP 2025
大型视觉-语言对齐模型的跨模态标记方法,增强VLA中视觉与语言之间的对齐能力。
13
CoT-VLA: Visual Chain-of-Thought Reasoning for Vision-Language-Action Models
CVPR 2025
面向VLA模型的视觉思维链推理,将视觉推理过程显式化以提升模型的可解释性和决策质量。
Section 04
Agent 系统(Agentic Systems)
Agentic Systems · 智能体系统,从罕见病诊断到智能手机操控的自主决策
# 论文标题 资源链接
01
An Agentic System for Rare Disease Diagnosis with Traceable Reasoning
Nature
具有可追溯推理能力的罕见病诊断智能体系统,发表于Nature,将AI推理能力应用于医学诊断。
02
ClawMobile: Rethinking Smartphone-Native Agentic Systems
重新思考智能手机原生智能体系统,探索在移动端原生实现自主Agent交互的新范式。
03
CorrectAD: A Self-Correcting Agentic System to Improve End-to-End Planning in Autonomous Driving
AAAI
具有自纠正能力的智能体系统,提升自动驾驶中端到端规划的准确性和鲁棒性。
04
Policy Search, Retrieval, and Composition via Task Similarity in Collaborative Agentic Systems
AAAI
在协作智能体系统中通过任务相似度进行策略搜索、检索与组合,实现高效的多Agent协作。
05
AdaptJobRec: Enhancing Conversational Career Recommendation Through an LLM-Powered Agentic System
AAAI
基于LLM的智能体系统增强对话式职业推荐,提升求职推荐系统的个性化与交互体验。
06
Fact2Fiction: Targeted Poisoning Attack to Agentic Fact-checking System
AAAI
针对智能体事实核查系统的定向投毒攻击,研究Agent系统在对抗性环境中的安全脆弱性。
07
Preacher: Paper-to-Video Agentic System
论文转视频的智能体系统,自动化将学术论文内容转化为可理解的视频演示。
08
SwarmAgentic: Towards Fully Automated Agentic System Generation via Swarm Intelligence
EMNLP 2025
通过群体智能实现全自动化智能体系统生成,利用群体协作的涌现能力构建自主Agent。
09
Inherent and Emergent Liability Issues in LLM-based Agentic Systems: A Principal-Agent Perspective
ReALM
从委托-代理视角分析基于LLM的智能体系统中固有的和涌现的责任问题。
10
X-WebAgentBench: A Multilingual Interactive Web Benchmark for Evaluating Global Agentic System
Findings ACL
面向全球智能体系统评估的多语言交互式Web基准测试,覆盖多语种多场景的Agent评测。
11
From Conversation to Orchestration: HCI Challenges and Opportunities in Interactive Multi-Agentic Systems
ACM
从对话到编排:交互式多智能体系统中的人机交互挑战与机遇。
12
VibeMus: Proactive Agentic System for Music Personalization
ACM
面向音乐个性化的主动智能体系统,根据用户偏好自动推荐和调整音乐内容。
Section 05
有效表征提取
Representation Learning · 加速下游神经网络学习的高效表征方法
# 论文标题 资源链接
01
History Compression via Language Models in Reinforcement Learning
在强化学习中通过语言模型进行历史压缩,利用LM将长期交互历史压缩为紧凑的语义表示。
02
Semantic HELM: A Human-Readable Memory for Reinforcement Learning
语义HELM:面向强化学习的可读记忆系统,将RL智能体的经验以人类可读的形式存储与检索。
03
Learning Transferable Visual Models from Natural Language Supervision (CLIP)
经典CLIP论文——从自然语言监督中学习可迁移的视觉模型,开创性工作连接视觉与语言表征。
04
Representation Learning with Contrastive Predictive Coding
基于对比预测编码的表示学习,提出CPC方法通过预测未来表征来学习通用表示。
05
Efficient Policy Adaptation with Contrastive Prompt Ensemble for Embodied Agents
NeurIPS 2023
基于对比提示集成的具身智能体高效策略适应方法,通过提示学习实现跨任务策略迁移。
06
ReCoRe: Regularized Contrastive Representation Learning of World Model
世界模型的正则化对比表示学习方法,提升世界模型学习到的表征质量。
Section 06
自然语言翻译
Language Grounding · 将自然语言指令翻译为可执行的动作与策略
# 论文标题 资源链接
01
Natural Language Conditioned Reinforcement Learning with Inside-out Task Language Development and Translation
自然语言条件强化学习,通过由内而外的任务语言开发与翻译机制连接语言与RL策略。
02
STARLING: Self-supervised Training of Text-based Reinforcement Learning Agent with Large Language Models
利用LLM对基于文本的RL智能体进行自监督训练,将语言模型的先验知识迁移到RL中。
03
Grounding Language to Non-Markovian Tasks with No Supervision of Task Specifications
在无任务规范监督的情况下将语言指令绑定到非马尔可夫任务,实现零样本语言驱动策略。
04
Learning Rewards from Linguistic Feedback
从语言反馈中学习奖励信号,将人类的自然语言评价转化为RL可使用的奖励函数。
05
Code as Policies: Language Model Programs for Embodied Control
经典论文"以代码为策略"——将语言模型生成的代码直接作为具身控制策略,开创LLM驱动机器人控制的新范式。
06
LLM-Planner: Few-shot Grounded Planning for Embodied Agents with Large Language Models
利用LLM进行少样本场景理解的具身智能体规划,将高层语言指令分解为可执行的动作序列。
07
Informing Reinforcement Learning Agents by Grounding Natural Language to Markov Decision Processes
将自然语言扎根到马尔可夫决策过程中,为RL智能体提供结构化的语言指导信息。
Section 07
隐式奖励函数设计
Implicit Reward Design · 通过语言模型和VLM隐式引导强化学习奖励信号
# 论文标题 资源链接
01
Reward Design with Language Models
利用语言模型进行奖励设计,将LLM的语义理解能力隐式转化为RL奖励信号。
02
Read and Reap the Rewards: Learning to Play Atari with the Help of Instruction Manuals
借助说明书学习玩Atari游戏——利用自然语言手册隐式指导RL智能体的奖励探索方向。
03
Grounding Large Language Models in Interactive Environments with Online Reinforcement Learning
通过在线RL将LLM扎根到交互环境中,隐式地从环境反馈中优化语言模型的指导能力。
04
Vision-Language Models are Zero-Shot Reward Models for Reinforcement Learning
视觉-语言模型可作为RL的零样本奖励模型,直接利用VLM的视觉语义判断作为隐式奖励信号。
05
Accelerating Reinforcement Learning of Robotic Manipulations via Feedback from Large Language Models
通过LLM反馈加速机器人操作的强化学习过程,将大模型的先验知识隐式注入训练循环。
06
Guide Your Agent with Adaptive Multimodal Rewards
使用自适应多模态奖励引导智能体,结合多种信息源构建隐式奖励信号。
07
Language Reward Modulation for Pretraining Reinforcement Learning
面向RL预训练的语言奖励调制,利用语言信号在预训练阶段调节奖励函数的形状。
Section 08
显式奖励函数设计
Explicit Reward Design · 通过LLM生成可执行的代码化奖励函数
# 论文标题 资源链接
01
Language to Rewards for Robotic Skill Synthesis
从语言描述到奖励函数——面向机器人技能合成的显式奖励设计方法(Google DeepMind)。
02
Self-Refine: Iterative Refinement with Self Feedback
自精炼方法:通过自我反馈进行迭代改进,为奖励函数的自我优化提供框架。
03
Self-Refined Large Language Model as Automated Reward Function Designer for Deep Reinforcement Learning in Robotics
将自精炼LLM作为深度RL的自动奖励函数设计器,为机器人任务生成高质量代码化奖励。
04
Eureka: Human-Level Reward Design via Coding Large Language Models
利用GPT-4等先进LLM的零样本生成和代码编写能力进行进化式奖励函数优化。在29个开源RL环境中,Eureka在83%的任务上超越人类专家,平均提升52%的归一化性能。首次展示模拟Shadow Hand能够执行转笔技巧。
05
Text2Reward: Reward Shaping with Language Models for Reinforcement Learning
用语言模型为RL进行奖励塑形,将自然语言任务描述自动转化为可执行的奖励函数代码。
Section 09
决策问题中的大模型运用(直接决策者)
LLM as Direct Decision Maker · 大语言模型直接参与动作选择与策略生成
# 论文标题 资源链接
01
Unleashing the Power of Pre-trained Language Models for Offline Reinforcement Learning (LaMo)
提出LaMo框架,将预训练语言模型有效应用于离线RL。基于Decision Transformer,使用LoRA微调、非线性MLP嵌入和辅助语言预测损失,在稀疏奖励任务中表现优异,在数据有限场景中展现出卓越性能。
02
Can Wikipedia Help Offline Reinforcement Learning?
探索Wikipedia知识能否帮助离线RL——利用百科知识为策略学习提供先验信息。
03
Pre-Trained Language Models for Interactive Decision Making
预训练语言模型用于交互式决策,将LM的推理能力直接融入决策过程。
04
Think Before You Act: Unified Policy for Interleaving Language Reasoning with Actions
"先思考后行动"——统一策略框架将语言推理与动作执行交织进行,提升决策质量。
05
AMAGO: Scalable In-Context Reinforcement Learning for Adaptive Agents
可扩展的上下文内强化学习框架,使智能体能够通过上下文学习适应多样化任务。
06
RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control
RT-2:视觉-语言-动作模型将互联网知识迁移到机器人控制,Google Robotics经典工作。
Section 10
决策问题中的大模型运用(间接决策者)
LLM as Indirect Decision Helper · 大语言模型辅助策略学习与训练
# 论文标题 资源链接
01
Keep CALM and Explore: Language Models for Action Generation in Text-based Games
在文字游戏中使用语言模型生成动作,通过"保持冷静"的探索策略提升文本交互能力。
02
Do As I Can, Not As I Say: Grounding Language in Robotic Affordances
"照我做的做,别照我说的做"——将语言扎根到机器人可执行的操作中,Google SayCan经典工作。
03
Language Instructed Reinforcement Learning for Human-AI Coordination
面向人机协同的语言指导强化学习,通过自然语言指令促进人类与AI智能体的协作。
04
Large Language Model is a Good Policy Teacher for Training Reinforcement Learning Agents
大语言模型是训练RL智能体的优秀策略教师,利用LLM生成教学信号辅助策略学习。
Section 11
多模态世界模型
Multimodal World Models · 基于Transformer的世界建模与序列决策
# 论文标题 资源链接
01
Decision Transformer: Reinforcement Learning via Sequence Modeling
决策Transformer——将RL问题转化为序列建模问题,开创性地用Transformer架构进行策略学习。
02
Transformers are Sample Efficient World Models (IRIS)
Transformer是样本高效的世界模型(IRIS),探索Transformer作为世界模型在RL中的表现。
03
Transformer Based World Models Are Happy With 100k Interactions (TWM)
基于Transformer的世界模型仅需10万次交互即可有效学习,大幅降低世界模型的训练数据需求。
04
TransDreamer: Reinforcement Learning with Transformer World Models
利用Transformer世界模型进行强化学习,将世界模型与策略学习结合以提升样本效率。
05
Reinforcement Learning with Action-Free Pre-Training from Videos
从视频中无动作预训练的强化学习,仅利用视觉观测预训练世界模型后进行策略微调。
Section 12
策略解释器
Policy Explanation · 强化学习策略的可解释性研究
# 论文标题 资源链接
01
A Survey of Explainable Reinforcement Learning
可解释强化学习综述,系统梳理RL策略解释方法的研究进展与未来方向。
02
State2Explanation: Concept-based Explanations to Benefit Agent Learning and User Understanding
基于概念的状态解释方法,将智能体的状态映射到人类可理解的概念空间,双向促进学习与理解。
03
Understanding Language in the World by Predicting the Future
通过预测未来来理解世界中的语言,将语言理解与世界模型的预测能力结合。
Section 13
隐式/潜空间推理
Latent Reasoning · 在潜空间中执行推理,消除显式文本生成的开销
# 论文标题 资源链接
01
AIN-OF-THOUGHT: An Empirical Study of Causal Structure
思维链中的因果结构实证研究,探讨CoT推理中的因果关系与结构特性。
02
LaST0: Latent Spatio-Temporal Chain-of-Thought for Robotic Vision-Language-Action Model
面向机器人VLA模型的潜在时空思维链方法,在潜空间中建模时空推理过程。
03
Latent Reasoning VLA (LaRA-VLA): Latent Thinking and Prediction for Vision-Language-Action Models
ICML 2026
将多模态CoT推理内化为连续潜在表示的统一VLA框架。在潜空间中执行统一推理与预测,消除推理时的显式CoT生成,推理延迟降低高达90%,证明潜空间推理是实时具身控制的有效高效范式。
04
Beyond Imitation: Reinforcement Learning for Active Latent Planning
超越模仿学习:面向主动潜空间规划的强化学习,在潜在空间中进行前瞻性规划。
05
LaST-VLA: Thinking in Latent Spatio-Temporal Space for Vision-Language-Action in Autonomous Driving
面向自动驾驶的潜在时空思维VLA模型,在潜空间中融合时空推理进行驾驶决策。
06
Efficient Post-Training Refinement of Latent Reasoning in Large Language Models
AAAI
大语言模型中潜空间推理的高效后训练精炼方法,在保持性能的同时优化推理效率。
07
LaViT: Aligning Latent Visual Thoughts for Multi-modal Reasoning
对齐潜在视觉思维用于多模态推理,将视觉信息的潜在表示与推理过程对齐。
08
Reason-IAD: Knowledge-Guided Dynamic Latent Reasoning for Explainable Industrial Anomaly Detection
知识引导的动态潜空间推理用于可解释工业异常检测,将领域知识融入潜在推理过程。
09
Parallel Latent Reasoning for Sequential Recommendation
面向序列推荐的并行潜空间推理,在潜在空间中并行处理多个推荐候选以提升效率。
10
Latent Chain-of-Thought as Planning: Decoupling Reasoning from Verbalization
将潜在思维链视为规划过程,解耦推理与语言化表达,在潜空间中执行计划生成。
Section 14
合成数据
Synthetic Data · 利用AI自动生成高质量训练数据,缓解数据稀缺瓶颈
# 论文标题 资源链接
01
KODCODE: A Diverse, Challenging, and Verifiable Synthetic Dataset for Coding
Findings ACL
面向编程领域的多样化、高挑战性、可验证合成数据集,为代码模型训练提供高质量数据。
02
MegaPairs: Massive Data Synthesis for Universal Multimodal Retrieval
ACL 2025
面向通用多模态检索的大规模数据合成,通过合成方法生成海量多模态检索训练对。
03
Key-Point-Driven Data Synthesis with Its Enhancement on Mathematical Reasoning
AAAI
关键点驱动的数据合成及其在数学推理上的增强效果,通过关键点引导生成高质量推理数据。
04
DemoGen: Synthetic Demonstration Generation for Data-Efficient Visuomotor Policy Learning
低成本全合成演示生成方法,仅需每个任务一个人工采集的演示,通过3D点云编辑重新排列场景物体生成空间增强演示。显著提升真实世界操作任务中的策略性能,可扩展至可变形物体和灵巧手等挑战场景。
05
Zero-Shot Class Unlearning in CLIP with Synthetic Samples
WACV 2025
利用合成样本实现CLIP模型中的零样本类别遗忘,为模型可控编辑提供合成数据方法。
06
DriveDreamer4D: World Models Are Effective Data Machines for 4D Driving Scene Representation
CVPR 2025
世界模型作为有效的数据机器用于4D驾驶场景表示,利用世界模型生成合成驾驶数据。
07
OmniSQL: Synthesizing High-quality Text-to-SQL Data at Scale
大规模合成高质量Text-to-SQL数据,通过自动化的数据生成流水线构建SQL训练数据集。
08
LLM-Friendly Knowledge Representation for Customer Support
COLING Industry
面向客户支持的LLM友好知识表示,优化知识库的表示形式以提升LLM的客服能力。
09
APIGen-MT: Agentic Pipeline for Multi-Turn Data Generation via Simulated Agent-Human Interplay
通过模拟Agent-Human交互的多轮数据生成智能体流水线,自动化构建多轮对话API调用数据集。
Section 15
实时多模态对话系统
Real-time Multimodal Dialogue · 流式音视频理解与实时交互响应
# 论文标题 资源链接
01
ROMA: Real-time Omni-Multimodal Assistant with Interactive Streaming Understanding
实时全模态助手,将连续输入作为同步多模态单元处理,对齐密集音频与离散视频帧。引入轻量级speak head解耦响应发起与生理解码,通过两阶段课程学习逐步优化流式理解和主动响应能力。在12个基准上主动任务达到SOTA水平。
02
RIVER: A Real-Time Interaction Benchmark for Video LLMs
面向视频大模型的实时交互基准测试,标准化评估视频LLM在实时交互场景下的表现。
03
AFFECTMIND: Proactive Knowledge Grounding with Affective Multimodal Signals for Aligned Marketing Dialogue
利用情感多模态信号进行主动知识扎根的营销对话系统,将情感计算融入对话生成。
04
A Decade Later: Evolution of Real-Time Embedded Virtual Presence Systems (An HCI Perspective)
十年后回顾:实时嵌入式虚拟存在系统的演进(人机交互视角),系统梳理该领域的十年发展。
05
Router-Suggest: Dynamic Routing for Multimodal Auto-Completion in Visually-Grounded Dialogs
面向视觉扎根对话的多模态自动补全动态路由,根据对话上下文智能选择模态通道。
06
FlashLabs Chroma 1.0: A Real-Time End-to-End Spoken Dialogue Model with Personalized Voice Cloning
实时端到端口语对话模型,支持个性化声音克隆,实现自然的语音交互体验。
07
Reproducing Proficiency-Conditioned Dialogue Features with Full-Duplex Spoken Dialogue Models
IWSDS
利用全双工口语对话模型复现熟练度条件下的对话特征,研究对话能力水平的建模。
Section 16
高性能、低成本推理基础设施
LLM Inference Infrastructure · KV Cache压缩、注意力优化、吞吐量提升
# 论文标题 资源链接
01
Large-Scale LLM Inference with Heterogeneous Workloads: Prefill-Decode Contention and Asymptotically Optimal Control
针对异构LLM推理负载,开发随机控制框架调度GPU集群工作负载。分析Prefill-Decode阶段的资源争用,设计门控路由策略实现渐近最优分配,并扩展支持SLI约束(延迟和公平性)。
02
Making MoE-based LLM Inference Resilient with TARRAGON
利用TARRAGON使基于MoE的LLM推理更具弹性,解决混合专家模型在推理中的韧性挑战。
03
SlimInfer: Accelerating Long-Context LLM Inference via Dynamic Token Pruning
AAAI
通过动态Token剪枝加速长上下文LLM推理,在保证质量的前提下减少不必要的计算量。
04
PackInfer: Compute- and I/O-Efficient Attention for Batched LLM Inference
面向批处理LLM推理的计算和I/O高效注意力机制,优化批量推理时的资源利用。
05
KeepKV: Achieving Periodic Lossless KV Cache Compression for Efficient LLM Inference
AAAI
实现周期性无损KV Cache压缩以提升LLM推理效率,在不丢失信息的情况下压缩注意力缓存。
06
Accelerating LLM Inference Throughput via Asynchronous KV Cache Prefetching
AAAI
通过异步KV Cache预取加速LLM推理吞吐量,利用预计算减少推理延迟。
07
Fast KVzip: Efficient and Accurate LLM Inference with Gated KV Eviction
带门控KV驱逐的高效精确LLM推理,通过智能化的KV缓存淘汰策略优化推理性能。
Section 17
安全、对齐与系统可控性、可部署性
Safety, Alignment & Deployability · 确保LLM系统的安全性、对齐性与可控部署
# 论文标题 资源链接
01
ReasAlign: Reasoning Enhanced Safety Alignment against Prompt Injection Attack
推理增强的安全对齐方法,通过强化推理能力防御提示注入攻击,提升模型安全性。
02
Where to Start Alignment? Diffusion Large Language Model May Demand a Distinct Position
AAAI
探讨扩散大语言模型的对齐起点问题,指出扩散式LLM可能需要独特的对齐策略。
03
STAR-S: Improving Safety Alignment through Self-Taught Reasoning on Safety Rules
通过安全规则的自我教学推理提升安全对齐效果,使模型自主学习和内化安全准则。
04
AsFT: Anchoring Safety During LLM Fine-Tuning Within Narrow Safety Basin
AAAI
在狭窄安全基线内锚定LLM微调过程中的安全性,防止微调导致的安全退化。
05
Hidden in the Noise: Unveiling Backdoors in Audio LLMs Alignment Through Latent Acoustic Pattern Triggers
AAAI
揭示隐藏在音频LLM对齐中的后门——通过潜在声学模式触发器进行的隐蔽攻击研究。