深度之眼论文精选汇总
2026 大模型必读论文 · 研究方向17
17
研究方向
127
精选论文
6
顶级会议
目 录
01原生统一全模态模型10 篇
02世界模型(World Models)11 篇
03Vision-Language-Action(VLA)模型13 篇
04Agent 系统(Agentic Systems)12 篇
05有效表征提取6 篇
06自然语言翻译7 篇
07隐式奖励函数设计7 篇
08显式奖励函数设计5 篇
09决策问题中的大模型运用(直接决策者)6 篇
10决策问题中的大模型运用(间接决策者)4 篇
11多模态世界模型5 篇
12策略解释器3 篇
13隐式/潜空间推理10 篇
14合成数据9 篇
15实时多模态对话系统7 篇
16高性能、低成本推理基础设施7 篇
17安全、对齐与系统可控性、可部署性5 篇
Section 01
原生统一全模态模型
Unified Multimodal Models · 原生多模态理解与生成统一架构
| # | 论文标题 | 资源链接 |
|---|---|---|
| 01 |
Show-o2: Improved Native Unified Multimodal Models
NeurIPS 2025
结合自回归建模与流匹配技术,基于3D因果变分自编码器空间,实现图像与视频模态的可扩展性,同时保证有效的多模态理解与生成。设计了两阶段训练方案,在文本、图像和视频等多种模态下展现出广泛的通用性。
|
PDF GitHub |
| 02 |
UniG2U-Bench: Do Unified Models Advance Multimodal Understanding?
评估统一模型在多模态理解任务中的表现,探讨统一架构是否真正推动了多模态理解的发展。
|
PDF GitHub |
| 03 |
Ming-Lite-Uni: Advancements in Unified Architecture for Natural Multimodal Interaction
开源多模态框架,具有全新设计的统一视觉生成器和原生多模态自回归模型。引入多尺度可学习令牌和多尺度表示对齐策略,使原生多模态AR模型能够执行文本到图像生成及基于指令的图像编辑任务。
|
PDF GitHub |
| 04 |
Scaling Laws for Native Multimodal Models
ICCV 2025
研究原生多模态模型的缩放定律,揭示模型规模、数据量与性能之间的定量关系。
|
|
| 05 |
Uni-MMMU: A Massive Multi-discipline Multimodal Unified Benchmark
大规模多学科多模态统一基准测试,用于评估统一多模态模型在跨学科任务上的综合能力。
|
PDF GitHub |
| 06 |
Mobile-O: Unified Multimodal Understanding and Generation on Mobile Device
面向移动设备的统一多模态理解与生成模型,实现端侧高效部署,兼顾性能与资源约束。
|
PDF GitHub |
| 07 |
M4U: Evaluating Multilingual Understanding and Reasoning for Large Multimodal Models
WACV 2026
评估大型多模态模型的多语言理解与推理能力,构建跨语言多模态评测基准。
|
PDF GitHub |
| 08 |
Tuna: Taming Unified Visual Representations for Native Unified Multimodal Model
驯化统一视觉表征,为原生统一多模态模型提供更稳定、更有效的视觉表示方法。
|
|
| 09 |
UniEval: Unified Holistic Evaluation for Unified Multimodal Understanding and Generation
统一的多模态理解与生成综合评估框架,为统一模型提供全方位、一体化的评测方案。
|
PDF GitHub |
| 10 |
UniModel: A Visual-Only Framework for Unified Multimodal Understanding and Generation
纯视觉框架实现统一多模态理解与生成,探索仅依赖视觉模态的多模态统一方案。
|
Section 02
世界模型(World Models)
World Models · 从自动驾驶到机器人操作的世界建模与仿真
| # | 论文标题 | 资源链接 |
|---|---|---|
| 01 |
LiDARCrafter: Dynamic 4D World Modeling from LiDAR Sequences
AAAI
基于LiDAR序列的动态4D世界建模,利用激光雷达数据构建高保真时空场景表示。
|
PDF Project |
| 02 |
OccTENS: 3D Occupancy World Model via Temporal Next-Scale Prediction
基于时序下一尺度预测的3D占据世界模型,实现精细化的三维场景理解与预测。
|
|
| 03 |
FlowDreamer: A RGB-D World Model with Flow-based Motion Representations for Robot Manipulation
基于光流运动表示的RGB-D世界模型,面向机器人操作任务的场景动态理解与预测。
|
PDF GitHub |
| 04 |
UniDrive-WM: Unified Planning and Generation World Model For Autonomous Driving
面向自动驾驶的统一规划与生成世界模型,将规划与场景生成能力统一建模。
|
PDF Project |
| 05 |
Pre-Trained Video Generative Models as World Simulators
AAAI
将预训练视频生成模型作为世界模拟器,探索视频生成模型在环境仿真中的潜力。
|
|
| 06 |
COSMOS POLICY: Fine-Tuning Video Models for Visuomotor Control and Planning
微调视频模型用于视觉运动控制与规划,将视频生成能力迁移到机器人控制领域。
|
PDF Project |
| 07 |
Navigation World Models
CVPR 2025
面向导航任务的世界模型,使智能体能够对环境进行预测性建模以辅助导航决策。
|
PDF GitHub |
| 08 |
AETHER: Geometric-Aware Unified World Modeling
ICCV 2025
几何感知的统一世界建模方法,将几何信息融入世界模型以提升场景理解精度。
|
|
| 09 |
End-to-End Driving with Online Trajectory Evaluation via BEV World Model
ICCV 2025
基于BEV世界模型的端到端驾驶系统,通过在线轨迹评估实现安全自动驾驶。
|
PDF GitHub |
| 10 |
DrivingGPT: Unifying Driving World Modeling and Planning with Multi-modal Autoregressive Transformers
ICCV 2025
统一驾驶世界建模与规划的多模态自回归Transformer,将场景理解与驾驶决策联合建模。
|
PDF GitHub |
| 11 |
Mastering Diverse Control Tasks Through World Models
Nature
通过世界模型掌握多样化的控制任务,发表于Nature,探索世界模型在广泛控制场景中的通用性。
|
Section 03
Vision-Language-Action(VLA)模型
VLA Models · 视觉-语言-动作模型,连接感知与执行的统一架构
| # | 论文标题 | 资源链接 |
|---|---|---|
| 01 |
VLA-Adapter: An Effective Paradigm for Tiny-Scale Vision-Language-Action Model
AAAI
面向超小规模VLA模型的高效适配器范式,在资源受限场景中实现有效的视觉-语言-动作建模。
|
|
| 02 |
How Fast Can I Run My VLA? Demystifying VLA Inference Performance with VLA-Perf
首次系统研究VLA推理性能的全景图。引入VLA-Perf分析模型,研究模型缩放、架构选择、长上下文视频输入、异步推理等对性能的影响,并提供15条关键结论用于指导未来VLA模型与系统设计。
|
PDF GitHub |
| 03 |
AsyncVLA: An Asynchronous VLA for Fast and Robust Navigation on the Edge
面向边缘设备的异步VLA模型,在计算受限条件下实现快速鲁棒的导航能力。
|
PDF GitHub |
| 04 |
Balancing Signal and Variance: Adaptive Offline RL Post-Training for VLA Flow Models
AAAI
平衡信号与方差的适应性离线RL后训练方法,用于VLA流模型的优化。
|
|
| 05 |
MoLe-VLA: Dynamic Layer-skipping Vision Language Action Model via Mixture-of-Layers for Efficient Robot Manipulation
AAAI
基于Mixture-of-Layers的动态层跳过VLA模型,通过选择性跳过网络层实现高效机器人操作。
|
|
| 06 |
VLANeXt: Recipes for Building Strong VLA Models
构建强VLA模型的实践指南,提供系统化的模型构建方法论和关键技巧。
|
PDF GitHub |
| 07 |
Phantom Menace: Exploring and Enhancing the Robustness of VLA Models Against Physical Sensor Attacks
AAAI
探索并增强VLA模型对物理传感器攻击的鲁棒性,研究对抗攻击对视觉-语言-动作模型的安全威胁。
|
|
| 08 |
GraphCoT-VLA: A 3D Spatial-Aware Reasoning Vision-Language-Action Model for Robotic Manipulation with Ambiguous Instructions
AAAI
3D空间感知推理VLA模型,利用图结构思维链处理模糊指令下的机器人操作任务。
|
|
| 09 |
Spec-VLA: Speculative Decoding for Vision-Language-Action Models with Relaxed Acceptance
EMNLP 2025
面向VLA模型的推测解码加速方法,通过宽松接受策略提升推理效率而不牺牲决策质量。
|
PDF GitHub |
| 10 |
VQ-VLA: Improving Vision-Language-Action Models via Scaling Vector-Quantized Action Tokenizers
ICCV 2025
通过扩展向量量化动作分词器改进VLA模型,提升动作空间的表示效率。
|
PDF GitHub |
| 11 |
JARVIS-VLA: Post-Training Large-Scale Vision Language Models to Play Visual Games with Keyboards and Mouse
Findings ACL
后训练大规模视觉语言模型,使其通过键盘和鼠标操作视觉游戏,拓展VLA在游戏交互中的应用。
|
PDF GitHub |
| 12 |
VLA-Mark: A Cross Modal for Large Vision-Language Alignment Models
EMNLP 2025
大型视觉-语言对齐模型的跨模态标记方法,增强VLA中视觉与语言之间的对齐能力。
|
PDF GitHub |
| 13 |
CoT-VLA: Visual Chain-of-Thought Reasoning for Vision-Language-Action Models
CVPR 2025
面向VLA模型的视觉思维链推理,将视觉推理过程显式化以提升模型的可解释性和决策质量。
|
PDF Project |
Section 04
Agent 系统(Agentic Systems)
Agentic Systems · 智能体系统,从罕见病诊断到智能手机操控的自主决策
| # | 论文标题 | 资源链接 |
|---|---|---|
| 01 |
An Agentic System for Rare Disease Diagnosis with Traceable Reasoning
Nature
具有可追溯推理能力的罕见病诊断智能体系统,发表于Nature,将AI推理能力应用于医学诊断。
|
|
| 02 |
ClawMobile: Rethinking Smartphone-Native Agentic Systems
重新思考智能手机原生智能体系统,探索在移动端原生实现自主Agent交互的新范式。
|
PDF GitHub |
| 03 |
CorrectAD: A Self-Correcting Agentic System to Improve End-to-End Planning in Autonomous Driving
AAAI
具有自纠正能力的智能体系统,提升自动驾驶中端到端规划的准确性和鲁棒性。
|
|
| 04 |
Policy Search, Retrieval, and Composition via Task Similarity in Collaborative Agentic Systems
AAAI
在协作智能体系统中通过任务相似度进行策略搜索、检索与组合,实现高效的多Agent协作。
|
|
| 05 |
AdaptJobRec: Enhancing Conversational Career Recommendation Through an LLM-Powered Agentic System
AAAI
基于LLM的智能体系统增强对话式职业推荐,提升求职推荐系统的个性化与交互体验。
|
|
| 06 |
Fact2Fiction: Targeted Poisoning Attack to Agentic Fact-checking System
AAAI
针对智能体事实核查系统的定向投毒攻击,研究Agent系统在对抗性环境中的安全脆弱性。
|
|
| 07 |
Preacher: Paper-to-Video Agentic System
论文转视频的智能体系统,自动化将学术论文内容转化为可理解的视频演示。
|
PDF GitHub |
| 08 |
SwarmAgentic: Towards Fully Automated Agentic System Generation via Swarm Intelligence
EMNLP 2025
通过群体智能实现全自动化智能体系统生成,利用群体协作的涌现能力构建自主Agent。
|
PDF GitHub |
| 09 |
Inherent and Emergent Liability Issues in LLM-based Agentic Systems: A Principal-Agent Perspective
ReALM
从委托-代理视角分析基于LLM的智能体系统中固有的和涌现的责任问题。
|
|
| 10 |
X-WebAgentBench: A Multilingual Interactive Web Benchmark for Evaluating Global Agentic System
Findings ACL
面向全球智能体系统评估的多语言交互式Web基准测试,覆盖多语种多场景的Agent评测。
|
|
| 11 |
From Conversation to Orchestration: HCI Challenges and Opportunities in Interactive Multi-Agentic Systems
ACM
从对话到编排:交互式多智能体系统中的人机交互挑战与机遇。
|
|
| 12 |
VibeMus: Proactive Agentic System for Music Personalization
ACM
面向音乐个性化的主动智能体系统,根据用户偏好自动推荐和调整音乐内容。
|
Section 05
有效表征提取
Representation Learning · 加速下游神经网络学习的高效表征方法
| # | 论文标题 | 资源链接 |
|---|---|---|
| 01 |
History Compression via Language Models in Reinforcement Learning
在强化学习中通过语言模型进行历史压缩,利用LM将长期交互历史压缩为紧凑的语义表示。
|
PDF GitHub |
| 02 |
Semantic HELM: A Human-Readable Memory for Reinforcement Learning
语义HELM:面向强化学习的可读记忆系统,将RL智能体的经验以人类可读的形式存储与检索。
|
PDF GitHub |
| 03 |
Learning Transferable Visual Models from Natural Language Supervision (CLIP)
经典CLIP论文——从自然语言监督中学习可迁移的视觉模型,开创性工作连接视觉与语言表征。
|
PDF GitHub |
| 04 |
Representation Learning with Contrastive Predictive Coding
基于对比预测编码的表示学习,提出CPC方法通过预测未来表征来学习通用表示。
|
PDF GitHub |
| 05 |
Efficient Policy Adaptation with Contrastive Prompt Ensemble for Embodied Agents
NeurIPS 2023
基于对比提示集成的具身智能体高效策略适应方法,通过提示学习实现跨任务策略迁移。
|
|
| 06 |
ReCoRe: Regularized Contrastive Representation Learning of World Model
世界模型的正则化对比表示学习方法,提升世界模型学习到的表征质量。
|
Section 06
自然语言翻译
Language Grounding · 将自然语言指令翻译为可执行的动作与策略
| # | 论文标题 | 资源链接 |
|---|---|---|
| 01 |
Natural Language Conditioned Reinforcement Learning with Inside-out Task Language Development and Translation
自然语言条件强化学习,通过由内而外的任务语言开发与翻译机制连接语言与RL策略。
|
PDF GitHub |
| 02 |
STARLING: Self-supervised Training of Text-based Reinforcement Learning Agent with Large Language Models
利用LLM对基于文本的RL智能体进行自监督训练,将语言模型的先验知识迁移到RL中。
|
PDF GitHub |
| 03 |
Grounding Language to Non-Markovian Tasks with No Supervision of Task Specifications
在无任务规范监督的情况下将语言指令绑定到非马尔可夫任务,实现零样本语言驱动策略。
|
|
| 04 |
Learning Rewards from Linguistic Feedback
从语言反馈中学习奖励信号,将人类的自然语言评价转化为RL可使用的奖励函数。
|
PDF GitHub |
| 05 |
Code as Policies: Language Model Programs for Embodied Control
经典论文"以代码为策略"——将语言模型生成的代码直接作为具身控制策略,开创LLM驱动机器人控制的新范式。
|
PDF GitHub |
| 06 |
LLM-Planner: Few-shot Grounded Planning for Embodied Agents with Large Language Models
利用LLM进行少样本场景理解的具身智能体规划,将高层语言指令分解为可执行的动作序列。
|
PDF GitHub |
| 07 |
Informing Reinforcement Learning Agents by Grounding Natural Language to Markov Decision Processes
将自然语言扎根到马尔可夫决策过程中,为RL智能体提供结构化的语言指导信息。
|
Section 07
隐式奖励函数设计
Implicit Reward Design · 通过语言模型和VLM隐式引导强化学习奖励信号
| # | 论文标题 | 资源链接 |
|---|---|---|
| 01 |
Reward Design with Language Models
利用语言模型进行奖励设计,将LLM的语义理解能力隐式转化为RL奖励信号。
|
PDF GitHub |
| 02 |
Read and Reap the Rewards: Learning to Play Atari with the Help of Instruction Manuals
借助说明书学习玩Atari游戏——利用自然语言手册隐式指导RL智能体的奖励探索方向。
|
PDF GitHub |
| 03 |
Grounding Large Language Models in Interactive Environments with Online Reinforcement Learning
通过在线RL将LLM扎根到交互环境中,隐式地从环境反馈中优化语言模型的指导能力。
|
PDF GitHub |
| 04 |
Vision-Language Models are Zero-Shot Reward Models for Reinforcement Learning
视觉-语言模型可作为RL的零样本奖励模型,直接利用VLM的视觉语义判断作为隐式奖励信号。
|
PDF GitHub |
| 05 |
Accelerating Reinforcement Learning of Robotic Manipulations via Feedback from Large Language Models
通过LLM反馈加速机器人操作的强化学习过程,将大模型的先验知识隐式注入训练循环。
|
|
| 06 |
Guide Your Agent with Adaptive Multimodal Rewards
使用自适应多模态奖励引导智能体,结合多种信息源构建隐式奖励信号。
|
PDF GitHub |
| 07 |
Language Reward Modulation for Pretraining Reinforcement Learning
面向RL预训练的语言奖励调制,利用语言信号在预训练阶段调节奖励函数的形状。
|
PDF GitHub |
Section 08
显式奖励函数设计
Explicit Reward Design · 通过LLM生成可执行的代码化奖励函数
| # | 论文标题 | 资源链接 |
|---|---|---|
| 01 |
Language to Rewards for Robotic Skill Synthesis
从语言描述到奖励函数——面向机器人技能合成的显式奖励设计方法(Google DeepMind)。
|
PDF GitHub |
| 02 |
Self-Refine: Iterative Refinement with Self Feedback
自精炼方法:通过自我反馈进行迭代改进,为奖励函数的自我优化提供框架。
|
PDF GitHub |
| 03 |
Self-Refined Large Language Model as Automated Reward Function Designer for Deep Reinforcement Learning in Robotics
将自精炼LLM作为深度RL的自动奖励函数设计器,为机器人任务生成高质量代码化奖励。
|
PDF GitHub |
| 04 |
Eureka: Human-Level Reward Design via Coding Large Language Models
利用GPT-4等先进LLM的零样本生成和代码编写能力进行进化式奖励函数优化。在29个开源RL环境中,Eureka在83%的任务上超越人类专家,平均提升52%的归一化性能。首次展示模拟Shadow Hand能够执行转笔技巧。
|
PDF GitHub |
| 05 |
Text2Reward: Reward Shaping with Language Models for Reinforcement Learning
用语言模型为RL进行奖励塑形,将自然语言任务描述自动转化为可执行的奖励函数代码。
|
PDF GitHub |
Section 09
决策问题中的大模型运用(直接决策者)
LLM as Direct Decision Maker · 大语言模型直接参与动作选择与策略生成
| # | 论文标题 | 资源链接 |
|---|---|---|
| 01 |
Unleashing the Power of Pre-trained Language Models for Offline Reinforcement Learning (LaMo)
提出LaMo框架,将预训练语言模型有效应用于离线RL。基于Decision Transformer,使用LoRA微调、非线性MLP嵌入和辅助语言预测损失,在稀疏奖励任务中表现优异,在数据有限场景中展现出卓越性能。
|
PDF GitHub |
| 02 |
Can Wikipedia Help Offline Reinforcement Learning?
探索Wikipedia知识能否帮助离线RL——利用百科知识为策略学习提供先验信息。
|
PDF GitHub |
| 03 |
Pre-Trained Language Models for Interactive Decision Making
预训练语言模型用于交互式决策,将LM的推理能力直接融入决策过程。
|
PDF GitHub |
| 04 |
Think Before You Act: Unified Policy for Interleaving Language Reasoning with Actions
"先思考后行动"——统一策略框架将语言推理与动作执行交织进行,提升决策质量。
|
|
| 05 |
AMAGO: Scalable In-Context Reinforcement Learning for Adaptive Agents
可扩展的上下文内强化学习框架,使智能体能够通过上下文学习适应多样化任务。
|
PDF GitHub |
| 06 |
RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control
RT-2:视觉-语言-动作模型将互联网知识迁移到机器人控制,Google Robotics经典工作。
|
PDF GitHub |
Section 10
决策问题中的大模型运用(间接决策者)
LLM as Indirect Decision Helper · 大语言模型辅助策略学习与训练
| # | 论文标题 | 资源链接 |
|---|---|---|
| 01 |
Keep CALM and Explore: Language Models for Action Generation in Text-based Games
在文字游戏中使用语言模型生成动作,通过"保持冷静"的探索策略提升文本交互能力。
|
PDF GitHub |
| 02 |
Do As I Can, Not As I Say: Grounding Language in Robotic Affordances
"照我做的做,别照我说的做"——将语言扎根到机器人可执行的操作中,Google SayCan经典工作。
|
PDF GitHub |
| 03 |
Language Instructed Reinforcement Learning for Human-AI Coordination
面向人机协同的语言指导强化学习,通过自然语言指令促进人类与AI智能体的协作。
|
|
| 04 |
Large Language Model is a Good Policy Teacher for Training Reinforcement Learning Agents
大语言模型是训练RL智能体的优秀策略教师,利用LLM生成教学信号辅助策略学习。
|
PDF GitHub |
Section 11
多模态世界模型
Multimodal World Models · 基于Transformer的世界建模与序列决策
| # | 论文标题 | 资源链接 |
|---|---|---|
| 01 |
Decision Transformer: Reinforcement Learning via Sequence Modeling
决策Transformer——将RL问题转化为序列建模问题,开创性地用Transformer架构进行策略学习。
|
PDF GitHub |
| 02 |
Transformers are Sample Efficient World Models (IRIS)
Transformer是样本高效的世界模型(IRIS),探索Transformer作为世界模型在RL中的表现。
|
PDF GitHub |
| 03 |
Transformer Based World Models Are Happy With 100k Interactions (TWM)
基于Transformer的世界模型仅需10万次交互即可有效学习,大幅降低世界模型的训练数据需求。
|
PDF GitHub |
| 04 |
TransDreamer: Reinforcement Learning with Transformer World Models
利用Transformer世界模型进行强化学习,将世界模型与策略学习结合以提升样本效率。
|
PDF GitHub |
| 05 |
Reinforcement Learning with Action-Free Pre-Training from Videos
从视频中无动作预训练的强化学习,仅利用视觉观测预训练世界模型后进行策略微调。
|
PDF GitHub |
Section 12
策略解释器
Policy Explanation · 强化学习策略的可解释性研究
| # | 论文标题 | 资源链接 |
|---|---|---|
| 01 |
A Survey of Explainable Reinforcement Learning
可解释强化学习综述,系统梳理RL策略解释方法的研究进展与未来方向。
|
|
| 02 |
State2Explanation: Concept-based Explanations to Benefit Agent Learning and User Understanding
基于概念的状态解释方法,将智能体的状态映射到人类可理解的概念空间,双向促进学习与理解。
|
|
| 03 |
Understanding Language in the World by Predicting the Future
通过预测未来来理解世界中的语言,将语言理解与世界模型的预测能力结合。
|
Section 13
隐式/潜空间推理
Latent Reasoning · 在潜空间中执行推理,消除显式文本生成的开销
| # | 论文标题 | 资源链接 |
|---|---|---|
| 01 |
AIN-OF-THOUGHT: An Empirical Study of Causal Structure
思维链中的因果结构实证研究,探讨CoT推理中的因果关系与结构特性。
|
PDF GitHub |
| 02 |
LaST0: Latent Spatio-Temporal Chain-of-Thought for Robotic Vision-Language-Action Model
面向机器人VLA模型的潜在时空思维链方法,在潜空间中建模时空推理过程。
|
PDF GitHub |
| 03 |
Latent Reasoning VLA (LaRA-VLA): Latent Thinking and Prediction for Vision-Language-Action Models
ICML 2026
将多模态CoT推理内化为连续潜在表示的统一VLA框架。在潜空间中执行统一推理与预测,消除推理时的显式CoT生成,推理延迟降低高达90%,证明潜空间推理是实时具身控制的有效高效范式。
|
PDF GitHub |
| 04 |
Beyond Imitation: Reinforcement Learning for Active Latent Planning
超越模仿学习:面向主动潜空间规划的强化学习,在潜在空间中进行前瞻性规划。
|
PDF GitHub |
| 05 |
LaST-VLA: Thinking in Latent Spatio-Temporal Space for Vision-Language-Action in Autonomous Driving
面向自动驾驶的潜在时空思维VLA模型,在潜空间中融合时空推理进行驾驶决策。
|
PDF GitHub |
| 06 |
Efficient Post-Training Refinement of Latent Reasoning in Large Language Models
AAAI
大语言模型中潜空间推理的高效后训练精炼方法,在保持性能的同时优化推理效率。
|
|
| 07 |
LaViT: Aligning Latent Visual Thoughts for Multi-modal Reasoning
对齐潜在视觉思维用于多模态推理,将视觉信息的潜在表示与推理过程对齐。
|
PDF GitHub |
| 08 |
Reason-IAD: Knowledge-Guided Dynamic Latent Reasoning for Explainable Industrial Anomaly Detection
知识引导的动态潜空间推理用于可解释工业异常检测,将领域知识融入潜在推理过程。
|
PDF GitHub |
| 09 |
Parallel Latent Reasoning for Sequential Recommendation
面向序列推荐的并行潜空间推理,在潜在空间中并行处理多个推荐候选以提升效率。
|
|
| 10 |
Latent Chain-of-Thought as Planning: Decoupling Reasoning from Verbalization
将潜在思维链视为规划过程,解耦推理与语言化表达,在潜空间中执行计划生成。
|
PDF GitHub |
Section 14
合成数据
Synthetic Data · 利用AI自动生成高质量训练数据,缓解数据稀缺瓶颈
| # | 论文标题 | 资源链接 |
|---|---|---|
| 01 |
KODCODE: A Diverse, Challenging, and Verifiable Synthetic Dataset for Coding
Findings ACL
面向编程领域的多样化、高挑战性、可验证合成数据集,为代码模型训练提供高质量数据。
|
PDF GitHub |
| 02 |
MegaPairs: Massive Data Synthesis for Universal Multimodal Retrieval
ACL 2025
面向通用多模态检索的大规模数据合成,通过合成方法生成海量多模态检索训练对。
|
PDF GitHub |
| 03 |
Key-Point-Driven Data Synthesis with Its Enhancement on Mathematical Reasoning
AAAI
关键点驱动的数据合成及其在数学推理上的增强效果,通过关键点引导生成高质量推理数据。
|
|
| 04 |
DemoGen: Synthetic Demonstration Generation for Data-Efficient Visuomotor Policy Learning
低成本全合成演示生成方法,仅需每个任务一个人工采集的演示,通过3D点云编辑重新排列场景物体生成空间增强演示。显著提升真实世界操作任务中的策略性能,可扩展至可变形物体和灵巧手等挑战场景。
|
PDF GitHub |
| 05 |
Zero-Shot Class Unlearning in CLIP with Synthetic Samples
WACV 2025
利用合成样本实现CLIP模型中的零样本类别遗忘,为模型可控编辑提供合成数据方法。
|
|
| 06 |
DriveDreamer4D: World Models Are Effective Data Machines for 4D Driving Scene Representation
CVPR 2025
世界模型作为有效的数据机器用于4D驾驶场景表示,利用世界模型生成合成驾驶数据。
|
PDF GitHub |
| 07 |
OmniSQL: Synthesizing High-quality Text-to-SQL Data at Scale
大规模合成高质量Text-to-SQL数据,通过自动化的数据生成流水线构建SQL训练数据集。
|
PDF GitHub |
| 08 |
LLM-Friendly Knowledge Representation for Customer Support
COLING Industry
面向客户支持的LLM友好知识表示,优化知识库的表示形式以提升LLM的客服能力。
|
|
| 09 |
APIGen-MT: Agentic Pipeline for Multi-Turn Data Generation via Simulated Agent-Human Interplay
通过模拟Agent-Human交互的多轮数据生成智能体流水线,自动化构建多轮对话API调用数据集。
|
PDF Model Website |
Section 15
实时多模态对话系统
Real-time Multimodal Dialogue · 流式音视频理解与实时交互响应
| # | 论文标题 | 资源链接 |
|---|---|---|
| 01 |
ROMA: Real-time Omni-Multimodal Assistant with Interactive Streaming Understanding
实时全模态助手,将连续输入作为同步多模态单元处理,对齐密集音频与离散视频帧。引入轻量级speak head解耦响应发起与生理解码,通过两阶段课程学习逐步优化流式理解和主动响应能力。在12个基准上主动任务达到SOTA水平。
|
PDF GitHub |
| 02 |
RIVER: A Real-Time Interaction Benchmark for Video LLMs
面向视频大模型的实时交互基准测试,标准化评估视频LLM在实时交互场景下的表现。
|
PDF GitHub |
| 03 |
AFFECTMIND: Proactive Knowledge Grounding with Affective Multimodal Signals for Aligned Marketing Dialogue
利用情感多模态信号进行主动知识扎根的营销对话系统,将情感计算融入对话生成。
|
|
| 04 |
A Decade Later: Evolution of Real-Time Embedded Virtual Presence Systems (An HCI Perspective)
十年后回顾:实时嵌入式虚拟存在系统的演进(人机交互视角),系统梳理该领域的十年发展。
|
|
| 05 |
Router-Suggest: Dynamic Routing for Multimodal Auto-Completion in Visually-Grounded Dialogs
面向视觉扎根对话的多模态自动补全动态路由,根据对话上下文智能选择模态通道。
|
PDF GitHub |
| 06 |
FlashLabs Chroma 1.0: A Real-Time End-to-End Spoken Dialogue Model with Personalized Voice Cloning
实时端到端口语对话模型,支持个性化声音克隆,实现自然的语音交互体验。
|
PDF Model |
| 07 |
Reproducing Proficiency-Conditioned Dialogue Features with Full-Duplex Spoken Dialogue Models
IWSDS
利用全双工口语对话模型复现熟练度条件下的对话特征,研究对话能力水平的建模。
|
Section 16
高性能、低成本推理基础设施
LLM Inference Infrastructure · KV Cache压缩、注意力优化、吞吐量提升
| # | 论文标题 | 资源链接 |
|---|---|---|
| 01 |
Large-Scale LLM Inference with Heterogeneous Workloads: Prefill-Decode Contention and Asymptotically Optimal Control
针对异构LLM推理负载,开发随机控制框架调度GPU集群工作负载。分析Prefill-Decode阶段的资源争用,设计门控路由策略实现渐近最优分配,并扩展支持SLI约束(延迟和公平性)。
|
|
| 02 |
Making MoE-based LLM Inference Resilient with TARRAGON
利用TARRAGON使基于MoE的LLM推理更具弹性,解决混合专家模型在推理中的韧性挑战。
|
|
| 03 |
SlimInfer: Accelerating Long-Context LLM Inference via Dynamic Token Pruning
AAAI
通过动态Token剪枝加速长上下文LLM推理,在保证质量的前提下减少不必要的计算量。
|
|
| 04 |
PackInfer: Compute- and I/O-Efficient Attention for Batched LLM Inference
面向批处理LLM推理的计算和I/O高效注意力机制,优化批量推理时的资源利用。
|
|
| 05 |
KeepKV: Achieving Periodic Lossless KV Cache Compression for Efficient LLM Inference
AAAI
实现周期性无损KV Cache压缩以提升LLM推理效率,在不丢失信息的情况下压缩注意力缓存。
|
|
| 06 |
Accelerating LLM Inference Throughput via Asynchronous KV Cache Prefetching
AAAI
通过异步KV Cache预取加速LLM推理吞吐量,利用预计算减少推理延迟。
|
|
| 07 |
Fast KVzip: Efficient and Accurate LLM Inference with Gated KV Eviction
带门控KV驱逐的高效精确LLM推理,通过智能化的KV缓存淘汰策略优化推理性能。
|
PDF GitHub |
Section 17
安全、对齐与系统可控性、可部署性
Safety, Alignment & Deployability · 确保LLM系统的安全性、对齐性与可控部署
| # | 论文标题 | 资源链接 |
|---|---|---|
| 01 |
ReasAlign: Reasoning Enhanced Safety Alignment against Prompt Injection Attack
推理增强的安全对齐方法,通过强化推理能力防御提示注入攻击,提升模型安全性。
|
PDF GitHub |
| 02 |
Where to Start Alignment? Diffusion Large Language Model May Demand a Distinct Position
AAAI
探讨扩散大语言模型的对齐起点问题,指出扩散式LLM可能需要独特的对齐策略。
|
|
| 03 |
STAR-S: Improving Safety Alignment through Self-Taught Reasoning on Safety Rules
通过安全规则的自我教学推理提升安全对齐效果,使模型自主学习和内化安全准则。
|
PDF GitHub |
| 04 |
AsFT: Anchoring Safety During LLM Fine-Tuning Within Narrow Safety Basin
AAAI
在狭窄安全基线内锚定LLM微调过程中的安全性,防止微调导致的安全退化。
|
PDF GitHub |
| 05 |
Hidden in the Noise: Unveiling Backdoors in Audio LLMs Alignment Through Latent Acoustic Pattern Triggers
AAAI
揭示隐藏在音频LLM对齐中的后门——通过潜在声学模式触发器进行的隐蔽攻击研究。
|