《Deep Multimodal Learning with Missing Modality - A Survey》（持续更新中）

Mr.L2026-03-18

Deep Multimodal Learning with Missing Modality: A Survey

来源：https://openreview.net/forum?id=tc7RFcx4hT

方法论概述

数据处理

根据缺失模态的层级划分为“模态填充”和“基于表示的模型”，分别对应在模态数据层级或数据表示层级进行缺失模态处理。

模态填充： 操作在模态数据层级，通过模态合成或模态生成方法来填补缺失模态的信息。

核心思想：若能准确填补缺失模态，则下游任务可继续进行，像“完整”模态可用一样。

基于表示的模型： 在表示层级上解决缺失模态的问题。

通过协调表示方法对不同模态的表示施加特定约束，使不同模态在语义空间中的表示进行对齐，从而使得即使面对缺失的模态，模型仍然能够有效训练。
通过使用现有数据生成缺失模态的表示，或结合现有模态的表示填补空缺。

策略设计方面

基于模型内部架构调整和多模型组合，在训练和测试过程中动态适应不同缺失模态情况。

架构聚焦模型： 设计灵活的模型架构来处理缺失模态，从而适应训练或推理过程中可用模态的数量变化；

基于注意力机制：动态调整模态的融合和处理，使模型能处理任意数量的输入模态；
基于知识蒸馏：从完整模态模型向处理不完全数据的模型传递知识，或在模型内部的不同分支之间进行蒸馏，从而适应缺失的模态。
基于图学习的方法：利用模态之间的关系，使用图形动态地融合和处理可用的模态，同时弥补缺失的模态。
MLLMs（多模态长序列模型）：能够处理长时序的上下文作为特征处理器，接受并处理任意数量模态的表示。

模型组合： 利用多个模型或专门训练技术来解决缺失模态问题。

针对不同模态情况的专用训练策略，每种情况都经过优化训练以获得最佳性能。
集成方法：基于部分/完整模态训练的模型进行组合，根据可用的模态选择最合适的模型进行联合预测。
离散调度器方法：整合各种下游模块，智能地选择并组合多个模型或模块的输出，执行特定任务。

数据处理方法

模态填充

通过对现有模态进行各种转换或操作，填充缺失模态或生成缺失的模态，从而得到包含缺失模态的完整数据集。

模态组合方法：使用零值、随机值或从相似实例复制的数据作为缺失模态数据的输入；
模态生成方法：使用生成模型（如自编码器、生成对抗网络（GANs）或扩散模型）生成缺失模态数据。

模态组合方法

特点： 简单有效、能够保持原始数据集大小。可以防止模型对每个样本中可用的主导模态产生过度依赖，平衡地整合所有可用模态的信息

方法：

零值/随机值组合方法： 将缺失模态替换为零值或随机值。

模态组合方法

基于检索的表示组合方法： 通过随机选择、复制或平均与缺失模态相同类别的样本数据替换缺失的模态数据。
- 局限：不适用像素级任务，仅适用于简单任务（如分类），因为若组合不匹配样本，可能会导致噪声数据过拟合，且无法解决测试阶段的模态缺失问题，因为它依赖于已知训练数据标签。
- 在一些多模态流数据分类任务中，通过使用过去的帧来弥补缺失的帧。
基于 KNN 检索：与缺失模态最匹配的样本组合，选择得分最高的样本，或这些样本的平均值来补充缺失的模态数据。
- 局限：计算复杂性高、对不平衡数据敏感以及显著的内存开销等问题。

局限性：

上述所有方法都可以完成缺失模态的数据集，但会降低数据集的多样性，因为可能会引入重复的训练样本。
在大多数样本都缺失模态数据 的情况下，如果通过重复的样本填充缺失模态数据，将增加对某些类的过拟合 风险，尤其是对于那些只有少量完整模态样本的类 。

模态生成方法

特点： 利用表示学习和生成模型捕捉复杂的跨模态关系，生成缺失模态的数据。

当前的缺失模态数据生成方法分为个体生成方法和统一生成方法：

个体模态生成方法： 为每种模态训练一个独立的生成模型，在任何模态缺失的情况下生成缺失模态，如图（a）所示。
- 早期的研究使用高斯过程或玻尔兹曼机从可用数据中生成缺失模态；
- 自编码器（AEs）；
- 基于 U-Net 的多模态数据生成模块，通过领域对抗学习生成每个缺失的模态；
- 生成对抗网络（GANs）；
- 扩散模型（Diffusion models）；
统一原始数据生成方法： 训练一个统一模型同时生成所有模态，如图（b）所示。
- Cascade AE：堆叠自编码器（AEs）捕捉缺失模态和现有模态之间的差异，从而生成所有缺失模态；
- 利用注意力机制和最大池化（max-pooling）整合现有模态的特征，使特定模态的解码器能够接收可用的模态并生成其他缺失的模态。

局限性：

以上生成缺失模态的方法在一定程度上可缓解性能下降的问题。然而，当面临某一模态严重缺失的场景时，训练一个能够生成高质量缺失模态的生成器仍然具有挑战性。
模态生成模型增加了存储和计算需求。随着模态数量的增加，这些生成模型的复杂度也随之增加，进一步增加了训练过程和资源需求的难度。

基于检索的表示组合方法

面向表示的模型

目的： 旨在从表示层面解决缺失模态问题；

协调表示学习

协调表示方法

特点： 在不同模态的表示之间引入特定约束，使得学习到的表示在语义上保持一致。

方法：

基于正则化：
- 张量秩正则化（TRR）：对不同模态的张量进行外积运算，然后利用外积结果求和来实现多模态融合；
- 张量秩最小化：保持多模态表示的低秩，以表达多模态数据中真实相关性和潜在结构的张量，从而缓解输入数据的不完美问题
  - 解决时间序列中由于模态不完美（如缺失或噪声）导致的多模态表示张量秩过高的问题

在多模态数据中，真实的世界结构往往是低秩的，意味着数据冗余少、噪声小，因为不同模态（图片、文本、声音）之间是有联系、有逻辑的。

相关性驱动：
- 深度典型相关分析（Deep Canonical Correlation Analysis，CCA）：通过典型相关系数（Canonical Correlation Coefficient）最大化可用模态特征的关联性，从而实现对不完整数据集的训练；
- 最大似然函数：描述完整模态和缺失模态样本的条件分布；
- 基于Hilbert-Schmidt独立性准则（HSIC）：添加约束，模型强制无关特征之间的独立性，最大化相关特征之间的依赖关系，学习如何完成缺失模态特征。

局限性：

仅在使用两种或三种模态作为输入时表现良好；
即使在具有缺失模态的数据集上进行训练，一些方法在测试过程中仍然难以有效地解决缺失模态问题。

方法论在策略设计方面

架构聚焦模型

与上述在模态或表示层面处理缺失模态的方法不同，许多研究者通过调整模型的训练或测试架构来适应缺失模态的情况，主要分为四类：基于注意力的方法、基于蒸馏的方法、基于图学习的方法，以及多模态大语言模型。

基于注意力的方法

基于注意力的多模态方法（MLMM）分为两类：

注意力融合方法： 关注模态融合，不依赖于特定的模型类型，整合多模态信息，其输入和输出维度相同。

**模内注意力方法：**如图 (a) 所示，侧重单一模态内的关系，而模态之间的融合是通过共享部分信息来实现的
- 先独立地计算每个模态的特征表示 $x_i$ ；
- 初始化一个共享 Fusion Representation $f$ (一个可学习的全局向量，类似[CLS] );
- 对第 $i$ 个模态，执行一次：
$ \underbrace{f_{\text {new }}}{\text {更新后 }}=\underbrace{f{\text {old }}}{\text {之前的融合向量 }}+\underbrace{\operatorname{IntraAtten}\left(Q=f{\text {old }}, K=x_{i}, V=x_{i}\right)}_{\text {模态 } \mathrm{i} \text { 注入的信息 }}$
- 代表示例：
  - (1) BEV-Evolving Decoder [36]：用于 3D detection，在传感器故障或某些传感器缺失时，通过共享同一个 BEV query 给不同模态的 attention 模块，让系统能融合任意数量的模态。
    (2) Lee et al. [74] 的 modality-aware attention： 用于临床诊断。通过少量共享 bottleneck token 作为各模态交换信息的中介；缺失模态没有输入时，对应分支不参与，但 bottleneck token 能聚合剩下模态的信息。
模间注意力方法： 基于掩码注意力，将缺失模态特征视为掩码向量（零值或负无穷大值），捕捉可用模态之间的依赖关系，如图（b）所示。
- 每个模态的特征表示 $x_i$ , 拼接 $x=[x_1; x_2; x_3]$ , 共享参数 $W_Q,W_K,W_V$ , 缺失模态掩码: $M$ ( 缺失模态为 $−∞$ （或极小值），其他模态为 0)
- $Q=X * W_Q, K=X * W_K, V=X * W_V$ ，计算注意力分数
- 代表示例：
  - **(1) Qian et al. [134]：**设计了 attention mask matrix 忽略缺失模态；

	传统跨模态注意力	带掩码的跨模态注意力
参数	为每对模态设计独立 $W_Q,W_K,W_V$	所有模态共享同一套 $W_Q,W_K,W_V$
缺失模态处理	需单独训练缺失组合，或无法计算	用掩码直接屏蔽缺失模态，无需改参数
灵活性	依赖训练时见过的模态组合	可适配任意模态缺失情况

注意力融合方法

两种典型的注意力融合方法，假设模态 2 为缺失模态。(a) 模内注意力（图中的“IntraAtten”）可以跳过缺失的模态 2。由于不同模态的每个 Intra-Atten 都共享融合表示，在逐一计算后，输出表示为可用模态的融合结果；(b) 缺失模掩码将模态 2 的标记设置为零或负无穷大，在计算注意力时忽略缺失模态 2 。

基于 Transformer 的方法： 根据全量微调和 PEFT 分为两类

**联合表示学习（Joint Representation Learning, JRL）：**使用模态编码器从可用模态中提取特征 token，然后多模态 Transformer 从任意数量的模态标记中学习联合表示。
- Gong 等人 [38] 提出了一个基于第一人称视角的多模态任务，设计了一个基于 Transformer 的融合模块，该模块具有灵活数量的模态标记，并引入跨模态对比对齐损失，将特征映射到公共空间中。
- Mordacq 等人 [123] 利用掩蔽多模态 Transformer，将缺失的模态视为掩蔽标记，实现联合表示学习（JRL）。
- Ma 等人 [110] 在多模态 Transformer 中提出了一种优化融合策略搜索方法，帮助找到适合不同缺失/完整模态表示的最佳融合方法。
- Radosavovic 等人 [136] 为自回归 Transformer 引入了专门设计的掩蔽标记，用于管理缺失模态，并成功地将模型部署在实际场景中。
联合表示学习方法: 假设模态2是缺失模态, 使用特定的掩码 token 替代。在某些方法中，模态编码器（红色虚线框）可以被线性投影层替代。
参数高效学习（PEL）： 训练少量参数微调模型。针对预训练模型，常见的两种 PEL 方法是提示调优（prompt tuning）和适配器调优（adapter tuning）。
- Jang 等人 [61] 引入模态特定的提示，这些提示在所有模态都存在时合并，并允许模型在训练过程中更新所有可学习的提示。
- Liu 等人 [102] 进一步改进这一方法，提出了傅里叶提示（Fourier Prompt），利用快速傅里叶变换将可用模态的全局光谱信息编码到可学习的提示标记中，这些提示标记可以用来补充缺失模态的特征，并与特征标记进行交叉注意力，从而应对缺失模态的问题。
- Qiu 等人 [135] 提出了一个方法，使用分类器识别不同的缺失模态情况，并利用该分类器的中间特征作为缺失模态提示，与轻量级适配器配合使用，以解决缺失模态问题。
提示调优：通过优化输入提示（prompt）调整模型，保持模型参数不变；
适配器调优：将轻量级的适配器层（如 MLP）插入到预训练模型中，以适应新任务，而不修改原始参数；

尽管基于注意力的融合机制可以有效解决任何框架中的模态缺失问题，但未考虑缺失模态可能包含对预测至关重要的信息。

在基于 Transformer 的方法中，联合表示学习（JRL）方法通常受限于大量的计算资源，且需要相对较大数据集才能达到良好的性能。参数高效学习（PEL）方法可以实现高效的微调，但性能仍无法与 JRL 相媲美。

基于蒸馏的方法

知识蒸馏是将教师模型的知识传递给学生模型的过程。
教师模型可以访问更多的信息，从而帮助学生模型重建缺失的模态。

基于表示的蒸馏方法: 从教师模型转移特征表示，学生模型捕捉和重建缺失的模态特征, 根据是否使用logits或中间特征分类。

响应蒸馏方法: 侧重于将教师模型的 logits 转移给学生模型，帮助学生模型模仿概率分布。
- Wang等人 [178] 为缺失模态训练了模态特定的教师模型，然后使用其软标签来指导多模态学生模型。
- Hafner和Ban [45] 使用教师模型从光学数据中训练出的logits来监督重建网络，从雷达数据中近似重建缺失的光学特征。
- Pramit等人 [142] 提出了模态感知蒸馏方法，利用全球和局部教师知识，在联邦学习环境中帮助学生模型学习如何处理缺失模态。
中间层蒸馏方法： 对教师模型和学生模型的中间特征进行对齐。
- Shen等人[147]使用领域对抗相似性损失（Domain Adversarial Similarity Loss）对齐教师模型和学生模型的中间层，提升了缺失模态情况下的分割效果。
- Zhang等人[214]在子宫内膜异位症诊断中应用了中间层蒸馏，将从TVUS训练的教师模型的特征蒸馏到使用MRI数据的学生模型中。
训练阶段：
1. 先在完整模态上预训练 Teacher DNN
2. 固定 Teacher，用蒸馏损失 + 下游任务损失联合训练 Student DNN
推理阶段：
1. 仅使用 Student DNN，输入缺失模态数据即可；
2. Student 已通过蒸馏学到 Teacher 的完整模态知识，能在缺失场景下保持鲁棒性能；

基于蒸馏的方法

表示蒸馏方法: 假设模态2缺失, 为了区分教师模型和学生模型的表示我们将中间层蒸馏称为使用模型内任意组合的中间层特征。
Teacher DNN：在完整模态（Mod1+Mod2+Mod3)上训练，掌握更全面的多模态知识
Student DNN：在缺失模态（Mod2 缺失，仅 Mod1+Mod3）上训练，通过蒸馏学习 Teacher 的知识，弥补缺失模态带来的信息损失。

模块	中间层蒸馏	响应层蒸馏
对齐对象	Teacher 与 Student 的中间层特征	Teacher 与 Student 的最终表征 / 输出层
目标	让 Student 在特征层面学习 Teacher 的多模态知识，弥补缺失模态的信息差	让 Student 的输出分布（软标签）对齐 Teacher 的输出分布；
损失函数	通常用 MSE 或 KL 散度，约束 `Student 中间层 ≈ Teacher 中间层`	常用 KL 散度（蒸馏温度 T 控制软标签平滑度），约束 `Student 输出 ≈ Teacher 输出`

基于过程的蒸馏方法： 侧重于整体蒸馏策略，强调过程学习，而非直接的表征传递。

平均教师蒸馏（Mean Teacher Distillation, MTD）： 使用学生模型参数的指数移动平均作为教师模型 (图a)，增强了模型的稳定性。
- Chen等人[23]将此方法应用于缺失模态情感分析，将缺失的样本视为增强数据。
- Li等人[87]在激光雷达-雷达分割中使用了 MTD，提升了对缺失模态的鲁棒性。
自我蒸馏: 从自身的软表征中学习来帮助模型改进（图b）。
- Wang等人提出了ShaSpec[172]，利用可用模态的模态共享分支和模态特定分支之间的蒸馏。
- 在ShaSpec的基础上，提出元学习跨模态知识蒸馏（Meta-learned Cross-modal Knowledge Distillation）[173]，进一步权衡不同可用模态的重要性。
- Ramazanova等人[138]在自我蒸馏中引入互信息，用于自我中心任务，使得预测对缺失模态不变。
- Shi等人提出了PASSION[150]，一种自我蒸馏方法，旨在利用多模态分支帮助其他可用模态的单模态分支，从而提升缺失模态情况下的多模态医学分割性能。

混合蒸馏方法结合多种蒸馏方法，以提高学生模型的性能。

在医学分割中，Yang等人[195]在每个解码器层进行教师模型知识（包括logits和中间特征）蒸馏[183]。
Wang等人[179]引入了ProtoKD，捕捉类间特征关系，提高缺失模态情况下的分割性能。
CorrKD[81]通过对比蒸馏和原型学习提升了在缺失模态不确定性情况下的性能。

基于过程的蒸馏方法

基于过程的蒸馏方法的描述:
(a) "EMA"表示指数移动平均。教师模型的参数不是反向传播更新的，而是从学生模型参数缓慢复制过来的，在 logits 表征上设置了损失函数。
(b) 针对缺失模态问题的自我蒸馏方法涉及使用充当教师和学生的模型，这些模型在训练过程中使用自己从每个分支获得的软标签/表征来进行自我优化。

上述方法解决了缺失模态问题，在测试时实现了良好泛化。

然而，除了某些中间蒸馏和自我蒸馏方法外，大多数方法假设在训练过程中数据集完整，缺失模态仅在测试时遇到。

因此，大多数蒸馏方法不适合处理不完整的训练数据集。

基于图学习的方法

基于图学习的方法利用图结构数据中节点和边之间的关系进行表示学习和预测，主要分为两种主要类型：图融合方法和图神经网络（GNN）方法。

**图融合方法：**使用图结构整合多模态数据，使其能够适应各种网络；

Angelou等人[1] 利用图技术将每个模态映射到一个公共空间，保留距离和内部结构；
Chen等人[21]提出了HGMF，使用超边构建复杂的关系网络，动态地连接可用模态；
Zhao等人[217]开发了用于脑肿瘤分割的模态自适应特征交互方法，基于二进制存在代码调整模态之间的特征交互；
Yang等人[194]提出了一种基于图注意力的融合模块，通过基于注意力的消息传递在模态之间共享信息，以自适应地融合多模态特征。这些融合方法可以灵活地插入到任何网络中，用于整合多种模态。

图融合方法

图融合方法：将模态2（图中的白色圆圈）设为缺失模态。模态1和模态3的特征可以通过这种图融合方法进行聚合，融合后的特征保持相同的维度。

图神经网络方法： 直接将多模态信息编码到图结构中，使用图神经网络（GNN）学习和融合这些信息。

早期的方法[177]使用拉普拉斯图将完整和不完整的样本连接起来。
个体GNN方法 （图a）：如DESAlign[182]，使用神经网络或GNN提取特征并进行融合预测。
统一GNN方法 （b）：首先完成图的构建，然后使用GNN进行预测
- 张等人提出的 M3Care [208]，通过自适应权重整合来自相似患者的信息；
- Lian等人[89]提出了图补全网络，通过将特征映射回输入空间来重建缺失的模态；
- FeatProp[112] 通过传播已知的多模态特征推测缺失的特征；
- MUSE [190] 将患者-模态关系表示为二分图，并学习统一的患者表示。
- 在知识图谱中，Chen等人[25]提出实体级模态对齐，动态分配较低的权重给缺失/不确定的模态，减少学习中误导的风险。
具体流程：
- 单模态特征提取： 输入Mod 1, Mod 2, Mod 3 的原始数据，通过各自的 DNN 提取高维特征向量，得到 Representation-1, Representation-2, Representation-3。此时，这三个表征构成图的节点特征。
- 初始图构建（Graph Construction）：
  - 节点实例化： 创建节点集合 $V={v1,v2,v3}$ , 其中 $v_i$ 的特征值 $x_i=Representation_i$ 。
  - 邻接矩阵构建（计算边）: 计算两两节点之间的相似度，生成邻接矩阵 $\operatorname {S i m} \left(x _ {i}, x _ {j}\right) = \frac {x _ {i} \cdot x _ {j}}{| | x _ {i} | | \cdot | | x _ {j} | |} $ ,这里Mod 1 连接 Mod 3（实线），生成一个缺失掩码（Missing Mask），对应的节点特征为 0 或置为无效。此时，初始图中 Mod 2 对应的位置变成一个空洞 / 空白点。
- 图补全（Graph Completion）： 利用图补全算法（如 Graph Attention, Matrix Factorization, 或 GAN ）预测缺失节点 / 边的特征。通过补全，Mod 2 恢复成一个实心节点，并重新建立与其他模态的连接。
  - 预测 $x_{2}'$ , 使得 $ x_{2}’ \approx f(x_{1}, x_{3})$，即利用 Mod 1/3 推断缺失模态（Mod 2）的特征。
- GNN 推理与融合: 将完整图送入 GNN 层。GNN 会通过消息传递（Message Passing），聚合邻居节点（模态）的信息, 得到融合全局模态信息的最终表征，送入下游任务。

基于图神经网络（GNN）方法：假设模态2为缺失模态
（a）每个模态通过DNN或构建其图，然后通过GNN统一处理；
（b）通过像FeatProp [112]这样的方式，从缺失模态样本中完成图的构建，然后通过GNN进行处理。

多模态大型语言模型（MLLM）

在当前 MLLM 架构中，LLM 充当特征处理器，整合来自不同模态特定编码器的特征 token，并将输出传递给模态特定的解码器，架构类似于联合表示学习。

大多数多模态大型语言模型（MLLM）采用基于 Transformer 的模态编码器，将多模态输入编码为统一的表示空间。

假设：Mod1存在，Mod2 缺失，Mod3存在
对可用模态 Mod 1/3 编码, Mod 2 不做任何处理；
可用模态投影到统一嵌入空间
提示词嵌入 + 所有模态投影嵌入，做跨模态注意力融合，忽略缺失模态，得到统一的多模态表征

以 Transformer 为骨干

自带掩码注意力（Masked Attention）: 缺失模态直接用掩码屏蔽，不影响计算。

LLM 作为通用 “特征处理器”： 所有模态都被投影到同一个语言语义空间，不管缺谁都能继续融合。

图像：CLIP、ImageBind
音频：Audio encoder
视频：Video encoder
医学图像：专用 CNN/Transformer

**支持任意数量模态输入：**不需要固定模态组合，来几个算几个

尽管MLLM能够灵活地处理任意数量的模态，但它们也存在许多缺点，如不一致的多模态位置编码、训练难度大以及高GPU资源需求。此外，目前没有针对缺失模态问题的特定MLLM基准。

模型组合

模型组合：旨在使用选定的模型处理下游任务，可分为集成方法、专用训练方法和离散调度方法。

集成方法：通过不同类型的聚合方法（如投票、加权平均等）结合多个选定模型的预测；
专用训练方法：将不同的子任务（例如不同的缺失模态情况）分配给专门的单独模型，专注于特定的子任务或子数据集；
离散调度方法：用户通过自然语言指令使大型语言模型（LLM）根据模态类型和下游任务自动选择适当的模型。

集成方法

集成学习方法允许灵活地支持不同数量的专家模型，通过结合它们的预测结果来提高性能

多模态模型集成方法: 如图 (a) 所示，将不同的完全模态模型集成起来，帮助决策过程：
- 早期的研究[171]在情感分析中采用集成学习处理缺失模态，方法是对单模态模型的预测进行平均。
- 基于集成的缺失模态重建网络[206]，在生成的缺失模态特征存在语义不一致时，利用多个完全模态模型的加权判断。
单模态模型集成方法： 如图 (b) 所示，每个模态由单模态模型处理，只有可用的模态参与决策。
- 在多模态医学图像诊断中，早期研究发现，均匀加权方法比加权平均和投票方法表现更好 [203]。
- 在多模态目标检测中，Chen等人[24]提出了一种概率集成方法，不需要训练，可通过概率边缘化灵活处理缺失模态。
- Li等人[84] 提出了具有缺失模态适应的单模态集成方法，按模态训练模型，并进行后期融合训练。
- 其他方法[120]计算基于特征的权重来融合模态，其中权重反映特征在最终预测中的重要性。
混合方法：动态多模态融合 (DynMM) [193] 使用门控机制动态选择单模态/多模态模型。
- Cha等人[16]提出基于邻近度的模态集成 (PME)，通过交叉注意力机制和注意力偏差整合来自不同模态的框预测。PME可以自适应地结合单模态/多模态模型的框特征，并减少多模态解码中的噪声。

集成方法

集成方法的两种通用架构:
(a) 多模态模型集成方法包含 𝑛 个三模态深度神经网络（DNN），并基于所有 𝑛 个DNN的输出生成最终预测。
(b) 每个模态由单模态深度神经网络（DNN）处理，在单模态模型集成方法中，最终预测是通过聚合所有可访问的单模态DNN的输出生成的。

参考链接：