研究
我们构建实用、以理论为基础的交互(interaction)驱动解释方法,用于理解深度神经网络学到了什么以及如何学习。我们的研究将特征交互视为可解释性的统一语言,贯通归因分析、学习动态、泛化能力与鲁棒性。通过将严谨的交互理论与可扩展的在线监测和真实场景验证相结合,我们帮助团队解释、审计,乃至调试模型。

归因
我们开发有理论保证的归因方法,通过为输入特征及其组合分配“贡献度”来解释模型预测,统一多种后验解释器,并提升 Shapley 风格方法的效率与忠实性。

归因
我们开发有理论保证的归因方法,通过为输入特征及其组合分配“贡献度”来解释模型预测,统一多种后验解释器,并提升 Shapley 风格方法的效率与忠实性。

交互理论
我们形式化并提取交互“原语”(interaction primitives),一种稀疏、可复用的组合式知识构件,用更紧凑、可解释的方式呈现网络如何表示概念与知识。

交互理论
我们形式化并提取交互“原语”(interaction primitives),一种稀疏、可复用的组合式知识构件,用更紧凑、可解释的方式呈现网络如何表示概念与知识。

鲁棒性
我们分析模型在对抗扰动、分布偏移或微调后失效的原因,并提出评估与改进工具,用于增强已学习概念与“指纹”的稳定性与可迁移性。

鲁棒性
我们分析模型在对抗扰动、分布偏移或微调后失效的原因,并提出评估与改进工具,用于增强已学习概念与“指纹”的稳定性与可迁移性。

应用
我们将上述方法落地于计算机视觉与 3D 理解、隐私保护/属性混淆,以及大模型行为审计(如法律推理)等场景,在真实部署中验证方法的效果与价值。

应用
我们将上述方法落地于计算机视觉与 3D 理解、隐私保护/属性混淆,以及大模型行为审计(如法律推理)等场景,在真实部署中验证方法的效果与价值。




