What are you looking at? Modality contribution in multimodal medical deep learning

By
Christian Gapp
Elias Tappeiner
Martin Welk
Karl Fritscher
Elke R. Gizewski
Rainer Schubert
October 2, 2025

International Journal Of Computer Assisted Radiology And Surgery

At a Glance

Category	Detail
Condition	Various medical conditions including cancer prognosis, cardiovascular risk, Parkinson’s disease, diabetic retinopathy
Key Mechanisms	Multimodal deep learning integrating diverse data types (imaging, tabular, text) with a novel modality contribution metric for interpretability
Target Population	Patients with complex medical data spanning multiple modalities (e.g., imaging and clinical data)
Care Setting	Clinical and biomedical research settings utilizing AI for diagnosis, prognosis, and risk assessment

Key Highlights

Development of a performance- and model-agnostic (black-box) metric to quantify modality contribution in multimodal medical datasets.
Application of the metric on diverse medical datasets including chest X-rays with reports, ophthalmological images with patient data, and 3D head and neck CT scans.
Identification of unimodal collapse and comparison of architectures based on their ability to process multiple modalities effectively.

Guideline-Based Recommendations

Diagnosis

Utilize multimodal data integration to improve diagnostic accuracy for conditions such as cancer, cardiovascular disease, Parkinson’s, and diabetic retinopathy.
Apply interpretability methods to understand model behavior on multimodal inputs to enhance clinical trust.

Management

Incorporate multimodal AI models with modality contribution metrics to guide clinical decision-making and personalized treatment planning.

Monitoring & Follow-up

Use modality importance metrics to monitor model reliance on specific data types and detect potential unimodal collapses during model deployment.

Risks

Be aware that attention-based and gradient-based interpretability methods may inadequately measure modality importance, potentially misleading clinical interpretation.
Consider that some modality importance methods depend on model architecture or performance, limiting generalizability.

Patient & Prescribing Data

Patients with multimodal medical data inputs including imaging, clinical reports, and tabular patient information.

Multimodal deep learning models enhanced by modality contribution metrics can improve prediction and stratification accuracy, supporting tailored clinical interventions.

Clinical Best Practices

Employ model-agnostic, performance-independent interpretability metrics to assess modality contributions in multimodal AI models.
Mask input features at appropriate resolution (e.g., pixel patches for images, individual entries for tabular data) to quantify modality importance accurately.
Validate multimodal models on diverse datasets to ensure robustness and generalizability across clinical tasks.
Use interpretability outputs to build clinician trust and facilitate integration of AI into clinical workflows.

What are you looking at? Modality contribution in multimodal medical deep learning

Clinical Scorecard: Exploring the Role of Modality in Multimodal Deep Learning for Medical Applications

At a Glance

Key Highlights

Guideline-Based Recommendations

Diagnosis

Management

Monitoring & Follow-up

Risks

Patient & Prescribing Data

Clinical Best Practices

References

Original Source(s)

What are you looking at? Modality contribution in multimodal medical deep learning

Related Content

A comparative study on percutaneous vertebroplasty for osteoporotic vertebral compression fractures under day surgery and inpatient management models

Sentara Brings 1st Minimally Invasive Treatment for Aortic Regurgitation to Virginia

Optimizing peritoneal dialysis access: a propensity score-matched comparison of open, multi-port, and single-port laparoscopic catheter insertion