Revolution or risk?—Assessing the potential and challenges of GPT-4V in radiologic image interpretation

Category	Detail
Condition	Radiologic image interpretation
Key Mechanisms	Multimodal large language model (GPT-4V) integrating computer vision and probabilistic text generation to analyze and interpret medical images
Target Population	Patients undergoing radiologic imaging (radiography, CT, MRI, angiography) with various conditions and clinical presentations
Care Setting	Tertiary academic medical center radiology departments and clinical imaging interpretation settings

GPT-4V demonstrates variable diagnostic accuracy across imaging modalities and clinical contexts, with performance influenced by availability of clinical information.
The model’s interpretations are probabilistic and based on learned associations, leading to occasional errors such as missed fractures or incorrect lesion laterality.
Current evidence on GPT-4V’s diagnostic performance is limited by small sample sizes, lack of peer review, and controlled testing environments unlike real clinical practice.

Use GPT-4V as an adjunct tool rather than a standalone diagnostic system due to imperfect performance and potential for hallucinations.
Provide clinical context alongside images to improve diagnostic accuracy and confidence of GPT-4V interpretations.

Integrate GPT-4V outputs with expert radiologist review to support clinical decision-making and reporting workflows.
Avoid reliance on GPT-4V for critical medical decisions without corroborating evidence from human experts.

Continuously evaluate GPT-4V diagnostic outputs for consistency, accuracy, and plausibility in clinical settings.
Monitor for hallucinations or confident but incorrect diagnoses and maintain vigilance for errors.

Potential for misdiagnosis due to probabilistic nature and lack of true understanding by GPT-4V.
Risk of overreliance on AI outputs without sufficient clinical validation.
Possibility of hallucinated findings or incorrect differential diagnoses.

Patients undergoing diagnostic imaging across multiple modalities with diverse clinical presentations

GPT-4V’s diagnostic accuracy improves with clinical context; however, variability exists across modalities and cases, necessitating expert oversight.

Select unequivocal imaging studies with confirmed diagnoses for AI-assisted interpretation to minimize ambiguity.
Use standardized prompting protocols including clinical context to enhance GPT-4V performance.
Combine AI-generated findings with multidisciplinary clinical and imaging data for comprehensive diagnosis.
Maintain ethical oversight and informed consent considerations when deploying AI in clinical radiology.

Clinical Scorecard: Evaluating the Opportunities and Challenges of GPT-4V in the Interpretation of Radiologic Images