Yeni bir araştırma, yapay zekâ dil modellerinin klinik kullanım için henüz güvenli seviyeye ulaşmadığını ortaya koydu. Çalışmaya göre, bu sistemler uygun bir erken tanı üretmede vakaların yüzde 80’inden fazlasında başarısız oluyor.
ABD’deki Mass General Brigham araştırma ağı tarafından yürütülen ve JAMA Network Open dergisinde yayımlanan çalışma, büyük dil modellerinin klinik muhakeme becerilerinin sınırlı kaldığını gösterdi.
EN BÜYÜK SORUN: AYIRICI TANI
Araştırmada, yapay zekânın özellikle “ayırıcı tanı” olarak bilinen kritik aşamada zorlandığı tespit edildi. Bu aşama, benzer belirtiler gösteren hastalıklar arasında doğru ayrım yapılmasını sağlıyor ve tanı sürecinin temelini oluşturuyor.
Araştırmacılar, modellerin kesin tanıya ulaşmada daha yüksek başarı gösterdiğini ancak sürecin başlangıcındaki belirsizlikleri yönetmede yetersiz kaldığını belirledi.
21 MODEL TEST EDİLDİ
Çalışmada Claude, DeepSeek, Gemini, GPT ve Grok gibi 21 farklı büyük dil modeli, 29 klinik vaka senaryosu üzerinden değerlendirildi.
Modellere hasta bilgileri aşamalı olarak verilerek gerçek klinik süreç taklit edildi. Sonuçlara göre, modeller kesin tanıda yüzde 60 ile yüzde 90 arasında başarı sağlarken, ayırıcı tanı üretiminde ciddi performans kaybı yaşadı.
VERİ ARTTIKÇA BAŞARI ARTIYOR
Yapay zekâ sistemlerinin, laboratuvar sonuçları ve görüntüleme verileri gibi ek bilgiler sağlandığında daha doğru sonuçlar verdiği gözlemlendi.
Ancak araştırmacılar, sınırlı bilgiyle başlayan gerçek hasta senaryolarında bu sistemlerin zorlandığını vurguladı.
UZMANLAR UYARIYOR: İNSAN DENETİMİ ŞART
Araştırmanın yazarları, mevcut yapay zekâ modellerinin gözetimsiz şekilde klinik kararlar almak için kullanılmasının riskli olduğunu belirtti. Uzmanlar, yapay zekânın destekleyici bir araç olabileceğini ancak nihai kararın mutlaka sağlık profesyonelleri tarafından verilmesi gerektiğini vurguladı.