Yeni bir araştırmaya göre insan-yapay zeka toplulukları en doğru tıbbi teşhisleri yapıyor

Yapay zeka (YZ), doktorların teşhis koymasını etkili bir şekilde destekleyebilir. İnsanlardan farklı hatalar yapar ve bu tamamlayıcılık daha önce keşfedilmemiş bir gücü temsil eder. Uluslararası bir ekip, insan uzmanlığını YZ modelleriyle birleştirmenin en doğru açık uçlu teşhislere yol açtığını ilk kez sistematik olarak gösterdi. Makaleleri
Ulusal Bilimler Akademisi Bildirileri’nde
yayınlanmıştır .

Tanı hataları günlük tıbbi uygulamalardaki en ciddi sorunlar arasındadır. Yapay zeka sistemleri (özellikle ChatGPT-4, Gemini veya Claude 3 gibi büyük dil modelleri (LLM’ler) tıbbi tanıları etkili bir şekilde desteklemek için yeni yollar sunar. Ancak bu sistemler aynı zamanda önemli riskler de içerir; örneğin, “halüsinasyon” görebilir ve yanlış bilgi üretebilirler. Ayrıca, mevcut sosyal veya tıbbi önyargıları yeniden üretirler ve genellikle insanları şaşırtan hatalar yaparlar.

Max Planck İnsan Gelişimi Enstitüsü liderliğindeki ve San Francisco İnsan Tanı Projesi ile İtalya Ulusal Araştırma Konseyi Bilişsel Bilimler ve Teknolojiler Enstitüsü’nden (CNR-ISTC Roma) ortaklarla işbirliği yapan uluslararası araştırma ekibi, insanların ve yapay zekanın en iyi şekilde nasıl iş birliği yapabileceğini araştırdı.

Sonuç: Hibrit tanı kolektifleri (insan uzmanlardan ve yapay zeka sistemlerinden oluşan gruplar) yalnızca insanlardan veya yapay zekadan oluşan kolektiflerden önemli ölçüde daha doğrudur. Bu, basit evet/hayır kararları yerine, çok sayıda olası çözümü olan karmaşık, açık uçlu tanı soruları için özellikle geçerlidir.

Max Planck İnsan Gelişimi Enstitüsü’nün Uyarlanabilir Rasyonellik Merkezi’nde doktora sonrası araştırmacı ve makalenin baş yazarı Nikolas Zöller, “Sonuçlarımız, insanlar ve yapay zeka modelleri arasındaki işbirliğinin hasta güvenliğini iyileştirmede büyük bir potansiyele sahip olduğunu gösteriyor” diyor.

Araştırmacılar, doğru teşhislerle birlikte tıbbi vaka çalışmalarının kısa açıklamaları olan klinik kısa öyküler sağlayan İnsan Tanı Projesi’nden veri kullandılar. Bu kısa öykülerden 2.100’den fazlasını kullanarak, çalışma tıp uzmanları tarafından konulan teşhisleri beş önde gelen AI modelinin teşhisleriyle karşılaştırdı.

Merkezi deneyde çeşitli tanısal kolektifler simüle edildi: bireyler, insan kolektifleri, AI modelleri ve karışık insan-AI kolektifleri. Araştırmacılar toplamda 40.000’den fazla tanıyı analiz etti. Her biri uluslararası tıbbi standartlara (SNOMED CT) göre sınıflandırıldı ve değerlendirildi.

İnsanlar ve makineler birbirlerini tamamlarlar; hatalarında bile

Çalışma, birden fazla AI modelinin birleştirilmesinin tanı kalitesini iyileştirdiğini gösteriyor. Ortalama olarak, AI kolektifleri insan teşhisçilerin %85’inden daha iyi performans gösterdi. Ancak, insanların daha iyi performans gösterdiği çok sayıda vaka vardı. İlginç bir şekilde, AI başarısız olduğunda, insanlar genellikle doğru tanıyı biliyordu.

En büyük sürpriz, her iki dünyanın birleştirilmesinin doğrulukta önemli bir artışa yol açmasıydı. Hatta bir grup insan teşhisçiye tek bir AI modeli eklemek bile (veya tam tersi) sonucu önemli ölçüde iyileştirdi. En güvenilir sonuçlar, birden fazla insan ve birden fazla AI içeren kolektif kararlardan geldi.

Açıklaması, insanların ve yapay zekanın sistematik olarak farklı hatalar yapmasıdır. Yapay zeka başarısız olduğunda, bir insan profesyonel hatayı telafi edebilirdi ve tam tersi de geçerliydi. Bu sözde hata tamamlayıcılığı, hibrit kolektifleri çok güçlü kılar. “Bu, insanları makinelerle değiştirmekle ilgili değil. Bunun yerine, yapay zekayı kolektif karar alma sürecinde tüm potansiyelini ortaya çıkaran tamamlayıcı bir araç olarak görmeliyiz ,” diyor ortak yazar Stefan Herzog, Max Planck İnsan Gelişimi Enstitüsü’nde Kıdemli Araştırma Bilim İnsanı.

Ancak araştırmacılar çalışmalarının sınırlamalarını da vurguluyorlar. Çalışma yalnızca metin tabanlı vaka kesitlerini ele aldı; gerçek klinik ortamlardaki gerçek hastaları değil. Sonuçların doğrudan pratiğe aktarılıp aktarılamayacağı gelecekteki çalışmaların ele alacağı bir soru olarak kalmaya devam ediyor. Benzer şekilde, çalışma yalnızca tanıya odaklandı, tedaviye değil ve doğru bir tanı mutlaka optimum tedaviyi garanti etmez.

Ayrıca AI tabanlı destek sistemlerinin tıbbi personel ve hastalar tarafından pratikte nasıl kabul edileceği belirsizliğini koruyor. Hem AI hem de insanlar tarafından, özellikle etnik, sosyal veya cinsiyet farklılıklarıyla ilgili olarak önyargı ve ayrımcılık potansiyel riskleri de daha fazla araştırma gerektiriyor.

Hibrit insan-AI toplulukları için geniş uygulama yelpazesi

Çalışma, insan ve makine zekasının akıllı entegrasyonu yoluyla gelecekteki klinik karar destek sistemlerinin geliştirilmesini teşvik etmeyi amaçlayan Açık Uçlu Karar Alma Hibrit İnsan Yapay Toplu Zekası (HACID) projesinin bir parçasıdır. Araştırmacılar, tıbbi bakıma erişimin sınırlı olduğu bölgelerde özel bir potansiyel görüyorlar. Hibrit insan-AI toplulukları, bu tür alanlarda daha fazla sağlık hizmeti eşitliğine önemli bir katkıda bulunabilir.

“Bu yaklaşım, karmaşık, yüksek riskli kararların gerektiği her yerde, hukuk sistemi, afet müdahalesi veya iklim politikası gibi diğer kritik alanlara da aktarılabilir . Örneğin, HACID projesi iklim adaptasyonunda karar vermeyi geliştirmek için araçlar da geliştiriyor,” diyor HACID projesinin eş yazarı ve koordinatörü Vito Trianni.

Kaynak ve devamına Buradan ulaşabilirsiniz.