Bu çalışmada, büyük dil modelleri (LLM) yardımıyla biyoenformatik analiz uygulanarak, disülfitptozisin sepsis patofizyolojisindeki rolü araştırıldı.
Amaç
Bu çalışmada, büyük dil modelleri (LLM) yardımıyla biyoenformatik analiz uygulanarak, disülfitptozisin sepsis patofizyolojisindeki rolü araştırıldı.
Yöntemler
DeepSeek R1 ve geri alma destekli üretim teknolojisine dayalı olarak, disülfidptozis ile ilişkili genlerin çıkarılması için bir derin geri alma mimarisi geliştirildi. Biyoinformatik analizler için LLM çıkarımı, manuel çıkarım ve veri setlerinden gelen genlerin bir kesişimi dahil edildi. DeepSeek R1 kullanarak, önceki yayınlardan çok adımlı bir biyoinformatik protokolü sentezledik. Analizler daha sonra protokole göre gerçekleştirildi. Anahtar gen adayları birden fazla makine öğrenimi modeli kullanılarak belirlendi ve doğrulama, sepsisli bir kör bağırsak bağlama ve delme fare modelinde gerçekleştirildi.
Sonuçlar
Biyoenformatik analizler için toplam 21 disülfidptozisle ilişkili gen dahil edildi. İki önemli referansın LLM özetine dayanarak dokuz biyoenformatik tekniği entegre edildi. Sepsiste on üç disülfidptozisle ilişkili farklı şekilde ifade edilen gen (DEG) tanımlandı. Bu DEG’lere dayanarak, sepsis hastaları farklı bağışıklık profillerine sahip iki moleküler alt gruba sınıflandırıldı. Değerlendirilen makine öğrenimi modelleri arasında, destek vektör makinesi en yüksek sınıflandırma performansını elde etti (AUC = 0,989). Beş merkez gen – FSTL1 , SELP , PPBP , ITGA2B ve PF4 – önemli biyobelirteçler olarak seçildi. Deneysel doğrulama, bu genlerin sepsis farelerinde sahte benzerlerine kıyasla önemli ölçüde yüksek ekspresyonunu doğruladı.
Çözüm
Çalışmamız, geniş dil modelleriyle biyoenformatik analize destek sağladı ve sepsiste disülfidptozisin kritik bir rolü olduğunu ortaya koydu. Yüksek performanslı bir tanı modeli geliştirildi ve beş genin sepsis tanısı ve tedavisi için potansiyel biyobelirteçler olduğu doğrulandı.
giriiş
Sepsis, enfeksiyona karşı anormal ve abartılı bir bağışıklık tepkisi sonucu oluşan organ disfonksiyonu ile karakterize, yaşamı tehdit eden bir durum olarak nitelendirilir [ 1 ]. 2017 yılında dünya çapında tahmini 48,9 milyon kişi sepsis geçirmiş ve bu durum 11 milyon ölüme neden olmuştur [ 2 ]. Çin, sırasıyla %3,8 ve %26’lık hastane yaygınlığı ve ölüm oranları ile özellikle yüksek bir sepsis yükü taşımaktadır ve yoğun bakım ünitesine yatırılan hasta oranı sırasıyla %25,5 ve %40’a ulaşabilmektedir [ 3 ]. Ancak sepsis’in erken klinik belirtileri genellikle nonspesifik ve heterojendir, bu da zamanında tanıyı zorlaştırır ve yüksek ölüm oranına katkıda bulunur. Günümüzde erken ve doğru tanı araçları, dünya çapında klinik uygulamada acil bir ihtiyaç olmaya devam etmektedir.
Programlanmış hücre ölümü (PCD), sepsis patofizyolojisinde kritik bir rol oynar [ 4 ]. Disülfidptozis, özellikle SLC7A11’i yüksek oranda ifade eden hücrelerde, glikoz yoksunluğu koşullarında anormal hücre içi disülfür birikimiyle tetiklenen yeni karakterize edilmiş bir PCD biçimidir [ 5 , 6 ]. Bu birikim, aktin sitoskeletal proteinlerinde disülfür stresine neden olarak aşırı disülfür bağı oluşumuna, sitoskeletal çöküşe ve nihayetinde hücre ölümüne yol açar [ 6 , 7 ]. Disülfidptozis öncelikle kanserde incelenmiş olsa da [ 8 , 9 ], sepsis içindeki rolü yeterince tanımlanmamıştır. Bununla birlikte, ortaya çıkan kanıtlar, alakalı olduğunu göstermektedir – Zhang ve ark. sepsis kaynaklı akut akciğer hasarında kritik aracılar olarak iki disülfidptozisle ilişkili gen, ACSL4 ve MYL6’yı tanımladılar [ 10 ], bu da sepsis içinde disülfidptozisin potansiyel mekanik bir rolüne dikkat çekmektedir.
Büyük dil modelleri (LLM’ler), bilgiyi sentezleme ve analitik görevleri otomatikleştirme kapasiteleri nedeniyle son zamanlarda tıbbi araştırmalarda ve sağlık hizmetlerinde ilgi görmektedir [ 11 ]. Bugüne kadarki LLM uygulamalarının çoğu tıbbi bilgi almaya odaklanmış olsa da, iş akışı oluşturma ve protokol optimizasyonu potansiyelleri henüz yeterince keşfedilmemiştir [ 12 ]. Doğal dil işleme ve doğal dil anlama görevleri arasında özetleme görevleri yalnızca %8,9’luk bir paya sahiptir.
Bu çalışmada, önceki çalışmalardan disülfidptozisle ilişkili genleri (DRG’ler) çıkarmamıza yardımcı olması için DeepSeek R1’e dayalı derin bir alma mimarisi geliştirdik. Ayrıca, daha önce yayınlanmış iki çalışmadan yapılandırılmış bir biyoenformatik protokolü türetmek için DeepSeek R1’i kullandık [ 13 , 14 ]. Bu protokolü uygulayarak, sepsis’teki DRG’lerin kapsamlı bir analizini gerçekleştirdik. Septik hastalar ve sağlıklı kontroller arasında gen ifadesini karşılaştırdık, kümeleme ve bağışıklık profili oluşturduk, makine öğrenimi kullanarak tanı modelleri geliştirdik ve bulgularımızı bir sepsis fare modelinde doğruladık. Yaklaşımımız, LLM rehberliğindeki biyoenformatiğin sepsis gibi karmaşık hastalıklarda biyobelirteç tanımlama sürecini nasıl hızlandırabileceğini göstermektedir.
Malzemeler ve yöntemler
Büyük dil modeli mimarisi
Bu mimari, sepsiste DEG’lerin hassas bir şekilde çıkarılmasını sağlayarak tıbbi araştırmaları güçlendirmek üzere tasarlanmıştır. İş akışı, kullanıcıların sepsis literatürünü yüklemesi ve etkileşim katmanı aracılığıyla görev talimatlarını göndermesiyle başlar. Sistem erişim katmanı daha sonra bu istekler için protokol dönüştürme, izin kontrolü ve akış planlamasını gerçekleştirir. Ardından, yetenek destek ve araştırma hizmet katmanı, literatür ön işlemeyi gerçekleştirir ve büyük modeller ve özel hizmet modüllerine dayalı görev iş akışlarını düzenler.
Uzmanlaşmış hizmet modülleri, ekstraksiyon doğruluğunu artırmak için iş birliği içinde çalışırken, kalite güvence katmanı, süreç izlenebilirliği denetimi ve gen kökeni doğrulaması yoluyla kapalı devre bir kalite kontrol sistemi oluşturur. Sonuç olarak, araştırma çıktı katmanı üç tür sonuç sunar: standartlaştırılmış gen setleri, doğruluk doğrulama raporları ve gen analiz raporları. Bu mimari, çok modüllü iş birliği ve kapalı devre yönetimi sayesinde, geleneksel gen ekstraksiyon yöntemlerinde bulunan verimsizlik ve doğruluk sınırlamalarını etkili bir şekilde ele alır.
Edebiyat ön işleme
Uyarlanmış LLM, PDF, XML ve Word gibi çeşitli belge biçimlerinden metinsel bilgi çıkarma kurallarını optimize eder. Örneğin, PDF’ler için LLM, başlık, alt bilgi ve grafik iç içe metin gibi yapıları tanımlar ve ‘gövde paragraf mantığını koruma ve grafik başlığı + kritik etiketleme metnini çıkarma’ gibi kurallar geliştirir. XML işlerken, LLM etiket hiyerarşisini ayrıştırır ve ‘Etiketler altında <Metin İçeriği > Metin Önceliği ve İlişkili <Genle İlgili > Etiket Eki’ kurallarına göre düz metin akışı çıkarır.
Bulanık PDF tarama metni ve kafa karıştırıcı XML özel etiketleri durumunda, kurallar, LLM ile geçmiş başarı örnekleri karşılaştırılarak otomatik olarak ayarlanır. Düşük çözünürlüklü PDF için “OCR tanımlamasından sonra anlamsal tamamlayıcı” bağlantısı eklenirse, metin dönüştürme kalitesini sağlamak için karmaşık format sürekli olarak uyarlanır.
Genlerin niyet tanımlaması ve ön taraması
LLM, hızlı sözcüklere (örneğin, ‘insan akciğer kanseri araştırma literatüründe gen adı ve işlev tanımı çıkarma’) dayanır, ‘anlamsal dedektör’ modunu açar, ‘gen sembollerini tanıma (örneğin, EGFR) ve işlev tanımı ifadelerini kavrama (örneğin, ‘hücre çoğalması sinyal yollarını düzenleme’)’ gibi alt görevleri parçalara ayırır, önceden işlenmiş metni tarar ve gen varlıklarını ve ilişki tanımlarını gen bilgisine dayanarak işaretler. Örneğin, LLM, birincil gen taramasını tamamlamak için gen adı ‘EGFR’ ve ‘akciğer kanseri hücrelerinde aşırı ekspresyon ve tümör anjiyogenezini destekleme’ tanımını ‘akciğer kanseri hücrelerinde EGFR geninin aşırı ekspresyonu ve tümör anjiyogenezini destekleme’ bölümünden doğru bir şekilde çıkarmıştır.
Geri alma-artırılmış üretim teknolojisiyle birden fazla geliştirme turu
‘Bilgi arama-doğrulama-tamamlama’nın kapalı döngüsü, birincil tarama genlerini (örneğin ‘EGFR’) arama terimleri olarak kullanarak, geri alma-artırılmış nesil (RAG) teknolojisi kullanılarak oluşturulmuştur (Ek Şekil S1 ). Resmi işlevsel açıklamaları çalışma sonuçlarıyla eşleştirmek için GEO veritabanı çağrıldı: en son içerik için yeni makale açıklamaları elde edildi. Bilgi tabanından döndürülen bilgi birincil tarama bilgisinden farklıysa, LLM ‘çatışma kontrolü’ başlatır ve orijinal bağlam yargısının bir ifade farkı mı yoksa yanlış tanımlama mı olduğunu yeniden analiz eder. Bir eksiklikse, bilgi tamamlanacak ve sonuçlar gereksinimleri karşılayana kadar genetik bilgi sürekli olarak yinelenecektir.
Sonuç entegrasyonu
Son olarak, LLM gen adlarını, çok boyutlu açıklamaları, literatür kaynaklarını ve diğer bilgileri önceden belirlenmiş şablonlara göre düzenler (örneğin JSON formatı: ‘gen adı’: ‘EGFR’, ‘fonksiyonel açıklama’: ‘akciğer kanseri anjiyogenezinde rol oynayan hücre çoğalması sinyal yollarının düzenlenmesi’, ‘literatür kaynağı’: ‘XXX araştırma makalesi’) ve alan formatını birleştirir.
Veri toplama ve ön işleme
GEO veritabanında sepsis hastaları ve sağlıklı kontrolleri içeren gen ifadesi veri kümelerini aramak için ‘sepsis’ anahtar kelimesi kullanıldı. Birincil analiz için 760 sepsis örneği ve 42 sağlıklı örnekten oluşan GSE65682 veri kümesi (GPL13667 platformu, periferik kan) indirildi. Doğrulama için, 348 sepsis örneği ve 44 sağlıklı örnekten oluşan GSE185263 veri kümesi (GPL13607 platformu, tükürük bezi) kullanıldı. Tüm veriler analizden önce log2 dönüşümüne tabi tutuldu.
Disülfidptozisle ilişkili genlerin çıkarılması
Çoğu disülfidptozis çalışmasının tümörle ilişkili olması ve akciğerin sepsis için en önemli hedef organlardan biri olması göz önüne alındığında, uyarlanmış LLM’miz tarafından gen çıkarma yeteneğini test etmek için hastalık tipi olarak akciğer adenokarsinomunu seçtik. PubMed’de başlığında ‘disülfidptozis’ ve ‘akciğer adenokarsinomu’ geçen makaleleri aradık, süreyi 2024 ve öncesiyle sınırladık ve 33 makaleye ulaştık. PubMed listesindeki ilk makale LLM eğitimi ve alanların manuel olarak çıkarılması için indirildi [ 15 ]. Manuel çıkarma iki bağımsız değerlendirici tarafından gerçekleştirildi ve dikkat dağıtıcı unsurlar kıdemli bir değerlendiriciye danışılarak müzakere edildi. LLM çıkarma için, büyük modelin ilk literatürün tam metnini öğrenmesine izin verdik ve ayrıca DRG’lerin çıktısından önce PubMed’deki ilgili özetleri otomatik olarak almasını sağladık. Biyoenformatik analizler için kullanılan gen kümesi, manuel çıkarma, LLM çıkarma ve GSE veri kümelerinden gelen genlerin kesişimiydi.
Analiz protokolünün geliştirilmesi
Tüm biyoenformatik analizleri, DeepSeek R1’den türetilen protokoller doğrultusunda yürütülmüştür. Biyoenformatik iş akışlarını içeren iki hakemli makale, “İki makalede kullanılan biyoenformatik yaklaşımları özetleyin” sorgusuyla birlikte DeepSeek R1’e yüklenmiştir. Biyoenformatik analizler, model tarafından oluşturulan protokoller doğrultusunda gerçekleştirilmiştir.
Biyoenformatik analizler
Biyoenformatik analizlerinin ayrıntılı yöntemleri, önceki çalışmalarda açıklanan sürece benzerdi [ 13 , 14 ]. Özetle, GSE65682 veri setindeki sepsis örnekleri üzerinde DRG ekspresyonuna dayalı olarak gözetimsiz kümeleme gerçekleştirildi. Bağışıklık hücresi oranları CIBERSORT algoritması kullanılarak tahmin edildi ve bağışıklık hücresi dağılımları görselleştirildi. DRG ekspresyon seviyeleri ile bağışıklık hücresi fraksiyonları arasındaki ilişkileri değerlendirmek için Spearman korelasyon katsayıları hesaplandı. Ağırlıklı gen eş-ekspresyon ağı analizi (WGCNA), eş-ekspresyonlu gen modüllerini belirlemek için en değişken genlerin ilk %25’ine uygulandı.
Sepsis hastalarının iki kümesindeki yol zenginleşmesini göstermek için gen seti varyasyon analizi (GSVA) yapıldı. Referans veri seti olarak kullanılmak üzere KEGG yol gen setleri elde edildi. Yol zenginleşme puanları, R GSVA paketinde uygulanan ssGSEA algoritması kullanılarak hesaplandı. Her gen setinin mutlak zenginleşme seviyesini temsil eden bu GSVA puanları, daha sonra limma paketi kullanılarak iki küme arasında karşılaştırıldı.
Model oluşturmada kullanılan öngörücü genler, sepsis hastalarında ve sağlıklı kontrollerde merkez genler ve DEG’lerin kesişimiyle belirlendi. Sepsisin temel öngörücülerini belirlemek için dört makine öğrenimi yaklaşımı kullanıldı: rastgele orman (RF), destek vektör makinesi (SVM), genelleştirilmiş doğrusal modeller (GLM’ler) ve aşırı gradyan güçlendirme (XGB). Modellerin tanısal performansı, alıcı işletim karakteristiği (ROC) eğrileri kullanılarak analiz edildi ve eğri altında kalan alan (AUC) değerlendirme metriği olarak kullanıldı. Model performansları, GSE185263 veri seti kullanılarak daha da doğrulandı.
Bir fare sepsis modelinin oluşturulması
Altı ila sekiz haftalık erkek C57BL/6 fareleri, kör bağırsak ligasyonu ve delinmesi (KLP) veya sahte karşılıkları olarak kullanılmak üzere rastgele ayrıldı. KLP modeli, önceki çalışmalardan iyi karakterize edilmiş protokollere göre oluşturuldu [ 16 ]. Kısaca, KLP grubundaki farelerin kör bağırsağı orta noktadan (%50) bağlandı ve 21G iğne ile bir kez delindi. Sahte ameliyat edilen farelere, kör bağırsak ligasyonu veya delinmesi yapılmadan laparotomi ve yara kapatılması uygulandı. Her iki gruptaki fareler, işlemden 24 saat sonra ötenazi edildi ve sonraki analizler için kalp, karaciğer, akciğer ve böbrekten dokular alındı. Tüm hayvan prosedürleri PLA Genel Hastanesi Dördüncü Tıp Merkezi Kurumsal İnceleme Kurulu’ndan onay aldı.
Histolojik analiz
Sepsis ve sahte farelerden alınan dokular, parafine gömülmeden önce en az 24 saat boyunca %4 paraformaldehit içinde fiksasyona tabi tutuldu. Parafine gömülmüş dokulardan doku kesitleri kesildi ve patolojik değerlendirme için rutin olarak hematoksilin ve eozin ile boyandı. Dehidratasyon ve kapatmanın ardından, boyanmış slaytlar dijital olarak tarandı ve histolojik değerlendirme için temsili hasar bölgeleri kaydedildi.
Kantitatif gerçek zamanlı PCR
SLC7A11 (disülfidptozisin temel geni) ve çalışmamızda tanımlanan diğer beş önemli genin ifade düzeyleri, kantitatif gerçek zamanlı PCR kullanılarak değerlendirildi. Toplam RNA’yı bir RNA ekstraksiyon kiti (CWBIO, Çin) ile ekstrakte ettik ve HiScript III 1. Zincir cDNA Sentez Kiti (Vazyme, Çin) ile ters transkripsiyon gerçekleştirdik. SYBR Green bazlı qPCR, AceQ Universal SYBR qPCR Master Mix (Vazyme, Çin) kullanılarak gerçekleştirildi.
İstatistiksel analiz
Biyoenformatik analizler R yazılımı (v4.3.1) kullanılarak gerçekleştirilirken, hayvan çalışmalarından elde edilen deneysel veriler GraphPad Prism (v9.5.1) ile istatistiksel olarak analiz edildi. p değeri 0,05’ten küçük olan sonuçlar istatistiksel olarak anlamlı kabul edildi ve şu yıldız gösterimi kullanıldı: * p < 0,05, ** p < 0,01, *** p < 0,001, **** p < 0,0001.
Sonuçlar
DeepSeek R1 tarafından özetlenen biyoenformatik analiz protokolü
Kapsamlı bir biyoenformatik çerçevesi oluşturmak için, sırasıyla sepsis ve primer Sjögren sendromunda PANoptozis ve Kuproptozis’in rollerini araştıran iki seçilmiş çalışmadan (PMID: 37984252 ve 39051056) analitik metodolojileri çıkarmak ve özetlemek için DeepSeek R1’i kullandık. DeepSeek R1 dokuz temel analitik strateji belirledi: diferansiyel ifade analizi, bağışıklık hücresi infiltrasyon analizi, gözetimsiz kümeleme, ağırlıklı gen ko-ekspresyon ağı analizi, fonksiyonel zenginleştirme analizi, makine öğrenmesi tabanlı model geliştirme, nomogram ve sağkalım analizi, harici veri seti doğrulaması ve deneysel doğrulama. Her yöntem için özlü bir metodolojik açıklama sağlandı ve ardından biyoenformatik yaklaşımımız için yapılandırılmış bir referans sunan entegre bir özet sunuldu. Biyoenformatik analizlere genel bir bakış Şekil 1’de sunuldu .

Büyük bir dil modelinin yardımıyla gen çıkarımı
Uyarlanmış büyük dil modelimizin şeması Şekil 2’de gösterilmiştir . DEG’lerin manuel çıkarma ve LLM çıkarma süresini test etmek için altı disülfidptozis ile ilgili makale seçtik. Sonuçlar LLM çıkarma işleminin manuel çıkarma işleminden önemli ölçüde daha hızlı olduğunu gösterdi (37,88 ± 10,24 sn’ye karşı 239,2 ± 74,84 sn, p < 0,0001). LLM yardımıyla, verilen literatürden ve özetlerden 23 DRG çıkarıldı. Manuel olarak çıkarılan genler, LLM’den çıkarılan genlerle tamamen tutarlıydı. GSE65682 ve GSE185263 veri kümelerindeki genlerle kesişimden sonra, 21 gen daha ileri analiz için dahil edildi (Şekil 3 a).


Sepsis’te DRG’lerin farklı ekspresyonu ve immün infiltrasyonu
GSE65682 transkriptomik veri setinin analizi, septik hastalar ve sağlıklı bireyleri karşılaştırırken incelenen 21 DRG arasında 13 DEG ortaya koydu. Bunlar arasında SLC7A11 , PDLIM1 , TLN1 , MYL6 , ACTB , GYS1 , NCKAP1 , INF2 ve DSTN sepsisde önemli ölçüde yukarı düzenlenirken, NDUFA11 , RPN1 , NDUFS1 ve LRPPRC aşağı düzenlendi (Şekil 3 b, c). Bu DEG’lerin kromozomal konumları Şekil 3 d’de gösterilmiştir ve bunların çiftler halinde korelasyonları Şekil 3 e’de gösterilmiştir ; çizgi kalınlığı korelasyon gücünü temsil eder (pozitif kırmızı, negatif yeşil).
DRG ekspresyonuna dayalı sepsis alt tiplerinin tanımlanması
Konsensüs kümesine dayalı gözetimsiz kümeleme, DRG ekspresyonuna göre iki farklı moleküler alt tip (k = 2) ortaya çıkardı (Şekil 4a ). Bu sınıflandırma, minimum kümülatif dağılım fonksiyonu (CDF) eğrisi dalgalanması (Şekil 4b ), en yüksek konsensüs puanı (> 0,9) (Şekil 4c ) ve temel bileşen analizine (PCA) göre iyi ayrılmış kümeler (Şekil 4d ) ile optimum stabilite gösterdi.

DRG tabanlı sepsis alt tiplerinin immün infiltrasyon profilleri
DRG ekspresyon profilleri alt tipe özgü imzaları ortaya koydu: NDUFA11 ve LRPPRC Küme 1’de yükselmişti, buna karşılık PDLIM1 , TLN1 , MYL6 , ACTB , GYS1 , NDUFA11 , NCKAP1 , RPN1 , INF2 ve DSTN Küme 2’de önemli ölçüde yukarı düzenlenmişti (Şekil 5 a, b). Cibersort’a dayalı bağışıklık profili, adaptif (B/T hücre alt kümeleri) ve doğuştan gelen (makrofajlar, NK hücreleri, nötrofiller) bağışıklığı kapsayan 12 hücre tipinde kümeye özgü infiltrasyon desenleri gösterdi (Şekil 5 c, d). Küme 2’nin bağışıklık sistemi yollarının tercihli zenginleşmesini gösterdiğini, Küme 1’in ise GSVA aracılığıyla daha güçlü metabolik yol aktivitesi sergilediğini bulduk (Şekil 5 e).

Gen modülü tanımlama ve ortak ifade ağı oluşturma
WGCNA kullanarak, DRG tanımlı sepsis alt tipleriyle önemli ölçüde ilişkili gen modüllerini tanımlamak için imzalı gen ko-ekspresyon ağları oluşturduk. Tatmin edici bir ölçeksiz topoloji uyumu (R 2 > 0,85) ve optimize edilmiş modül tespiti (Şekil 6 a) sağladığı için 5’lik bir yumuşak eşik değeri seçildi. Dinamik ağaç kesimi, gen dendrogramları ve TOM ısı haritaları aracılığıyla görselleştirilen sekiz ko-ekspresyon modülünü ortaya çıkardı (Şekil 6 b–d). Bu modüller arasında siyah olanı, DRG tabanlı sepsis alt tipleriyle en güçlü korelasyonu gösterdi (Şekil 6 e, f). Küme 2’deki artan bağışıklık aktivitesi göz önüne alındığında, bu kümedeki siyah modülden daha fazla araştırma için 100 geni seçtik. Daha sonra |MM|> 0,8 ve |GS|> 0,5 eşik değerlerine göre elli iki merkez gen belirlendi ve bunlar sonraki analiz için önceliklendirildi.

Makine öğrenimi modellerinin oluşturulması ve değerlendirilmesi
GSE65682 veri setinde sağlıklı kontroller ve sepsis hastaları arasında toplam 2.510 DEG tanımlanmıştır (Şekil 7 a, b). Bağışıklık ile ilişkili biyolojik süreçler, özellikle lökosit aktivasyonu, sitokin üretimi, lenfosit farklılaşması ve mononükleer hücre farklılaşması, DEG’ler arasında en önemli şekilde zenginleştirilmiş gen ontolojisi (GO) terimleri olarak ortaya çıkmıştır (Şekil 7 c). Kyoto Genler ve Genomlar Ansiklopedisi (KEGG) yolak analizi ayrıca bu genlerin, özellikle koronavirüs hastalığı (COVID-19), Th1 ve Th2 hücre farklılaşması, eferositoz ve T hücre reseptörü sinyallemesi ile bağlantılı olanlar olmak üzere önemli bağışıklık yolaklarına katıldığını ortaya koymuştur (Şekil 7 d).

Disülfidptozisle ilişkili ko-ekspresyon modüllerinden gelen 52 merkez genini 2.510 DEG ile kesiştirerek, sepsise özgü 30 karakteristik Disülfidptozisle ilişkili DEG tanımladık (Şekil 8a ). Bu 30 gene dayanarak, dört makine öğrenme modeli (RF, SVM, GLM ve XGB) oluşturuldu. Her model için artık dağılımlar, ters kümülatif dağılım ve kutu grafikleri kullanılarak analiz edildi ve model hatalarına genel bir bakış sağlandı (Şekil 8b , c). Modelleri Ortalama Karekök Hatası (RMSE) ile sıralamak, her algoritma için en etkili on değişkeni tanımlamamızı sağladı (Şekil 8d ). ROC analizi, SVM modelinin diğerlerinden daha iyi performans gösterdiğini, en yüksek doğruluğu, en düşük artıkları ve üstün AUC’yi sergilediğini gösterdi (Şekil 8e ).

SVM modelinin genelleştirilebilirliğini doğrulamak için, harici bir veri seti (GSE185263) kullanarak beş temel DSP ile ilişkili geni ( FSTL1 , SELP , PPBP , ITGA2B ve PF4) test ettik . Elde edilen ROC analizi (AUC = 0,871), modelin sepsis ve kontrol örnekleri arasında güçlü bir ayırt edicilik yeteneğine sahip olduğunu doğruladı (Şekil 8 f). Toplu olarak, bu bulgular, makine öğrenimi çerçevemizin DSP gen ifadesine dayalı olarak sepsisi tanımlamadaki tanı potansiyelinin altını çizmektedir.
Nomogram oluşturma ve sağkalım analizi
Sepsis’te beş anahtar genin prognoz açısından faydasını daha ayrıntılı değerlendirmek için bir nomogram modeli geliştirdik (Şekil 9a ). Kalibrasyon eğrisi, öngörülen ve gözlenen sonuçlar arasında yüksek bir uyum göstererek düşük tahmin hatasına işaret etti (Şekil 9b ). Karar eğrisi analizi (DCA), modelimizin klinik değerini doğrulayarak, çeşitli eşik olasılıkları boyunca güçlü bir net fayda olduğunu gösterdi (Şekil 9c ). Korelasyon analizi, beş aday gen ile bağışıklık hücresi popülasyonları, özellikle plazma hücreleri ve makrofaj alt grupları M0 ve M1 arasında anlamlı pozitif ilişkiler olduğunu göstererek, bunların sepsis patogenezindeki potansiyel immünolojik önemini vurguladı (Şekil 10 ).


Bir fare sepsis modelinde DSP ile ilişkili genlerin ifadesi
Histopatolojik inceleme, CLP fare modelinde temel hedef organlarda (kalp, karaciğer, akciğer ve böbrek) sepsis kaynaklı doku hasarını doğruladı (Şekil 11a ). PCR sonuçları, septik fareler ve sahte farelerden alınan tüm dokularda FSTL1 ve ITGA2B’nin benzer mRNA seviyelerini gösterdi. Bununla birlikte, PF4 , septik farelerin hem karaciğer hem de akciğer dokularında önemli ölçüde yukarı regüle edilirken, SELP karaciğer, akciğer ve böbrekte yükselmişti (Şekil 11b ). PPBP ekspresyonunun septik hayvanlarda analiz edilen tüm dokularda sürekli olarak artmış olması, sistemik bir biyobelirteç olarak potansiyelini desteklemektedir.

Tartışma
Disülfidptozis, apoptoz, ferroptoz ve diğerleri gibi bilinen yollardan mekanistik olarak farklı olan yeni tanımlanmış bir programlanmış hücre ölümü türüdür. Hücre içi sistin aşırı yüklenmesinin tetiklediği disülfür stresinden kaynaklanır. 2020 yılında Gan ve arkadaşları, SLC7A11 aracılığıyla ithal edilen sistinin sisteine indirgenmesinin, glikoz-pentoz fosfat yoluyla üretilen NADPH’ye büyük ölçüde bağlı olduğunu keşfettiler [ 17 ]. Glikoz yoksunluğu koşulları altında, NADPH seviyeleri hızla düşerek, SLC7A11’i aşırı ifade eden hücrelerde özellikle sistin olmak üzere disülfürlerin birikmesine yol açar. Bu dengesizlik, öldürücü disülfür stresine ve hızlı hücre ölümüne neden olur. 2023 yılında Gan’ın ekibi bu fenomeni resmi olarak farklı bir hücre ölümü biçimi olarak tanımladı ve buna disülfidptozis adını verdi [ 18 ].
Mevcut çalışmada, önceki çalışmalardan gen çıkarma ve açıklama için DeepSeek R1’e dayalı derin bir alma mimarisi geliştirdik; bu tıbbi araştırmalarda yeni bir yaklaşımdır. LLM tarafından tanımlanan genler, elle çıkarılanlarla tamamen tutarlıydı ve bu, LLM’nin gen taramasında bilimsel araştırmacılara yardımcı olmak ve bilimsel araştırma çalışmalarında büyük ölçüde zamandan tasarruf sağlamak için yeni bir yöntem olarak kullanılabileceğini göstermektedir. Bu çalışmada LLM tarafından tanımlanan 23 gen arasında ACTB, FLNB, NCKAP1, SLC3A2 ve SLC7A11 model genler olarak tanımlanmıştır. Bunlar, kromozom lokalizasyonunda, hücre ekspresyon tipinde ve akciğer adenokarsinomu ile prognoz ilişkisinde açık bir rol oynamıştır. Diğer 18 genin akciğer adenokarsinomu ve normal dokular arasında ekspresyon farklılıkları vardı ancak modele dahil edilmemişlerdir. Bununla birlikte, LLM tarafından tanımlanan genler, biyoenformatik analizle üretilen önemli genlerle tutarlı değildi ve bu da LLM’nin hala geleneksel analitik yöntemlerin yerini alamayacağını düşündürmektedir.
Ayrıca, biyoenformatik iş akışlarının iş akışlarını oluşturmak için DeepSeek R1’i de kullandık. DeepSeek kullanımı yalnızca net bir araştırma çerçevesi sağlamakla kalmadı, aynı zamanda ayrıntılı metodolojik rehberlik de sundu. Hukuk alanında lisans programlarının gelişimi devam ettikçe, teknik altyapısı olmayan araştırmacıların temel biyoenformatik analizlerini bağımsız olarak gerçekleştirmelerine olanak sağlayarak, biyoenformatik uzmanlarına olan bağımlılığı önemli ölçüde azaltabilir ve disiplinlerarası iş akışlarını kolaylaştırabilir.
Sepsis ve disülfidptozis arasındaki bağlantıyı araştırmak için, GEO veritabanından halka açık transkriptomik verileri kullanarak DRG’lerin ekspresyon modellerini inceledik. Septik hastalardan ve sağlıklı kontrollerden alınan periferik kan örneklerinin karşılaştırmalı analizi, anlamlı ekspresyon değişiklikleri gösteren 13 DRG’yi tanımladı. Daha sonra yapılan denetimsiz kümeleme, disülfidptozisle ilişkili üç farklı moleküler alt tip belirledi. Bu kümeler, PCA ile daha ileri doğrulamalara tabi tutularak sepsis sınıflandırması için önemleri doğrulandı.
Güçlü bir tanı aracı geliştirmek için dört tahmin modeli oluşturduk ve SVM modelinin en iyi performansı sergilediğini, GSE65682 veri setinde 0,966 ve GSE185263 veri setinde 0,871 AUROC elde ettiğini bulduk. Sepsis ile yakından ilişkili olan FSTL1 , SELP , PPBP , ITGA2B ve PF4 dahil olmak üzere beş önemli DRG SVM modelinden elde edildi. Daha sonra bu genleri içeren bir tanı nomogramı geliştirildi ve doğrulandı. Model, 0,988’lik bir C indeksi ile mükemmel tanısal fayda gösterdi. Karar eğrisi ve klinik etki analizleri, nomogramın klinik uygulama potansiyelini daha da destekledi. Ek olarak, korelasyon analizleri, beş aday gen ile sepsis’teki bağışıklık hücresi infiltrasyon seviyeleri arasında güçlü ilişkiler ortaya koydu.
Sepsis-3.0 kriterleri, sepsisi, konakçının enfeksiyona verdiği uyumsuz tepkiden kaynaklanan organ işlev bozukluğuyla karakterize, potansiyel olarak ölümcül bir durum olarak tanımlar [ 19 ]. Sepsisin patofizyolojisi, birden fazla hücre ölümü biçimi de dahil olmak üzere karmaşık hücresel ve metabolik bozuklukları içerir. Bulgularımız, sepsiste DRG’lerin farklı ekspresyonlarını göstererek, muhtemelen redoks dengesindeki ve mitokondriyal fonksiyondaki değişimleri yansıtan belirgin yukarı ve aşağı regülasyon kalıplarını göstererek bu kavramı desteklemektedir.
Sepsis’te immün disregülasyon dinamik ve çok yönlüdür. Hastalığın evresine bağlı olarak hastalar, her ikisi de immün homeostaziyi bozan hiperinflamasyon veya derin immünosüpresyon sergileyebilirler. İmmün infiltrasyon analizi, sağlıklı kontrollere göre septik hastalarda bellek B hücreleri, düzenleyici T hücreleri (Treg’ler), γδ T hücreleri ve aktive dendritik hücreler dahil olmak üzere çoklu lenfosit popülasyonlarında yükselmeler göstermiştir. İlk antijen maruziyetini takiben germinal merkezlerde oluşan bellek B hücreleri, hızlı sekonder immün yanıtlarda önemli bir rol oynar. Bununla birlikte, bellek B hücresi tükenmesi sepsis kaynaklı immünosüpresyona katkıda bulunur ve bu hücrelerin işlevinin sepsisin ilerleyici değişimiyle değişebileceğini gösterir. Benzer şekilde, immünosüpresif rolleriyle bilinen Treg’lerdeki artış, septik hastalarda immünosüpresif bir duruma doğru bir kaymayı daha da ileri götürür. DSP ile ilişkili gen ekspresyonuna dayanarak iki sepsis alt tipi tanımlanmıştır. GSVA sonuçlarına göre, bir alt tip bağışıklık sistemi yolaklarında zenginleşme gösterirken, diğer alt tip daha güçlü metabolik yolak aktivitesi gösterdi. Bu sonuç, bağışıklık durumunun farklı septik hastalar arasında veya sepsisin farklı dönemlerinde farklılık gösterebileceğini ve bu bulguların gelecekteki çalışmalarda derinlemesine araştırılması gerektiğini düşündürmektedir.
Septik hastalarda sonuçları iyileştirmek için erken tanı ve zamanında müdahale kritik öneme sahiptir. Önceki çalışmalar disülfidptozisle ilişkili genleri belirlemiş ve sepsis için tahmini modeller oluşturmuşken, çalışmamız kapsamlı bir makine öğrenimi yaklaşımıyla bu temele dayanmaktadır. Zhang ve arkadaşları, sepsis kaynaklı akut akciğer hasarının temel belirteçleri olarak MYL6 ve ACSL4’ü tanımlamışken, Zou ve arkadaşları MYH10 , FLNA , ACTN4 , MYH9 ve IQGAP1 dahil olmak üzere beş merkez geni saptamıştır . İki tahmini modelin karşılaştırmalı analizi yoluyla He ve arkadaşları kesişen altı gen keşfetmiştir: LRPPRC , SLC7A11 , GLUT , MYH9 , NUBPL ve GYS1 . Bu bulguları genişleterek dört makine öğrenimi modeli geliştirdik ve SVM algoritmasının en yüksek tahmini doğruluğu sağladığını bulduk. SVM, verileri maksimum marjlı bir hiperdüzlem oluşturarak sınıflandırır ve çekirdek fonksiyonları aracılığıyla doğrusal olmayan verileri verimli bir şekilde işler. Güçlü yönleri, yüksek boyutlu uzaylarda sağlamlığı, küçük veri kümeleriyle güçlü genelleştirilebilirliği ve doğrusal olmayan ilişkileri modellemedeki esnekliğidir.
SVM modelini kullanarak, sepsisin temel öngörücüleri olarak disulfidptozisle ilişkili beş gen ( FSTL1 , PPBP , PF4 , SELP ve ITGA2B) belirledik . Bu genler, bağımsız bir harici veri seti kullanılarak doğrulandı. Klinik faydalarını daha ayrıntılı değerlendirmek için, bu beş gene dayalı olarak sepsis riski öngörüsü için bir nomogram oluşturduk. Model, mükemmel öngörü performansı gösterdi ve klinik çeviri için umut vadediyor. Öngörü değerinin ötesinde, bu genler sepsis yönetiminde potansiyel terapötik hedefler olarak da hizmet edebilir.
FSTL1 , bağışıklık modülasyonunda, inflamasyonda ve doku onarımında rol oynayan salgılanan bir glikoprotein olan Follistatin benzeri 1’i kodlar [ 20 ]. Sepsiste FSTL1’in yüksek serum düzeyleri bildirilmiştir ve sistemik inflamasyon için potansiyel bir biyobelirteç olarak önerilmiştir [ 21 ]. PPBP , aktive edilmiş trombositlerden salınan ve inflamasyona ve doku rejenerasyonuna katkıda bulunan bir kemokin olan CXCL7’yi kodlar [ 22 ]. PF4 (CXCL4) , özellikle inflamatuvar koşullar altında pıhtılaşma, bağışıklık düzenlemesi ve anjiyogenezde rol oynayan başka bir trombosit türevi kemokindir [ 23 ] . SELP, tromboz , lökosit alımı ve vasküler inflamasyonda rol oynayan önemli bir hücre yapışma molekülü olan P-selektini kodlar [ 25 , 26 ]. ITGA2B, trombosit agregasyonunun, trombozun, anjiyogenezin ve tümör metastazının merkezi düzenleyicisi olan GPIIb/IIIa kompleksini oluşturmak için integrin β3 (CD61) ile eşleşen integrin αIIb alt birimini (CD41) kodlar [ 27 ].
Fare sepsis modelimizde, hepsi trombositle ilişkili genler olan PPBP , PF4 ve SELP genlerinin yukarı regülasyonunu gözlemledik . Bu, sepsis patofizyolojisinde trombosit disfonksiyonunun önemli bir rolü olduğunu düşündürmektedir. Bu bulgular, disülfidptozisle ilişkili genlerin trombosit aktivasyonu ve vasküler endotel geçirgenliği üzerindeki etkileri yoluyla inflamatuar yanıtı düzenleyebileceğini düşündürmektedir. Ancak, kesin moleküler mekanizmalar gelecekteki çalışmalarda açıklığa kavuşturulmayı beklemektedir.
Korelasyon analizi, beş temel DRG ile bağışıklık hücresi infiltrasyonu, özellikle de sepsis ilerlemesinin bilinen bir belirleyicisi olan makrofaj polarizasyonu arasında güçlü ilişkiler ortaya koymuştur. Makrofajlar sepsis sırasında dinamik fenotipik plastisite sergiler. Erken hiperinflamatuar fazda, M1 makrofajları baskındır, proinflamatuar sitokinler üretir ve patojen temizliğini sağlar. Bu yanıt enfeksiyonu kontrol etmek için gerekli olsa da, aşırı M1 aktivasyonu sitokin fırtınalarını ve organ yetmezliğini tetikleyebilir. Sepsis ilerledikçe, M2 makrofajları daha yaygın hale gelir ve antiinflamatuar sitokin salgılanması ve T hücre yanıtlarının baskılanması yoluyla doku onarımını destekler. Bununla birlikte, aşırı M2 polarizasyonu bağışıklık felcine katkıda bulunarak ikincil enfeksiyonlara duyarlılığı artırır ve mortaliteyi yükseltir.
Çalışmamız değerli bilgiler sağlasa da, bazı sınırlamalar dikkate değerdir. Biyoenformatik analizler kamuya açık veri setlerine dayanmaktadır ve bulgularımızı doğrulamak için prospektif klinik çalışmalara ihtiyaç duyulmaktadır. Ayrıca, periferik kan ile tükürük bezleri gibi diğer bölmeler arasındaki dokuya özgü ifade farklılıkları, farklı mikro ortamları yansıtabilir. Gelecekte bu genlerin in vivo rollerini netleştirmek için hayvan modellerinde işlevsel doğrulama yapılması şarttır.
Çözüm
Bu çalışma, LLM’leri biyoenformatik analize uygulamakta ve literatür işleme ve gen kavrama modeli geliştirmektedir. Sonuçlarımız, sepsiste disülfidptozisin rolünü vurgulamakta ve hem eğitim hem de doğrulama veri setlerinde güçlü tanısal performans gösteren beş temel öngörücü geni tanımlamaktadır. Sepsis fare modeli, temel genlerin ekspresyonunun arttığını doğrulayarak, bunların önemini daha da desteklemektedir. Bulgularımız, LLM’lerin tıbbi araştırmalarda uygulanmasını ilerletmekte ve sepsiste disülfidptozisin rolünü vurgulamaktadır.
Kaynak: https://link.springer.com/article/10.1007/s13755-025-00385-z
