Weixi Xiang , Xueting Han , Xiujuan Chai , Jing Bai
DNA, RNA ve proteinler gibi biyolojik dizileri modellemek, gen düzenlemesi ve protein sentezi gibi karmaşık süreçleri anlamak için çok önemlidir. Ancak, mevcut modellerin çoğu ya tek bir türe odaklanır ya da birden fazla veri türünü ayrı ayrı ele alır ve bu da çapraz-modal ilişkileri yakalama yeteneklerini sınırlar. Bu modaliteler arasındaki ilişkileri öğrenerek modelin her bir türe ilişkin anlayışını geliştirebileceğini öneriyoruz. Bunu ele almak için, üç tür veri üzerinde eğitilmiş küçük ama güçlü bir karma-modal biyolojik dizi temel modeli olan BSM’yi tanıtıyoruz: RefSeq, Genle İlgili Diziler ve web’den iç içe geçmiş biyolojik diziler. Bu veri kümeleri sırasıyla genetik akışı, gen-protein ilişkilerini ve çeşitli biyolojik verilerin doğal birlikteliğini yakalar. Karma-modal veriler üzerinde eğitim vererek BSM, öğrenme verimliliğini ve çapraz-modal temsili önemli ölçüde artırır ve yalnızca tek-modal veriler üzerinde eğitilmiş modellerden daha iyi performans gösterir. Sadece 110M parametreyle, BSM hem tek-modlu hem de karışık-modlu görevlerde çok daha büyük modellerle karşılaştırılabilir performans elde eder ve mevcut modellerde bulunmayan karışık-modlu görevler için bağlam içi öğrenme yeteneğini benzersiz bir şekilde gösterir. 270M parametreye daha fazla ölçeklendirme, daha da büyük performans kazanımları göstererek, BSM’nin çok-modlu biyolojik dizi modellemesinde önemli bir ilerleme olarak potansiyelini vurgular.
Kaynak: Makalenin ana kaynağı ve türkçe çevirisi için tıklayın


