NanoPack2: uzun okuma dizileme verilerinin nüfus ölçeğinde değerlendirmesi

1. Giriş

Pacific Biosciences ve Oxford Nanopore Technologies’in (ONT) uzun okuma dizilimi, tek genomlardan ve küçük birey gruplarından büyük nüfus ölçeğinde kohortlara dönüştü (Beyter ve ark. 2021De Coster ve ark. 2021). Aynı zamanda, hesaplamalı görevlerin artan ekonomik maliyeti ve iklim etkisi, veri kalitesi değerlendirmesi ve işlenmesi için daha verimli biyoinformatik yöntemler de gerektirmektedir (Pereira ve ark. 2017) Bununla birlikte, uzun okumalı dizileme verilerinin >100 genom popülasyonlarına ölçeklenmeden kalite değerlendirmesi için çeşitli araçlar geliştirilmiştir (Watson ve ark. 2015De Coster ve ark. 2018Lanfear ve ark. 2019Leger ve ark. 2020) Bu makale, bu ihtiyacı karşılayan ve yapısal varyantları kapsayan hizalamalar ve faz okuma hizalamaları da dahil olmak üzere uzun okuma genom dizilimi ile ilgili özellikleri verimli bir şekilde değerlendiren yeni geliştirilen araçları sunar. Aşama, yani birlikte meydana gelen varyantları tanımlayarak her sıralı parçayı bir ebeveyn haplotipine atamak (Martin ve ark. 2016Edge ve Bansal 2019), ilişki çalışmalarında potansiyel fonksiyonel varyantların belirlenmesinde ve varsayımsal bileşik heterozigot varyasyonun patojenitesi için kritik öneme sahiptir. Ayrıca, NanoPack araçlarından NanoPlot ve NanoComp hakkında bir güncelleme sunuyoruz (De Coster ve ark. 2018)

2. Yazılım açıklaması

NanoPlot ve NanoComp’te yapılan iyileştirmeler, kod optimizasyonları arasında ek grafiklerin oluşturulması, Plotly kütüphanesinden dinamik HTML grafiklerinin kullanılması ve son kullanıcılar tarafından daha fazla araştırmanın sağlanmasıdır (Ek Şekil. S1). Araçlar artık programlama dili agnostik Ok veri formatını kullanarak girişi de destekliyor. BAM/CRAM hizalamalarından Arrow dosyalarını verimli bir şekilde oluşturmak için bir ikili dosya sağlanır. Chopper, kalite, uzunluk ve kirletici dizilere göre sıralama okumalarını filtrelemek için NanoFilt ve NanoLyse’in kullanışlılığını birleştiren, Rust-Bio kütüphanesini (Köster 2016) ve Rust bağlamalarını minimap2’ye (Li 2018) kullanarak Python uygulamasına kıyasla 7 kat hız sağlayan bir araçtır.

NanoStat (De Coster ve ark. 2018) kullanılarak uzun okunan dizileme deneylerinin özetlenmesi, günümüzde nano gözenek dizilimi ile yaygın olan verimler göz önüne alındığında çok yavaştır. Cramino, rust-htslib (Köster 2016Bonfield ve ark. 2021) kullanarak, referans genomuna göre veri çıktısına, ortalama kapsama alanına, okuma sayısına, ortalama ve medyan uzunluklarına ve dizi kimliğine dayalı ölçümler toplamak için çok daha hızlı bir alternatif sunar. Uzun okumalar yapısal varyantları kapsar ve büyük bir boşluk için okuma doğruluğunu cezalandırmak istenmez. Bu nedenle Cramino, okuma uzunluğuna göre düzenleme mesafesi olarak tanımlanan boşluk sıkıştırılmış kimliği hesaplarken, ardışık hizalama boşluklarını yalnızca bir fark olarak sayar (Ek Yöntemler). Cramino, okuma uzunluğuna göre filtrelemeye izin verir ve isteğe bağlı olarak kromozom başına normalleştirilmiş okuma sayılarını hesaplayarak karyotip ve biyolojik cinsiyetin ilkel bir değerlendirmesini çıkarır, veri bütünlüğünü kontrol etmek için MD5 sağlama toplamını hesaplar, okuma fazlama performansının ölçümlerini sağlar ve uzun okuma transkriptomikleri için eklenmiş eksonların sayısı hakkında ölçümler sağlayabilir. Önemli olarak, Cramino, okuma uzunluğu ve Cramino’nun kendisinden okuma kimliği için isteğe bağlı hafif histogramların üzerine Arrow formatında çıktı üreterek NanoPlot ve NanoComp’in zengin görselleştirmeleriyle uyumlu kalır. BAM/CRAM dekompresyonu için dört çekirdek kullanarak 50× kapsama alanına sahip ONT insan genomu dizilimi için Cramino, isteğe bağlı çıkış olmadan 147 Mb’lik bir tepe bellek kullanımıyla 12 dakika veya histogramlar, karyotip, faz ölçümleri, MD5 sağlama toplamı ve Ok dosyasının oluşturulması dahil olmak üzere toplam çıktı için 690 Mb’lik bir tepe bellek kullanımıyla 21 dakika sürer. Kyber, tek bir giriş dosyası veya üç adede kadar CRAM veya BAM dosyasının karşılaştırılması için (phred ölçekli) boşluk sıkıştırılmış referans kimliğine karşı log-dönüştürülmüş okuma uzunluğunun standart grafikleri oluşturmak için bir araçtır (Ek Yöntemler ve Ek Şekil. S2).

Phasius, dinamik bir genom tarayıcı tarzında, genom ek açıklaması, örneğin segmental çoğaltmalar ile birlikte çok sayıda bireyden bitişik faz bloklar arasındaki uzunluğu ve kesintileri gösteren okuma fazlamasının sonuçlarını görselleştirmek için geliştirilmiştir (Ek Yöntemler ve Şek. 1) (Bailey ve ark. 2002) Phasius, sekiz paralel iş parçacığı ve 4.3 Gbyte pik bellek kullanımı ile 10 megabaz aralığında 92 birey için örnek rakamı oluşturmak için 26 s alır. Örnek şekil için, okumalar minimap2 (Li 2018) ile hizalandı ve hizalamalar longshot ile aşamalı olarak yapıldı (Edge ve Bansal 2019).

Şekil 1. Faz çıkışı örneği. Bu grafik, 92 birey için chr7:142 000 000–146 000 000’in haplotip faz yapısını göstermektedir. Her yatay çizgi tek bir bireydendir ve renk değişikliği, bitişik olarak yeni bir faz genomik segmentin başlangıcını gösterir. Açıklama izi (alt), daha uzun tekrarlayan öğeler durumunda aşamalı blokları tahmin edilebilir bir şekilde kıran gri çubuklarla segmental çoğaltmaları gösterir. Etkileşimli bir örnek https://wdecoster.github.io/phasius adresinde bulunabilir.

3. Sonuç

NanoPack artık uzun okuma dizilimi ile ilgili özelliklere odaklanarak daha performanslı bir programlama dilinde uygulamalarla büyük popülasyonları değerlendirmek için araçlar sunuyor. Yazılım paketinin tüm büyük işletim sistemlerine kurulumu kolaydır ve HTML formatında etkileşimli görselleştirme sunar.

Yazının Tamamı İçin Tıklayınız.