NCBI ile Hizalama yöntemleri

NCBI: 1988 yılında Ulusal Sağlık Enstitüsü’nün bir kolu olarak Moleküler Biyoloji Bilgi Araştırma Merkezi olarak kuruldu. Birçok hizalama yönteminin rahatlıkla yapılabildiği bir sistem olmakla beraber canlılar hakkında; soy ağaçları, genetik yapıları ve bu yapılarda meydana gelen değişimler, DNA dizi hizalama yöntemleri ve biyoinformatik araçlarının rahatlıkla kullanımının yapılabileceği bir sistemdir. kendine ait bilgilerin depolandığı bir kütüphaneye sahiptir ve biyolojik bilimler hakkında bazı bilgilere bu kütüphaneden erişim sağlanmasına olanak tanımaktadır.

Bu sistemde DNA dizi hizalama ve BLAST tekniğinin kullanımını kısa açıklayıcı bir video ile öğrenelim.

Biyoinformatikte kullanılan önemli terimler listesi

Accession number (GenBank): Bir dizi GenBank’a kaydedildiği zaman bu kayıt için
verilen ve kayda özel kimlik numarasıdır. Bir büyük harf ve ardından gelen 5 rakam veya 2
büyük harf ve 6 rakamdan oluşur. Girilen dizi ile ilgili bilgilerin güncellenmesi durumunda
dahi hiçbir şekilde değiştirilmez.

Accession number (RefSeq): Bütün bir RefSeq dizisine atanmış kimlik numaralarıdır.
Sırasıyla iki büyük harf, bir alt çizgi (_) ve 6 rakamdan oluşur (ör: NT_123456). İlk iki rakam
dizi tipini gösterir:

  • NT_123456 birleştirilmiş genomik kontigler
  • NM_123456 mRNA’lar (mRNA’dan oluşturulmuş cDNA’lar)
  • NP_123456 proteinler
  • NC_123456 kromozomlar

Bit score: Kullanılan skorlama sisteminin istatistiksel özelliklerinin hesaba katılmasıyla ham
karşılaştırma skoru S’ten türetilmiş S değeridir. Skorlama sistemine göre normalize edilmiş
değerler olduklarından farklı karşılaştırmalar arasında ilişki kurmak için kullanılabilirler.BLAST (Basic Local

Alignment Search Tool): Aynı ya da farklı organizmalar arasında
nükleotid ya da protein dizisi karşılaştırılması ve benzer bölgelerin araştırılması için
kullanılan yüksek hızda bir bilgisayar programıdır.

Blosum (block substitution matrix): Proteinlerin karşılaştırılması ile elde edilen blokların
değişim frekansının gözlemlesinden türetilmiş değerlerden oluşan bir değişim matrisidir. Her
matris özel bir evrimsel uzaklığa uyarlanır.

CDS: Bir nükleotid dizisinin kodonları oluşturan bölgesi ya da kodlayan dizi.

Conserved sequence (korunmuş dizi): Bir DNA moleklünde (bir proteindeki aminoasi dizisinde) evrim sürecinde değişmeden kalmış olan baz dizisi.

Contig: Bir kromozomun üst üste çakışma gösteren, klonlanmış farklı DNA parçaları grubu.

Domain: Bir proteinin bağımsız olarak katlanabildiği ve çalışabildiği kabul edilen parçası.

E value (expectation value): Beklenti değeri. Veritabanı taramasında şans eseri çıkması beklenen, S değerine denk ya da daha büyük skorlara sahip benzer dizilerin sayısı. Düşük E değeri büyük skora işaret eder.

EST (expressed sequence tag): Bir cDNA molekülünün, bir genin kimliği olarak kullanılabilecek kısa bir parçası. Genlerin konumlanmasında ve haritalanmasında kullanılır.

Homologue: Dizisi büyük oranda başka bir gene benzeyen gen. Bu genlerin ortak bir ataya
sahip olduğu ve benzer fonkiyonlar taşıdığı düşünülür.

Motif: Protein dizisi içinde kısa, korunmuş bir bölge. Motifler genellikle domainlerin yüksek
derecede korunmuş bölgeleridir.

Orthologous: Ortak bir atadan geldikleri düşünülen, benzer bir fonksiyonu olabilen, farklı
türlere ait homolog dizilerdir.

Paralogous: Aynı tür içinde, gen duplikasyonu sonucu oluşmuş homolog diziler.

Query: Veritabanındaki tüm dizilerin karşılaştırılacağı giriş dizisidir.

Kaynak: Kaya ve ark. ‘t.y.’

BLAST programları

BLAST programı

BLAST uygulamaları ortolog ve paralogların tanımlanması, yeni gen ve proteinlerin
keşfi, gen ve protein varyantlarının bulunması, ESTs’lerin araştırılması, protein yapı ve
fonksiyonunun keşfedilmesinin gerçekleştirilmesini sağlamaktadır.

Fasta Dosya Formatı

En yaygın kullanılan popülasyon genetiği veri formatları arasında FASTA formatı ilk sırada gelir. FASTA formatı nükleotid dizileri (DNA, RNA) ve protein (aminoasit) dizileri için en yaygın kullanılan metin tabanlı dosya formatıdır.

FASTA dosyası içindeki tek satırda sekans verisi 80 karakterden az ve her satırda aynı uzunlukta olmalıdır. İstenildiği takdirde yorum satırı kullanılabilir, yorum satırları noktalı virgül (;) işareti ile başlar. Yorum satırları dosya içinde satır sonu haricinde her yerde kullanılabilir ve kullanıldığı satırı tamamen yorum haline getirir
Resim 1: Genel FASTA Dosya Formatı Görünümü 

FASTA formatlarında dizi (sekans) bilgilerinden önce tek satırlık tanımlama satırı ve yorum satırları gelir. Tanımlama satırı çoğu kez büyüktür işareti (>) ile başlar. Büyüktür (>) işaretinden sonra isteğe bağlı olarak “AB000263” gibi bir kimlik kodu veya sekans adı gelir. Kimlik kodu ya da sekans adından sonra tanımlama satırına, isteğe bağlı olarak çeşitli sekans bilgileri eklenebilir. Birçok farklı dizi (sekans) veri tabanı, tanımlama satırlarından otomatik bilgi elde edilmesi için kendilerine ait standart başlıklar kullanırlar. Bu başlıklar içinde dikey çubuk (|) ile ayrılan ve belirli bir sıraya konulmuş çeşitli bilgiler bulunmaktadır.

Devamını oku: Fasta Dosya Formatı

https://biyoinformatik.net/fasta-dosya-formati