Fasta Dosya Formatı

En yaygın kullanılan popülasyon genetiği veri formatları arasında FASTA formatı ilk sırada gelir. FASTA formatı nükleotid dizileri (DNA, RNA) ve protein (aminoasit) dizileri için en yaygın kullanılan metin tabanlı dosya formatıdır.

FASTA dosyası içindeki tek satırda sekans verisi 80 karakterden az ve her satırda aynı uzunlukta olmalıdır. İstenildiği takdirde yorum satırı kullanılabilir, yorum satırları noktalı virgül (;) işareti ile başlar. Yorum satırları dosya içinde satır sonu haricinde her yerde kullanılabilir ve kullanıldığı satırı tamamen yorum haline getirir
Resim 1: Genel FASTA Dosya Formatı Görünümü 

FASTA formatlarında dizi (sekans) bilgilerinden önce tek satırlık tanımlama satırı ve yorum satırları gelir. Tanımlama satırı çoğu kez büyüktür işareti (>) ile başlar. Büyüktür (>) işaretinden sonra isteğe bağlı olarak “AB000263” gibi bir kimlik kodu veya sekans adı gelir. Kimlik kodu ya da sekans adından sonra tanımlama satırına, isteğe bağlı olarak çeşitli sekans bilgileri eklenebilir. Birçok farklı dizi (sekans) veri tabanı, tanımlama satırlarından otomatik bilgi elde edilmesi için kendilerine ait standart başlıklar kullanırlar. Bu başlıklar içinde dikey çubuk (|) ile ayrılan ve belirli bir sıraya konulmuş çeşitli bilgiler bulunmaktadır.

Devamını oku: Fasta Dosya Formatı

https://biyoinformatik.net/fasta-dosya-formati