ATCG Ötesinde Bazlar
DNA’da nadiren ‘J’ bazına rastlanır. Trypanosom gibi parazitlerde bulunur ve glukozla modifiye edilmiş bir urasildir.
DNA dizileri, biyoinformatik projelerinde en önemli verilerden biridir. Bu bölümde, DNA dizilerinin temellerini, ATCG'nin ne anlama geldiğini, kodlama bölgelerinin nasıl tanımlandığını ve FASTA formatında nasıl çalışılacağını öğreneceksiniz.
DNA dizileri, dört farklı kimyasal bazdan oluşur: Adenin (A), Timin (T), Sitozin (C) ve Guanin (G). Bu bazlar, genetik bilgiyi taşır ve DNA'nın yapısını oluşturur. Bu bazların sıralanması, canlıların genetik özelliklerini belirler.
Bu dört bazın belirli bir sırayla dizilmesi, genetik bilgiyi oluşturur ve bu sıralama, biyolojik fonksiyonları kontrol eder. Örneğin, bir DNA dizisinde "ATCG" sırası, bir genin belirli bir parçasını ifade edebilir.
DNA dizisi genellikle iki tür bölgeden oluşur: kodlama bölgeleri (exonlar) ve kodlamayan bölgeler (intronlar).
Bir biyoinformatik projesinde genellikle exonlar üzerinde işlem yaparız çünkü bunlar protein üretiminde rol oynayan bölgeleridir.
Biyoinformatikte, genetik veriler genellikle FASTA formatında saklanır. FASTA, genetik dizilerin saklanması için yaygın olarak kullanılan bir dosya formatıdır. Bu formatta, her genetik dizi başında bir tanımlayıcı satırı (header) bulunur ve ardından dizi gelir. Örnek bir FASTA formatı şöyle görünebilir:
>seq1 ATGCGTACGGTAGCTAGCTAGCTAGCTAGCTAGCGTAGCTAGCTAGCTAGCTGAGCTAGCTGAG GATCGAGCTAGCGTACGATGCTAGCTAGCGTAGCGGAGCTAGCTGACTAGCTGAGCTGAGCTGA TAGCTAGCAGCTAGCTGAGCTAGCTAGCAGCTAGCGTAGCTAG
>seq1
: Bu, dizinin başındaki başlık satırıdır. Bu satırda genetik dizinin adı veya başka tanımlayıcı bilgiler de bulunabilir.ATGCGTACGGTAGC...
: Bu, DNA dizisidir ve genetik bilgiyi taşır.FASTA formatı, dizilerin hızlı bir şekilde saklanması ve paylaşılmasını sağlar. Python ile FASTA formatındaki verileri okumak ve işlemek oldukça kolaydır.
DNA’da nadiren ‘J’ bazına rastlanır. Trypanosom gibi parazitlerde bulunur ve glukozla modifiye edilmiş bir urasildir.
Exonlar sadece %1-2’lik DNA’yı kaplar ama genetik bilginin çoğunu taşır. Intronlar bazen gizli düzenleyici roller oynar.
FASTA formatı ilk olarak 1985’te Pearson ve Lipman tarafından geliştirildi. Başlıklar bazen 1000 karaktere kadar bilgi saklayabilir.
SeqIO ile okunan diziler doğrudan manipüle edilebilir. Mesela ters tamamlayıcı (reverse complement) saniyeler içinde hesaplanır.
Python ile FASTA formatındaki verileri işlemek için Biopython kütüphanesini kullanabiliriz. Biopython, biyoinformatik analizler yapmak için birçok araç sağlar.
Biopython, biyoinformatik analizlerinde kullanılan güçlü bir Python kütüphanesidir. FASTA formatındaki dosyaları işlemek, DNA, RNA ve protein dizileri üzerinde analiz yapmak için idealdir. FASTA, genetik dizileri tanımlamak ve paylaşmak için kullanılan basit bir dosya formatıdır. Her bir dizi bir başlık (ID) ve diziden (sekans) oluşur.
Biopython kütüphanesini yüklemek için şu komutu kullanabilirsiniz:
pip install biopython
Test etmek için aşağıdaki gibi bir dosya kullanabilirsiniz. Dosya adı genetik_dizi.fasta olmalıdır:
>gen1
ATCGTAGCTAGCTACGATCG
>gen2
GCTAGCTAGATCGTAGCTA
Biopython'un SeqIO
modülü, FASTA dosyalarını okumanıza ve işlemenize olanak tanır. FASTA dosyasındaki DNA dizilerini okumak için Biopython'un SeqIO
modülünü kullanabilirsiniz:
from Bio import SeqIO
# FASTA dosyasını oku
for record in SeqIO.parse("genetik_dizi.fasta", "fasta"):
print(f"Gen adı: {record.id}")
print(f"Dizi: {record.seq}")
Kod çalıştırıldığında aşağıdaki gibi bir çıktı alırsınız:
Gen adı (ID): gen1
Dizi (Sequence): ATCGTAGCTAGCTACGATCG
Gen adı (ID): gen2
Dizi (Sequence): GCTAGCTAGATCGTAGCTA
Not:
FASTA formatı, biyoinformatik çalışmalarında veri alışverişi için yaygın olarak kullanılır. Python ve Biopython ile bu veriler üzerinde işlem yaparak, genetik verilerin analizini daha etkili bir şekilde gerçekleştirebilirsiniz.