DNA Dizi Temelleri

DNA dizileri, biyoinformatik projelerinde en önemli verilerden biridir. Bu bölümde, DNA dizilerinin temellerini, ATCG'nin ne anlama geldiğini, kodlama bölgelerinin nasıl tanımlandığını ve FASTA formatında nasıl çalışılacağını öğreneceksiniz.

ATCG ve DNA Dizisi

DNA dizileri, dört farklı kimyasal bazdan oluşur: Adenin (A), Timin (T), Sitozin (C) ve Guanin (G). Bu bazlar, genetik bilgiyi taşır ve DNA'nın yapısını oluşturur. Bu bazların sıralanması, canlıların genetik özelliklerini belirler.

A: Adenin
T: Timin
C: Sitozin
G: Guanin

Bu dört bazın belirli bir sırayla dizilmesi, genetik bilgiyi oluşturur ve bu sıralama, biyolojik fonksiyonları kontrol eder. Örneğin, bir DNA dizisinde "ATCG" sırası, bir genin belirli bir parçasını ifade edebilir.

Kodlama Bölgeleri (Exonlar)

DNA dizisi genellikle iki tür bölgeden oluşur: kodlama bölgeleri (exonlar) ve kodlamayan bölgeler (intronlar).

Kodlama Bölgeleri (Exonlar): Bu bölgeler, proteinin üretimi için gereken bilgiyi taşır. Yani, DNA'nın bu kısmı, vücutta çalışan proteinleri üretmek için kullanılır.
Kodlamayan Bölgeler (Intronlar): Bu bölgeler, protein üretimi için gerekli olmayan, ancak DNA'nın yapısal bütünlüğünü koruyan bölgelerdir.

Bir biyoinformatik projesinde genellikle exonlar üzerinde işlem yaparız çünkü bunlar protein üretiminde rol oynayan bölgeleridir.

FASTA Formatı Nedir?

Biyoinformatikte, genetik veriler genellikle FASTA formatında saklanır. FASTA, genetik dizilerin saklanması için yaygın olarak kullanılan bir dosya formatıdır. Bu formatta, her genetik dizi başında bir tanımlayıcı satırı (header) bulunur ve ardından dizi gelir. Örnek bir FASTA formatı şöyle görünebilir:

>seq1 ATGCGTACGGTAGCTAGCTAGCTAGCTAGCTAGCGTAGCTAGCTAGCTAGCTGAGCTAGCTGAG GATCGAGCTAGCGTACGATGCTAGCTAGCGTAGCGGAGCTAGCTGACTAGCTGAGCTGAGCTGA TAGCTAGCAGCTAGCTGAGCTAGCTAGCAGCTAGCGTAGCTAG

>seq1: Bu, dizinin başındaki başlık satırıdır. Bu satırda genetik dizinin adı veya başka tanımlayıcı bilgiler de bulunabilir.
ATGCGTACGGTAGC...: Bu, DNA dizisidir ve genetik bilgiyi taşır.

FASTA formatı, dizilerin hızlı bir şekilde saklanması ve paylaşılmasını sağlar. Python ile FASTA formatındaki verileri okumak ve işlemek oldukça kolaydır.

MyUNI NotesDNA Yapısı

ATCG Ötesinde Bazlar

DNA’da nadiren ‘J’ bazına rastlanır. Trypanosom gibi parazitlerde bulunur ve glukozla modifiye edilmiş bir urasildir.

MyUNI NotesGenetik Bölgeler

Kodlama Bölgelerindeki Sürpriz

Exonlar sadece %1-2’lik DNA’yı kaplar ama genetik bilginin çoğunu taşır. Intronlar bazen gizli düzenleyici roller oynar.

MyUNI NotesVeri Formatı

FASTA’nın Az Bilinen Yüzü

FASTA formatı ilk olarak 1985’te Pearson ve Lipman tarafından geliştirildi. Başlıklar bazen 1000 karaktere kadar bilgi saklayabilir.

MyUNI NotesProgramlama

Biopython’un Gizli Gücü

SeqIO ile okunan diziler doğrudan manipüle edilebilir. Mesela ters tamamlayıcı (reverse complement) saniyeler içinde hesaplanır.

FASTA Formatı ile Çalışma

Python ile FASTA formatındaki verileri işlemek için Biopython kütüphanesini kullanabiliriz. Biopython, biyoinformatik analizler yapmak için birçok araç sağlar.

Biopython, biyoinformatik analizlerinde kullanılan güçlü bir Python kütüphanesidir. FASTA formatındaki dosyaları işlemek, DNA, RNA ve protein dizileri üzerinde analiz yapmak için idealdir. FASTA, genetik dizileri tanımlamak ve paylaşmak için kullanılan basit bir dosya formatıdır. Her bir dizi bir başlık (ID) ve diziden (sekans) oluşur.

Biopython kütüphanesini yüklemek için şu komutu kullanabilirsiniz:

pip install biopython

Örnek FASTA Dosyası

Test etmek için aşağıdaki gibi bir dosya kullanabilirsiniz. Dosya adı genetik_dizi.fasta olmalıdır:

>gen1
ATCGTAGCTAGCTACGATCG
>gen2
GCTAGCTAGATCGTAGCTA

FASTA Dosyasını Okuma

Biopython'un SeqIO modülü, FASTA dosyalarını okumanıza ve işlemenize olanak tanır. FASTA dosyasındaki DNA dizilerini okumak için Biopython'un SeqIO modülünü kullanabilirsiniz:

from Bio import SeqIO

# FASTA dosyasını oku
for record in SeqIO.parse("genetik_dizi.fasta", "fasta"):
    print(f"Gen adı: {record.id}")
    print(f"Dizi: {record.seq}")

Kod çalıştırıldığında aşağıdaki gibi bir çıktı alırsınız:

Gen adı (ID): gen1
Dizi (Sequence): ATCGTAGCTAGCTACGATCG
Gen adı (ID): gen2
Dizi (Sequence): GCTAGCTAGATCGTAGCTA

Not:

FASTA formatı, biyoinformatik çalışmalarında veri alışverişi için yaygın olarak kullanılır. Python ve Biopython ile bu veriler üzerinde işlem yaparak, genetik verilerin analizini daha etkili bir şekilde gerçekleştirebilirsiniz.

DNA Dizileri ile Çalışma

Python ile DNA İşleme

İçindekiler

ATCG ve DNA Dizisi Kodlama Bölgeleri (Exonlar)FASTA Formatı Nedir?FASTA Formatı ile Çalışma Örnek FASTA Dosyası FASTA Dosyasını Okuma