Ardışık tekrarlı DNA dizilerinin optimum düzeyde bulunmasına yönelik programlama çalışması

İnan, Onur

Please use this identifier to cite or link to this item: https://hdl.handle.net/11499/1374

Title:	Ardışık tekrarlı DNA dizilerinin optimum düzeyde bulunmasına yönelik programlama çalışması
Other Titles:	Programming on finding tandem repeat sequences at optimum level
Authors:	İnan, Onur
Advisors:	Abdulkadir Yaldır
Keywords:	Ardışık Tekrar SSR EST Gen Bankası Tandem Repeat GenBank
Publisher:	Pamukkale Üniversitesi Fen Bilimleri Enstitüsü
Abstract:	Deoksiriboz nükleik asit (DNA) de bulunan ardışık tekrarlar iki veya daha fazla nükleotid motifinin ardışık, birbirine benzer kopyalarıdır. Ardışık tekrarların hastalıklara neden olduğu, düzenleyici ve evrimsel roller oynayabildiği ve önemli bir laboratuvar ve analitik araç olduğu gözlemlenmiştir. Mini uydular veya basit ardışık tekrarlarında (Simple Sequence Repeat-SSR) görüldüğü gibi ardışık tekrarların DNA üzerinde yerini gösteren işaretleri (markır) olarak kullanılabilmeleri pek çok araştırıcının ilgisini çekmiştir. DNA markırları genetik analizlerin hızını artırarak genetik biliminde devrime yol açmıştır. Basit ardışık tekrarlar (SSR) 1 ile 5 baz uzunluğunda nükleotid motiflerinin tekrar etmesidir ve genomda bol miktarda bulunuşları, aşırı değişken yapıları ve yüksek çıktılı analizlere uygunluğu bakımından günümüzde pek çok bitki ve hayvan genomlarında tercih edilen markırlardır. SSR ler bir kez geliştirildikten sonra son derece değerlidirler. Fakat elde edilmeleri zaman alıcı, pahalı ve aşırı işgücü gerektirir. Pek çok genoma ait diziler kamuya açık veri bankalarından ücretsiz elde edilebilirler ve hesaplama yöntemlerinin kullanılmasıyla bu kaynakların taranması sonucu markır geliştirilmesi hızlı ve ekonomik olur. İfade edilmiş ardışık etiketler (Expressed Sequence Tags - EST) sadece bol miktarda elde edilebilmeleri yüzünden değil; aynı zamanda ifade edilmiş genleri de temsil ettikleri için SSR leri bulmada ideal adaylardır. Ardışık tekrarların motif boyutları, kopya sayıları, mutasyon geçmişleri vs hakkında ayrıntılı bilgiler edinmek mevcut algoritmaların bazı yetersizlikleri nedeni ile sınırlıdır. Bu çalışmada, Tandem Repeats Miner adı verilen motif ve motif boyutları verilmesine gerek duyulmadan çalışan yeni bir yazılım sunulmuştur. Gen bankasından değişik özelliklere sahip bazı diziler seçilerek dizi koleksiyonu oluşturuldu. Bu koleksiyonu yapmanın ana amacı, geliştirilen algoritmanın geçerliliğini doğrulamak için referans noktaları oluşturmaktır. Bu diziler, DNA dizilerinde karşılaşılan ardışık tekrar bölgelerindeki ortak problemler için bir altyapı sağlamaktadır. Bu koleksiyondaki diziler kullanılarak Tandem Repeats Miner algoritmasının sonuçları, Tandem Repeat Finder ve Hauth algoritması gibi popüler algoritmalarla karşılaştırılmaktadır. Tandem Repeats Miner DNA dizilerindeki VNTR (Variable Number Tandem Repeats-Değişken Sayıda Ardışık Tekrarlar) ve SSR bölgelerini başarıyla belirlemektedir. Analiz sonucu ardışık tekrar bölgelerinin motif boyutunun, kopya sayısının geniş bir aralığı kapsadığı ve karmaşık motif yapıları gösterdiği belirlenmiştir. A tandem repeat in DNA is two or more contiguous, approximate copies of a motif of nucleotides. Tandem repeats which have been shown to cause human disease, may play a variety of regulatory and evolutionary roles, and are important laboratory and analytic tools. Repeats containing DNA sequences have attracted many researches since their use in DNA marker technologies, such as microsatellities or simple sequence repeats (SSRs). DNA markers have revolutionized the field of genetics by increasing the pace of genetic analysis. Simple sequence repeats (SSRs) are repetitions of nucleotide motifs of 1 to 5 bases and are currently the markers of choice in many plant and animal genomes due to their abundant distribution in the genomes, hyper variable nature and suitability for high-throughput analysis. While SSRs, once developed, are extremely valuable, their development is time consuming, laborious and expensive. Sequences from many genomes are continuously made freely available in the public databases and mining of these sources using computational approaches permits rapid and economical marker development. Expressed Sequence Tags (ESTs) are ideal candidates for mining SSRs not only because of their availability in large numbers but also due to the fact that they represent expressed genes. Extensive knowledge about motif size, copy number, mutational history, etc, for tandem repeats has been limited by the inability to easily detect them in genomic sequence data. In this study, a new software is called Tandem Repeats Miner presented, for finding tandem repeats which works without the need to specify either the motif or motif size. A collection of GenBank sequences is constituted representing tandem repeat regions having simple and complex motif structures. The purpose of the sequence collection is to provide a benchmark for validating the identification algorithm. These sequences provide the framework for common problems encountered in tandem repeat regions in DNA sequences. Using these GenBank sequences, the results of Tandem Repeats Miner is compared with popular algorithms such as Tandem Repeat Finder and Hauths algorithm. Tandem Repeats Miner successfully identifies the SSR regions and VNTR (Variable Number Tandem Repeats) regions in DNA sequences. The analysis determined that tandem repeat regions cover a wide range of motif sizes, copy numbers and exhibit complex motif structures.
URI:	https://hdl.handle.net/11499/1374
Appears in Collections:	Tez Koleksiyonu