İçeriğe atla

Çoklu dizi hizalaması

Çeşitli organizmaların ribozom proteini P0 (L10E)'ın çoklu dizi hizalamasının ilk 90 pozisyonu. ClustalX ile elde edilmiştir.

Çoklu dizi hizalaması, üç ya da çok biyolojik dizinin (genelde protein, DNA veya RNA dizisinin) dizi hizalamasıdır. Çoğu durumda, girdi kümesindeki sorgu dizilerinin evrimsel bir ilişkiye sahip olduğu, yani ortak bir ataya sahip oldukları varsayılır. Elde edilen çoklu dizi hizalamasından homoloji olduğu çıkarımı yapılabilir ve filogenetik analiz ile dizilerin evrimsel kökenleri değerlendirilebilir. Hizalamanın sağdaki resimdeki gibi gösterimiyle noktasal mutasyonlar, hizalamadaki sütunlardan birinde farklı bir harf olarak, ensersiyon ve delesyonlar ise hizalamadaki satırlardan bir veya daha fazlasında tire şeklinde beliren eklemeler şeklinde mutasyon olayları görülebilir. Protein bölgelerinde, ikincil veya üçüncül yapılarda ve hatta bireysel amino asit veya nükleotitlerin dizi korunumunu değerlendirmek için çoklu dizi hizalamaları sıkça kullanılır.

Çoklu dizi hizalaması terimi ayrıca bir dizi kümesinin hizalanması süreci için kullanılır. Üç veya daha çok dizinin elle hizalanması zor olduğu ve genelde çok zaman alıcı olduğu için hizalamaların üretim ve analizi için berimsel (hesaplamalı) algoritmalar kullanılır. ÇDH'ler ikili dizi hizalamasından daha ileri yöntemlerin kullanımını gerektirir çünkü berimsel olarak karmaşıktırlar. Nispeten kısa birkaç diziden fazlasının optimal hizalamasını bulmak berimsel bakımdan çok pahalıdır, bu yüzden çoğu çoklu dizileme programları global optimizasyon yerine höristik yöntemler kullanır.

Dinamik programlama ve berimsel karmaşıklık

Bir ÇDH üretiminde global optimal çözümünü bulmak için dinamik programlama tekniği kullanılır. Proteinler için, bu yöntem iki parametre grubu kullanılır: bir boşluk cezası ve bir substitusyon matrisi. Substitusyon matrisi, her bir amino asit çiftinin birbiriyle hizalanmasına karşılık gelen bir puan (skor) veya olasılık değeri içerir, bu değerler amino asitlerin kimyasal özelliklerinin benzerliğine ve mutasyonun olmasının evrimsel olasılığına dayalıdır. Nükleotit dizileri için benzer bir boşluk ceza değeri vardır ama substitusyon matrisi çok daha basittir, tipik olarak sadece aynı olma veya olmamaya göre skorlar bulunur. Substitusyon matrisindeki skorlar global hizalamalar durumunda ya sırf pozitif olabilir veya hem pozitif hem negatif değerler içerebilirler, ama lokal hizalama durumunda hem pozitif hem negatif değerler içermek zorundadır.[1]

İki dizinin hizalanmasında bir matris kullanılmasından yola çıkarak, n adet dizinin hizalanması için, o matrisin n-boyutlu karşılığı bir matris kullanmak, çözüme ulaşmanın toy (saf) bir yolu olur. Bu yaklaşımın sonucu arama uzayı artan n ile üssel şekilde büyür ve dizi uzunluğuna da kuvvetle bağımlıdır. Berimsel karmaşıklığı ölçmekte kullanılan büyük O notasyonu ile ifade edilirse, toy yaklaşımla elde edilmiş bir ÇDH n dizi için O(Uzunlukn) sürede tamamlanır. Bu n dizi için global optimumu bulmanın NP-tam problem olduğu gösterilmiştir.[2][3] Altschul, 1989'da, Carrillo-Lipman Algorithmasını[4] kullanarak, n-boyutlu arama uzayının ikili hizalamalar yaparak sınırlanabileceğini göstermiştir.[5] Bu yaklaşım ile, sorgu kümesindeki her bir dizi çifti için dinzmik programlama hizalamaları yapılır, sonra bu hizalamaların n-boyutlu kesişimi civarında n-li hizalama için arama yapılır. Bu ÇDH algoritması hizalamadaki her pozisyon için, karakter çiftlerinin toplamlarını (çiftler toplamı skorunu) optimize eder. Algoritma, çoklu dizi hizalaması yapan bir yazılım programı olarak uygulamaya sokulmuştur.[6]

İlerleyici hizalama inşası

Çoklu dizi hizalamasında en yaygın kullanılan yöntem, ilerleyici (İng. progressive) yöntem olarak bilinen (hiyerarşik veya ağaç yöntemi olarak da bilinir) bir buluşsal (höristik) aramadır. Bu yöntemde, ÇDH'yi inşa etmek için önce birbirine en benzer olan çiftten başlanır, sonra gittikçe daha az benzeşen çiftler eklenir. İlerleyici hizalama yöntemlerinin hepsi iki aşamadan oluşur: diziler arasındaki ilişkinin kılavuz ağaç denen bir filogenetik ağaç olarak gösterildiği birinci aşama; ve büyüyen ÇDH'ye dizilerin sırayla eklenerek ÇDH'nin inşa edildiği bir ikinci aşama. İlk kılavuz ağacı oluşturmak için, dinamik programlama hizalaması yapmak yerine, verimli bir kümeleme (clustering) yöntemi kullanılır (komşu birleştirme veya UPGMA gibi). Kümelemede uzaklık değeri olarak aynı iki harfli altdizilerin sayısı kullanılabilir (FASTA programında olduğu gibi).

İlerleyici hizalamalar global optimal olamaz. Temel sorun, ÇDH oluşturulurken yapılan hataların nihai sonuca kadar taşınmasıdır. Kümedeki diziler birbirlerine uzaktan ilişkiliyse algoritmanın performansı özellikle kötüdür. Çoğu modern ilerleyici yöntemler, sorgu kümesinin her bir üyesi için skor fonksiyonlarını değiştirir. Bu değişken skor, dizilerin en yakın komşularına olan genetik uzaklığına bağlı olarak nonlineer değişen bir ağırlık fonksiyonuyla hesaplanır. Böylece, hizalama programının dizileri rastgele olmayan bir şekilde seçmesinin etkisi düzeltilmiş olur.[7]

İlerleyici hizalama yöntemler, çok sayıda (yüzlerce ila binlerce arası) diziye uygulanabilecek derecede verimli çalışırlar. İlerleyici hizalama hizmetleri kamuya açık Web sunucularında mevcuttur, bu yüzden kullanıcılar bu programı kendi bilgisayarlarında kurmak zorunda değildirler. En popüler ilerleyici hizalama yöntemi Clustal ailesi olmuştur,[8] özellikle ağırlıklı versiyonu olan clustalW[9] bunlara çeşitli Web portallerindan erişilebilir (GenomeNet, EBI5 Ağustos 2010 tarihinde Wayback Machine sitesinde arşivlendi., and EMBNet1 Mayıs 2011 tarihinde Wayback Machine sitesinde arşivlendi. dahil olmak üzere). Farklı portaller veya uyarlamalar kullanıcı arayüzü ve kullanıcının değiştirebileceği parametreler bakımından faklılık gösterebilirler. ClustalW'nun doğrudan filogenetik ağaç inşası için kullanılmaması gerektiğine dair programcının açık ikazlarına rağmen, programın çıktıları bu amaç için yaygın olarak kullanılır. ClustalW çıktısı, homoloji modellemesi ile protein yapı öndeyisine girdi olarak da kullanılmamalıdır.

T-Coffee olarak adlandırılan bir diğer yaygın ilerleyici hizalama yöntemi, Clustal ve onun türevlerinden daha yavaştır ama birbiriyle uzaktan ilişkili diziler için daha doğru hizalamalar üretir. İkili hizalamalar hesaplamak için T-Coffee iki farklı yöntemle elde edilen hizalamaları birleştirir: çiftin doğrudan hizalaması ve, çiftteki her diziyi üçüncü bir dizi ile hizalanması ile elde edilen, indirekt hizalamalar. Bu program, hem Clustal çıktısını, hem de başka bir lokal hizalama programı olan ve iki dizideki çoklu lokal hizalanma bölgeleri bulan LALIGN programını kullanır. Elde edilen hizalama ve filogenetik ağaç, yeni ve daha doğru ağırlık faktörleri üretmek için kullanılır.

İleleyici yöntemler buluşsal oldukları için, global bir optimuma yakınsama garantileri yoktur, hizalamanın kalitesini değerlendirmek zor olabilir ve gerçek biyolojik anlamı belirsiz olabilir.

Tekrarlayıcı yöntemler

ÇDH üretip, ilerleyici yöntemlere özgü hataları azaltan bir yöntemler grubu "tekrarlayıcı" (iterative) olarak sınıflandırılmıştır, çünkü bunlar ilerleyici yöntemlere benzer olarak çalışmakla beraber, büyüyen ÇDH'ye yeni diziler eklerken ilk dizileri tekrar tekrar hizalamaya devam eder. İlerleyici yöntemlerin yüksek kaliteli ilk hizalamalara muhtaç olmalarının nedeni, bu hizalamaların hep nihai sonuçta yer almasıdır. Yani bir dizi bir ÇDH içinde yerini aldıktan sonra onun hizalaması tekrar gözden geçirilmez. Bu yaklaşıklık (approximation) berimsel hızı artırır ama doğruluktan kaybetme pahasına. Buna karşın, tekrarlayıcı yöntemler, daha önce hesaplanmış ikili hizalamalara veya sorgu dizisini içeren alt-ÇDH'ler geri gelebilirler. Bu sayede, yüksek kaliteli bir hizalama skoru elde etmeyi sağlayacak bir genel objektif fonksiyon optimize edilebilir.[7]

Birbirinden ince farklılıklar gösteren çeşitli tekrarlayıcı yöntemler uygulamaya konmuş ve yazılım paketi olarak kullanıma sunulmuştur; bu yazılımlar hakkında çeşitli inceleme ve kıyaslama makaleleri "en iyi" yöntemi ilan etmekten kaçınmışlardır.[10] PRRN/PRRP adlı yazılım paketi bir tepe tırmanma algoritması kullanır, ÇDH hizalama skorunu optimize etmek için.[11] büyüyen ÇDH'nin hem hizalama ağırlıklarını hem de yerel olarak ıraksamış veya "boşluklu" bölgelerini tekrarlayan bir şekilde düzeltir.[7] PRRP, daha hızlı bir yöntemle inşa edilmiş bir hizalamayı iyileştirmede kullanıldığında en iyi performans gösterir.[7]

Başka bir tekrarlayıcı program, DIALIGN ise olağandışı bir yaklaşım kullanır, boşluk cezası kullanmadan dizi motifleri veya alt dizilerin lokal hizalamalarına odaklanır.[12] İkili hizalama yapmakta kullanılan bir nokta matris grafiğine benzer bir matris gösterimi kullanılarak bireysel motifler hizalanır. Yavaş bir global hizalama için hızlı lokal hizalamaları birer "tohum" olarak kullanan bir alternatif yöntem CHAOS/DIALIGN25 Ağustos 2010 tarihinde Wayback Machine sitesinde arşivlendi. paketinde kullanılır.[12]

Tekrarlama-temelli üçüncü bir popüler yöntem MUSCLE23 Temmuz 2010 tarihinde Wayback Machine sitesinde arşivlendi. (multiple sequence alignment by log-expectation; log-beklenti ile çoklu dizi hizalaması) olarak adlandırılır, iki dizinin yakınlığını belirlemek için daha doğruluklu bir uzaklık değeri hesaplayarak, ilerleyici yöntemlerden daha yüksek bir başarı gösterir.[13] Uzaklık ölçütü, tekrarlama aşamaları arasında yenilenir.

Gizli Markov modelleri

Gizli Markov modelleri (GMM), boşluk, uyuşma ve uyuşmamaların tüm kombinasyonlarına bir olasılık değeri atayan olasılıksal modellerdir. GMMler yüksek skorlu bir çıktı verebilirler ama ayrıca bir olasıl hizalamalar ailesi de üretebilirler, bunlar sonradan biyolojik anlamlılıkları bakımından değerlendirilebilir. GMM-temelli yöntemler nipeten yakın zamanda geliştirilmiş olmalarına rağmen, berimsel hızda önemli iyileşme göstermişlerdir, özellikle örtüşen bölgelere sahip dizilerde.[7]

Tipik GMM-temelli yöntemler, bir ÇDH'yi kısmî-dereceli çizit (partial order graph) (bir yönlü asiklik çizit tipi) olarak temsil ederek çalışırlar. Bu çizitin düğümleri, ÇDH'nin sütunlarındaki olasıl değerleri temsil eder. Bu gösterimde, tamamen korunmuş bir sütun (yani ÇDH'deki tüm diziler bir pozisyonda aynı karaktere sahipler) tek bir düğüm olarak gösterilir, bu düğümden çıkan bağlantı sayısı, hizalamanın bir sonraki sütunundaki farklı karakter sayısına eşittir. Tipik bir gizli Markov modeli için, gözlemlenen haller, bireysel hizalama sütunlarıdır, "gizli" haller ise, sorgu kümseinde bulunan dizilerin evrimleşmiş olduğu varsayılan atasal diziyi temsil eder. Dinamik programlama yönteminin verimli bir varyantı olan Viterbi algoritması, büyüyen ÇDH'yi sorgu kümesindeki bir sonraki dizi ile hizalamak için kullanılır, böylece yeni bir ÇDH elde edilir.[14] Bu yöntem, ilerleyici hizalama yönteminden farklıdır çünkü her yeni dizi eklenmesinde evvelki dizilerin hizalaması da yenilenir. Ancak, ilerleyici yöntemlerde olduğu gibi, bu yöntem de sorgu kümesindeki dizilerin hizalamaya katılmasının sırasına bağlı sonuç verebilir, özellikle diziler uzak ilişkilyse.[7]

GMM-temelli yöntemlerin uygulandığı, verimlilikleri ve ölçeklenebilirlikleri bakımından başarılı sayılan çeşitli yazılım programları mevcuttur. Ancak GMM yöntemleri, yaygın ilerleyici yöntemlerden daha karmaşıktır. En basit olanı POA25 Aralık 2009 tarihinde Wayback Machine sitesinde arşivlendi. (Partial-Order Alignment Kısmî dereceli hizalama);,[15]

Benzer ama daha genelleştirilmiş bir yöntem SAM16 Ekim 2011 tarihinde Wayback Machine sitesinde arşivlendi. (Sequence Alignment and Modeling System Dizi hizalama ve modelleme sistemi)'dır.[14] ve HMMER'dir.[16] SAM, protein yapı öndeyisi yapmak için hizalama kaynağı olarak ve S. cerevisiae mayasında protein kodlayıcı öndeyili diziler içeren bir veri tabanı geliştirmek için kullanılmıştır. HHsearch[17] GMMlerin ikili karşılaştırması ile uzak ilişkili protein dizilerinin tespiti için bir yazılımdır. HHsearch (HHpred) çalıştıran bir sunucu CASP7 and CASP8 yapı öndeyi yarışmasındaki en iyi 10 otomatik protein yapı öndeyi sunucularının en hızlısıydı.[18]

Genetik algoritmalar ve benzetmeli tavlama

Bilgisayar bilimlerindeki standart optimizasyon teknikleri, kaliteli ÇDH üretimi için kullanılmıştır. Bu yöntemlerden biri olan genetik algoritmalar, sorgu kümesindeki dizileri meydana getiren evrimsel süreci ana hatlarıyla benzeterek (simüle ederek) ÇDH üretimi için kullanılmıştır. Bu yöntemde, bir seri olasıl ÇDH, kısa parçalara bölünür ve bunların içinde çeşitli yerlere boşluklar konarak tekrar tekrar diziler düzenlenir. Genel bir objektif fonksiyon, (en yaygın olarak dinamik programlama ile ÇDH yöntemlerinde kullanılan "çiftler toplamı" maksimizasyon fonksiyonu) bu simülasyon sırasında optimize edilir. Protein dizileri için bir teknik, SAGA (Sequence Alignment by Genetic Algorithm Genetik algoritma ile dizi hizalaması)[19] ve RNA iiçin onun karşılığı olan RAGA.[20] adlı yazılım programlarında uygulanmıştır.

Benzetilmiş tavlama tekniğinde, başka bir yöntemle elde edilmiş mevcut bir ÇDH, bir seri yeniden düzenleme yoluyla iyileştilir. Hizalama uzayında başlangış hizalamasından daha optimal bölgeler bulunmaya çalışılır. Genetik algoritmada olduğu gibi benzetilmiş tavlama da çiftler toplamı gibi bir objektif fonksiyonu maksimize etmeye çalışır. Benzetilmiş tavlamada, mecazî bir "sıcaklık faktörü", değişimlerin meydana gelme hızını ve her bir değişimin olasılığını belirler; tipik kullanımda farklı özelliklere sahip olan iki tip evre vardır: yüksek değişim hızı ve nispeten düşük olasılıklara sahip evreler ile (hizalama uzayının uzak bölgelerini araştırmak için) düşük hız ve yüksek olasılıklı evreler (yeni varılmış bir bölgedeki lokal minimumları daha ayrıntılı olarak keşif yapmak için) birbirini takip eder. Bu yaklaşım MSASA (Multiple Sequence Alignment by Simulated Annealing) programında uygulanmıştır.[21]

Motif bulma

Drosophila'nın yedi kaspaz dizisinin hizalanması ve MEME programı tarafından tespit edilmiş renkli olarak gösterilen motifler. Motif pozisyonları ve dizi hizalamaları birbirlerinden bağımsız olarak üretilirse birbirleriyle bağıntıları bu örnekte görüldüğü üzere genelde iyidir ama mükemmel değildir.

Motif bulmak veya bir diğer adıyla profil analizi, global ÇDH'de dizi motifi bulma yöntemidir. Hem daha iyi ÇDH üretmeye hem de benzer motifler içeren başka benzer diziler bulmak için bir skor matrisi üretmeye yarar. Motifleri bulmak için çeşitli yöntemler geliştirilmiştir, bunların hepsi, büyük bir hizalama içinde yer alan, çok korunmuş, kısa dizi örüntüleri (motifleri) bulmaya, sonra da bulunan motifin her pozisyonundaki nükleotit veya amino asit bileşimini yansıtan, substitusyon matrisine benzer bir matris inşasına dayalıdır. Bu matrisler kullanılarak hizalama daha da iyileştirilebilir. Standart profil analizinde, matriste her karakter ve ayrıca boşluk için değerler bulunur.[7] Alternatif olarak, istatistik örüntü bulma algoritmaları ile bulunan motifler, ÇDH için bir ön adım oluşturabilir, ondan türeyen bir bilgi olmak yerine. Çoğu durumda, sorgu kümesi eğer az sayıda dizi içerirse veya birbirine çok benzeyen diziler içerirse, skor matrisindeki dağılımı normalleştirmek için sahtesayılar (pseudocount) eklenebilir. Bu yolla matriste sıfır sıklığa sahip değerler sıfır olmayan küçük değerlere dönüştürülür.

Blok analizi, motifleri hizalamada boşluksuz bölgelere sınırlayan bir motif bulma yöntemidir. Bloklar bir ÇDH'den üretilebilir veya hizalanmamış dizilerden, bilinen gen ailelerinden elde edilmiş, önceden hesaplanmış motif grupları kullanılarak hizalanmamış dizilerden bulunabilir.[22] Blok skorlaması genelde yüksek frekanslı karakterlerin arasındaki uzaklığa dayalıdır, bir substitusyon matrisinin hesaplanması yerine. BLOCKS sunucusu hizalanmamış dizilerde bu tür motiflerin bulunması için enteraktif bir yöntem sağlar.

İstatistik örüntü eşleme (pattern-matching), hem beklenti maksimizasyon algoritması hem de Gibbs örnekleyicisi için uygulanmıştır. En yaygın motif bulma araçlarından biri olan MEME, motif bulmak için beklenti maksimizasyon ve gizli Markov modelleri kullanır, bu motifler sonra MEME/MAST[23][24] paketindeki yardımcı program MAST tarafından arama aracı olarak kullanılır.

Görselleme ve düzeltim (editing) araçları

Çoklu dizi hizalamasında buluşsal (höristik) yöntemlerin kullanılması, herhangi bir grup protein dizilerinin hizalamasında hata olma olasılığının yüksek olacağı anlamını taşır. Evrim sırasında dizilerden bir veya birkaçına rastgele bir insersiyon olması veya daha karmaşık bir evrimsel süreç sonucu dizi analizi ile kolayca hizalanamayan proteinler meydana gelmesi bu tür hatalar meydana gelebilir. Çoklu dizi hizalama görüntüleyicileri hizalamaların görsel şekilde kontrolüne olanak verir. İki veya daha çok dizide tanımlanmış olan işlevsel konumlara bakılarak hizalama kalitesi anlaşılabilir. Bu programların çoğu, bu tür (genelde ufak) hataların düzeltilmesini de sağlar, böylece filogenetik analiz veya karşılaştırmalı modelleme için uygun, optimal, bir uzman tarafından düzenlenmiş (curated) hizalama elde edilmiş olur.[25]

Filogenetikteki kullanımı

Çoklu dizi hizalamaları filogenetik ağaç üretmekte kullanılabilir.[26] Bunun iki nedeni vardır. Birincisi, açıklamalı (annotated) dizilerdeki işlevsel protein bölgeleri bilinmeyen protein bölgelerinin hizalanmasında kullanılabilir. Öbür neden ise işlevsel olarak önemli olan korunmuş bölgeler bu yolla bulunabilir. Çoklu dizi hizalamaları kullanılarak, diziler arasında homolojiden yararlanarak evrimsel ilişkiler bulunabilir. Nokta mutasyonlar ve delesyonlar (indel olarak adlandırılır) tespit edilebilir.

Çoklu dizi hizalamaları işlevsel olarak önemli konumların tespit edilmesinde kullanılabilir. Korunmuş bölgeler sayesinde örneğin, bağlanma bölgeleri, aktif bölgeler veya diğer anahtar fonksiyonlara karşılık gelen konumlar bulunabilir. Çoklu dizi hizalamalarına bakarken, dizileri kıyaslamakta farklı özellikleri göz önüne almak yararlı olabilir. Bu özelliklerin arasında aynılık, benzerlik ve homoloji sayılabilir. Aynılık, dizilerin birbirine karşılık gelen pozisyonlarında aynı kalıntıya (rezidüye) sahip olmasıdır. Buna karşın, benzerlik, karşılaştırılan dizilerin nitel olarak benzer kimyasal kalıntılara sahip olmasıdır. Örneğin, nükleotit dizilerinde, pirimidinler birbirine, pürinler de birbirine benzer sayılırlar. Benzerlik sonunda homolojiye varır, diziler ne kadar birbirlerine benzerse homolog olmaya o kadar yakındırlar. Dizilerde homoloji, ortak ataları bulmaya yardımcı olur.[26]

Ayrıca bakınız

  • Kladistik
  • Filogenetik
  • Dizi izalama yazılımı
  • Çoklu Dizi Hizalam görüntüleycileri
  • Yapısal hizalama

Kaynakça

  1. ^ "Help with matrices used in sequence comparison tools". European Bioinformatics Institute. 3 Mart 2013 tarihinde kaynağından arşivlendi. Erişim tarihi: 3 Mart 2010. 
  2. ^ Wang L, Jiang T. (1994) On the complexity of multiple sequence alignment. J Comput Biol 1:337-348.
  3. ^ Just W. (2001). Computational complexity of multiple sequence alignment with SP-score. J Comput Biol 8(6):615-23.
  4. ^ Carrillo H, Lipman DJ,(1988) The Multiple Sequence Alignment Problem in Biology. SIAM Journal of Applied Mathematics, Vol.48, No. 5, 1073-1082
  5. ^ Lipman DJ, Altschul SF, Kececioglu JD.(1989) A tool for multiple sequence alignment. Proc Natl Acad Sci U S A. 86, 4412-4415.
  6. ^ "Genetic analysis software". National Center for Biotechnology Information. 2 Kasım 2015 tarihinde kaynağından arşivlendi. Erişim tarihi: 3 Mart 2010. 
  7. ^ a b c d e f g Mount DM. (2004). Bioinformatics: Sequence and Genome Analysis 2nd ed. Cold Spring Harbor Laboratory Press: Cold Spring Harbor, NY.
  8. ^ Higgins DG, Sharp PM (1988). "CLUSTAL: a package for performing multiple sequence alignment on a microcomputer". Gene. 73 (1). ss. 237-244. doi:10.1016/0378-1119(88)90330-7. 
  9. ^ Thompson JD, Higgins DG, Gibson TJ (1994). "CLUSTAL W: improving the sensitivity of progressive multiple sequence alignment through sequence weighting, positions-specific gap penalties and weight matrix choice". Nucleic Acids Res. Cilt 22. ss. 4673-4680. doi:10.1093/nar/22.22.4673. PMID 7984417. 
  10. ^ Hirosawa M, Totoki Y, Hoshida M, Ishikawa M. (1995). Comprehensive study on iterative algorithms of multiple sequence alignment. Comput Appl Biosci 11:13-18.
  11. ^ Gotoh O. (1996). Significant improvement in accuracy of multiple protein sequence alignments by iterative refinement as assessed by reference to structural alignments. J Mol Biol 264(4):823-38.
  12. ^ a b Brudno M, Chapman M, Göttgens B, Batzoglou S, Morgenstern B. (2003) Fast and sensitive multiple alignment of large genomic sequences. BMC Bioinformatics 4:66.
  13. ^ Edgar RC. (2004), MUSCLE: multiple sequence alignment with high accuracy and high throughput. Nucleic Acids Research 32(5), 1792-97.
  14. ^ a b Hughey R, Krogh A. (1996). Hidden Markov models for sequence analysis: extension and analysis of the basic method. CABIOS 12(2):95-107. Kaynak hatası: Geçersiz <ref> etiketi: "hughey" adı farklı içerikte birden fazla tanımlanmış (Bkz: )
  15. ^ Grasso C, Lee C. (2004). Combining partial order alignment and progressive multiple sequence alignment increases alignment speed and scalability to very large alignment problems. Bioinformatics 20(10):1546-56.
  16. ^ Durbin R, Eddy S, Krogh A, Mitchison G. (1998). Biological sequence analysis: probabilistic models of proteins and nucleic acids, Cambridge University Press, 1998.
  17. ^ Söding J (2005). "Protein homology detection by HMM-HMM comparison". Bioinformatics. 21 (7). ss. 951-960. doi:10.1093/bioinformatics/bti125. PMID 15531603. 
  18. ^ Battey JN, Kopp J, Bordoli L, Read RJ, Clarke ND, Schwede T (2007). "Automated server predictions in CASP7". Proteins. 69 (Suppl 8). ss. 68-82. doi:10.1002/prot.21761. PMID 17894354. 
  19. ^ Notredame C, Higgins DG. (1996). SAGA: sequence alignment by genetic algorithm. Nucleic Acids Res 24(8):1515-24.
  20. ^ Notredame C, O'Brien EA, Higgins DG. (1997). RAGA: RNA sequence alignment by genetic algorithm. Nucleic Acids Res 25(22):4570-80.
  21. ^ Kim J, Pramanik S, Chung MJ. (1994). Multiple sequence alignment using simulated annealing. Comput Appl Biosci 10(4):419-26.
  22. ^ Henikoff S, Henikoff JG (1991). "Automated assembly of protein blocks for database searching". Nucleic Acids Res. Cilt 19. ss. 6565-6572. doi:10.1093/nar/19.23.6565. PMID 1754394. 
  23. ^ Bailey TL, Elkan C (1994). "Fitting a mixture model by expectation maximization to discover motifs in biopolymers". Proceedings of the Second International Conference on Intelligent Systems for Molecular Biology. Menlo Park, California: AAAI Press. ss. 28-36. 
  24. ^ Bailey TL, Gribskov M (1998). "Combining evidence using p-values: application to sequence homology searches". Bioinformatics. Cilt 14. ss. 48-54. doi:10.1093/bioinformatics/14.1.48. PMID 9520501. 
  25. ^ "Manual editing and adjustment of MSAs". European Molecular Biology Laboratory. 2007. 24 Eylül 2015 tarihinde kaynağından arşivlendi. Erişim tarihi: 7 Mart 2010. 
  26. ^ a b Budd, Aidan (Şubat 2009). "Multiple sequence alignment exercises and demonstrations". European Molecular Biology Laboratory. Erişim tarihi: 7 Mart 2010. []

İnceleme makaleleri

  • Duret, L. (2000). "Multiple alignment for structural functional or phylogenetic analyses of homologous sequences". D. Higgins and W. Taylor (Ed.). Bioinformatics sequence structure and databanks. Oxford: Oxford University Press. 
  • Notredame, C. (2002). "Recent progresses in multiple sequence alignment: a survey". Pharmacogenomics. 31 (1). ss. 131-144. doi:10.1517/14622416.3.1.131. 
  • Thompson, J. D. (1999). "A comprehensive comparison of multiple sequence alignment programs". Nucleic Acids Research. 27 (13). ss. 12682-2690. doi:10.1093/nar/27.13.2682. PMID 10373585. 
  • Wallace, I.M. (2005). "Multiple sequence alignments". Curr Opin Struct Biol. 15 (3). ss. 261-266. doi:10.1016/j.sbi.2005.04.002. 
  • Notredame, C (2007). "Recent evolutions of multiple sequence alignment algorithms". PLOS Computational Biology. 8 (3). s. e123. doi:10.1371/journal.pcbi.0030123. 

Dış bağlantılar

Lecture notes, tutorials, and courses

İlgili Araştırma Makaleleri

<span class="mw-page-title-main">Genetik</span> biyolojinin organizmalardaki kalıtım ve çeşitliliği inceleyen bir dalı

Genetik ya da kalıtım bilimi, biyolojinin organizmalardaki kalıtım ve genetik varyasyonu inceleyen bir dalıdır. Türkçeye Almancadan geçen genetik sözcüğü 1831 yılında Yunanca γενετικός - genetikos ("genitif") sözcüğünden türetildi. Bu sözcüğün kökeni ise γένεσις - genesis ("köken") sözcüğüne dayanmaktadır.

<span class="mw-page-title-main">Protein</span> polipeptitlerin işlevsellik kazanması sonucu oluşan canlıların temel yapı birimi

Proteinler, bir veya daha fazla uzun amino asit artık zincirini içeren büyük biyomoleküller ve makromolekül'lerdir. Proteinler organizmalar içinde, hücrelere yapı ve organizmalar sağlayarak ve molekülleri bir konumdan diğerine taşıyarak metabolik reaksiyonları katalizleme, DNA kopyalama, uyaranlara yanıt verme dahil olmak üzere çok çeşitli işlevler gerçekleştirir. Proteinler, genlerinin nükleotit dizisi tarafından dikte edilen ve genellikle faaliyetini belirleyen özel 3D yapıya protein katlanmasıyla sonuçlanan amino asit dizilimlerinde birbirlerinden farklıdır.

<span class="mw-page-title-main">DNA</span> Canlıların genetik bilgilerini barındıran molekül

Deoksiriboz nükleik asit veya kısaca DNA, tüm organizmaların ve bazı virüslerin canlılık işlevleri ve biyolojik gelişmeleri için gerekli olan genetik talimatları taşıyan bir nükleik asittir. DNA'nın başlıca rolü bilgiyi uzun süre saklamasıdır. Protein ve RNA gibi hücrenin diğer bileşenlerinin inşası için gerekli olan bilgileri içermesinden dolayı DNA; bir kalıp, şablon veya reçeteye benzetilir. Bu genetik bilgileri içeren DNA parçaları gen olarak adlandırılır. Bazı DNA dizilerinin yapısal işlevleri vardır, diğerleri ise bu genetik bilginin ne şekilde kullanılacağının düzenlenmesine yararlar.

Restriksiyon enzimi veya restriksiyon endonükleazı, çift zincirli DNA moleküllerindeki belli nükleotit dizilerini tanıyan ve her iki zinciri birlikte kesen bir enzim türüdür. Bu özel enzimler, bakteri ve arkelerde bulunurlar ve virüslere karşı bir savunma mekanizmasına aittirler. Konak bakteri hücresinde restriksiyon enzimleri seçici olarak yabancı DNA'ları keserler; konak DNA'yı restriksiyon enziminin etkinliğinden korunmak için bir değiştirme (modifikasyon) enzimi tarafından metillenir. Bu iki süreç toplu olarak restriksiyon modifikasyon sistemi olarak adlandırılır. Bir restriksiyon enzimi DNA'yı kesmek için DNA çift sarmalının her şeker-fosfat omurgasından birer kere olmak üzere iki kesme yapar.

Biyolojide filogenetik çeşitli organizma grupları arasındaki evrimsel ilişkinin araştırmasıdır. Bu ilişkiler filogeni olarak adlandırılır. Filogenetik terimi Yunanca kökenlidir, "kabile, ırk" anlamına gelen file veya filon (φυλή/φῦλον) ve doğumla ilişkili anlamındaki genetikos (γενετικός) terimlerinden türetilmiştir. Organizmaların sınıflandırması ve adlandırması olan taksonomi, filogenetikten büyük miktarda etkilenmiştir ama yöntemsel ve mantıksal olarak farklıdır. Bu iki saha, "kladizm" veya "kladistik" olarak bilinen filogenetik sistematik bilim dalında örtüşürler. Filogenetik sistematikte taksonları birbirinden ayırt etmek için sadece filogenetik ağaçlar kullanılır. Evrimsel hayat ağacının araştırılması için filogenetik analiz yöntemleri vazgeçilmez hâle gelmiştir.

<span class="mw-page-title-main">DNA dizileme</span> moleküler biyolojide bir teknik

DNA dizilemesi, bir DNA molekülündeki nükleotit bazlarının sırasının belirlenmesidir.

DNA denatürasyonu, iki iplikçikli DNA'nın bazları arasındaki hidrojen bağlarının kırılması sonucu, çözülüp, iplikçiklerinin birbirinden ayrılması sürecidir. Her iki terim de, çözeltideki DNA'nın ısıtılması sonucu iplikçiklerin ayrılması için kullanılır ancak denatürsayon, üre gibi kimyasallar tarafından da meydana gelebilir. Çok sayıda DNA molekülünden söz edilirken, ergime sıcaklığı (Tm), DNA iplikçiklerinin yarısının ikili sarmal, yarısının ise rastgele sarım hâlinde olduğu sıcaklıktır. Ergime sıcaklığı, molekülün uzunluğuna ve onun nükleotit bileşimine bağlıdır.

<span class="mw-page-title-main">İnsan genomu</span>

İnsan genomu Homo sapiens'in genomudur. 23 kromozom çifti üzerinde bulunur, bunlardan 22 çifti otozomal kromozomdur, kalan çift ise cinsiyeti belirler. Haploit insan genomu toplam 3 milyar DNA baz çiftinden biraz fazla uzunluktadır. İnsan Genom Projesi ile elde edilen ökromatik insan genom referans dizisi biyomedikal bilimlerde kullanılmaktadır.

Biyoenformatikte dizi hizalaması, DNA, RNA veya protein dizilerini düzenleyerek benzer bölgelerin tespit edilmesidir. Bu bölgelerin benzer olması, diziler arasında işlevsel, yapısal veya evrimsel bir ilişki olduğu anlamına gelir. Hizalanmış nükleotit veya aminoasit kalıntı dizileri tipik olarak bir matriksin satırları olarak gösterilir. Kimyasal kalıntıları temsil eden harflerin arasına boşluklar konarak ardışık sütunlarda yer alan aynı veya benzer harflerin bir hizada olması sağlanır.

Gen bulma, genomik DNA'da biyolojik olarak işlevsel olan dizileri algoritmik olarak tespit etmekle ilgili hesaplamalı biyolojinin bir sahasıdır. İşlevsel dizilerden kastedilen genelde protein kodlayıcı genler olmakla beraber, RNA genleri ve düzenleyici bölgeler de dahil edilir. Bir organizmanın genomu dizilendikten sonra bu genomun anlaşılabilmesi için ilk ve en önemli adım gen bulmadır.

Biyomoleküler yapı biyomoleküllerin yapısıdır. Bu moleküllerin yapısı genelde birincil, ikincil, üçüncül ve dördüncül yapı olarak ayrılır. Bu yapının iskeleti, molekül içinde birbirine hidrojen bağları ile bağlanmış ikincil yapı elemanları tarafından oluşturulur. Bunun sonucunda protein ve nükleik asit yapı bölgeleri oluşur.

Proteinler her organizmada bulunan önemli bir makromolekül sınıfıdır. Proteinler, 20 farklı tip L-α-amino asitten meydana gelen polimerlerdir. Amino asitler birbiriyle reaksiyona girdikten sonra meydana gelen polimerde bu amino asitlerden arta kalan birimlere amino asit kalıntısı denir. 40 kalıntıdan daha kısa olan zincirler için protein yerine genelde peptit terimi kullanılır. Biyolojik fonksiyonlarını yerine getirebilmek için proteinler uzay içinde belli bir biçim alacak şekilde katlanırlar. Bu katlanmayı yönlendiren güçler, protein atomları arasındaki hidrojen bağı, iyonik etkileşimler, van der Waals kuvvetleri ve hidrofobik istiflenme gibi, kovalent olmayan etkleşimlerdir. Proteinlerin işlevlerini moleküler düzeyde anlayabilmek için genelde onları üç boyutlu yapısının çözülmesi gerekir. Protein yapısını çözmek için X-ışını kristalografisi ve NMR spektroskopisi kullanılır, bunlar yapısal biyolojinin başlıca yöntemleri arasında yer alır.

<span class="mw-page-title-main">Protein ikincil yapısı</span>

Biyokimya ve yapısal biyolojide ikincil yapı, protein veya nükleik asit (DNA/RNA) gibi biyopolimerlerin yerel parçalarının genel, üç boyutlu biçimleridir. Buna karşın, atomlarının üç boyutlu uzaydaki konumları üçüncül yapı tanımlamasına girer.

Gen Ontolojisi ya da GO, gen ve gen ürünü vasıflarının bütün türler kapsamında temsilini birleştirmek için büyük bir biyoenformatik girişimidir. Proje özellikle şunları hedeflemektedir:

  1. Gen ve gen ürünü vasıflarına dair sahip olduğu denetli söz dağarcığının sürdürülmesi ve geliştirilmesi;
  2. Gen ve gen ürünlerinin notlaması, not verilerinin özümsenmesi ve dağıtılması;
  3. Projenin sağladığı verinin bütün boyutlarına kolayca erişilmesi için ve deneysel verilerin GO kullanarak işlevsel yorumlanabilmesi için araçlar sağlanması.

Molecular Evolutionary Genetics Analysis (MEGA) moleküler evrimin istatisitksel analizini yönetmek ve filogenetik ağaçlar oluşturmak için tasarlanmış bilgisayar programı. Filogeneomik ve filotıp için çok miktarda karmaşık method içerir. Sahipli ücretisiz yazılım olarak lisanslanmıştır. Proje Masatoshi Nei tarafında Pensilvanya Devlet Üniversitesinde başlatılmış olup, öğrencileri Sudhir Kumar ve Koichiro Tamura tarafından desteklenmiştir.

<span class="mw-page-title-main">I-TASSER</span>

I-TASSER amino asit sekanslarından protein moleküllerinin üç boyutlu yapısını tahmin etmek için kullanılan bir biyoinformatik yöntemi. Katlama tanıma adı verilen bir teknikle Protein Veri Bankası'ndan yapı şablonlarını algılar. Kopya değiştirme Monte Carlo simülasyonları kullanılarak katlanma şablonlarından yapısal parçalar yeniden bir araya getirilerek tam uzunlukta yapı modelleri oluşturulur. I-TASSER, topluluk çapındaki CASP deneylerine göre en başarılı protein yapısı tahmin yöntemlerinden biridir.

<span class="mw-page-title-main">Sanger dizilemesi</span>

Sanger dizilemesi, in vitro DNA replikasyonu sırasında DNA polimeraz tarafından zincir sonlandırıcı dideoksinükleotidlerin seçici bir şekilde dahil edilmesine dayanan bir DNA dizileme yöntemidir. İlk olarak 1977'de Frederick Sanger ve meslektaşları tarafından geliştirildikten sonra, yaklaşık 40 yıldır en yaygın kullanılan dizileme yöntemi haline geldi. İlk olarak 1986 yılında Applied Biosystems tarafından ticarileştirildi. Daha yakın zamanlarda, daha yüksek hacimli Sanger dizilemesi, özellikle büyük ölçekli, otomatik genom analizleri için "Gelecek-Nesil" dizileme yöntemleriyle değiştirildi. Bununla birlikte, Sanger yöntemi, daha küçük ölçekli projeler ve Gelecek-Nesil sonuçların doğrulanması için yaygın olarak kullanılmaktadır. Yine de, kısa okumalı dizileme teknolojilerine göre, >500 nükleotidlik DNA dizisi okumaları üretebilme avantajına sahiptir.

Oligonükleotitler, genetik test, araştırma ve adli tıpta geniş bir uygulama alanına sahip olan kısa DNA veya RNA molekülleri, oligomerleridir. Laboratuvarda katı faz kimyasal sentezi ile yaygın olarak yapılan bu küçük nükleik asit bitleri, herhangi bir kullanıcı tanımlı diziye sahip tek sarmallı moleküller olarak üretilebilir ve bu nedenle yapay gen sentezi polimeraz zincir reaksiyonu (PCR) DNA dizileme moleküler klonlama ve moleküler problar için hayati öneme sahiptir. Doğada oligonükleotitler genellikle gen ekspresyonunun düzenlenmesinde işlev gören küçük RNA molekülleri olarak bulunur veya daha büyük nükleik asit moleküllerinin parçalanmasından türetilen bozunma ara maddeleri olarak bulunur.

Memeli Promotör Veritabanı (MPromDb) ChIP-SEQ sayesinde belirlenmiş gen promoterlerini içeren bir veriritabanıdır Yakın promotör bölgesi (akışyukarısına çekirdek promotör bölgesinin yukarısa) çoğu transkripsiyon faktörlerinin (TFS) cis-düzenleyici elementlerini ihtiva eder.

<span class="mw-page-title-main">Biyolojik veritabanı</span> biyolojik bilgi veritabanı

Biyolojik veritabanları, bilimsel deneylerden, yayınlanmış literatürden, yüksek verimli deney teknolojisinden ve hesaplamalı analizlerden toplanan biyolojik bilimler kütüphaneleridir. Genomik, proteomik, metabolomik, mikroarray gen ifadesi ve filogenetik gibi araştırma alanlarından bilgiler içerirler. Biyolojik veritabanlarında yer alan bilgiler arasında gen fonksiyonu, yapısı, lokalizasyonu, mutasyonların klinik etkilerinin yanı sıra biyolojik dizilerin ve yapıların benzerlikleri yer almaktadır.