İçeriğe atla

Gen bulma

Gen bulma, genomik DNA'da biyolojik olarak işlevsel olan dizileri algoritmik olarak tespit etmekle ilgili hesaplamalı biyolojinin bir sahasıdır. İşlevsel dizilerden kastedilen genelde protein kodlayıcı genler olmakla beraber, RNA genleri ve düzenleyici bölgeler de dahil edilir. Bir organizmanın genomu dizilendikten sonra bu genomun anlaşılabilmesi için ilk ve en önemli adım gen bulmadır.

"Gen bulma", başlangıçta canlı hücre ve organizmalar üzerinde yapılan zor deneylere dayalıydı. Çeşitli farklı genler arasındaki homolog rekombinasyon oranlarının istatistik analizi ile onların belli bir kromozom üzerindeki sırasını belirlenebilirdi. Bu tür pek çok deneyin sonuçları birleştirilerek bilinen genlerin yaklaşık konumlarını birbirlerine bağıl olarak gösteren bir genetik harita oluşturulabilirdi. Günümüzde genomların kapsamlı şekilde dizilenmesi ve güçlü bilgisayarların varlığı sayesinde gen bulma artık büyük oranda bir berimsel problem olarak tanımlanabilmektedir.

Bir dizinin işlevsel olduğunu belirlemek ile o genin (veya genin ürününün) işlevinin ne olduğunu belirlemek farklıdır. İkincisini yapabilmek için hâlâ gen nakavt ve diğer yöntemlerin kullanıldığı in vivo deneyler gerekmektedir, ama biyoenformatik bilimi geliştikçe bir genin sadece dizisine dayanarak onun işlevini tahmin etmek artan oranda mümkün olmaktadır.

Dışsal yaklaşımlar

Dışsal (haricî veya kanıta dayalı) gen bulma sistemlerinde, hedef genomda mesajcı RNA (mRNA) veya protein ürün dizileriyle uyumlu diziler aranır. Bir mRNA dizisine dayanarak onu transkripsiyon yoluyla üretecek bir genomik DNA dizisini bulmak basit bir işlemdir. Bir protein dizisinden başlayıp, genetik kodu kullanarak protein dizisini ters çevirisini yapmak ve onu kodlamış olabilecek DNA dizilerinin bir kümesini üretmek mümkündür. Aday DNA dizileri belirlendikten sonra hedef genomu arayıp onunla (kısmen veya tüm olarak, tam veya eksik olarak) eşleşen bölgeler bulmak nispeten basit bir algoritmik problemdir. BLAST bu amaç için yaygın kullanılan bir programdır.

Bilinen bir mRNA veya protein ile yüksek derecede benzerlik olması incelenen genomdaki bir bölgenin protein-kodlayıcı bir gen içerdiğinin kuvvetli bir kanıtıdır. Ancak, bu yaklaşımın sistematik olarak uygulanabilmesi için mRNA ve protein ürünlerinin önceden kapsamlı şekilde dizilenmiş olmasını gerektirir ki bu masraflı bir girişimdir. Bu yaklaşımın bir diğer zorluğu daha vardır, kompleks organizmalardaki genlerin ufak bir altkümesi belli bir anda ve belli bir hücre tipinde ifade edildiği için, kültürlenmiş hücre tipleri durumunda, çoğu gen hakkındaki mRNA veya protein bilgisi mevcut değildir. Dolayısıyla bir kompleks organizmadaki çoğu gen hakkında bu tür bilgilerin elde edilmesi için yüzlerce, hatta binlerce hücre tipinin üzerinde çalışılması gerekebilir. Örneğin, bazı insan genleri gelişim sırasında sadece embriyo veya fetus sırasında ifade edilir, bunların araştırılması ayrıca etik nedenlerden de zordur.

Tüm bu zorluklara rağmen, gerek insan gerek fare ve maya gibi biyolojideki diğer önemli model organizmalar için kapsamlı transkript ve protein dizi veritabanları üretilmiştir. Örneğin Refseq veritabanı pek çok türe ait transkript ve protein dizisi içerir, Ensembl sistemi tüm bu bulguları insan ve diğer canlıların genomları üzerinde haritalar. Ancak, bu veritanlarının hem eksik hem de önemli miktarda hatalı veri içeriyor olmaları muhtemeldir.

Ab initio yaklaşımlar

Genler hakkında dışsal kanıt elde etmenin masraf ve zorluğu nedeniyle, Ab initio (temel ilkelerden yola çıkan) gen bulma yöntemlerine de başvurmak gereklidir. Bu yaklaşım ile genomik DNA dizisinin kendisi, protein kodlayıcı genlere özgü belirtilerin varlığı için sistematik olarak taranır. Bu belirtiler kabaca sinyal ve içerik olarak sınıflandırılabilir: sinyal belirtiler yakında bir genin olduğuna işaret eden spesifik dizilerdir, içeriksel belirtiler ise protein kodlayıcı dizilerin istatistik özellikleridir. Daha doğru bir ifade ile, ab initio gen bulma yöntemlerinin gen öngörü (öndeyi) yöntemleri olduğunu söylenebilir, çünkü öne sürülen bir genin işlevsel olduğunun kesinleşebilmesi için dışsal kanıta gerek vardır.

Prokaryotların genomlarında genlerin spesifik ve nispeten iyi anlaşılmış promotör dizileri (sinyaller) vardır, Pribnow kutusu ve transkripsiyon faktörü bağlanma yeri gibi ve bunların sistematik olarak tespiti kolaydır. Ayrıca, protein kodlayıcı bir dizi tek parçalı bir açık okuma çerçevesinden oluşur, bunun uzunluğu da çoğu zaman yüzlerce veya binlerce nükleotit uzunluktadır. Dur kodonlarının görülme sıklığı göz önüne alınırsa bu uzunlukta bir açık okuma çerçevesi, gen bulmak bakımından oldukça bilgi verici bir belirti sayılır (genetik koddaki 64 kodondan üçü dur kodonu olduğuna göre rastgele bir dizi için yaklaşık her 20-25 kodonda bir veya her 60-75 nükleotitte bir dur kodonu bulunması beklenebilir). Üstelik, protein kodlayıcı DNA dizilerinde bazı periodiklikler ve başka istatistik özellikler vardır ve bu uzunlukta dizilerde bunların görülmesi kolaydır. Bu özellikler prokaryot genlerinin bulunmasını nispeten kolay kılar, iyi tasarlanmış berimsel sistemler yüksek doğruluk oranlarına ulaşabilir.

Ökaryotlarda Ab initio gen bulma, özellikle insan gibi karmaşık organizmalarda, çeşitli nedenlerden dolayı çok daha zordur. Birincisi, bu canlıların genomlarındaki promotör ve diğer düzenleyici sinyaller prokaryotlardakine kıyasla daha karmaşıktır ve daha az anlaşılabilmiştir, bu yüzden bunların güvenilir şekilde tanınması daha zordur. Ökaryotik gen bulucularının tespit ettiği iki klasik sinyal CpG adaları ve poli(A) kuyruğu için bağlanma yeridir.

İkincisi, ökaryotik hücrelerin kullandığı uçbirleştirme mekanizmaları nedeniyle, genomdaki tipik bir protein kodlayıcı dizi birkaç parçaya (eksonlara) ayrılmış durumdadır, bunlarına arasında ise protein kodlamayan diziler (intronlar) yer alır. (Uçbirleştirme yerlerinin tespiti, ökaryotik gen bulucularının tespit ettikleri sinyallerden biridir.) İnsan genomundaki tipik bir protein kodlayıcı gende belki bir düzine eksona bölünmüş olabilir, bunların her birinin uzunluğu iki yüz nükleotitin altındadır ve bazılarının uzunluğu 20-30 nükleotit kadar dahi olabilir. Dolayısıyla, periyodiklik ve protein kodlayıcı DNA'nın diğer içeriksel özelliklerinin tespiti ökaryotlarda çok daha zordur.

Hem prokaryotik hem ökaryotik genomlar için olan gelişmiş gen bulucuları, çeşitli farklı sinyal ve içerik ölçümlerinden elde edilen bilgileri birleştirmek için karmaşık olasılıksal modeller kullanır, gizli Markov modelleri (GMM) gibi. GLIMMER sistemi prokaryotlar için yaygın kullanılır ve yüksek derecede doğruluk gösterir. GeneMark bir diğer popüler programdır. Ökaryotik ab initio gen bulma sistemleri, bunlara karşın, sadece sınırlı derecede başarı göstermiştir: GENSCAN ve geneid programları bunlara örnek verilebilir. SNAP gen bulucusu, Genscan gibi GMM-tabanlıdır, üzerinde eğitilmemiş olduğu bir genom dizisi üzerinde çalışmanın doğuracağı sorunların üstesinden gelerek için farklı organizmalara daha uyumlu olmaya çalışır.[1] mSplicer,[2] CONTRAST,[3] veya mGene[4] gibi bazı programlar destek vektör makinası gibi makine öğrenimi tekn'kler' de kullanırlar, daha başarılı bir gen öngörüsü için. Gizli Markov destek vektör makinaları veya şartlı rastgele alanlar (conditional random field) kullanan ayırdedici modeller (discriminative model) kurarak doğru bir gen öngörü skor fonksiyonu öğrenmeye çalışırlar.

Diğer sinyaller

Gen öngörüsü için kullanılan, dizi analizi ile türetilmiş sinyallere örnek olarak, k-li istatistikler, psödo-sayı olarak kodlanmış DNA dizilerinin Fourier dönüşümü ve Z-eğrisi parametreleri sayılabilir.[5]

Dizi içinde doğrudan yer almayan sinyallerin gen öngörüsüne daha iyileştirebileceği öne sürülmüştür. Örneğin, düzenleyici motiflerin tespitinde ikincil yapının kullanımı rapor edilmiştir.[6] Ayrıca, RNA ikincil yapısının uçbirleçtirme yeri tespitine yardım ettiği öne sürülmüştür.[7][8][9][10]

Karşılaştırmalı genomik yaklaşımlar

Pek çok canlı türünün genomlarının tamamı dizilenmiş olduğu için, gen bulma araştırmalarında gelecek vadeden bir saha, karşılaştırmalı genomiktir. Bu yaklaşımın varsayımı, gen ve diğer işlevsel bölgelerdeki mutasyon hızının, doğal seleksiyon güçleri nedeniyle genomun geri kalanına kıyasla daha yavaş olduğudur, çünkü işlevsel bölgelerdeki mutasyonların organizmaya zarar verici olma olasılıkları daha yüksektir, diğer yerlerdeki mutasyonlara oranla. Evrimsel olarak birbiriyle ilişkili türlerin genomları karılaştırılarak dizilerin korunumu yönündeki bu evrimsel eğilim görülebilir. Bu yaklaşım ilk olarak fare ve insan genomlarında kullanılmıştır, SLAM, SGP ve Twinscan/N-SCAN gibi programlarla.

Karşılaştırmalı gen bulma yönteminin bir diğer uygulaması, bir genoma ait yüksek kaliteli bilgi notları (annotation) bir diğer genoma aksettirilmesidir. Bunu yapan başlıca programlar arasında Projector, GeneWise ve GeneMapper sayılabilir. Bu tür teknikler artık tüm genomların bilgi notlandırlması merkezî bir rol oynamaktadır.

Kaynakça

  1. ^ Korf I. (14 Mayıs 2004). "Gene finding in novel genomes". BMC Bioinformatics. Cilt 5. ss. 59-67. doi:10.1186/1471-2105-5-59. PMID 15144565. 
  2. ^ Rätsch; ve diğerleri. (23 Şubat 2007). "Improving the C. elegans genome annotation using machine learning". PLoS Computational Biology. 3 (2). ss. e20. doi:10.1371/journal.pcbi.0030020. PMID 17319737. 
  3. ^ Gross; ve diğerleri. (20 Aralık 2007). "CONTRAST: A Discriminative, Phylogeny-free Approach to Multiple Informant De Novo Gene Prediction". Genome Biology. 8 (12). ss. R269. doi:10.1186/gb-2007-8-12-r269. PMID 18096039. 
  4. ^ Schweikert; ve diğerleri. (19 Mayıs 2009). "mGene.web: A Web Service for Accurate Computational Gene Finding". Nucleic Acids Research. 
  5. ^ Saeys Y, Rouzé P, Van de Peer Y (2007). "In search of the small ones: improved prediction of short exons in vertebrates, plants, fungi and protists". Bioinformatics. 23 (4). ss. 414-420. doi:10.1093/bioinformatics/btl639. PMID 17204465. 24 Mayıs 2009 tarihinde kaynağından arşivlendi. Erişim tarihi: 14 Eylül 2010. 
  6. ^ Hiller M, Pudimat R, Busch A, Backofen R (2006). "Using RNA secondary structures to guide sequence motif finding towards single-stranded regions". Nucleic Acids Res. 34 (17). ss. e117. doi:10.1093/nar/gkl544. PMID 16987907. Şablon:Entrez Pubmed. 
  7. ^ Patterson DJ, Yasuhara K, Ruzzo WL (2002). "Pre-mRNA secondary structure prediction aids splice site prediction". Pac Symp Biocomput. ss. 223-234. Şablon:Entrez Pubmed. 
  8. ^ Marashi SA, Goodarzi H, Sadeghi M, Eslahchi C, Pezeshk H (2006). "Importance of RNA secondary structure information for yeast donor and acceptor splice site predictions by neural networks". Comput Biol Chem. 30 (1). ss. 50-57. doi:10.1016/j.compbiolchem.2005.10.009. Şablon:Entrez Pubmed. 
  9. ^ Marashi SA, Eslahchi C, Pezeshk H, Sadeghi M (2006). "Impact of RNA structure on the prediction of donor and acceptor splice sites". BMC Bioinformatics. Cilt 7. s. 297. doi:10.1186/1471-2105-7-297. Şablon:Entrez Pubmed. 
  10. ^ Rogic, S (2006). "The role of pre-mRNA secondary structure in gene splicing in Saccharomyces cerevisiae 30 Mayıs 2009 tarihinde Wayback Machine sitesinde arşivlendi.". PhD Dissertation, University of British Columbia.

Dış bağlantılar

İlgili Araştırma Makaleleri

<span class="mw-page-title-main">Genetik</span> biyolojinin organizmalardaki kalıtım ve çeşitliliği inceleyen bir dalı

Genetik ya da kalıtım bilimi, biyolojinin organizmalardaki kalıtım ve genetik varyasyonu inceleyen bir dalıdır. Türkçeye Almancadan geçen genetik sözcüğü 1831 yılında Yunanca γενετικός - genetikos ("genitif") sözcüğünden türetildi. Bu sözcüğün kökeni ise γένεσις - genesis ("köken") sözcüğüne dayanmaktadır.

<span class="mw-page-title-main">DNA</span> Canlıların genetik bilgilerini barındıran molekül

Deoksiriboz nükleik asit veya kısaca DNA, tüm organizmaların ve bazı virüslerin canlılık işlevleri ve biyolojik gelişmeleri için gerekli olan genetik talimatları taşıyan bir nükleik asittir. DNA'nın başlıca rolü bilgiyi uzun süre saklamasıdır. Protein ve RNA gibi hücrenin diğer bileşenlerinin inşası için gerekli olan bilgileri içermesinden dolayı DNA; bir kalıp, şablon veya reçeteye benzetilir. Bu genetik bilgileri içeren DNA parçaları gen olarak adlandırılır. Bazı DNA dizilerinin yapısal işlevleri vardır, diğerleri ise bu genetik bilginin ne şekilde kullanılacağının düzenlenmesine yararlar.

<span class="mw-page-title-main">Gen</span> içinde bulunduğu hücre veya organizmaya özel bir etkisi olan, kuşaktan kuşağa ve hücreden hücreye geçen kalıtımsal öge.

Gen, bir kalıtım birimidir. Bir DNA'nın belirli bir kısmını oluşturan nükleotid dizisidir. Popüler ve gayriresmî kullanımda gen sözcüğü, "ebeveynden çocuklarına geçen belirli bir karakteristiği taşıyan biyolojik birim" anlamında kullanılır. Kromozomun kesitleri olan genler birbirinden çok farklı işlevlerde ve büyüklüklerde (uzunluklarda) olabilirler. Genlerin büyüklükleri ve işlevleri her zaman doğru orantılı değildir.

<span class="mw-page-title-main">Mesajcı RNA</span> Bir protein üretmek için ribozom tarafından okunan RNA

Mesajcı RNA (mRNA), sentezlenecek bir proteinin amino asit dizisine karşılık gelen kimyasal şifreyi taşıyan bir moleküldür. mRNA, bir DNA kalıptan transkripsiyon yoluyla sentezlenir ve protein sentez yeri olan ribozomlara, protein kodlayıcı bilgiyi taşır. Burada, çevirim (translasyon) süreci sonucu, RNA polimerindeki bilgi ile bir amino asit polimeri üretilir. Nükleik asitlerin amino asit dizilerine karşılık gelen bölgelerindeki her üç baz, proteindeki bir amino asite karşılık gelir. Bu üçlülere kodon denir, her biri bir amino asit kodlar, bitiş kodonu ise protein sentezini durdurur. Bu işlem iki diğer RNA türünü daha gerektirir: taşıyıcı RNA (tRNA) kodonun tanınmasına aracılık eder ve ona karşılık gelen amino asiti getirir; ribozomal RNA (rRNA) ise ribozomdaki protein imalat mekanizmasının kataliz merkezidir.

<span class="mw-page-title-main">Taşıyıcı RNA</span> protein sentezinde görevli bir RNA

Taşıyıcı RNA hücrelerde protein sentezi sırasında büyüyen polipeptit zincirine spesifik bir amino asit ekleyen küçük bir RNA molekülüdür. Amino asidin bağlanması 3' ucundadır. Bu kovalent bağlantı aminoasil tRNA sentetaz tarafından katalizlenir. Ayrıca, antikodon olarak adlandırılan üç bazlık bir bölge vardır, bu bölge mRNA üzerinde kendisine karşılık gelen üç bazlık bir kodon bölgesi ile baz eşleşmesi yapar. Her tip tRNA molekülü sadece tek tip bir amino asite bağlanabilir, ama genetik kod aynı amino asite karşılık gelen birden çok kodon bulunduğu için, farklı antikodonlara sahip tRNA'lar aynı amino asidi taşıyabilir.

<span class="mw-page-title-main">Ribozomal RNA</span> Ribozomun RNA bileşeni

Ribozomal RNA (rRNA), ribozomlarda bulunan bir RNA tipidir, ribozomun protein senteziyle ilişkili katalitik fonksiyonundan sorumludur. Ribozomal RNA'nın görevi, mRNA'daki bilginin translasyon süreci sırasında amino asit dizisine çevrilmesi için taşıyıcı RNA (tRNA) ile etkileşmek ve uzayan peptit zincirine amino asit takmaktır. Hücre sitoplazmasında serbest halde bulunan RNA'nın %80'i rRNA'dan oluşur.

<span class="mw-page-title-main">Protein biyosentezi</span>

Protein biyosentezi, hücrenin protein sentezlenmesi için gereken bir biyokimyasal süreçtir. Bu terim bazen sadece protein translasyonu anlamında kullanılsa da transkripsiyon ile başlayıp translasyonla biten çok aşamalı bir süreçtir. Prokaryotlarda ve ökaryotlarda ribozom yapısı ve yardımcı proteinler bakımından farklılık göstermesine karşın, temel mekanizma korunmuştur.

<span class="mw-page-title-main">Kodon</span>

Kodon, bütün yaşayan canlıların genomları DNA'larında kaydedilmiştir. Genomun bir protein ya da RNA molekülünün yapılması için gerekli şifreyi içeren kısımları gen olarak adlandırılır. Proteinlerin sentezlenmesi için gerekli olan kodu içeren genler üçer nükleotidden oluşan kodonlardan oluşmaktadırlar. Her bir kodon protein sentezlenişi esnasında belli bir amino asitin kodunu içerir. Aşağıdaki tablo, hangi kodonların hangi aminoasitleri kodladıklarını göstermektedir.

<span class="mw-page-title-main">Transkripsiyon (genetik)</span> bir DNA parçasının RNAya kopyalanması süreci

Transkripsiyon, yazılma veya yazılım, DNA'yı oluşturan nükleotit dizisinin RNA polimeraz enzimi tarafından bir RNA dizisi olarak kopyalanması sürecidir. Başka bir deyişle, DNA'dan RNA'ya genetik bilginin aktarımıdır. Protein kodlayan DNA durumunda, transkripsiyon, DNA'da bulunan genetik bilginin bir protein veya peptit dizisine çevirisinin ilk aşamasıdır. RNA'ya yazılan bir DNA parçasına "transkripsiyon birimi" denir. Transkripsiyonda hata kontrol mekanizmaları vardır, ama bunlar DNA çoğalmasındakinden daha az sayıda ve etkindirler; dolayısıyla transkripsiyon DNA çoğalması kadar aslına sadık değildir.

<span class="mw-page-title-main">Transpozon</span>

Transpozonlar bir hücrenin genomunda farklı yerlere, transpozisyon olarak adlandırılan bir süreçle hareket edebilen DNA dizileridir. Bu süreç ile mutasyonlara ve genomdaki DNA miktarının değişmesine neden olurlar. Çeşitli hareketli genetik elemanlar mevcuttur, bunlar transpozisyon mekanizmalarına göre sınıflandırılırlar. Retrotranspozonlar bir RNA ara ürün aracılığıyla kendilerini kopyalayarak hareket ederler. DNA transpozonları bir RNA ara ürün kullanmaz. Tranpozonların kimi kendini kopyalayarak, kimi kendini çevreleyen DNA'dan kesip çıkarıp başka bir yere taşıyarak hareket eder. Bu özelliklerinden dolayı, bilim insanları transpozonları canlılardaki DNA'yı değiştirmek için bir araç olarak kullanırlar.

Moleküler biyolojide bir transkripsiyon faktörü genlerin transkripsiyonunu düzenlemek için DNA üzerinde belli bir diziye bağlanabilen bir proteindir. Bunlar diziye-özgün DNA bağlanma proteini olarak da adlandırılır. Transkripsiyon faktörleri tek başına veya bir komplekste yer alan başka proteinlerle beraber, RNA polimeraz tarafından bir genin transkripsiyonunu ya kolaylaştırırlar veya engeller.

<span class="mw-page-title-main">Genomik</span> türlere ait genomların tüm yapısal ve işlevsel yönelerini inceleyen bilim dalı

Genomik, farklı türlere ait genomların tüm yapısal ve işlevsel yönelerini inceleyen bilim dalıdır. Genomik, kromozomların dizilenmesi tekniklerini uygularak, organizmaların genomlarını, yani bir organizmadaki genler bütününü inceleyen bir biyoteknoloji alt dalı da sayılabilir.

C değeri muamması veya C değeri paradoksu, ökaryotik türlerin çekirdek genomu büyüklüğündeki büyük çeşitliliğe değinmek için kullanılan bir terimdir. C değeri muammasının temelinde yatan gözlem, genom büyüklüğünün organizma kompleksliği ile ilintili olmadığıdır; örneğin, bazı tek hücreli protistalarin genomları insanınkinden çok daha büyüktür.

Moleküler biyolojide anlam, DNA ve RNA gibi nükleik asit moleküllerinde bulunan bilginin yönünün (polaritesinin) başka nükleik asitlerle karşılaştırılmasında kullanılan bir kavramdır. Hangi bağlamda kullanıldığına bağlı olarak "anlam" terimi farklı manalara gelebilir. Bir manasıyla "anlam", bir nükleik asidin protein kodlama özelliğidir. Bir diğer manasıyla "anlam", tek iplikli RNA virüslerinde, viriondan çıkan genomik RNA'nın doğrudan protein kodlayabilme özelliğidir. "Antianlamlı" nükleik asitlerden söz edilince, anlamlı bir mRNA'nın ifadesini engelleyen, komplemanter dizili bir nükleik asit kastedilir.

<span class="mw-page-title-main">Genetik kod</span> genetik materyal içinde kodlanan bilginin proteinlere çevrildiği kurallar

Genetik kod, genetik malzemede kodlanmış bilginin canlı hücreler tarafından proteinlere çevrilmesini sağlayan kurallar kümesidir. Kod, kodon olarak adlandırılan üç nükleotitlik diziler ile amino asitler arasındaki ilişkiyi tanımlar. Bir nükleik asit dizisindeki üçlü kodon genelde tek bir amino asidi belirler. Genlerin çok büyük çoğunluğu aynı kodla şifrelendiği için, özellikle bu koda kuralsal veya standart genetik kod olarak değinilir, ama aslında pek çok kod varyantı vardır. Yani, standart genetik kod evrensel değildir. Örneğin, insanlarda, mitokondrilerdeki protein sentezi kuralsal koddan farklı bir genetik koda dayalıdır.

Genetikte kodlamayan DNA bir proteindeki amino asit dizisine karşılık gelen bilgi içermeyen DNA'dır. Çoğu ökaryotta genomun büyük bir kısmı kodlamayan DNA'dan oluşur. İnsanda genomun %5'i protein kodlayan dizilerden oluşur. Bazı kodlamayan DNA, kodlayan bölgenin etkinliğini düzenlemeye yarar. Yakın zamana kadar kodlamayan DNA'nın ne işe yaradığı bilinmemekteydi ve bu yüzden ona çöp DNA olarak değinilirdi.

Psödogenler işlevsel genlerin çalışmayan evrimsel akrabalarıdır, bunlar protein kodlama yeteneklerini kaybetmiş veya bir şekilde artık hücre içinde ifade edilmemektedir. Bazılarının intron veya promotörleri yoksa da, çoğunun gen-benzeri bazı özellikleri vardır, bunlar, protein veya RNA kodlamalarına engel olan çeşitli tip mutasyonlardan dolayı işlevsizdir. Bu terim 1977'de Jacq ve çalışma arkadaşları tarafından türetilmiş, sahte anlamına gelen "psödo-" öneki ve "gen" sözcüğünden türetilmiştir.

<span class="mw-page-title-main">Gen ifadesinin düzenlenmesi</span>

Gen ifadesinin düzenlenmesi ya da gen ifadesinin denetimi, hücrelerin ve virüslerin genlerindeki bilgiyi gen ürünlerine çevirmesini kapsayan süreçler için kullanılan bir terimdir. İşlevsel bir genin ürünleri RNA veya protein olabilir; bilinen mekanizmaların en temeli protein kodlayan genlerin düzenlenmesidir. Gen ifadesinin, DNA-RNA transkripsiyonundan, proteinin translasyon sonrası değişimlerine kadar olan herhangi bir adımı değiştirilip, ayarlanabilmektedir.

<span class="mw-page-title-main">İnsan genomu</span>

İnsan genomu Homo sapiens'in genomudur. 23 kromozom çifti üzerinde bulunur, bunlardan 22 çifti otozomal kromozomdur, kalan çift ise cinsiyeti belirler. Haploit insan genomu toplam 3 milyar DNA baz çiftinden biraz fazla uzunluktadır. İnsan Genom Projesi ile elde edilen ökromatik insan genom referans dizisi biyomedikal bilimlerde kullanılmaktadır.

Viral vektör, moleküler biyologlar tarafından hücre içine genetik malzeme ulaştırmak için kullanılan bir araçtır. Bu işlem canlı organizmanın içinde veya hücre kültüründe yapılabilir. Virüsler, enfekte ettikleri hücrelerin içine genomlarını verimli şekilde taşımak için özelleşmiş moleküler mekanizmalar evrimleştirmiştir. Bir virüs tarafından genlerin aktarımı transdüksiyon olarak adlandırılır, bu yolla enfekte olmuş hücrelerin de transdüklenmiş olduğu söylenir. Moleküler biyologlar bu mekanizmayı ilk defa 1970'lerde kontrol altına almayı becermiştir. Paul Berg bakteriyofaj lambda DNA'sı içeren değiştirilmiş bir SV40 virüsü kullanarak kültürlenmiş maymun böbrek hücrelerini enfekte etmiştir.