İçeriğe atla

Biyolojik veritabanı

Proteinler arasındaki fonksiyonel bağlantıları karakterize eden STRING adlı biyolojik veri tabanının ana sayfası[1]

Biyolojik veritabanları, bilimsel deneylerden, yayınlanmış literatürden, yüksek verimli deney teknolojisinden ve hesaplamalı analizlerden toplanan biyolojik bilimler kütüphaneleridir.[] Genomik, proteomik, metabolomik, mikroarray gen ifadesi ve filogenetik gibi araştırma alanlarından bilgiler içerirler.[2] Biyolojik veritabanlarında yer alan bilgiler arasında gen fonksiyonu, yapısı, lokalizasyonu (hem hücresel hem de kromozomal), mutasyonların klinik etkilerinin yanı sıra biyolojik dizilerin ve yapıların benzerlikleri yer almaktadır.

Biyolojik veritabanları topladıkları veri türüne göre sınıflandırılabilir (aşağıya bakınız). Genel olarak, moleküler veritabanları (diziler, moleküller vb. için), fonksiyonel veritabanları (fizyoloji, enzim aktiviteleri, fenotipler, ekoloji vb. için), taksonomik veritabanları (türler ve diğer taksonomik sıralamalar için), görüntüler ve diğer medya veya numuneler (müze koleksiyonları vb. için) vardır.

Veritabanları, bilim insanlarının biyomoleküllerin yapısı ve etkileşimlerinden organizmaların tüm metabolizmasına ve türlerin evrimini anlamaya kadar bir dizi biyolojik olguyu analiz etmelerine ve açıklamalarına yardımcı olan önemli araçlardır. Bu bilgi hastalıklarla mücadeleyi kolaylaştırır, ilaçların geliştirilmesine, belirli genetik hastalıkların tahmin edilmesine ve yaşam tarihinde türler arasındaki temel ilişkilerin keşfedilmesine yardımcı olur.

Teknik temel ve teorik kavramlar

Bilgisayar bilimlerinin ilişkisel veritabanı kavramları ve dijital kütüphanelerin bilgi erişim kavramları biyolojik veritabanlarını anlamak için önemlidir. Biyolojik veritabanı tasarımı, geliştirilmesi ve uzun vadeli yönetimi, biyoinformatik disiplininin temel bir alanıdır.[3] Veri içerikleri arasında gen dizileri, metinsel açıklamalar, öznitelikler ve ontoloji sınıflandırmaları, alıntılar ve tablo verileri yer alır. Bunlar genellikle yarı yapılandırılmış veriler olarak tanımlanır ve tablolar, anahtarla sınırlandırılmış kayıtlar ve XML yapıları olarak temsil edilebilir.[]

Erişim

Çoğu biyolojik veritabanı, kullanıcıların verilere çevrimiçi olarak göz atabileceği şekilde verileri düzenleyen web siteleri aracılığıyla kullanılabilir. Buna ek olarak, temel veriler genellikle çeşitli formatlarda indirilebilir. Biyolojik veriler birçok formatta gelir. Bu formatlar metin, dizi verileri, protein yapısı ve bağlantıları içerir. Bunların her biri belirli kaynaklardan bulunabilir, örneğin:[]

  • Metin formatları PubMed ve OMIM tarafından sağlanmaktadır.
  • Dizi verileri, DNA açısından GenBank ve protein açısından UniProt tarafından sağlanmaktadır.
  • Protein yapıları PDB, SCOP ve CATH tarafından sağlanmaktadır.

Sorunlar ve zorluklar

Biyolojik bilgi sayısız veritabanı arasında dağıtılmıştır. Bu durum bazen bilgilerin tutarlılığını sağlamayı zorlaştırmaktadır, örneğin aynı tür için farklı isimler veya farklı veri formatları kullanıldığında. Sonuç olarak, birlikte çalışabilirlik bilgi alışverişi için sürekli bir zorluktur. Örneğin, bir DNA dizisi veritabanı DNA dizisini bir türün adıyla birlikte saklıyorsa bu türün adındaki bir değişiklik, farklı bir ad kullanan diğer veritabanlarına olan bağlantıları bozabilir. Bütünleştirici biyoinformatik, birleşik erişim sağlayarak bu sorunun üstesinden gelmeye çalışan bir alandır. Çözümlerden biri, biyolojik veri tabanlarının, ilgili bilgileri birbirine bağlamak için erişim numaralarıyla diğer veri tabanlarına çapraz referans vermesidir (örneğin, bir tür adı değişse bile erişim numarasının aynı kalması). Birçok veritabanının aynı bilgiyi saklaması gerektiğinden fazlalık başka bir sorundur, örneğin protein yapısı veritabanları aynı zamanda kapsadıkları proteinlerin dizisini, dizilimini ve bibliyografik bilgilerini de içerir.

Model organizma veritabanları

Bazı türler için, özellikle de araştırmalarda sıklıkla kullanılanlar (model organizmalar) için türe özgü veritabanları mevcuttur. Örneğin, EcoCyc bir E. coli veritabanıdır. Diğer popüler model organizma veritabanları arasında laboratuvar faresi Mus musculus için Mouse Genome Informatics, Rattus için Rat Genome Database, Danio rerio (zebra balığı) için ZFIN, Schizosaccharomyces pombe fisyon mayası için PomBase,[4] Drosophila için FlyBase, Caenorhabditis elegans ve Caenorhabditis briggsae nematodları için WormBase ve Xenopus tropicalis ve Xenopus laevis kurbağaları için Xenbase bulunmaktadır.

Biyoçeşitlilik ve tür veritabanları

Catalogue of Life'tan hayvan grupları ve tür sayıları[5]

Çok sayıda veritabanı dünya üzerindeki yaşam çeşitliliğini belgelemeye çalışmaktadır. Öne çıkan örneklerden biri, ilk olarak 2001 yılında Species 2000 ve Integrated Taxonomic Information System tarafından oluşturulan Catalogue of Life'tır.[6] Catalogue of Life, dünyada şu anda kabul edilen tüm türlerin taksonomik kategorizasyonunu belgelemeyi amaçlayan ortak bir projedir.[7] Catalogue of Life, araştırmacıların ve politika yapıcıların başvurabileceği konsolide ve tutarlı bir veri tabanı sağlamaktadır. Catalogue of Life, Conifer Database, ICTV MSL (virüsler için) ve LepIndex (kelebekler ve güveler için) gibi diğer kaynaklardan güncel veri setlerini derlemektedir. Catalogue of Life, Mayıs 2022 itibarıyla toplam 165 veri tabanından yararlanmaktadır.[8] Catalogue of Life'ın operasyonel masrafları Global Biodiversity Information Facility, Illinois Natural History Survey, Naturalis Biodiversity Center ve Smithsonian Institution tarafından karşılanmaktadır.[9]

Bazı biyolojik veritabanları farklı türlerin coğrafi dağılımını da belgelemektedir. Shuang Dai ve arkadaşları, Çin'deki 1371 kuş türünün mekânsal/coğrafi dağılımını belgelemek için yeni bir çok kaynaklı veritabanı oluşturmuştur, çünkü mevcut veritabanları birçok tür için mekânsal dağılım verilerinde ciddi eksikliklere sahiptir.[10] Bu yeni veritabanının kaynakları arasında kitaplar, literatür, GPS takibi ve çevrimiçi web sayfası verileri yer alıyordu. Yeni veritabanında her tür için taksonomi, dağılım, tür bilgisi ve veri kaynakları gösterildi. Kuş mekansal dağılım veritabanının tamamlanmasının ardından, Çin'de bilinen türlerin %61'inin daha önce bilindiklerinin ötesindeki bölgelerde dağılım gösterdiği keşfedildi.[10]

Tıbbi veritabanları

WoundsDB'de ayak yaraları[11]

Tıbbi veritabanları, biyomedikal veri kaynaklarının özel bir durumudur ve PubMed gibi bibliyografyalardan yapay zeka tabanlı teşhis yazılımlarının geliştirilmesine yönelik görüntü veritabanlarına kadar çeşitlilik gösterebilir. Örneğin, böyle bir görüntü veritabanı, yara izleme algoritmalarının geliştirilmesine yardımcı olmak amacıyla geliştirilmiştir.[12] Fotoğraflar, termal görüntüler ve 3D ağ derinlik haritalarından oluşan 79 hasta ziyaretinden 188'den fazla çok modlu görüntü seti derlendi. Yara ana hatları manuel olarak çizildi ve fotoğraf veri setlerine eklendi.[11] Veritabanı, Kronik Yara Veritabanı web sitesinden indirilebilen WoundsDB adlı bir program şeklinde kamuya açık hale getirildi.

Nucleic Acids Research Veritabanı Sayısı

Biyolojik veri tabanlarını bulmak için önemli bir kaynak, Nucleic Acids Research (NAR) dergisinin yıllık özel sayısıdır. NAR'ın Veritabanı Sayısı ücretsiz olarak erişilebilir ve halka açık biyolojik veritabanlarının çoğunu kategorize eder. Çevrimiçi Moleküler Biyoloji Veritabanı Koleksiyonu adı verilen bu sayıya eşlik eden bir veritabanı, 1380 çevrimiçi veritabanını listelemektedir.[13] MetaBase ve Bioinformatics Links Collection gibi başka veritabanı koleksiyonları da mevcuttur.[14][15]

Ayrıca bakınız

Kaynakça

  1. ^ Szklarczyk D; Franceschini A; Kuhn M; ve diğerleri. (January 2011). "The STRING database in 2011: functional interaction networks of proteins, globally integrated and scored". Nucleic Acids Res. 39 (Database issue). ss. D561-8. doi:10.1093/nar/gkq973. PMC 3013807 $2. PMID 21045058. 
  2. ^ Altman RB (March 2004). "Building successful biological databases". Brief. Bioinformatics. 5 (1). ss. 4-5. doi:10.1093/bib/5.1.4. PMID 15153301. 
  3. ^ Bourne P (August 2005). "Will a biological database be different from a biological journal?". PLOS Comput. Biol. 1 (3). ss. 179-81. Bibcode:2005PLSCB...1...34B. doi:10.1371/journal.pcbi.0010034. PMC 1193993 $2. PMID 16158097. 
  4. ^ Lock, A; Rutherford, K; Harris, MA; Hayles, J; Oliver, SG; Bähler, J; Wood, V (13 Ekim 2018). "PomBase 2018: user-driven reimplementation of the fission yeast database provides rapid and intuitive access to diverse, interconnected information". Nucleic Acids Research. 47 (D1). ss. D821-D827. doi:10.1093/nar/gky961. PMC 6324063 $2. PMID 30321395. 
  5. ^ Catalogue of Life (2001). "Homepage". Search. Species 2000. 5 Mayıs 2022 tarihinde kaynağından arşivlendi. Erişim tarihi: 5 Mayıs 2022. 
  6. ^ Jones, Andrew C. (2011). "Identifying and Relating Biological Concepts in the Catalogue of Life". Journal of Biomedical Semantics. 2 (1). s. 7. doi:10.1186/2041-1480-2-7. PMC 3245425 $2. PMID 22004596. 
  7. ^ Catalogue of Life (2001). "What is Catalogue of Life?". Our Mission. Species 2000. 5 Mayıs 2022 tarihinde kaynağından arşivlendi. Erişim tarihi: 5 Mayıs 2022. 
  8. ^ Catalogue of Life (2001). "Source Datasets". Species 2000. 14 Mayıs 2022 tarihinde kaynağından arşivlendi. Erişim tarihi: 5 Mayıs 2022. 
  9. ^ Catalogue of Life (2001). "Funding". Species 2000. 5 Mayıs 2022 tarihinde kaynağından arşivlendi. Erişim tarihi: 5 Mayıs 2022. 
  10. ^ a b Dai, Shuang (2019). "A Spatialized Digital Database for All Bird Species in China". Science China Life Sciences. 62 (5). ss. 661-667. doi:10.1007/s11427-018-9419-2. PMID 30900164. Erişim tarihi: 5 Mayıs 2022. 
  11. ^ a b "Chronic Wound Database". WoundsDB. Silesian University of Technology. 2020. 18 Aralık 2020 tarihinde kaynağından arşivlendi. Erişim tarihi: 5 Mayıs 2022. 
  12. ^ Kręcichwost, Michał (2021). "Chronic Wounds Multimodal Image Database". Computerized Medical Imaging and Graphics. Cilt 88. s. 101844. doi:10.1016/j.compmedimag.2020.101844. PMID 33477091. Erişim tarihi: 5 Mayıs 2022. 
  13. ^ Galperin MY; Fernández-Suárez XM (January 2012). "The 2012 Nucleic Acids Research Database Issue and the online Molecular Biology Database Collection". Nucleic Acids Res. 40 (Database issue). ss. D1-8. doi:10.1093/nar/gkr1196. PMC 3245068 $2. PMID 22144685. 
  14. ^ Bolser DM; Chibon PY; Palopoli N; ve diğerleri. (January 2012). "MetaBase--the wiki-database of biological databases". Nucleic Acids Res. 40 (Database issue). ss. D1250-4. doi:10.1093/nar/gkr1099. PMC 3245051 $2. PMID 22139927. 
  15. ^ Brazas MD; Yim DS; Yamada JT; Ouellette BF (July 2011). "The 2011 Bioinformatics Links Directory update: more resources, tools and databases and features to empower the bioinformatics community". Nucleic Acids Res. 39 (Web Server issue). ss. W3-7. doi:10.1093/nar/gkr514. PMC 3125814 $2. PMID 21715385. 

Dış bağlantılar

İlgili Araştırma Makaleleri

Restriksiyon enzimi veya restriksiyon endonükleazı, çift zincirli DNA moleküllerindeki belli nükleotit dizilerini tanıyan ve her iki zinciri birlikte kesen bir enzim türüdür. Bu özel enzimler, bakteri ve arkelerde bulunurlar ve virüslere karşı bir savunma mekanizmasına aittirler. Konak bakteri hücresinde restriksiyon enzimleri seçici olarak yabancı DNA'ları keserler; konak DNA'yı restriksiyon enziminin etkinliğinden korunmak için bir değiştirme (modifikasyon) enzimi tarafından metillenir. Bu iki süreç toplu olarak restriksiyon modifikasyon sistemi olarak adlandırılır. Bir restriksiyon enzimi DNA'yı kesmek için DNA çift sarmalının her şeker-fosfat omurgasından birer kere olmak üzere iki kesme yapar.

Structural Classification of Proteins veritabanı, protein yapısal bölgelerinin amino asit dizleri ve üç boyutlu yapılarına dayanarak protein yapısal bölgelerinin (domain) elle yapılmış bir sınıflandırmasıdır. İlk kez 1995'te yayımlanmış olan bu veritabanı en az yılda bir yenilenmektedir.

Biyoenformatikte dizi hizalaması, DNA, RNA veya protein dizilerini düzenleyerek benzer bölgelerin tespit edilmesidir. Bu bölgelerin benzer olması, diziler arasında işlevsel, yapısal veya evrimsel bir ilişki olduğu anlamına gelir. Hizalanmış nükleotit veya aminoasit kalıntı dizileri tipik olarak bir matriksin satırları olarak gösterilir. Kimyasal kalıntıları temsil eden harflerin arasına boşluklar konarak ardışık sütunlarda yer alan aynı veya benzer harflerin bir hizada olması sağlanır.

<span class="mw-page-title-main">EcoRV</span>

Escherichia coli' den elde edilen bir kısıtlama enzimi olan EcoRV, en iyi karakterize edilen endonükleazlardan biri olup palindromik (simetrik) dna dizilerini tanıyan ve genellikle homodimerler veya homotetramerler gibi davranan Tip IIP alt sınıfındadır.

Chargaff kuralları, Avusturyalı biyokimyacı Edwin Chargaff tarafından 1949-1951'de yayımlanan, DNA'daki çeşitli azotlu bazların miktarları arasındaki ilişkileri ifade eden empirik kurallardır.

Gen Ontolojisi ya da GO, gen ve gen ürünü vasıflarının bütün türler kapsamında temsilini birleştirmek için büyük bir biyoenformatik girişimidir. Proje özellikle şunları hedeflemektedir:

  1. Gen ve gen ürünü vasıflarına dair sahip olduğu denetli söz dağarcığının sürdürülmesi ve geliştirilmesi;
  2. Gen ve gen ürünlerinin notlaması, not verilerinin özümsenmesi ve dağıtılması;
  3. Projenin sağladığı verinin bütün boyutlarına kolayca erişilmesi için ve deneysel verilerin GO kullanarak işlevsel yorumlanabilmesi için araçlar sağlanması.

Moleküler biyolojide 7SK, metazoan'da bol bulunan küçük bir nükleer RNA`dır. Pozitif transkripsiyon uzatma faktörünün P-TEFb kontrol transkripsiyonunu düzenlemede önemli bir rol oynar. 7SK kompleksinin stabilitesi ve fonksiyonunu düzenleyen diğer proteinler küçük bir nükleer ribonükleoprotein kompleksinde (snRNP) bulunur.

TERC olarak da bilinen telomeraz RNA bileşeni ökaryotlarda bulunan ve telomerazın bir bileşeni olan Kodlamayan RNA'dır. TERC, telomeraz ile telomer replikasyonu için bir kalıp görevi görür. Telomeraz RNA'ları dizi ve yapı açısından omurgalılar, siliatlar ve mayalar arasında büyük farklılıklar gösterir, ancak şablon dizisine yakın bir 5 'sahte düğüm yapıyı paylaşmaktadırlar. Omurgalı telomeraz RNA'larının, 3 'H / ACA snoRNA benzeri alanı vardır.

Küçük çoklu ilaç dayanıklılık protein birçok toksik bileşiğin hücre dışına çıkararak, ilaç dayanaklılığı sağlayan bir integral membran protein ailesi. Bu çıkarma işlemi sırasında aynı vakitte protonların içeri pompalanması olayı gerçekleşir. Örnek olarak Escherichia coli mvrC P23895 metil violojenin hücreye girişini engeller ve etidyum bromidin dışarı atılmasında rol oynar.

<span class="mw-page-title-main">I-TASSER</span>

I-TASSER amino asit sekanslarından protein moleküllerinin üç boyutlu yapısını tahmin etmek için kullanılan bir biyoinformatik yöntemi. Katlama tanıma adı verilen bir teknikle Protein Veri Bankası'ndan yapı şablonlarını algılar. Kopya değiştirme Monte Carlo simülasyonları kullanılarak katlanma şablonlarından yapısal parçalar yeniden bir araya getirilerek tam uzunlukta yapı modelleri oluşturulur. I-TASSER, topluluk çapındaki CASP deneylerine göre en başarılı protein yapısı tahmin yöntemlerinden biridir.

Bu liste, nükleik asit simülasyonları için kullanılan bilgisayar programlarının bir listesidir.

Kütle spektrometresi yazılımı, kütle spektrometresinde veri toplama, analizi veya temsil için kullanılan bir yazılımdır.

LPSN, Prokaryotların nomenklatür ve taksonomileri hakkında bilgi sağlayan, taksonomik gereklilikleri ve Prokaryotların isimlendirilmesi için Uluslararası kuralları izleyen online bir veritabanıdır

Memeli Promotör Veritabanı (MPromDb) ChIP-SEQ sayesinde belirlenmiş gen promoterlerini içeren bir veriritabanıdır Yakın promotör bölgesi (akışyukarısına çekirdek promotör bölgesinin yukarısa) çoğu transkripsiyon faktörlerinin (TFS) cis-düzenleyici elementlerini ihtiva eder.

KEGG, genomlar, biyolojik yollar, hastalıklar, ilaçlar ve kimyasal maddelerle ilgili bir veritabanı koleksiyonudur. KEGG, genomik, metagenomik, metabolomik ve diğer omik çalışmalarındaki veri analizi, sistem biyolojisinde modelleme ve simülasyon ve ilaç geliştirmede translasyonel araştırma dahil olmak üzere biyoinformatik araştırma ve eğitim için kullanılır.

Chemical Entities of Biological Interest, kısaca ChEBI, Avrupa Biyoenformatik Enstitüsü'ndeki (EBI) Açık Biyomedikal Ontolojiler (OBO) çabasının bir parçası olan, 'küçük' kimyasal bileşiklere odaklanan moleküler varlıkların bir kimyasal veritabanı ve ontolojisidir. "Moleküler varlık" terimi, ayrı ayrı ayırt edilebilir bir varlık olarak tanımlanabilen, yapısal veya izotopik olarak farklı herhangi bir atom, molekül, iyon, iyon çifti, radikal, radikal iyon, kompleks, konformer vb. anlamına gelir. Söz konusu moleküler varlıklar ya doğal ürünler ya da potansiyel biyoaktiviteye sahip sentetik ürünlerdir. Proteolitik bölünme yoluyla proteinlerden türetilen nükleik asitler, proteinler ve peptidler gibi doğrudan genom tarafından kodlanan moleküller, kural olarak ChEBI'ye dâhil değildir.

<span class="mw-page-title-main">Helen M. Berman</span> Amerikalı kimyager

Helen Miriam Berman, Rutgers Üniversitesi'nde Kimya ve Kimyasal Biyoloji alanında Yönetim Kurulu Profesörü ve RCSB Protein Veri Bankası'nın eski yöneticisidir. Yapısal bir biyolog olan çalışmaları, protein-nükleik asit komplekslerinin yapısal analizini ve suyun moleküler etkileşimlerdeki rolünü içermektedir. Aynı zamanda Nükleik Asit Veritabanının kurucusu ve yöneticisidir ve Protein Yapısı Girişimi Yapısal Genomik Bilgi Tabanını yönetmiştir.

<span class="mw-page-title-main">Protein-protein etkileşimi</span>

Protein-protein etkileşimleri (PPE), iki veya daha fazla protein molekülü arasında kurulan yüksek spesifikliğe sahip fiziksel temaslardır. Hidrojen bağı, elektrostatik kuvvetler ve hidrojen bağı gibi etkileşimlerin yönlendirdiği biyokimyasal olaylardır.

ChEMBL veya ChEMBLdb, biyoaktif moleküllerin manuel olarak küratörlüğünü yapılan bir kimyasal veritabanıdır.

<span class="mw-page-title-main">BacDive</span> farklı kaynaklardan tür düzeyinde araştırma verilerini harekete geçirmek, entegre etmek ve serbestçe erişilebilir hale getirmek için standartlaştırılmış bakteri bilgileri veritabanı

BacDive, bakteriyel ve arkeal biyoçeşitlilik hakkında suş bağlantılı bilgi sağlayan bir bakteriyel metaveritabanıdır.