Veri bilimi
Veri bilimi, yapılandırılmış ve yapılandırılmamış verilerden bilgi ve öngörü elde etmek için bilimsel yöntemleri, süreçleri, algoritmaları ve sistemleri kullanan çok disiplinli bir alandır.[1] Veri bilimi veri madenciliği ve büyük verilerle ilişkilidir.
Veri bilimi, “gerçek olayları verilerle anlamak ve analiz etmek” için “ istatistikleri, veri analizini, makine öğrenimini ve ilgili yöntemlerini birleştirmek için kullanılan bir kavramdır”.[2] Matematik, istatistik, bilgisayar bilimi ve bilgi bilimi bağlamından birçok teknik ve teori kullanır. Turing ödüllü Jim Gray, veri bilimini bir "dördüncü paradigma" bilimi (ampirik, teorik, hesaplamalı ve şimdi veri odaklı) olarak tanımlar.[3] 2015 yılında Amerikan İstatistik Kurumu veritabanı yönetimi, istatistik ve makine öğrenimi ve dağıtılan ve paralel sistemleri üç temel meslek topluluğu olarak tanımladı.[4]
Veri bilimi, bir dizi ilkeyi, çeşitli algoritmaları, olayları ve büyük veri kümelerinden gelen kullanışlı kalıpları ayıklamak için gerekli süreçleri kapsamaktadır. Bununla birlikte veri bilimi, bu süreçlerde; veri analizini, istatistikleri, makine öğrenmesi ve veri madenciliği gibi alanları ve bunlarla ilgili birçok yöntemi birleştirmek için kullanılan bir kavram olarak belirtilir.[5]
Veri bilimi, makine öğrenmesi ve veri madenciliği kavramları sıklıkla birbirleri yerine kullanılmaktadır. Bu disiplinler arasındaki ortaklık, verilerin analizi yoluyla karar vermenin iyileştirilmesini sağlamaktır. Veri bilimi bu alanlardan beslenmekle birlikte, daha geniş bir kapsama alanına sahiptir. Makine öğrenmesi, veriden örüntü çıkarma algoritmalarının tasarımı ve değerlendirmesine de odaklanır. Veri madenciliği genellikle yapılandırılmış verilerin analizi ile ilgilenir ve ticari uygulamalara vurgu yapar. Veri bilimi ise, tüm bu hususları dikkate almaktadır.[5]
Veri bilimi ile ilgili önemli bazı kavramlardan;
Yapılandırılmış veri, en basit anlamıyla bir Excel tablosu olarak düşünülebilir. Başka bir deyişle buradaki her bir sütundaki veri sütun başlığının içeriğine mutlaka uygun bir biçimde yapısı belli olan bir değer içerir. Yapılandırılmış verilerde girdi verileri, sayısal veya kategorik olan belirli bir değişkenler kümesi için veri noktalarından oluşur.
Yapılandırılmamış veriler, herhangi bir dilde yazılan metin, dil bilgisi kurallarına tabi olsa da yapılandırılmış verileri analiz ederken sahip olduğumuz açıkça tanımlanmış değerlerden yoksundur. Günümüzdeki verilerin çoğu yapılandırılmamış biçimdedir. Resim dosyaları, ses dosyaları, PDF dosyalar, Word gibi metin tabanlı dosyalar, elektronik postalar gibi veriler yapılandırılmamış biçimdeki verilerdir.
Diğer yandan, metin veri tabanlarında saklanan veriler, örneğin doküman başlığı, yazar isimleri, tarih, tür gibi bir kısım yapısal olan, ancak içerik gibi büyük oranda yapısal olmayan alanlar içerebilir. Bu durumda ise veri yarı yapılandırılmış bir hâl alır.[5]
Veri analisti kavramı ise, iş dünyasına yapılandırılmış veri biçimi ile girmiştir. Görev tanımı, veri tabanlarından belirli araçlar yardımıyla sonuçlar üretmek ve bunları raporlamaktır. Veri bilimciler ise, artık büyük veri olarak adlandırılan veri kümesi ile birlikte yapılandırılmamış veri biçimi de organizasyonların veri tabanlarında yer almaktadır.[5] Günümüzde Facebook, Twitter gibi sosyal ağlar; Google, Yahoo gibi bazı portaller veri bilimcilerle çalışmaktadır. Veri bilimciler, farklı veri kaynaklarından beslenen büyük veri yönetimi için hipotezler kurup, bu hipotezlerin doğruluğu ya da yanlışlığını test etmek için araştırmalar yapar. Bu doğrultuda veri odaklı önemli uygulamalar geliştirirler.[6] Veri bilimciler, birçok disipline dayanan eşsiz bir beceri setine sahip olmalıdırlar. Sektörden gelen taleplere dayanarak yeni bir iş profili olarak "veri bilimci" ismi, çeşitli endüstriler arasında yaygın olarak farklılaşan bir biçimde ortaya çıkmıştır. Veri bilimcilerin beceri seti çok yönlüdür. Analitikler, veri yönetimi, sanat ve tasarım, girişimcilik, bilgisayar bilimi gibi alanlarda tecrübeyi içermektedir.[7]
Veri biliminin tarihi
Veri biliminin istatistikle yakından bir ilişkisi söz konusudur.[8] 20. yüzyılın önemli istatistikçilerinden birisi olan John W. Tukey, İstatistik matematiğine daha fazla odaklanıldığını ama verilerin analizi konusunda yeteri kadar odaklanılmadığını düşünmüş ve buna karşı bir hareket öngörmüştür. 1977 yılında Tukey, test etmek için ve hipotezler önermek için verilerin kullanılmasına daha fazla vurgu yapılması gerektiğini ve Keşifsel Veri Analizi ile Doğrulayıcı Veri Analizi'nin "yan yana ilerleyebileceğini ve ilerlemesi gerektiğini" savunarak Keşif Verileri Analizini yayınlamıştır.[9]
"Veri Bilimi" kavramı günümüzde daha yaygın bir şekilde kullanılmaya başlanmıştır. Bu yaygın kullanımı sağlayan bazı kaynaklar vardır ve bu kaynaklarla birlikte kitlelerin erişimi de daha kolay hâle gelmiştir. Bunlardan ikisi; 2002'de Bilim ve Teknoloji Veri Komitesi tarafından başlatılan Data Science Journal ve Columbia Üniversitesi tarafından 2003 yılında başlatılan The Journal of Data Science'dır.[9]
Veri bilimi süreci
Veri bilimi, veriden elde edilen bilginin genelleştirilebilir çıkarımlarının araştırılmasıdır. Ya da veri toplama, ayıklama ve analiz etme gibi soruları formülleştirme sürecine dayanır. Genel olarak veri bilimi süreci ardışıktır ve farklı bileşenlerle birlikte devam eder. İzlenen adımlar ise şu şekildedir:
- İlgilenilen soruyu tanımla,
- Veriyi elde et,
- Veriyi ayıkla,
- Veriyi kontrol et,
- İstatistiksel modeller uydur,
- Sonuçları duyur,
- Analizi yeniden oluşturabilecek şekilde yap.
Veri bilimi süreci döngüsel ve amaç, işlem sonrasında elde edilen bilgiler sonucunda karar verme aşamasına ulaşmaktır.[6]
Veri biliminin etkileri
Veri Bilimi alanı, stratejik bir avantaj için problemleri çözmek amacıyla en son veri teknolojilerinin nasıl kullanıldığı açısından önemli bir geçiş noktasındadır. Veri bilimciler, son zamanlarda ve özellikle gelecekte işlerini çok farklı şekilde yürütmeye devam etmişlerdir. Büyük veri, algoritma ekonomisi, Bulut küresel işletmelerde ana akım olmaya devam ederken, işletmeler eğrinin önünde kalmak için en son rekabet stratejilerini benimsemeye devam etmektedir. Bu geçişin en çarpıcı iki özelliği, veri süreçlerinin artan otomasyonu ve anlık analitik çözümlerinin sunulmasıdır.[10] Veri odaklı işletmeler, 2015 yılından 2021 yılına kadar geçen 6 yıllık periyotta etkisini çok büyük bir şekilde arttırarak göstermektedir. (yaklaşık 333 milyar ABD dolarından 1,2 trilyon ABD dolarına) Veri bilimcileri, şirketlerin büyüklüklerine bakmaksızın her büyüklükteki şirketin kuruluşlarını, çeşitli bulgulara dayanarak analiz etmelerine yardımcı olmak için bir veri okyanusundan yararlı bilgileri çıkarmanın yollarını bulmalarına yardımcı olmakla birlikte, ilgili sonuçları bulmak için veri merkezli sorular sormaya, verileri analiz etmeye ve istatistik ve matematiği uygulamaya odaklanır.[11]
Veri bilimi görevleri
Kümeleme
Veriler, bir canlı türünün özelliklerini tanımlar veya bir makinenin ne gibi sistemi olduğunu kaydeder. Her türlü nesne ve olgunun anlaşılması için ileri analiz, kararlar ve nihayetinde bir temel oluşturur. Bu veri analizlerinin sonucunda da bir gruplaşma veya kümeleme işlemi yapılması şarttır. Aynı grupta sınıflandırılan cisimler belirli benzer özellikler göstermelidir. Yeni bir nesneyi öğrenmek veya tanımlamak özelliklerini sınıflandırma konusunda insanlar için büyük önem taşır. Bu özellikleri benzerlik ve farklılıklarına göre diğer nesnelerle karşılaştırma yapılır. Diğer yandan, kümeleme tanımı üzerine bir fikir birliği olmamakla birlikte, "benzer özellikler gösteren nesnelerin birlikte gruplanması" şeklinde yorumlanabilir. Küme analizi, veri madenciliğinde önemli bir yere sahiptir. Benzerlik ölçüsüne dayanan koleksiyonların kümeler halinde örgütlenmesi problemini ele alır.[5]
İlişkilendirme kuralları madenciliği
Veri madenciliğinde en çok kullanılan yöntemlerden biridir. Veri kümelerinde gizli olan örüntüleri ortaya çıkarmak için kullanılır. İlişkilendirme kuralları madenciliği, biyomedikal araştırmacılar içinde "Keşifsel Veri Analizi yapmak için ve veri kümelerindeki değişkenler nelerdir?" gibi soruların cevaplarını bulmak için yaygın olarak bu yöntemi kullanmaktadır.[5]
Anomali algılama
Anomali algılama, bir veri kümesindeki tipik verilere uymayan örneklerin aranmasını ve tanımlanmasını içerir. Bu uygun olmayan örneklere genellikle anomaliler veya aykırı değerler denilir. Anormal durum tespiti genellikle, potansiyel dolandırıcılık faaliyetlerini tanımlamak ve soruşturmaları tetiklemek için finansal işlemlerin analizinde kullanılır.[12] Anomali algılama akıllı telefonlar üzerinden bir örnekle belirtilebilir. Akıllı telefonların yaygınlaşması, kötü amaçlı uygulamaları da beraberinde getirmiştir. Son yıllarda kötü amaçlı yazılımlar Android telefonlar için büyük bir tehdit haline gelmiştir. Kötü amaçlı ağ davranışını tanımlamak üzere ağ trafiği analizi, veri madenciliği ile birleştirilebilir. Ağ trafiği özelliklerini ağ verilerinden çıkarmak için geliştirilen Apriori algoritması ile genel olarak operasyonel davranış tetikleyicileri aracılığıyla kötü amaçlı yazılım işlevleri ortaya çıkabilir. Oluşturulan model, bir anomaliyi etkili bir şekilde tespit edebilir, günlük akıllı telefon güvenlik kontrolü ve değerlendirmesi için kullanılabilir.[5]
Tahmin
Bir tahmin modeli, bir girdi için bir etiket veya kategori olarak geri döndürdüğünde bir sınıflama modeli olarak bilinir. Sınıflama modelini eğitmek, her bir örneğin hedef olayın bu örnekte olup olmadığını belirtmek üzere etiketlendiği tarihi verileri gerektirir. Örneğin, müşteri sınıflandırması her müşteriye bir etiketin atandığı bir veri kümesi gerektirir. Veri seti, her bir müşteri için bu etiketi listeleyen, hedef özellik olarak bilinen bir öznitelik içerecektir.[12]
Veri biliminin uygulandığı bazı alanlar
Sağlık alanındaki veri bilimi uygulamaları
Günümüzde klinik vakalara stratejik bir karar desteği sağlayabilmek için büyük veri yığınları içinden değerli verilerin kullanılmasına yönelik modeller geliştirilmekte ve bunların kullanım alanları gittikçe büyük verinin analiz edildiği yeni nesil klinik karar destek sistemleri, sağlık uzmanlarının kullanımına sunularak faydalı uygulamalar geliştirilebilmektedir.[13]
İşletmecilik alanındaki veri bilimi uygulamaları
Perakende satış ve pazarlama için veri madenciliği uygulamalarının çoğu kolaylıkla kullanılabilmektedir. Tipik bir yaklaşım, satın alma ve işlem geçmişlerinin tanımları gibi verilerden yararlanarak müşterileri sınıflandırmak ya da kümelere ayırmaktır. Bu kümeler, bugün bile pratikte sıklıkla görülebilen A-B-C segmentlerinden çok daha iyi optimize edilmiş veri odaklı bölümler oluşturabilir. Müşterilerin segmentlere ayırmak, örneğin belirli satış veya pazarlama kanalları için müşterileri seçmek veya bu müşterilere veya potansiyel müşterilere yaklaşmak için en uygun sonraki en iyi eylemin hangisi olduğunu tahmin etmek gibi daha ileri analizler için önemli bir önkoşuldur.[14]
Eğitim alanındaki veri bilimi uygulamaları
"Eğitimde veri madenciliği, eğitim araştırmaları içerisinde yer alan bilgisayar bilimi, istatistik, matematik gibi pek çok alanla ilişkisi bulunan disiplinler arası bir çalışma alanı olup eğitimde kullanılan bilgi ve iletişim teknolojileri ile üretilen verilerin, analiz edilerek eğitimde olan kişiler için anlamlı bilgilere dönüştürülmesini amaç edinmiştir. Oldukça yeni olan bu alanın eğitimciler için önemi büyüktür."[15]
Finans alanındaki veri bilimi uygulamaları
"Finansal teknolojilerin gelişmesiyle birlikte 21. yüzyılda risk yönetimi, portföy yönetimi, tahmin ve trend analizleri gibi finansal alanlar, veri bilimi uygulamaları tarafından optimize edilmesiyle birlikte büyük önem kazanmıştır. Gelişen teknoloji sayesinde veri bilimciler, siber saldırıları kolayca tespit edebilir ve anormal işlemleri önceden engelleyebilir. Bankacılık sektöründe büyük yere sahip olan makine öğrenimi algoritmaları ve başarılı analizler ile kredi risk değerlendirmeleri otonom hale getirilebilmektedir. Bu gelişmeler, finans sektöründe daha güvenli, verimli ve etkili kararlar alınmasına olanak sağlamaktadır"[16]
Veri bilimi alanındaki eğitim faaliyetleri
Eğitim ile veri bilimi arasında özel bir ilişki söz konusudur. Öğrenme süreci ve eğitim kurumları, zengin veriler içermektedir ve toplum için büyük bir önem taşımaktadır. Bu nedenle eğitim, özellikle veri bilimi için çok uygun bir alandır.[5] Veri bilimi, işletmelerin bilgisayarları ve bilişim teknolojilerinin iş süreçlerini değiştirmesiyle benzer bir şekilde devrim yapma potansiyeline sahip yeni bir paradigmadır. Bu yeni zorluklar, teknolojik ilerlemelere ayak uydurmak ve onların toplumun yararına şekillendirmek için büyük fırsatlar sunarken aynı zamanda üniversitelere ve genel olarak yükseköğrenime sorumluluklar yükler.[7] Aşağıda Türkiye'de ve Dünyada veri bilimi alanındaki bazı eğitim faaliyetleri görülmektedir.
Üniversite | Yüksek Lisans Program Adı | Ülke |
---|---|---|
Bahçeşehir Üniversitesi | Büyük Veri Analitiği ve Yöntemi | Türkiye |
İstanbul Teknik Üniversitesi | Büyük Veri ve İş Analitiği | Türkiye |
Illionis University | Veri Bilimi Alanında Bilgisayar Bilimleri | ABD |
Carnegio Mellon University | İş Zekası ve Veri Analizi | Avustralya |
Castelldefels School of Social Science | Veri Bilimi ve İş Analitiği | İspanya |
Arden University | Veri Analizi ve Kurumsal Mimari | Birleşik Krallık |
Universite Cote D'Azur | Yüksek Performans Bilgisi ve Veri Bilimleri | Fransa |
Yeditepe Üniversitesi | Veri Bilimi | Türkiye |
Veri biliminde etik ve veri koruma
İnternetten veya mağazalardan alışveriş yaparken satıcı firmalar tarafından kullanıcılara belirtilen, ancak kullanıcılar tarafından pek üstünde durulmayan, şahsi verilerin aktarıldığı bir sistem mevcuttur. Bununla ilgili 7 Nisan 2016 tarihinde Kişisel Verilerin Korunması Kanunu[18] Resmî Gazete’de yayınlanmıştır. Özellikle web üzerinden, e-ticaret yoluyla üyelerden veya mağazalar yoluyla ziyaretçilerden gelen pek çok veri toplanmaktadır. Bu gizlilik ve üyelik bilgilendirme sözleşmeleri okunmalı ve bilgilerimizin depolandığı unutulmamalıdır.
“Türkiye’de 24.03.2016 tarihinde TBMM Genel Kurulu’nda kabul edilen “6698 sayılı Kişisel Verilerin Korunması Kanunu” 07.04.2016 tarihli 29677 sayılı Resmi Gazete’de yayımlanarak yürürlüğe girmiştir.” Kanun kapsamında, kişisel verilerin işlenmesinde başta özel hayatın gizliliği olmak üzere kişilerin temel hak ve özgürlüklerinin korunması ile ilgili esasların düzenlenmesi amaçlanmaktadır.[19] Kişisel verilerin korunması konusundaki çalışmalar devam etmektedir. Bilgi ve iletişim teknolojilerdeki gelişmeler nedeniyle dünyada sürekli olarak yön değiştirmekte ve sosyal, iktisadi açılardan uluslararası bir konuma gelmektedir. Başta sosyal ağlar, bulut bilişim, büyük veri analizi ve küreselleşmenin getirdiği etkilerle pek çok etken kişisel verilere erişimi ve verilerin toplanıp kullanılmasını değiştirmiş ve kolaylaştırmıştır.[20]
Ayrıca bakınız
- Veri mühendisliği[21]
Kaynakça
- ^ "Arşivlenmiş kopya". 21 Ağustos 2018 tarihinde kaynağından arşivlendi. Erişim tarihi: 16 Ocak 2020.
- ^ International Federation of Classification Societies. Conference (Mart 1998). Data Science, Classification, and Related Methods (İngilizce). Springer. ISBN 9784431702085.
- ^ Tony Hey (2009). The Fourth Paradigm (İngilizce). Microsoft Press. ISBN 978-0-9825442-0-4. 20 Mart 2017 tarihinde kaynağından arşivlendi. Erişim tarihi: 16 Ocak 2020.
- ^ "Arşivlenmiş kopya". 20 Haziran 2019 tarihinde kaynağından arşivlendi. Erişim tarihi: 16 Ocak 2020.
- ^ a b c d e f g h Sütcü, Cem S. ve Aytekin, Ç. (2018). Veri Bilimi. İstanbul: Paloma Yayınevi.
- ^ a b Akdeniz, F. (2016). "İstatistikte Yeni Eğilimler ve Gelişmeler". Sosyal Bilimler Araştırma Dergisi. 4 (4). s. 1-11. 21 Mart 2020 tarihinde kaynağından arşivlendi.
- ^ a b Stadelmann, T.S., Stockinger, K., Braschler, M., Cieliebak, M., Baudinot, G., Dürr, O. ve Ruckstuhl, A. Applied Data Science in Europe: Challenges for Academia in Keeping Up with a Highly Demanded Topic (PDF). 9th European Computer Science Summit (İngilizce). 19 Ağustos 2016 tarihinde kaynağından arşivlendi (PDF).
- ^ Bruce, P. ve Bruce, A (2017). Practical Statistics for Data Scientists (PDF). Sebastopol, CA: O’Reilly Media. 8 Aralık 2020 tarihinde kaynağından arşivlendi (PDF).
- ^ a b Press, Gill. (28 Mayıs 2013). "A Very Short History Of Data Science". Forbes (İngilizce). 23 Ocak 2021 tarihinde kaynağından arşivlendi. Erişim tarihi: 13 Ocak 2021.
- ^ Paramita (Guha) Ghosh (9 Ağustos 2018). "The Future Impact of Data Science on Business Analytics". 13 Ağustos 2018 tarihinde kaynağından arşivlendi. Erişim tarihi: 13 Ocak 2021.
- ^ Martin, Sophia (17 Eylül 2019). "How Data Science will Impact Future of Businesses?". 12 Ocak 2021 tarihinde kaynağından arşivlendi. Erişim tarihi: 13 Ocak 2021.
- ^ a b Kelleher, J.D. ve Tierney, B. (2018). Data Science. Londra: The MIT Press.
- ^ Cem Sefa Sütçü & Hikmet Tosyalı. "Klinik Karar Destek Sistemleri" (PDF). Nobel Tıp Kitapevleri. s. 99. Erişim tarihi: 14 Haziran 2016.
- ^ Markus Hofmann & Ralf Klinkenberg (12 Kasım 2013). RapidMiner Data Mining Use Cases and Business Analytics Applications. New York: CRC Press. s. 525. 15 Ocak 2021 tarihinde kaynağından arşivlendi.
- ^ Hakan Güldal & Yılmaz Çakıcı. "Eğitsel Veri Madenciliği". Balkan Eğitim Araştırmaları. Erişim tarihi: 16 Kasım 2017.
- ^ Chen, H., Chiang, R. H., & Storey, V. C. (2012). Business intelligence and analytics: From big data to big impact. MIS quarterly, 36(4), 1165-1188.https://misq.umn.edu/misq/downloads/download/editorial/567/
- ^ "Veri Bilimi 242 Yüksek Lisans Programları Karşılaştır". Keystone Master Studies. 11 Ocak 2021 tarihinde kaynağından arşivlendi. Erişim tarihi: 13 Ocak 2021.
- ^ "Kişisel Verileri Koruma Kurumu" (PDF). Kişisel Verilerin Korunması Kanunu. 57 (29677). 7 Nisan 2016. 10 Ocak 2021 tarihinde kaynağından arşivlendi (PDF).
- ^ Ayşe Nur Akıncı. "Avrupa Birliği Genel Veri Koruma Tüzüğünün Getirdiği Yenilikler ve Türk Hukuku Bakımından Değerlendirilmesi" (PDF). Ankara Kalkınma Bakanlığı, 2968. s. 26. 16 Kasım 2017 tarihinde kaynağından arşivlendi (PDF). Erişim tarihi: 10 Haziran 2017.
- ^ Ayşe Nur Akıncı. "Avrupa Birliği Genel Veri Koruma Tüzüğünün Getirdiği Yenilikler ve Türk Hukuku Bakımından Değerlendirilmesi" (PDF). Ankara Kalkınma Bakanlığı, 2968. s. 2. 16 Kasım 2017 tarihinde kaynağından arşivlendi (PDF). Erişim tarihi: 10 Haziran 2017.
- ^ Data engineering (İngilizce), 31 Ağustos 2024, erişim tarihi: 1 Ekim 2024