İçeriğe atla

Belge sınıflandırma

Belge sınıflandırma veya belge kategorizasyonu, kütüphane bilimleri, bilgi bilimi ve bilgisayar biliminde bir sorundur. Görev, bir belgeyi bir veya daha fazla sınıfa veya kategoriye atamaktır. Bu "manuel" (veya "zihinsel") veya algoritmik olarak yapılabilir. Belge sınıflandırmasının zihinsel olarak yapılması genellikle kütüphane biliminin alanı olmuştur, oysa belgelerin algoritmik olarak sınıflandırılması genellikle bilgi bilimi ve bilgisayar biliminin alanındadır. Ancak, sorunlar örtüşmektedir ve bu nedenle belge sınıflandırması üzerine disiplinler arası araştırmalar bulunmaktadır.

Sınıflandırılacak belgeler metinler, görüntüler, müzikler vb. olabilir. Her tür belgenin kendine özgü sınıflandırma sorunları vardır. Aksi belirtilmedikçe, genellikle metin sınıflandırması kastedilir.

Belgeler konularına göre veya diğer özelliklere göre (belge türü, yazar, basım yılı vb. gibi) sınıflandırılabilir. Bu makalenin geri kalan kısmında yalnızca konu sınıflandırması ele alınmaktadır. Belge sınıflandırmasının iki ana felsefesi vardır: içerik tabanlı yaklaşım ve talep tabanlı yaklaşım.

"İçerik tabanlı" ve "talep tabanlı" sınıflandırma

İçerik tabanlı sınıflandırma, bir belgedeki belirli konulara verilen ağırlığın, belgenin atanacağı sınıfı belirlediği sınıflandırmadır. Örneğin, kütüphanelerde sınıflandırmada yaygın bir kural, bir kitabın atanacağı sınıfın en az %20'sinin kitabın içeriği hakkında olması gerektiğidir.[1] Otomatik sınıflandırmada ise, belirli kelimelerin bir belgede kaç kez geçtiği olabilir.

Talep odaklı sınıflandırma (veya -dizinleme), kullanıcılardan beklenen talebin belgelerin nasıl sınıflandırıldığını etkilediği sınıflandırmadır. Sınıflandırmacı kendisine şu soruları sorar: "Bu varlık hangi tanımlayıcılar altında bulunmalı?" ve "tüm olası sorguları düşün ve eldeki varlığın hangileri için ilgili olduğuna karar ver" (Soergel, 1985, s. 230).[2]

Talep odaklı sınıflandırma, belirli bir kitle veya kullanıcı grubuna yönelik olarak hedeflenmiş sınıflandırma olabilir. Örneğin, feminist çalışmalar için bir kütüphane veya veritabanı, bir tarih kütüphanesiyle karşılaştırıldığında belgeleri farklı şekilde sınıflandırabilir/dizinleyebilir. Bununla birlikte, talep odaklı sınıflandırmayı politika temelli sınıflandırma olarak anlamak daha iyidir: Sınıflandırma, bazı ideallere göre yapılır ve sınıflandırmayı yapan kütüphane veya veritabanının amacını yansıtır. Bu şekilde, kullanıcı çalışmalarına dayalı bir sınıflandırma veya dizinleme değildir. Kullanım veya kullanıcılar hakkında deneysel veriler uygulandığında, talep odaklı sınıflandırmanın bir kullanıcı temelli yaklaşım olarak kabul edilmesi gerekmektedir.

Belgelerin Sınıflandırılması ve Konu Dizinlemesi

Belgeleri sınıflandırma ve konuları belgelere atama arasında yapılan ayrım, Frederick Wilfrid Lancaster tarafından eleştirilmiştir. Lancaster'a göre, bu terminolojik ayrımlar anlamsızdır ve sadece karmaşaya yol açar (Lancaster, 2003, s. 21[3]).

Bazıları, bu ayrımın yalnızca yüzeysel olduğunu savunur; zira bir sınıflandırma sisteminin bir eş anlamlılar sözlüğüne dönüştürülebileceği ve tersinin de geçerli olduğu gerçeği bunu desteklemektedir (Aitchison, 1986[4]; 2004[4]; Broughton, 2008[5]; Riesthuis & Bliedung, 1991[6]).

Bu bağlamda, bir belgeye etiketleme yapmak, örneğin bir kontrol edilen kelime dağarcığından bir terimi bir belgeye atayarak, o belgeyi o terim tarafından dizinlenen belgeler sınıfına atamakla aynıdır. Tüm X olarak dizinlenen veya sınıflandırılan belgeler aynı belge sınıfına aittir. Dolayısıyla, bir belgeye etiketleme yapmak, o belgeyi o etiket altında dizinlenen belgeler sınıfına atamakla aynı işlevi görür.

Otomatik belge sınıflandırma (ADC)

Otomatik belge sınıflandırma görevleri üç türe ayrılabilir:

  1. Denetimli Belge Sınıflandırması: Bu türde, belgelerin sınıflandırılması için doğru bilgi sağlayan bazı dış mekanizmalar bulunur. Örneğin, insan geri bildirimi gibi faktörler bu süreçte rol oynar.
    • İnsan Geri Bildirimi: Bu yöntemde, insanların geri bildirimleri ve etiketlemeleri kullanılarak belgeler sınıflandırılır. İnsanlar, belgelerin hangi kategorilere veya sınıflara ait olduğunu belirlemek için kullanılır.
    • Doğrudan Etiketleme : Belirli bir sınıf veya kategoriye ait olduğu doğrulanmış belgelere dayanarak, diğer belgelerin sınıflandırılması yapılır.
  2. Denetimsiz Belge Sınıflandırması (Belge Kümeleme): Bu türde, sınıflandırma tamamen dış bilgiye başvurmadan yapılması gerektiği prensibiyle işler. Belgeler arasındaki doğal ilişkilere dayanarak gruplar oluşturulur.
    • Doğal İlişkilere Dayalı Sınıflandırma: Belgeler arasındaki benzerlikler ve ilişkiler üzerine odaklanarak gruplar oluşturulur. Bu yöntemde, belgelerin içeriği veya özellikleri kullanılarak benzer gruplar oluşturulur.
  3. Yarı Denetimli Belge Sınıflandırması: Bu türde, belgelerin bazı bölümleri dış mekanizma tarafından etiketlendiği halde, sınıflandırma sürecinin diğer kısımları denetimsiz veya denetimli olabilir.[7]
    • Kısmi Etiketleme: Belgelerin bazı kısımları, dış mekanizma veya insanlar tarafından etiketlenirken, diğer kısımları otomatik olarak sınıflandırılır.
    • Karma Yöntemler: Hem denetimli hem de denetimsiz yöntemlerin bir kombinasyonu kullanılarak sınıflandırma yapılır. Bu yöntemde, insan geri bildirimi veya doğal ilişkilere dayalı gruplama gibi farklı teknikler bir arada kullanılabilir.

Bu görevler için çeşitli lisans modelleri altında birkaç yazılım ürünü mevcuttur.[8][9][10][11]

Teknikler

Otomatik belge sınıflandırma teknikleri şunları içerir:

  • Yapay Sinir Ağları
  • Kavram Madenciliği
  • ID3 veya C4.5 gibi Karar Ağaçları
  • Beklenti Maksimizasyonu (EM)
  • Anlık olarak eğitilen sinir ağları
  • Gizli Anlamsal İndeksleme
  • Çoklu Örnek Öğrenme
  • Naive Bayes Sınıflayıcı
  • Doğal Dil İşleme Yaklaşımları
  • Kaba Küme Tabanlı Sınıflayıcı
  • Yumuşak Küme Tabanlı Sınıflayıcı
  • Destek Vektör Makineleri (SVM)
  • K-en Yakın Komşu Algoritmaları
  • tf-idf

Uygulamalar

Sınıflandırma teknikleri şu alanlarda uygulanmıştır:

  • Spam filtreleme: E-posta spam mesajlarını meşru e-postalardan ayırmaya çalışan bir süreç.
  • E-posta yönlendirme: Genel bir adrese gönderilen bir e-postayı konuya bağlı olarak belirli bir adrese veya posta kutusuna yönlendirme.[12]
  • Dil tespiti: Bir metnin dilini otomatik olarak belirleme.
  • Tür sınıflandırması: Bir metnin türünü otomatik olarak belirleme.[13]
  • Okunabilirlik değerlendirmesi: Bir metnin okunabilirlik derecesini otomatik olarak belirleme; farklı yaş grupları veya okuyucu türleri için uygun materyalleri bulmak veya daha büyük bir metin basitleştirme sisteminin bir parçası olarak.
  • Duygu analizi: Konuyla ilgili bir konuşmacının veya yazarın tutumunu veya bir belgenin genel bağlamsal kutupluğunu belirleme.
  • Sosyal medyada sağlıkla ilgili sınıflandırma: Halk sağlığı gözetiminde sosyal medyanın kullanımıyla ilgili sağlıkla ilgili sınıflandırma.[14]
  • Makale sıralama: Biyolojide el ile literatür kürasyonu için ilgili makaleleri seçme; örneğin, biyolojide manuel olarak kürasyon yapılacak veritabanlarının oluşturulmasının ilk adımı olarak yapılıyor.[15]

Kaynakça

  1. ^ Library of Congress (2008). The subject headings manual. Washington, DC.: Library of Congress, Policy and Standards Division. (Sheet H 180: "Assign headings only for topics that comprise at least 20% of the work.")
  2. ^ "Organizing Information: Principles of Data Base and Retrieval Systems. Dagobert Soergel". The Library Quarterly. 57 (1): 100-102. Ocak 1987. doi:10.1086/601838. ISSN 0024-2519. 
  3. ^ "Indexing and Abstracting in Theory and Practice. F. W. Lancaster". The Library Quarterly. 70 (4): 503-504. Ekim 2000. doi:10.1086/603224. ISSN 0024-2519. 
  4. ^ a b AITCHISON, JEAN (1 Mart 1986). "A CLASSIFICATION AS A SOURCE FOR A THESAURUS: THE BIBLIOGRAPHIC CLASSIFICATION OF H. E. BLISS AS A SOURCE OF THESAURUS TERMS AND STRUCTURE". Journal of Documentation. 42 (3): 160-181. doi:10.1108/eb026791. ISSN 0022-0418. 
  5. ^ Broughton, Vanda (20 Aralık 2007). "A Faceted Classification as the Basis of a Faceted Terminology: Conversion of a Classified Structure to Thesaurus Format in the Bliss Bibliographic Classification, 2nd Edition". Axiomathes. 18 (2): 193-210. doi:10.1007/s10516-007-9027-7. ISSN 1122-1151. 
  6. ^ "Tools for knowledge organization and the human interface". Learned Publishing. 4 (1): 38-39. Ocak 1991. doi:10.1002/leap/40008. ISSN 0953-1513. 
  7. ^ Rossi, Rafael Geraldeli; Lopes, Alneu de Andrade; Rezende, Solange Oliveira (Mart 2016). "Optimization and label propagation in bipartite heterogeneous networks to improve transductive classification of texts". Information Processing & Management. 52 (2): 217-257. doi:10.1016/j.ipm.2015.07.004. ISSN 0306-4573. 
  8. ^ Chen, Ding-Yi. On Interactive Document Classification (Tez). University of Queensland Library. 
  9. ^ Owen, David; Livermore, Laurence; Groom, Quentin; Hardisty, Alex; Leegwater, Thijs; van Walsum, Myriam; Wijkamp, Noortje; Spasić, Irena (3 Temmuz 2020). "Figure 9 from: Owen D, Livermore L, Groom Q, Hardisty A, Leegwater T, van Walsum M, Wijkamp N, Spasić I (2020) Towards a scientific workflow featuring Natural Language Processing for the digitisation of natural history collections. Research Ideas and Outcomes 6: e55789. https://doi.org/10.3897/rio.6.e55789". dx.doi.org. 18 Nisan 2024 tarihinde kaynağından arşivlendi. Erişim tarihi: 18 Nisan 2024.  |başlık= dış bağlantı (yardım)
  10. ^ Negrete, Oscar A.; Peña, Francisco J.; Vargas, Patricio (11 Ekim 2018). "Magnetocaloric Effect in an Antidot : The Effect of the Aharonov-Bohm Flux and Antidot Radius". dx.doi.org. 18 Nisan 2024 tarihinde kaynağından arşivlendi. Erişim tarihi: 18 Nisan 2024. 
  11. ^ "Solve Classification Problems". 7 Aralık 2023 tarihinde kaynağından arşivlendi. Erişim tarihi: 18 Nisan 2024. 
  12. ^ Busemann, Stephan; Schmeier, Sven; Arens, Roman G. (2000). "Message classification in the call center". Proceedings of the sixth conference on Applied natural language processing -. Morristown, NJ, USA: Association for Computational Linguistics. doi:10.3115/974147.974169. 
  13. ^ Santin, Marina; Rosso, Rosso (2008). "Testing a Genre-Enabled Application: A Preliminary Assessment". Electronic Workshops in Computing. BCS Learning & Development. doi:10.14236/ewic/fdia2008.7. 
  14. ^ Xiangfeng Dai; Marwan Bikdash; Bradley Meyer. "From social media to public health surveillance: Word embedding based clustering method for twitter classification". 25 Kasım 2023 tarihinde kaynağından arşivlendi. Erişim tarihi: 18 Nisan 2024. 
  15. ^ Krallinger, Martin; Leitner, Florian; Rodriguez-Penagos, Carlos; Valencia, Alfonso (2008). "Overview of the protein-protein interaction annotation extraction task of BioCreative II". Genome Biology (İngilizce). 9 (Suppl 2): S4. doi:10.1186/gb-2008-9-s2-s4. ISSN 1465-6906. 16 Nisan 2024 tarihinde kaynağından arşivlendi. Erişim tarihi: 18 Nisan 2024. 

İlgili Araştırma Makaleleri

<span class="mw-page-title-main">Biçimsel galaksi sınıflaması</span> gökadaların görünüşlerine göre gruplara ayırdığı bir sınıflandırma sistemidir

Biçimsel galaksi sınıflandırması, astronomların gökadaları görünüşlerine göre gruplara ayırdıkları bir sınıflandırma sistemidir. Gökadaları görünüşlerine göre sınıflandırmak için kullanılan birkaç şema bulunmaktadır. Bunların en bilineni Edwin Hubble tarafından tasarlanan ve Gérard de Vaucouleurs ile Allan Sandage tarafından genişletilen Hubble düzenidir. Gökada sınıflandırması ve morfolojisi artık büyük ölçüde hesaplama yöntemleri ve fiziksel morfoloji kullanılarak yapılır.

<span class="mw-page-title-main">Yıldız sınıflandırma (astronomi)</span>

Yıldız sınıflandırma, gökbilimde, yıldızların öncelikle sıcaklıklarına göre sınıflandırılıp, diğer nitelikleri ile bu sınıfların arıtılmasıdır. Yıldız sıcaklıkları Wien'in yer değiştirme yasasına göre sınıflandırılabilseler de, uzak yıldızlar ile sorunlar ortaya çıkmaktadır. Yıldız tayfölçümü ise soğurma çizgilerine dayalı bir sınıflandırma yöntemi sunmaktadır. 19. yüzyıla dayanan ve bugünkü yöntemlerin de temelini oluşturan bir sınıflandırma, yıldızları tayfölçüm sayesinde A'dan Q'ya kadar sıralamaktadır.

Otomobil segmentleri, otomobillerin boyut, hacim, fiyat, performans gibi kriterlerle değerlendirilerek oluşturulan sınıflandırmadır.

Structural Classification of Proteins veritabanı, protein yapısal bölgelerinin amino asit dizleri ve üç boyutlu yapılarına dayanarak protein yapısal bölgelerinin (domain) elle yapılmış bir sınıflandırmasıdır. İlk kez 1995'te yayımlanmış olan bu veritabanı en az yılda bir yenilenmektedir.

22 Mayıs 2001'de Dünya Sağlık Örgütünün koordine ettiği dokuz yıllık bir yeniden düzenleme süreci sonucunda Dünya Sağlık Asamblesi, "ICF" kısaltmasıyla kullanılmak üzere İşlevselik, Yetiyitimi ve Sağlığın Uluslararası Sınıflandırmasını onaylamıştır. Bu sınıflandırma sistemi ilk olarak 1980 yılında işlevsellik ve yetiyitimine dair sağlık bileşenlerinin sınıflandırılması için birleştirici bir çerçeve sağlamak amacıyla DSÖ tarafından ""ICIDH"" kısaltmasıyla ve ""Bozukluk, Yetiyitimi ve Engelliliğin Uluslararası Sınıflandırması"" başlığıyla oluşturulmuştur.

<span class="mw-page-title-main">Destek vektör makinesi</span>

Destek vektör makinesi, eğitim verilerindeki herhangi bir noktadan en uzak olan iki sınıf arasında bir karar sınırı bulan vektör uzayı tabanlı makine öğrenme yöntemi olarak tanımlanabilir.

<span class="mw-page-title-main">Hollanda Kraliyet Kütüphanesi</span> Hollandanın ulusal kütüphanesi

Hollanda Kraliyet Kütüphanesi, 1798 yılında kurulan Hollanda'nın Lahey merkezli ulusal kütüphanesidir. KB, Orta Çağ edebiyatından günümüz yayınlarına kadar Hollanda içinde yayımlanan ve hakkında olan her yayını koleksiyonunda toplamaktadır. Deposunda kitaplar, gazeteler ve dergiler dahil olmak üzere yaklaşık 7 milyon yayın saklanmaktadır. KB ayrıca ulusal çevrimiçi kütüphane ve Delpher gibi birçok dijital hizmet sunmaktadır. KB, 2015'ten bu yana halk kütüphanesinin ağının koordinasyonunu üstlenmektedir.

<span class="mw-page-title-main">Simiyen</span> primat infra takımı

Simiyenler, antropoidler ya da yüksek primatlar (Simiiformes); köpeksi maymunlar (Cercopithecoidea) ve insansılar üst familyalarından oluşan Eski Dünya maymunlarını (Catarrhini) ve Yeni Dünya maymunlarını (Platyrrhini) içeren bir primat infra takımıdır. Genelde "maymun" adıyla anılır.

Bilgi sınıflama aslında sınıflamayı tanım olarak hepimiz bilmesekte gündelik yaşamımızda dahil bu kavramla iç içeyiz. Çünkü hepimiz işlerimizi, yaşantımızı daha kolay ve düzenli bir hale getirmek için çevremizde olan eşyalardan tutun da bilgisayarımızda olan dosyalara kadar her türlü nesneyi, maddeyi, bilgiyi sınıflandırıyoruz ve bu sınıflandırmayı çoğumuz kendimize göre yapıyoruz. Ama bilgiyi sınıflarken daha bilimsel yollarla sınıflandırma yapıyoruz.

<span class="mw-page-title-main">Archaeplastida</span>

Archaeplastida, kırmızı algler (Rhodophyta), yeşil algler ve kara bitkilerini ve glokofitler gibi bazı küçük grupları içeren önemli bir ökaryot grubudur. Archaeplastida'nın tüm soyları, fotosentetik olmayan ökaryotrofik bir kamçılı olan Rhodophyta'nın kardeş taksonu Rhodelphidia dışında fotoototrofiktir. Archaeplastida üyeleri, iki zarla çevrili kloroplastlara sahiptir, bu özellikleri bu canlıların bir siyanobakteri ile beslenerek endosimbiyoz olayı yoluyla doğrudan elde edildiğini düşündürür. Amoeboid Paulinella chromatophora'nın yanı sıra kloroplastlara sahip diğer tüm gruplar, ikincil olarak kırmızı veya yeşil alglerden elde edildiklerini düşündüren üç veya dört zarla çevrili kloroplastlara sahiptir. Kırmızı ve yeşil alglerin aksine, glokofitler hiçbir zaman ikincil endosimbiyoz olaylarına dahil olmamıştır.

<span class="mw-page-title-main">Opisthokont</span>

Opisthokontlar, hem hayvan hem de mantar alemlerini içeren geniş bir ökaryot grubudur. Daha önce "Fungi / Metazoa grubu" olarak adlandırılan opisthokontlar, genellikle bir sınıf olarak tanınır. Opisthokontlar, Apusomonadida ve Breviata ile birlikte daha büyük Obazoa kladını oluşturur.

Karbon yıldızı, atmosferi oksijenden daha fazla karbon içeren tipik olarak asimptotik dev kol yıldızı ve parlak bir kırmızı devdir. İki element, yıldızın üst katmanlarında birleşerek atmosferdeki tüm oksijeni tüketen, karbon atomlarını diğer karbon bileşiklerini oluşturmak üzere serbest bırakan ve yıldıza "isli" bir atmosfer ve çarpıcı yakut kırmızısı bir görünüm veren karbonmonoksiti oluşturur. Ayrıca bazı cüce ve üstdev karbon yıldızları da vardır ve daha yaygın olan dev yıldızlara bazen onları ayırt etmek için klasik karbon yıldızları denir.

<span class="mw-page-title-main">Çoklu örnekle öğrenme</span>

Makine öğreniminde, çoklu örnek öğrenme (ÇÖÖ) bir tür denetimli öğrenmedir. Öğrenci, bireysel olarak etiketlenmiş bir dizi örnek almak yerine, her biri birçok örnek içeren bir dizi etiketli paket alır.

Veri analizinde, anomali tespiti, verilerin çoğunluğundan önemli ölçüde farklılaşarak şüphe uyandıran nadir öğelerin, olayların veya gözlemlerin tanımlanmasıdır. Tipik olarak anormal öğeler, banka dolandırıcılığı, yapısal bir kusur, tıbbi sorunlar veya bir metindeki hatalar gibi bir tür soruna dönüşecektir. Anormallikler ayrıca aykırı değerler, yenilikler, gürültü, sapmalar ve istisnalar olarak da adlandırılmaktadır.

<span class="mw-page-title-main">Holozoa</span>

Holozoa, hayvanları ve en yakın tek hücreli akrabalarını içeren ancak mantarları hariç tutan bir canlı grubudur. Holozoa ayrıca tunik cinsi Distaplia için kullanılan eski bir isimdir.

<span class="mw-page-title-main">Cactoideae</span> bitki altfamilyası

Cactoideae, kaktüs ailesinin Cactaceae en büyük alt ailesidir. Kaktüs türlerinin yaklaşık %80'i bu alt aileye aittir. 2018 Ağustos itibarıyla, familya Cactaceae'nin dahili sınıflandırması belirsizliğini korur ve değişebilir. Nyffeler ve Eggli, moleküler çalışmalardan elde edilen birçok bilgiyi içeren bir sınıflandırma 2010 yılında üretildi. O zamandan beri çeşitli revizyonlar yayınlanmıştır, örn. Hylocereeae kabilesine ve Echinocereeae kabilesine. Sınıflandırmalar belirsiz kaldı.

<span class="mw-page-title-main">Kore Ulusal Kütüphanesi</span> ulusal kütüphane

Kore Ulusal Kütüphanesi, Güney Kore'nin ulusal kütüphanesidir. Kütüphane, 15 Ekim 1945 tarihinde kurulmuş olup Kültür Bakanlığı'na bağlıdır. Kütüphane, başkent Seul'ün Seocho semtinde yer almaktadır.

Anatomik Terapötik Kimyasal (ATC) Sınıflandırma Sistemi, ilaçların etkin maddelerini etki ettikleri organ veya sisteme ve terapötik, farmakolojik ve kimyasal özelliklerine göre sınıflandıran bir ilaç sınıflandırma sistemidir. Amacı, ilaç kullanımını izlemek ve kaliteli ilaç kullanımını iyileştirmek için araştırmalara yardımcı olmaktır. İlaç tavsiyesi veya etkinliği anlamına gelmez. Dünya Sağlık Örgütü İlaç İstatistikleri Metodolojisi İşbirliği Merkezi (WHOCC) tarafından kontrol edilmektedir ve ilk olarak 1976 yılında yayınlanmıştır.

Taksonomi, kategorizasyon veya sınıflandırma uygulaması ve bilimidir.

<span class="mw-page-title-main">Pauline Atherton Cochrane</span>

Pauline Atherton Cochrane, Amerikalı kütüphaneci, bilim insanı ve yazar.