İçeriğe atla

Dikey arama

Arama motoru teknolojisinde günümüzde genel amaçlı arama motorlarının yanında belli bir alana yoğunlaşmış arama motoru örnekleri türemektedir. Belli bir alana yoğunlaşmış arama teknolojisine Dikey Arama adı verilmektedir. Dikey arama motorları belli bir alanda bilgi almak isteyen kullanıcıları hedefleyip, İnternet’te bulunan bilgileri bu pencere çerçevesinde tarayıp kullanıcılara sunar.

Dikey Arama Motoru Yapısı

Arama motorları görevlerine göre birden fazla karmaşık teknoloji içermektedir. Bir arama motoru: örümcekler, bilgi ayrıştırıcıları, indeksleyiciler ve arama bileşenlerinden oluşmaktadır. Bu bileşenler arasındaki iletişim yukarıdaki şekilde verilmiştir. Bütün bu bileşenlerin gerekli fonksiyonları yerine getirmeleri için yapay zeka (artificial intelligence), bilgi getirme (information retrieval), bilgi çıkarma (information extraction), doğal dil işleme (natural language processing), eş zamanlı programlama (concurrent programming) gibi teknolojiler kullanılmaktadır.

Ağ Örümcekleri

Ağ Örümcekleri, dikey aramanın hedeflediği alan hakkında bilgi sahibi olan sayfaları bulmaya çalışır. Bu sayfalar içerisinde de yine dikey aramanın hedeflediği ana bilgiye sahip sayfaları çıkarmaya özelleşmiş, alandan haberdar bileşenlerdir. Bir örümcek sisteminin karşılaştığı temel zorluklar:

  • Internet’teki sayfa sayısının çokluğu,
  • sayfalardaki değişim hızı ve de
  • Web teknolojileri ile dinamik sayfa yaratımıdır.

Bahsi geçen sorunların üstesinden gelmek için bir örümceğin sahip olması gereken prensipler vardır:

  • Seçim politikası: Örümceğin hangi sayfayı çalıştığı sunucuya indirip daha detaylı inceleyeceğine karar vermesidir.
  • Yeniden uğrama politikası: Yine örümceğin bir sayfayı ne kadar zamanda bir yeniden indireceğini seçmesidir.
  • Nezaket politikası; Bir Internet sitesi üzerindeki bilgileri indekslenmek amacı ile indirecek olan örümceğin bu sayfaları sunan sunucuyu yormamak ve Internet kullanıcılarına hizmetini engellememek için neler yapması gerektiğini bilmesidir.
  • Paralellik politikası: Sayfaların çokluğu, sunucuya indirilecek olan verinin miktarı ve zaman kısıtlaması dolayısı ile hesaba katılan paralel programlama teknkleridir.

Bütün bu politikalar bir örümcek tasarlarken hesaba katılması gereken ve örümceği karmaşıklaştıran unsurlardır. Yine veri miktarının çokluğu verinin toplanması için farklı yeni veri saklama yöntemleri gerektirmektedir.

Bilgi Ayrıştırıcıları

Bilgi ayrıştırıcıları, örümceğin hedef sayfa olarak işaretlediği İnternet sayfalarında bulunan bir kurala bağlı olmadan özgürce hazırlanmış bilgileri (free-text) yapısal bir şekle dönüştürmek istemektedir. Herhangi bir sayfada bulunan ve insanların algılamasına yönelik olarak belli bir yerleşim planında bulunan bilgilerin üzerinde indeksleme ve arama yapılabilecek şekilde yapilandirilmasi Bilgi Çıkarma konusu’na girmektedir. Bu işlem manuel programlama kullanılarak yapılabildiği gibi çeşitli istatistik ve yapay zeka algoritmaları kullanılarak da yapılabilmektedir. Manuel programlama kullanılarak geliştirilen sistemler hedef sayfaların yapılarının sürekli olarak değişmesi sebebiyle problemler yaşarlar. Değişen sayfa yapılarına uyum sağlamak için öğrenen sistemler kullanılmaktadır. Öğrenen sistemler sayesinde ayrıştırıcı önceden görmediği bir sayfadan gerekli bilgiyi eski deneyimlerini baz alarak otomatik bir şekilde çıkarabilmektedir. Bu gibi sistemler ise tutarlı sonuçlar alabilmek için çok büyük miktarda alıştırma bilgisiyle eğitilmek durumundadırlar. Özel anlamlı kelimeleri belirleme (named entity recognition) ve terim çıkarma (term extraction) bu aşamada veriye anlam vermek için yapılan uygulamalardır.

İndeksleyiciler

İndeksleyiciler, veriye hızlı ulaşım için gerekli indeksleri yaratırlar. İndeksleme için Ağaç Yapıları, Ngram’lar gibi yapılar kullanılsa da günümüzde popüler olan indeksleme yöntemlerinden birisi Devrik Matris’lerdir. İndeksleme esnasında, indekslenecek olan yazı dil işleyiciden geçirilip cümlelere ve kelimelere ayrıştırılır. Daha sonrasında her bir kelimenin o dile özel dil işleyici ile kökü bulunur. Sistem dosya sistemi üzerinde yarattığı indekste bu kökleri, köklerin hangi yazılarda ve yazıların nerelerinde olduğunu tutar.

Arama Bileşeni

Son olarak Arama bileşeni kullanıcının sorgusunu alır, sorguyu dil işlemeden geçirerek Devrik İndeks içerisinde kelimeleri arar. Sorguda kullanılan kelimeler, kelimelerin cümle içerisinde bir birlerine uzaklıkları hesaba katılarak bulunan dokümanlar sonuç olarak gönderilir.

İlgili Araştırma Makaleleri

Bilişim, bilişim bilimi ya da bilgisayar bilimi, bilgi ve hesaplamanın kuramsal temellerini ve bunların bilgisayar sistemlerinde uygulanabilmeleri sağlayan pratik teknikleri araştıran bir yapısal bilim dalıdır. Bilişimciler ya da bilgisayar bilimcileri bilgi oluşturan, tanımlayan ve dönüştüren algoritmik süreçler icat edip, kompleks sistemleri tasarlamak ve modellemek için uygun soyutlamalar formüle ederler. Bilişim Dünya'da hızla gelişmeye devam eden önemli bir teknolojidir.

Blog veya Weblog teknik bilgi gerektirmeden, kendi istedikleri şeyleri, kendi istedikleri şekilde yazan insanların oluşturabildikleri, günlüğe benzeyen web siteleridir. Genellikle güncelden eskiye doğru sıralanmış yazı ve yorumların yayınlandığı, web tabanlı bir yayını belirtir. Çoğunlukla her gönderinin sonunda yazarın adı ve gönderi zamanı belirtilir. Yayıncının seçimine göre okuyucular yazılara yorum yapılabilir. Yorumlar, blog kültürünün çok önemli bir dinamiğidir; bu sayede yazar ve okuyucular arasında iletişim sağlanır. Bunun dışında, geri izleme (trackback) mekanizmasıyla, belirli bir yazı hakkında yazılan diğer yazıların belirlenebilmesi de mümkündür.

<span class="mw-page-title-main">Arama motoru</span>

Web arama motoru veya internet arama motoru, web'de sistematik bir şekilde internet kullanıcılarının istedikleri bilgilere anında erişebilmek için sıkça kullandıkları bir yazılım türüdür. Birincil işlevi internette veya internetin bir kısmında bulunmuş olan verileri bir araya getirmek ve raporlamaktır. Arama sonuçları genellikle satırlara ayrılmış sonuç sayfaları şeklinde sunulur. Bulunan bilgiler arasında web sayfası bağlantıları, görseller, videolar, infografikler, yazılar, akademik makaleler ve diğer dosya türleri yer alabilir. Arama motoru, çıktı olarak elde edilmiş kayıtlar ve bilgilerin hepsini birbiriyle karşılaştırarak sorgulayan, bir sorgunun kabul edilebilmesi için gerekli faaliyetleri gerçekleştiren, elde edilen verilerin performanslarının en yüksek olmasını amaçlayan bir sorgulama ve bulma mekanizmasıdır. Bazı arama motorları, veri tabanlarında ve kamuya açık dizinlerde bulunan bilgileri de indeksler. Bu noktada toplanan veriler, web sitesi URL’sini, web sitesinin içeriğini açıklayan bazı anahtar kelimeleri veya anahtar kelime gruplarını, web sayfasını oluşturan kod yapısını ve web sitesinde verilen bağlantıları içerir. Arama motorları, insanlar tarafından derlenen web dizinlerinin aksine, "örümcek" denilen botlar tarafından toplanan bilgileri belirli bir algoritma yardımıyla gerçek zamanlı olarak yansıtabilirler. Ve de günümüzde World Wide Web ile çok iyi bir hale gelen arama motorları, giderek profesyonelleşmeye devam etmektedir.

SQL, verileri yönetmek ve tasarlamak için kullanılan bir dildir. SQL, kendi bir programlama dili olmamasına rağmen birçok kişi tarafından programlama dili olarak bilinir. SQL herhangi bir veri tabanı ortamında kullanılan bir alt dildir. SQL ile yalnızca veri tabanı üzerinde işlem yapılabilir; veritabanlarında bulunan sistemlere bilgi ekleme, bilgi değiştirme, bilgi çıkarma ve bilgi sorgulama için kullanılmaktadır. Özellikle de ilişkisel veritabanı sistemleri üzerinde yoğun olarak kullanılmaktadır. SQL'e özgü cümleler kullanarak veri tabanına kayıt eklenebilir, olan kayıtlar değiştirilebilir, silinebilir ve bu kayıtlardan listeler oluşturulabilir.

<span class="mw-page-title-main">İnternet sitesi</span> tek bir web alanından sunulan ilgili web sayfaları kümesi

Web sitesi, Ortak bir alan adı ile tanımlanan ve en az bir web sunucusunda yayınlanan web sayfaları ve ilgili içeriklerden oluşan bir koleksiyondur. Web üzerindeki sayfalar; metin, görsel ve animasyon şeklinde ziyaretçisine bilgi aktaran veya hizmet sunan sayfaların tümünü kapsayan bir doküman topluluğudur. Ziyaretçiler bir web sitesine, HTTP veya HTTPS protokollerinde aşağıdaki bileşenlerden oluşan benzersiz bir adresi kullanarak erişirler:

<span class="mw-page-title-main">İstemci-sunucu</span>

İstemci-sunucu, istemciyi sunucudan ayıran bir ağ mimarisidir. Her bir istemci yazılımı, sunucuya ya da uygulama sunucusuna isteklerini (request) gönderir.

Paralel hesaplama ya da Koşut hesaplama, aynı görevin, sonuçları daha hızlı elde etmek için çoklu işlemcilerde eş zamanlı olarak işletilmesidir. Bu fikir, problemlerin çözümünün ufak görev parçalarına bölünmesi ve bunların eş zamanlı olarak koordine edilmesine dayanır. Paralel hesaplama ile performans artar, büyük sorunlar daha az sürede çözülür ve bilimdeki gelişmeler paralel hesaplamaya gereksinim duyar.

<span class="mw-page-title-main">Bilgisayar mimarisi</span>

Bilgisayar mimarisi, en küçüğe ve en başarılıya ulaşmayı hedeflerken aynı zamanda maliyeti de göz önünde bulundurduğu için sanat ve bilimin ortak buluştuğu nokta olarak da tanımlanır. Bilgisayar Mimarisi, bilgisayar parçalarının iç yapıları ve aralarındaki haberleşme bağlantıları ile ilgilidir.

<span class="mw-page-title-main">World Wide Web</span> internet kullanarak ulaşılan, birbirine bağlı belgelerden oluşan küresel sistem

World Wide Web, Dünya Çapında Ağ (kısaca WWW veya Web), İnternet üzerinde yayınlanan birbirleriyle bağlantılı hiper-metin dokümanlarından oluşan bir bilgi sistemidir. Bu dokümanların her birine Web sayfası adı verilir ve Web sayfalarına İnternet kullanıcısının bilgisayarında çalışan Web tarayıcısı adı verilen bilgisayar programları aracılığıyla erişilir. Web sayfalarında metin, imaj, video ve diğer multimedya ögeleri bulunabilir ve diğer bağlantı ya da link adı verilen hiper-bağlantılar ile başka Web sayfalarına geçiş yapılabilir.

<span class="mw-page-title-main">Microsoft SQL Server</span>

Microsoft SQL Server, Microsoft tarafından geliştirilen ve yönetilen bir ilişkisel veritabanı yönetim sistemidir. SQL Server, büyük ve karmaşık veritabanlarını depolamak, yönetmek, sorgulamak ve işlemek için kullanılan bir yazılım ürünüdür. Veri depolama, veri güvenliği, yedekleme, geri yükleme, veri entegrasyonu, analiz ve raporlama gibi çeşitli veritabanı yönetimi işlevlerini destekler.

Googlebot, Google tarafından kullanılan bir arama botudur. Bu bot web'deki dokümanları toplar ve Google Arama Motoru için aranabilir bir içerik listesi (index) oluşturur. Eğer site yöneticiyseniz ve sitenizin Google aramalarında ya da herhangi bir arama motoru botunun indeksleme işleminde çıkmasını istemiyorsanız sitenizin dizininde bir robots.txt adlı dosya oluşturarak, ya da sadece Googlebot için aşağıdaki meta etiketini kullanarak botların indekslemesini engelleyebilirsiniz.

<span class="mw-page-title-main">Düzenli ifade</span> bir arama modeli oluşturan karakter dizisi

Düzenli ifadeler veya kurallı ifadeler, bilgisayar bilimlerinde ele alınan metindeki kimi katarların kısa yoldan ve esnek bir biçimde belirlenmesini sağlar. Bu katarlar belli karakterler, kelimeler veya karakter örüntüleri olabilir. Düzenli ifadeler, bir biçimsel dil kullanarak yazılır ve bir düzenli ifade işleyici tarafından yorumlanır. Bir düzenli ifade işleyicisi ya ayrıştırıcı olarak hizmet eden ya da metni inceleyip verilen tarife uygun kısımlarını belirleyen bir programdır.

Ürün Arama internet kullanıcılarının aradıkları ürünleri bulmalarını sağlayan ve bu süreci güncel arama motorları gibi navigasyon ve arama yönünden güçlendirmeye çalışan bir Çevrimiçi Alışveriş kavramıdır. Çoğunlukla Fiyat Karşılaştırma Servisileri ile karıştırılan bu konseptin ana amacı kullanıcılara sadece fiyatlar hakkında bilgi sahibi olma imkânı sağlamak değil kullanıcıların aradıkları ürünleri bulmalarını sağlamaktır. İnternet'te bir ürün hakkında bilgi sahibi olmayı ve ürün bilgisine ulaşmayı kolaylaştırmak amacı ile arama dünyasında zaten kullanılan düz yazı arama, çok boyutlu arama gibi kavramları kullanır.

<span class="mw-page-title-main">MonoDevelop</span>

MonoDevelop Linux, OS X ve Windows işletim sistemleri için geliştirilmiş bir açık kaynak tümleşik geliştirme ortamıdır. .NET framework ile Windows uygulamaları geliştirenlerin, alternatif olarak Mono kullanarak geliştirme yapmalarına olanak tanımaktadır. Linux ve Mac OS X için .NET teknolojilerini kullanma olanağı sunar.

Veri kazıma bir bilgisayar programı, başka bir programdan gelen insanlar tarafından okunabilir olan çıkış veri ayıklayan bir tekniktir.

Web kazıma, web sitelerinden bilgi çıkartmanın bilgisayar programı tekniğidir. Çoğunlukla, bu tür yazılım programları düşük seviye Köprü Metni Aktarım Protokolü (HTTP) veya Mozilla Firefox gibi tam teşekküllü gömülü web tarayıcısı tarafından World Wide Web'in insan araştırmaları simüle edilir.

Yazılım, hümanistik (insani), bilimsel teoriler, yönetim ve organizasyon gibi çeşitli alanlarda kullanılan, yukarıdan aşağıya ve aşağıdan yukarıyanın her ikisi de bilgi işleme ve bilgi sıralama stratejisidir. Pratikte, bir düşünce, öğretim veya liderlik biçimi olarak görülebilirler.

İnternet pazarlamacılığında arama reklamcılığı, arama motoru sorgularının sonuçlarını gösteren web sayfalarına çevrimiçi reklam yerleştirme yöntemidir. Aynı arama motoru reklam hizmetleri aracılığıyla, yayınlanan diğer içeriklere sahip Web sayfalarına da reklamlar yerleştirilebilir.

<span class="mw-page-title-main">Web şablon sistemi</span>

Web yayıncılığı'ndaki web şablon sistemi, web tasarımcılarının ve geliştiricilerin, bir aramanın sonuçları gibi özel web sayfa'larını otomatik oluşturmak için web şablonları ile çalışmasına olanak tanır. Bu, dinamik öğeleri web isteği parametrelerine dayalı olarak tanımlarken statik web sayfası öğelerini yeniden kullanır. Web şablonları statik içeriği destekleyerek temel yapı ve görünüm sağlar. Geliştiriciler içerik yönetim sistemlerinden, Web uygulama iskeletlerinden ve HTML düzenleyicilerinden şablonları kullanabilir.

Kurumsal arama, büyük ölçekli işletmelerin iç ve dış verilerini etkin bir şekilde aramalarını ve erişmelerini sağlayan bir bilgi yönetimi çözümüdür. Bu çözüm, farklı veri kaynaklarından verileri toplar, indeksler ve kullanıcıların hızlı ve doğru bir şekilde aramasını sağlar. Kullanıcılar genellikle bir arayüz aracılığıyla bu verilere erişir ve arama sonuçlarını filtreleyebilir veya sıralayabilir. Enterprise Search, işletmelerin veriye daha hızlı erişmesini, bilgiyi daha iyi yönetmesini ve iş süreçlerini iyileştirmesini sağlar.