İçeriğe atla

Nutch

Lucene Nutch
Geliştirici(ler)Apache Yazılım Derneği
Güncel sürüm0.9.0 / 2 Nisan 2007
Programlama diliJava
İşletim sistemiTüm platformlar
TürArama motoru
LisansApache Lisansı 2.0
Resmî sitesihttp://lucene.apache.org/nutch/
Kod deposu Bunu Vikiveri'de düzenleyin

Nutch, Lucene Java'nın arama ve listeleme bileşenlerini kullanarak açık kaynak kodlu bir arama motoru yaratma uğraşısıdır.

Özellikler

Uygulama tümüyle Java kullanılarak yazılmış ancak verinin, programlama dilinden bağımsız olmasına özen gösterilmiştir.

Nutch, oldukça kaliteli bir mimariye sahiptir ve şu tür eklentilerin geliştirilmesinde büyük kolaylık sağlamaktadır: Ortama özel ayrıştırma, veri toplama, sorgulama ve kümeleme.

Tarihçe

Nutch, Doug Cutting (Lucene ve Hadoop'un yaratıcısı) ve Mike Cafarella'nın ortak çalışmasının ürünüdür.

Haziran 2003'te 100 milyon sayfalık bir kısıtlı sürümle yaşama ilk adımı atan proje zaman içinde MapReduce özelliğine ve bir dağıtılmış dosya sistemine sahip olmuştur. Bu yeni özellikler daha sonra Hadoop projesine evrilmiştir.

Haziran 2005 itibarıyla Apache Incubator'dan ayrılmış olan proje, Lucene'in yardımcı projelerinden biri olarak değerlendirilmektedir.

Ölçeklendirilebilirlik

IBM, Nutch/Lucene'in başarımını[1] Ticari Ölçek Projesi (CSO) olarak adlandırılan bir yöntemle ölçmüştür.[2] Bulgular, Nutch/Lucene gibi yatay ölçeklendirilebilir sistemlerin Power5 gibi dikey ölçeklendirilebilir sistemlere göre daha yüksek bir başarıma ulaşma şanslarının yüksek olduğunu göstermiştir.

İlgili projeler

  • Hadoop - Kümelenmiş sistemlerde çalışan uygulamaları destekleyen bir Java eklentisi
  • nutchWAX28 Eylül 2011 tarihinde Wayback Machine sitesinde arşivlendi. - Çevrimiçi arşivlerde Nutch ile arama yapabilen bir uygulama
  • Sixearch - Kişilerin kendi belgelerini başkalarıyla paylaşmak için kullanabileceği bir ağ

Nutch kullanılarak geliştirilmiş arama motorları

Kaynakça

  1. ^ "Nutch arama motorunun ölçeklendirilebilirliği" (PDF). 20 Şubat 2009 tarihinde kaynağından arşivlendi (PDF). Erişim tarihi: 1 Şubat 2009. 
  2. ^ "Temel İşletim Sistemi Hazırlığı ve Ticari Bir Süperbilgisayarın Yapılışı" (PDF). 3 Aralık 2008 tarihinde kaynağından (PDF) arşivlendi. Erişim tarihi: 1 Şubat 2009. 

Dış bağlantılar

İlgili Araştırma Makaleleri

<span class="mw-page-title-main">JavaScript</span> programlama dili

JavaScript, HTML ve CSS ile birlikte World Wide Web'in temel teknolojilerinden biri olan programlama dilidir. Web sitelerinin %97'sinden fazlası, web sayfası hareketleri için istemci tarafında JavaScript kullanırlar ve kullanılan kodlar genellikle üçüncü taraf kitaplıkları içerir. Tüm büyük web tarayıcılarında, kaynak kodunu kullanıcıların cihazlarında yürütebilmek için özel bir JavaScript motoru bulunur.

<span class="mw-page-title-main">Java</span> açık kaynak kodlu, nesneye yönelik, zeminden bağımsız, yüksek verimli, çok işlevli, yüksek seviye, adım adım işletilen bir programlama dili

Java, Sun Microsystems mühendislerinden James Gosling tarafından geliştirilmeye başlanmış açık kaynak kodlu, nesneye yönelik, platform bağımsız, yüksek verimli, çok işlevli, yüksek seviye, hem yorumlanan hem de derlenen bir dildir.

<span class="mw-page-title-main">Arama motoru</span>

Web arama motoru veya internet arama motoru, web'de sistematik bir şekilde internet kullanıcılarının istedikleri bilgilere anında erişebilmek için sıkça kullandıkları bir yazılım türüdür. Birincil işlevi internette veya internetin bir kısmında bulunmuş olan verileri bir araya getirmek ve raporlamaktır. Arama sonuçları genellikle satırlara ayrılmış sonuç sayfaları şeklinde sunulur. Bulunan bilgiler arasında web sayfası bağlantıları, görseller, videolar, infografikler, yazılar, akademik makaleler ve diğer dosya türleri yer alabilir. Arama motoru, çıktı olarak elde edilmiş kayıtlar ve bilgilerin hepsini birbiriyle karşılaştırarak sorgulayan, bir sorgunun kabul edilebilmesi için gerekli faaliyetleri gerçekleştiren, elde edilen verilerin performanslarının en yüksek olmasını amaçlayan bir sorgulama ve bulma mekanizmasıdır. Bazı arama motorları, veri tabanlarında ve kamuya açık dizinlerde bulunan bilgileri de indeksler. Bu noktada toplanan veriler, web sitesi URL’sini, web sitesinin içeriğini açıklayan bazı anahtar kelimeleri veya anahtar kelime gruplarını, web sayfasını oluşturan kod yapısını ve web sitesinde verilen bağlantıları içerir. Arama motorları, insanlar tarafından derlenen web dizinlerinin aksine, "örümcek" denilen botlar tarafından toplanan bilgileri belirli bir algoritma yardımıyla gerçek zamanlı olarak yansıtabilirler. Ve de günümüzde World Wide Web ile çok iyi bir hale gelen arama motorları, giderek profesyonelleşmeye devam etmektedir.

<span class="mw-page-title-main">Eclipse (yazılım)</span>

Eclipse, açık kaynak kodlu ve özgür bir tümleşik geliştirme ortamıdır (IDE). Ana odak noktası Java ve Java ile ilişkili teknolojiler olsa da, esnek yapısı sayesinde C ve Python gibi farklı diller için de kullanılmaktadır.

DMOZ olarak da bilinen Open Directory Project (ODP) ya da Türkçesiyle Açık Dizin Projesi, internetteki web sitelerinin konularına göre sınıflandırılarak ve gönüllü editörler tarafından incelenerek yayımlandığı bir web dizinidir. Birçok arama motoru DMOZ'daki siteleri direkt olarak izler ve özgür bir lisansla yayınlanan DMOZ verilerini kullanılır. Oldukça güvenilir bir altyapısı vardır. Yasa dışı, problemli ve kalitesiz sitelerin listelenmesine izin verilmez. Projenin sahibi AOL'dir. İlk kurulduğunda directory.mozilla.org alan adını kullandığı için adı Directory Mozilla sözcüklerinin kısaltılmasından oluşsa da bugünkü Mozilla Vakfı ve Mozilla projeleriyle bir ilişkisi yoktur.

<span class="mw-page-title-main">Google Arama</span> Larry Page ve Sergey Brin tarafından geliştirilen internet arama motoru

Google Arama, Google Inc. tarafından hizmete sokulan ve en popüler arama motorudur. Google Arama Motoru günde 20 bin terabyte'lık veri işlemektedir.

<span class="mw-page-title-main">Drupal</span> web içerik yönetim sistemi

Drupal; ücretsiz, açık kaynaklı bir içerik yönetim sistemi ya da içerik yönetim'e odaklı bir altyapı yazılımıdır. Modüler yapısı sayesinde, web uygulama çatısı, topluluk portalı, forum ya da blog motoru olarak da kullanılabilmektedir. 2000'li yılların ortalarında Drupal esneklik, genişleyebilirlik, yönetim kolaylığı ve etkin bir topluluğun desteği ile popülerlik kazanmıştır.

Arama motoru optimizasyonu (SEO), bir internet sitesine veya bir web sayfasına arama motorlarından gelen web trafiğinin kalitesini ve sayısını artırma sürecidir. SEO, doğrudan trafik veya ücretli trafik yerine ücretsiz trafik (genellikle "doğal" veya "organik" sonuçlar olarak bilinir) hedefler. Ücretsiz trafik, resim aramaları, video aramaları, akademik aramalar, haber aramaları ve sektöre özgü dikey arama motorları da dahil olmak üzere farklı türdeki aramalardan kaynaklanabilir.

<span class="mw-page-title-main">Android</span> Mobil işletim sistemi

Android, Google ve Open Handset Alliance tarafından, cep telefonları, tabletler ve televizyonlar için geliştirilmekte olan, Linux tabanlı, özgür ve ücretsiz bir işletim sistemidir. Sistem açık kaynak kodlu olsa da, kodlarının ufak ama çok önemli bir kısmı Google tarafından kapalı tutulmaktadır. Google tarafından ücretsiz sunulmasının sebebi, sistemin daha hızlı ve çabuk gelişmesi, birçok popüler marka tarafından kullanılması ve bu sayede reklamlarının daha fazla kişiye ulaşmasını sağlamaktır. Google, Android sistemi üzerinde çalışan Google Play marketteki oyun ve uygulamalar üzerinde aldığı reklamları yayınlayarak para kazanmaktadır. Android'in desteklenen uygulama uzantısı ".apk"dır.

<span class="mw-page-title-main">Microsoft Exchange Server</span> Microsoft tarafından üretilen bir haberleşme yazılımı

Microsoft Exchange Server, Microsoft tarafından üretilen bir haberleşme yazılımıdır. Sunucu ürünlerinden Microsoft Servers'ın bir parçası olup Microsoft altyapısına sahip sistemlerde sıkça kullanılmaktadır. Exchange'in öne çıkan özellikleri e-posta, takvim, kişiler ve işler, bilgiye web tabanlı erişim olanağı ve veri depolama desteğidir.

Lucene, Doug Cutting tarafından Java kullanılarak yazılmış bir açık kaynak kodlu bilgi toplama kütüphanesidir. Apache Yazılım Derneği'nce desteklenen yazılım Apache Yazılım Lisansı'nı kullanmaktadır.

<span class="mw-page-title-main">Apache Ant</span>

Apache Ant, yazılım inşası süreçlerini otomatikleştirmeye yarayan bir araçtır. Make'e benzeyen uygulama, Java ile geliştirilmiş olup Java platformunu gerektirmekte ve Java projelerinde sıkça kullanılmaktadır.

<span class="mw-page-title-main">Tizen</span>

Tizen; akıllı telefonlar, tabletler, araç içi bilgi sistemleri ve akıllı TV'ler için geliştirilen, açık kaynak kodlu, Linux tabanlı bir işletim sistemidir.

<span class="mw-page-title-main">Apache Solr</span> açık kaynak kodlu arama platformu

Solr, Apache Lucene projesinin bir parçası olan tam metin arama, çok yönlü arama, devirgen kümeleme, veritabanı ile bütünleşik, Microsoft Word veya PDF benzeri belgeleri indeksleme gibi özellikleri olan açık kaynak kodlu olduça esnek bir arama motorudur. Solr en popüler kurumsal arama motoru yazılımdır. Solr 4. sürümü ile birlikte NoSQL özelliklerini de desteklemektedir. Solr 5 ile birlikte, Java paketi olan "war" ile çalışan bir uygulama olmaktan çıkıp, ayrı bir uygulama haline getirilmiştir.

Backbone.js JavaScript dili ve model–view–presenter (MVP) mantığı ile geliştirilen, açık kaynak kodlu web uygulama çatısı ve uygulama tasarım paradigması. Backbone.js kullanan siteler arasında USA Today, rdio, Wordpress.com, Foursquare, Khan Academy gibi örnekler yer almaktadır.

Bir web uygulama güvenlik duvarı, bir web uygulamasına giden ve uygulamadan gelen tüm HTTP trafiğini filtreler, inceler ve bloklar. Bir WAF ürününün normal bir güvenlik duvarından farkı, sıradan güvenlik duvarları sunucular arasında bir güvenlik geçidi olarak hizmet verirken, WAF ürününün istediği web uygulamasına ait içeriği filtreleyebilmesidir. HTTP trafiğini inceleyerek, SQL Enjeksiyonu, Siteler Arası Betik Çalıştırma (XSS) ve güvenlik yanlış yapılandırmaları gibi güvenlik zafiyetlerinden kaynaklanan saldırıları engelleyebilmektedir.

<span class="mw-page-title-main">Apache Yazılım Vakfı</span>

Apache Yazılım Vakfı, 1999 yılında Apache HTTP Sunucusu gibi yazılım projelerini desteklemek üzere kurulmuş kâr amacı gütmeyen bir kuruluştur. ASF yapı olarak merkeziyetsiz açık kaynak bilgi toplumu geliştiricileri tarafından oluşmaktadır. Yönetimsel olarak oy birliğine dayalı, katılımcı ve faydacı felsefelere dayalı bir karar mekanizmasından oluşur.

<span class="mw-page-title-main">BigBlueButton</span> açık kaynak web konferans sistemi

BigBlueButton, eğitim kurumlarına odaklı olarak geliştirilmiş, özgür ve açık kaynak kodlu bir web konferans yazılımıdır. WebRTC protokolü üzerinden çalışır.

Apache Samza, LinkedIn tarafından geliştirilen açık kaynaklı bir küme yönetimi çerçevesidir. Scala ve Java'da Apache Yazılım Vakfı tarafından geliştirilen akış işleme için eşzamansız hesaplama çerçevesidir.

<span class="mw-page-title-main">Web şablon sistemi</span>

Web yayıncılığı'ndaki web şablon sistemi, web tasarımcılarının ve geliştiricilerin, bir aramanın sonuçları gibi özel web sayfa'larını otomatik oluşturmak için web şablonları ile çalışmasına olanak tanır. Bu, dinamik öğeleri web isteği parametrelerine dayalı olarak tanımlarken statik web sayfası öğelerini yeniden kullanır. Web şablonları statik içeriği destekleyerek temel yapı ve görünüm sağlar. Geliştiriciler içerik yönetim sistemlerinden, Web uygulama iskeletlerinden ve HTML düzenleyicilerinden şablonları kullanabilir.