İçeriğe atla

Common Crawl

Common Crawl, web 'de gezinen ve arşivlerini ve veri kümelerini halka açık bir şekilde sağlayan; ABD federal yasalarına göre de vergiden muaf olan, 501(c)(3) tipi bir kâr amacı gütmeyen kuruluştur.[1][2] Common Crawl web arşivi, 2011'den beri toplanan petabaytlarca veriden oluşur.[3] Genelde her ay taramaları tamamlar.[4]

Common Crawl, Gil Elbaz tarafından kurulmuştur.[5] Kâr amacı gütmeyen kuruluşun danışmanları arasında Peter Norvig ve Joi Ito bulunmaktadır.[6] Kuruluşun tarayıcıları nofollow ve robots.txt politikalarına uymaktadır. Common Crawl veri kümesini işlemek için açık kaynak kodu herkesin kullanımına açıktır.

Tarih

Amazon Web Services, 2012 yılında Açık Veri Kümeleri (İngilizce: Public Data Sets) programı aracılığıyla Common Crawl arşivini barındırmaya başladı.[7]

Kuruluş, o yılın Temmuz ayında ".arc" dosyalarının yanı sıra meta veri dosyalarını ve tarayıcıların metin çıktılarını yayınlamaya başladı.[8] Common Crawl arşivleri daha önce yalnızca ".arc" dosyalarını içeriyordu.

Aralık 2012'de blekko; Şubat - Ekim 2012 arasında gerçekleştirilen aramaların metaverilerini Common Crawl'a bağışladı.[9] Bağışlanan veriler, Common Crawl'un "spam, porno ve aşırı SEO'nun etkisinden kaçınıp, taramasını iyileştirmesine" yardımcı oldu.

2013 yılında Common Crawl, özel bir tarayıcı yerine Apache Yazılım Vakfının Nutch web tarayıcısını kullanmaya başladı.[10] Common Crawl, Kasım 2013 taramasıyla ".arc" dosyalarını kullanmaktan ".warc" dosyalarına geçti.[11]

Yaygın Tarama verilerinin geçmişi

Aşağıdaki veriler resmi Common Crawl Bloğundan 27 Ekim 2020 tarihinde Wayback Machine sitesinde arşivlendi. toplanmıştır.

Tarama Tarihi TİB'in boyutu Milyarlarca sayfa Yorumlar
Kasım 2018 220 2.6
Ekim 2018 240 3.0
Eylül 2018 220 2.8
Ağustos 2018
Temmuz 2018 255 3.25
Haziran 2018 235 3.05
Mayıs 2018 215 2.75
Nisan 2018 230 3.1
Mart 2018 250 3.2
Şubat 2018 270 3.4
Ocak 2018 270 3.4
Aralık 2017 240 2.9
Kasım 2017 260 3.2
Ekim 2017 300 3.65
Eylül 2017 250 3.01
Ağustos 2017 280 3.28
Temmuz 2017 240 2.89
Haziran 2017 260 3.16
Mayıs 2017 250 2.96
Nisan 2017 250 2.94
Mart 2017 250 3.07
Şubat 2017 250 3.08
Ocak 2017 250 3.14
Kasım 2016 - 2.85
Ekim 2016 - 3.25
Eylül 2016 - 1.72
Ağustos 2016 - 1.61
Temmuz 2016 - 1.73
Haziran 2016 - 1.23
Mayıs 2016 - 1.46
Nisan 2016 - 1.33
Şubat 2016 - 1.73
Kasım 2015 151 1.82
Eylül 2015 106 1.32
Ağustos 2015 149 1.84
Temmuz 2015 145 1.81
Haziran 2015 131 1.67
Mayıs 2015 159 2.05
Nisan 2015 168 2.11
Mart 2015 124 1.64
Şubat 2015 145 1.9
Ocak 2015 139 1.82
Aralık 2014 160 2.08
Kasım 2014 135 1.95
Ekim 2014 254 3.7
Eylül 2014 220 2.8
Ağustos 2014 200 2.8
Temmuz 2014 266 3.6
Nisan 2014 183 2.6
Mart 2014 223 2.8 İlk Nutch taraması
Ocak 2014 148 2.3 Aylık gerçekleştirilen taramalar
Kasım 2013 102 2 Warc dosya biçimindeki veriler
Temmuz 2012 - - Arc dosya formatındaki veriler
Ocak 2012 - - Amazon Web Services'in Herkese Açık Veri Seti
Kasım 2011 40 5 Amazon'da ilk kullanılabilirlik

Norvig Web Veri Bilimi Ödülü

Common Crawl, SURFsara ile destek olarak, Benelüks'teki öğrencilere ve araştırmacılara açık bir yarışma olan Norvig Web Data Science Award'a sponsorluk yapmaktadır.[12][13] Ödül, aynı zamanda ödülün jüri komitesine de başkanlık eden Peter Norvig'e verildi.

Kaynakça

  1. ^ Rosanna Xia (5 Şubat 2012). "Tech entrepreneur Gil Elbaz made it big in L.A." Los Angeles Times. 12 Ağustos 2014 tarihinde kaynağından arşivlendi. Erişim tarihi: 31 Temmuz 2014. 
  2. ^ "Gil Elbaz and Common Crawl". NBC News. 4 Nisan 2013. 8 Ağustos 2014 tarihinde kaynağından arşivlendi. Erişim tarihi: 31 Temmuz 2014. 
  3. ^ "So you're ready to get started". 8 Ekim 2014 tarihinde kaynağından arşivlendi. Erişim tarihi: 2 Haziran 2018. 
  4. ^ Lisa Green (8 Ocak 2014). "Winter 2013 Crawl Data Now Available". 25 Mayıs 2018 tarihinde kaynağından arşivlendi. Erişim tarihi: 2 Haziran 2018. 
  5. ^ "Startups - Gil Elbaz and Nova Spivack of Common Crawl - TWiST #222". This Week In Startups. 10 Ocak 2012. 
  6. ^ Tom Simonite (23 Ocak 2013). "A Free Database of the Entire Web May Spawn the Next Google". MIT Technology Review. 26 Haziran 2014 tarihinde kaynağından arşivlendi. Erişim tarihi: 31 Temmuz 2014. 
  7. ^ Jennifer Zaino (13 Mart 2012). "Common Crawl To Add New Data In Amazon Web Services Bucket". Semantic Web. 1 Temmuz 2014 tarihinde kaynağından arşivlendi. Erişim tarihi: 31 Temmuz 2014. 
  8. ^ Jennifer Zaino (16 Temmuz 2012). "Common Crawl Corpus Update Makes Web Crawl Data More Efficient, Approachable For Users To Explore". Semantic Web. 12 Ağustos 2014 tarihinde kaynağından arşivlendi. Erişim tarihi: 31 Temmuz 2014. 
  9. ^ Jennifer Zaino (18 Aralık 2012). "Blekko Data Donation Is A Big Benefit To Common Crawl". Semantic Web. 12 Ağustos 2014 tarihinde kaynağından arşivlendi. Erişim tarihi: 31 Temmuz 2014. 
  10. ^ "Common Crawl's Move to Nutch". Common Crawl. 20 Şubat 2014. 24 Temmuz 2014 tarihinde kaynağından arşivlendi. Erişim tarihi: 31 Temmuz 2014. 
  11. ^ "New Crawl Data Available!". Common Crawl. 27 Kasım 2013. 24 Temmuz 2014 tarihinde kaynağından arşivlendi. Erişim tarihi: 31 Temmuz 2014. 
  12. ^ "The Norvig Web Data Science Award". Common Crawl. 15 Kasım 2012. 31 Temmuz 2014 tarihinde kaynağından arşivlendi. Erişim tarihi: 31 Temmuz 2014. 
  13. ^ "Norvig Web Data Science Award 2014". Dutch Techcentre for Life Sciences. 15 Ağustos 2014 tarihinde kaynağından arşivlendi. Erişim tarihi: 31 Temmuz 2014. 

Dış bağlantılar

İlgili Araştırma Makaleleri

<span class="mw-page-title-main">Mozilla Firefox</span> yazılım

Mozilla Firefox, Mozilla Vakfı ve onun alt kuruluşu Mozilla Corporation tarafından geliştirilen, özgür ve açık kaynak kodlu bir web tarayıcısıdır. Firefox; Windows, macOS, Linux, Android ve iOS işletim sistemlerinde kullanabilir. Yazılımın Windows, macOS, Linux, Android sürümlerinde web sayfalarının oluşturulması için Gecko motoru kullanılır. Mozilla tarafından geliştirilen Gecko, mevcut ve planlanmış web standartlarıyla uyumludur. 2015'te çıkan iOS için Firefox uygulamasında ise Apple'ın getirdiği kısıtlamalar nedeniyle iOS'in bütünleşik WebKit motoru kullanılır.

<span class="mw-page-title-main">JavaScript</span> programlama dili

JavaScript, HTML ve CSS ile birlikte World Wide Web'in temel teknolojilerinden biri olan programlama dilidir. Web sitelerinin %97'sinden fazlası, web sayfası hareketleri için istemci tarafında JavaScript kullanırlar ve kullanılan kodlar genellikle üçüncü taraf kitaplıkları içerir. Tüm büyük web tarayıcılarında, kaynak kodunu kullanıcıların cihazlarında yürütebilmek için özel bir JavaScript motoru bulunur.

Anlamsal ağ, web içeriklerinin sadece doğal dillerde değil, aynı zamanda ilgili yazılımlar tarafından anlaşılabilir, yorumlanabilir ve kullanılabilir bir biçimde ifade edilebileceği, böylece bu yazılımların veriyi kolayca bulmasını, paylaşmasını ve bilgiyi birleştirmesini sağlamayı amaçlayan, gelişen bir internet eklentisidir.

<span class="mw-page-title-main">Nutch</span>

Nutch, Lucene Java'nın arama ve listeleme bileşenlerini kullanarak açık kaynak kodlu bir arama motoru yaratma uğraşısıdır.

Nmap, bilgisayar ağları uzmanı Gordon Lyon (Fyodor) tarafından geliştirilmiş bir güvenlik tarayıcısıdır. Taranan ağın haritasını çıkarabilir ve ağ makinalarında çalışan servislerin durumlarını, işletim sistemlerini, portların durumlarını gözlemleyebilir.

<span class="mw-page-title-main">Semantic MediaWiki</span>

Semantic MediaWiki (SMW), MediaWiki'ye yapılan ve wiki sayfalarındaki anlamsal veriyi etiketlemeye yarayan bir geliştirmedir. Bu sayede bir wiki, anlamsal wiki şeklini almaktadır. Bu şekilde etiketlenmiş veriler, anlamsal aramalarda, ilgili sayfaların birleştirilmesinde, harita benzeri formatlarda, takvim benzeri yapılarda kullanılabilir ve RDF ve/veya CSV biçimlerinde dışa aktarılabilir.

konferGeoSPARQL, Open Geospatial Consortium tarafından anlamsal ağ için belirlenmiş coğrafi bağlantılı veri gösterimi ve sorgulama ölçütüdür. İyi anlaşılmış bir OGC ölçütlerine dayalı küçük bir ontoloji tanımlaması, hem nitel hem de nicel mekan çıkarsamasını desteklemek ve SPARQL veritabanı sorgu dili ile sorgulama yapılabilir RDF uzam verilerinin, ölçütleştirilmiş bir değişimine temel sağlamak için tasarlanmıştır.

<span class="mw-page-title-main">Deep web</span> arama motorları tarafından dizinlenmeyen internet ağı

Deep web ; World Wide Web'in standart web arama motorları tarafından indekslenmeyen bölümleridir. Deep Web, İnternet kullanan herkesin erişebildiği yüzeysel web'in tersidir. Bilgisayar bilimci Michael K. Bergman, bu terimi 2001 yılında bir arama-indeksleme terimi olarak icat etmekle tanınır.

<span class="mw-page-title-main">Özgür ve açık kaynak kodlu Android yazılımları listesi</span> Vikimedya liste maddesi

Android platformu üzerinde çalışan özgür ve açık kaynak kodlu kayda değer uygulamaların henüz tamamlanmamış listesidir. Bu uygulamaların hemen hepsi ücretsizdir. Uygulamaların daha geniş listesi için aşağıdaki Dış bağlantılar bölümüne bakınız.

<span class="mw-page-title-main">Seri 40</span>

Seri 40 veya S40 orta katman özellikli Nokia telefonlarında ve bazı Vertu lüks telefonlarda yazılım platformu ve uygulama kullanıcı arabirimi (UI) yazılımdır. Bu, dünyanın en yaygın kullanılan cep telefonu platformlarından biri oldu ve yüz milyonlarca cihazlarda bulundu. Nokia şirketi 1,5 milyar Seri 40 cihazları sattığını 25 Ocak 2012 tarihinde ilan etmiştir. S40 daha temel Seri 30 ve Seri 30+ platformundan, daha fazla özelliğe sahiptir. Onlar akıllı telefonlar için kullanılmadı, böyle ki, Nokia öncelikle Windows Phone ve 2012 yılına kadar Symbian kullandı. Ancak, 2012 ve 2013 yılında, örneğin 308, 309 ve 311 olarak Asha hattından birkaç Seri 40 telefonlar, aslında çoklu görev veya tam teşekküllü bir HTML tarayıcısı gibi akıllı telefon özelliklerini desteklememesine rağmen, "Akıllı telefonlar" olarak ilan edilmiştir.

<span class="mw-page-title-main">Internet Explorer Mobile</span>

Internet Explorer Mobile Microsoft Trident düzen motorunun sürümlerine dayalı olarak Microsoft tarafından geliştirilen durdurulan bir mobil tarayıcıdır. IE Mobile varsayılan olarak Windows Phone ve Windows CE ile yüklenir. Internet Explorer Mobile'nin geçerli sürümleri, Internet Explorer'ın masaüstü sürümünü temel alır. Bununla birlikte, Pocket Internet Explorer olan eski sürümler, aynı düzen motoruna dayanmaz.

<span class="mw-page-title-main">İOS için Firefox</span>

iOS için Firefox Apple iPhone, iPad ve iPod Touch mobil cihazları için Mozilla'nın bir tarayıcısı. Firefox'ta masaüstü ve mobil için kullanılan Gecko düzen motorunu kullanmayan ilk Firefox markalı tarayıcıdır. Apple tarafından seçilen iOS güvenlik kısıtlamaları nedeniyle Firefox, Gecko'nun yerine yerleşik iOS WebKit tabanlı işleme çerçevesini kullandı. IOS for Firefox, Firefox Sync'i destekler ve Firefox'un tarama geçmişini, yer imlerini ve son sekmeleri senkronize edebilir.

<span class="mw-page-title-main">Port tarayıcı</span>

Port tarayıcı, açık portlar için bir sunucuyu veya ana bilgisayarı araştırmak için tasarlanmış bir uygulamadır. Bu tür bir uygulama, yöneticiler tarafından bilgisayar ağlarının güvenlik politikalarını doğrulamak ve saldırganlar tarafından bir ana bilgisayar üzerinde çalışan ağ hizmetlerini tanımlamak ve güvenlik açıklarından yararlanmak için kullanılabilir.

<span class="mw-page-title-main">WorldCat</span> 17.900 kütüphanenin arşivini listeleyen toplu katalog

WorldCat, OCLC küresel kooperatifine katılım sağlayan 123 ülke ve bölgeden 17.900 kütüphanenin arşivini listeleyen bir toplu katalogdur. OCLC, Inc. tarafından işletilmektedir. Dünyanın en büyük bibliyografik veritabanıdır ve üye olan kütüphaneler toplu olarak bu veritabanının bakımını üstlenmektedir.

<span class="mw-page-title-main">Zindan tarama</span>

Bir zindan taraması, kahramanların bir labirent ortamında dolaştığı, çeşitli canavarlarla savaştığı, tuzaklardan kaçındığı, bulmacaları çözdüğü ve bulabilecekleri herhangi bir hazineyi yağmaladığı fantastik rol yapma oyunlarında bir tür senaryodur. Ağırlıklı olarak zindan tarama öğeleri içeren video oyunları bir tür olarak kabul edilir.

ChemSpider, kimyasal maddelerin bir veritabanıdır. ChemSpider, Kraliyet Kimya Derneği'ne aittir.

<span class="mw-page-title-main">Falkon</span>

Falkon, ücretsiz ve açık kaynaklı bir web tarayıcısıdır. Chromium tarayıcı çekirdeği için bir sarıcı olan Qt WebEngine üzerine inşa edilmiştir.

Dolphin Browser, MoboTap Inc. tarafından Android ve iOS işletim sistemleri için geliştirilmiş bir web tarayıcısıdır. Çoklu dokunma hareketlerini destekleyen Android platformu için ilk alternatif tarayıcılardan biriydi. Dolphin Browser, yerel platformunun varsayılan tarayıcı motorunu kullanır.

Tarayıcı güvenliği, ağ bağlantılı verileri ve bilgisayar sistemlerini gizlilik ihlallerinden veya kötü amaçlı yazılımlardan korumak için İnternet güvenliğinin web tarayıcılarına uygulanmasıdır. Tarayıcıların güvenlik açıkları genellikle JavaScript ile bazen Adobe Flash kullanan ikincil bir yüke sahip siteler arası komut dosyası (XSS) kullanır. Güvenlik açıkları ayrıca tüm tarayıcılarda yaygın olarak kullanılan güvenlik açıklarından yararlanabilir.).

<span class="mw-page-title-main">Arc (internet tarayıcısı)</span> freeware web tarayıcısı

Arc, The Browser Company tarafından geliştirilen freeware bir web tarayıcısıdır. The Browser Company, Josh Miller ve Hursh Agrawal tarafından kurulan bir startup şirketidir. Tarayıcı, kapalı beta testinden geçtikten sonra 19 Nisan 2022 tarihinde piyasaya sürüldü. Arc, macOS, Microsoft Windows ve iOS üzerinde kullanılabilir durumdadır.