İçeriğe atla

Robot engelleme standardı

Robot engelleme standardı, (aynı zamanda Robot engelleme protokolü veya robots.txt olarak da bilinir) web böceği (İngilizceweb spawler) veya web örümceği (İngilizceweb spider) gibi yazılımların web sunucularının kamuya açık bölümlerinin tamamına veya bir kısmına erişimini engellemeye yarayan bir standarttır. Genelde web sitelerini sınıflandırmak ve arşivlemek amacı ile arama motorları ya da düzeltilmiş kaynak kodları için site yöneticileri robotları kullanırlar. Robotlar bu işlem sonucunda web siteleri için site haritaları oluştururlar.

Standart Hakkında

Bir web sitesinin kodunda bulunan robots.txt isimli dosya, robotlara yaptıkları indeksleme çalışmalarında o sitenin tamamını veya belirli bir bölümünü indekslememesini (göz ardı etmesini) talep eder. Örneğin, web sitenizde arama motorunda çıkmasını istemediğiniz mahrem bilgiler olabileceği gibi ya da sitenizdeki belirli bir içeriğin arama motorlarında çıkmasının sitenin bütününü yanlış tanıtacağı ya da yanlış anlaşılmalara yol açabileceği durumlarda olabilmektedir. Bu gibi durumlar dosyanın kullanım amaçlarından bazı örneklerdir.

Ana domain ile beraber birçok alt-domain'i bulunan web siteleri için, her bir alt-domain kendine ait bir robots.txt dosyasına sahip olmalıdır. Örneğin;

example.com domain'i kendine ait bir robots.txt dosyasına sahipse, fakat a.example.com altında bu dosya yok ise, arama motoru robotları olmayan siteyi arama sayfalarında tarama yaptıysa, listeleyecektir.

Dezavantajları

Bu protokol tamamen tavsiye niteliğinde, isteğe bağlı olmasına rağmen, web robotlarının bu protokolü uygulamasına ihtiyaç duymaktadır. Yani sitenize bir robots.txt dosyası koymanız, mahremiyetinizi garanti altına almamaktadır. Bazı web site idarecileri robots dosyalarını web sitelerinin özel bölümlerini tüm dünyaya görünmez yapmak için kullanmayı denediler fakat dosyanın kamuya açık olması gerekmekteydi ve dosyanın içeriği bir web tarayıcısı olan herkese açıktı.

Robots.txt dosyası için herhangi bir resmi standart kurum ya da RFC (İng. Request For Comments - internet ve internetin çalışması ile ilgili metotlar araştırmalar ve bilgilerin bulunduğu dokümanlar arşivi) yoktur. Sadece bir robot mail grubu olan robots-request@nexor.co.uk üyeleri tarafından 30 Haziran 1984 tarihinde ulaşılmış bir fikir birliğinden ibarettir.[1] Robotlar tarafından erişilmesinin istenmediği bölümlerin bulunduğu robots.txt dosyası, sitenin kök dizininde bulunmalıdır. Dosya içeriğinde kullanılabilecek metinler aşağıda ayrıca açıklanmıştır.

Otomatik İçerik Kullanım Protokolü

İngilizcesi Automated Content Access Protocol olan ve Dünya Gazeteler Birliği tarafından başlatılan bu girişimin amacı, kendi ifadelerine göre, gazete ve dergi içeriklerinin izinsiz kullanılmasını önlemek. Bu amaçla geliştirilen yazılım; gazete ve dergi içeriklerinin kullanımını denetliyor, bunun için izin alınmasını kolaylaştırıyor, izinsiz kullanılan malzemeyi saptıyor ve fikri hakların takibi için müthiş bir destek sağlıyor.[2] Bu uygulamada web sitelerinin içeriğini tarayıp izinsiz kullanım olup olmadığını tarayacağı sistemi nedeni ile, Robot Engelleme Standardının gelecekteki muhtemel eklentisi olarak görülmektedir.

Örnek Kullanımlar

Bütün robotların, site üzerindeki bütün dosyaları tarayabileceğine izin veren örnek; " * " yıldız işareti istisnasız tüm robotları indeksleme yapabileceğini gösterir.

User-agent: *
Disallow:

Bütün robotların, site üzerindeki hiçbir dosyayı taramaması istenen örnek;

User-agent: *
Disallow: /

Bütün robotlar, site üzerindeki aşağıdaki 4 klasörün içeriğini indekslememeli;

User-agent: *
Disallow: /cgi-bin/
Disallow: /images/
Disallow: /tmp/
Disallow: /private/

İsmi verilen robot, site üzerindeki ismi verilen klasörün içeriğini indekslememeli;

User-agent: BadBot # 'BadBot' kelimesi ilgili botun adı ile değiştirilir.
Disallow: /private/

Bütün robotlar, site üzerindeki aşağıdaki dosyayı indekslememeli; O klasördeki diğer bütün dosyalar ve sayfalar taratılır.

User-agent: *
Disallow: /directory/file.html

a harfi ile başlayan içerikleri engelleme

User-agent: *
Disallow: /a
#Bu kullanımda siteadi.com/a içeriğinin yanı sıra a harfi ile başlayan siteadi.com/about içeriği de engellenmiş olur. Bu yüzden engellemeyi kullanırken lütfen dikkatli olalım.

Kod içinde yorum yazılan örnekler;

# Yorumlar "#" işaretinden sonra bir satır başında ya da bir komuttan sonra kullanılabilir.
User-agent: * # bütün botları kapsasın
Disallow: / # bütün botları uzak tutsun

Wordpress için admin ve giriş panelinde örnek kullanım;

User-agent: *
Allow: /
Disallow: /wp-admin/*
Disallow: /wp-login/*
Disallow: /cgi-bin/

Blogger için arama sonuçları ve etiketlerde örnek kullanımı;

User-agent: *
Disallow: /search
Disallow: /search?q=
Allow: /

[3]

Uyumluluk

Bütün robotların, bütün sayfalara erişiminin istenmediği durumlarda

Disallow: *  # yıldız kullanmak pek uygun olmayacağı için onun yerine " / " kullanın.

Standart Dışı Kullanımlar

Geciktirme komutları

Çoğu büyük web arama botları geciktirme komutunu destekler. Örneğin aşağıdaki örnekte robottan ilgili web sitesinden 10 saniyelik aralıklar ile bilgi çekmesi istemi yapılmıştır.[4][5]

User-agent: *
Crawl-delay: 10

İzin Ver komutu

Bazı büyük botlar, Allow (izin ver ) komutu kullanarak Disallow (kısıtla ) komutunu etkisizleştirmeye imkân verirler. Bu özellikle bütün klasördeki sadece bir dosyanın ya da sayfanın taranmasını istediğiniz durumlarda faydalı olacaktır. Fakat dikkat edilmelidir ki genelde standart olarak robots.txt'nin ilk satırı uygulamaya konulabilir. Fakat Google'ın uygulamasında önce tüm Allow (izin ver ) komutları işleme konulur daha sonra Disallow komutları işleme konulur. Örneğin;

Allow: /folder1/myfile.html
Disallow: /folder1/

Bu örnekte folder1/myfile.html hariç o klasördeki tüm dosyalar göz ardı edilir.

Gelişmiş Standartlar

Bu standardı geliştirmek için Visit-time (ziyaret-saati) ve request-rate (talep-oranı) gibi çeşitli önerilerin yapıldığını An Extended Standard for Robot Exclusion (Robot Engelleme için gelişmiş bir standart) adı altında bir takım öneriler yapılmıştır.[6]

User-agent: *
Disallow: /downloads/
Request-rate: 1/5         # her 5 saniyede maksimum 1 sayfa
Visit-time: 0600-0845     # sadece 06:00 ile 08:45 UTC (GMT) saatleri arasında ziyaret edilme talebi

Bu standardın ilk versiyonunda " * " ya da " Disallow " diye herhangi bir komut yoktu. Googlebot ve Slurp gibi modern arama botları " * " lı komutları tanısa da, MSNbot ve Teoma bu komutu farklı şekilde anlamaktadır.[7]

En İyi Uygulamalar

  • Web sitenizin taranmasını istediğiniz hiçbir içeriğini engellemediğinizden emin olun.
  • Robots.txt tarafından engellenen sayfalardaki bağlantılar taranmayacaktır. Bu da demek oluyor ki: Diğer arama motorlarına erişilebilen sayfalar (yani, robots.txt, meta robotlar veya başka bir yolla engellenmeyen sayfalar) bağlantılı olmadıkça, kaynaklar taranmayacak ve dizine eklenmeyecektir. Engellenen sayfalar arası veri eşitliği sağlanamaz. Eşitliğin sağlanmasını istediğiniz sayfalarınız varsa, robots.txt dışında farklı bir engelleme mekanizması kullanabilirsiniz.
  • SERP sonuçlarında hassas verilerin (özel kullanıcı bilgileri gibi) görünmesini engellemek için robots.txt dosyasını kullanmayın. Diğer sayfalar doğrudan özel bilgiler içeren bir sayfaya (domaininizin ana sayfasındaki robots.txt yönergelerini atlayarak) bağlanabileceğinden, izin vermediğiniz dizine erişebilir. Sayfanızı arama sonuçlarından engellemek istiyorsanız, parola koruması veya noindex meta yönergesi gibi farklı yöntemler kullanabilirsiniz.
  • Bazı arama motorlarında birden fazla kullanıcı aracısı vardır. Örneğin, Google, aramalar için Googlebot’u ve görsel arama için Googlebot-Image’i kullanır. Aynı arama motorundaki çoğu kullanıcı aracısı aynı komutlara göre hareket eder, böylece bir arama motorunun birden fazla tarayıcısının her biri için yönergeler ayrı komutlar atamanıza gerek kalmaz. Ancak bunu yapabilmeniz için site içeriğinizin nasıl taranacağını iyi ayarlayabilmeniz gerekir.
  • Bir arama motoru robots.txt içeriğini önbelleğe alır, ancak genellikle önbellek içeriğini günde en fazla bir kez günceller. Dosyayı değiştirirmek ve olduğundan daha hızlı bir şekilde güncellemek istiyorsanız, robots.txt URL’nizi Google’a gönderebilirsiniz.[8]

Ayrıca bakınız

  • Arama motoru optimizasyonu

Dış bağlantılar

Kaynakça

  1. ^ "RFC History (İngilizce)". Robotstxt.org. 17 Mayıs 2008 tarihinde kaynağından arşivlendi. Erişim tarihi: 16 Aralık 2008. 
  2. ^ "Medyalens". Medyalens. 11 Ocak 2009 tarihinde kaynağından arşivlendi. Erişim tarihi: 16 Aralık 2008. 
  3. ^ "Robots.txt Nedir". Hacoos. 19 Ocak 2020 tarihinde kaynağından arşivlendi. Erişim tarihi: 19 Ocak 2020. 
  4. ^ "How can I reduce the number of requests you make on my web site?". Yahoo! Slurp. 20 Kasım 2011 tarihinde kaynağından (HTML) arşivlendi. Erişim tarihi: 31 Mart 2007. 
  5. ^ "MSNBot is crawling a site too frequently". Troubleshoot issues with MSNBot and site crawling. 7 Mayıs 2008 tarihinde kaynağından (HTML) arşivlendi. Erişim tarihi: 8 Şubat 2007. 
  6. ^ "An Extended Standard for Robot Exclusion". 10 Kasım 2015 tarihinde kaynağından (HTML) arşivlendi. Erişim tarihi: 16 Aralık 2008. 
  7. ^ "Search engines and dynamic content issues". MSNbot issues with robots.txt. 1 Nisan 2010 tarihinde kaynağından (HTML) arşivlendi. Erişim tarihi: 1 Nisan 2007. 
  8. ^ "Robots.txt Dosyası - HACOOS". 4 Aralık 2022 tarihinde kaynağından arşivlendi. Erişim tarihi: 15 Şubat 2021. 

İlgili Araştırma Makaleleri

<span class="mw-page-title-main">Arama motoru</span>

Web arama motoru veya internet arama motoru, web'de sistematik bir şekilde internet kullanıcılarının istedikleri bilgilere anında erişebilmek için sıkça kullandıkları bir yazılım türüdür. Birincil işlevi internette veya internetin bir kısmında bulunmuş olan verileri bir araya getirmek ve raporlamaktır. Arama sonuçları genellikle satırlara ayrılmış sonuç sayfaları şeklinde sunulur. Bulunan bilgiler arasında web sayfası bağlantıları, görseller, videolar, infografikler, yazılar, akademik makaleler ve diğer dosya türleri yer alabilir. Arama motoru, çıktı olarak elde edilmiş kayıtlar ve bilgilerin hepsini birbiriyle karşılaştırarak sorgulayan, bir sorgunun kabul edilebilmesi için gerekli faaliyetleri gerçekleştiren, elde edilen verilerin performanslarının en yüksek olmasını amaçlayan bir sorgulama ve bulma mekanizmasıdır. Bazı arama motorları, veri tabanlarında ve kamuya açık dizinlerde bulunan bilgileri de indeksler. Bu noktada toplanan veriler, web sitesi URL’sini, web sitesinin içeriğini açıklayan bazı anahtar kelimeleri veya anahtar kelime gruplarını, web sayfasını oluşturan kod yapısını ve web sitesinde verilen bağlantıları içerir. Arama motorları, insanlar tarafından derlenen web dizinlerinin aksine, "örümcek" denilen botlar tarafından toplanan bilgileri belirli bir algoritma yardımıyla gerçek zamanlı olarak yansıtabilirler. Ve de günümüzde World Wide Web ile çok iyi bir hale gelen arama motorları, giderek profesyonelleşmeye devam etmektedir.

<span class="mw-page-title-main">MS-DOS</span> 1980li yıllarda kişisel bilgisayar işletim sistemi

MS-DOS, Microsoft firmasının geliştirdiği bir DOS sistemidir. 1980'li yıllarda PC uyumlu platformlar üzerinde kullanılan en yaygın işletim sistemiydi. 1990'lı yılların ortalarından 2000 yılına kadarki en popüler işletim sistemleri olan Windows 9x ailesinin temeli olarak kullanıldı. Masaüstü bilgisayarlardaki popülerliğini, zamanla Windows NT mimarisi kullanan yeni nesil Windows işletim sistemlerine bıraktı.

PHP-Nuke, David Norman tarafından yazılıp Francisco Burzi tarafından geliştirilen, web tabanlı bir içerik yönetim sistemidir. Çalışması için sunucuda PHP ve MySQL desteği bulunması gerekir. Sistem tamamen web tabanlı bir kullanıcı arabirimi üzerinden kontrol edilir.

<span class="mw-page-title-main">İnternet sitesi</span> tek bir web alanından sunulan ilgili web sayfaları kümesi

Web sitesi, Ortak bir alan adı ile tanımlanan ve en az bir web sunucusunda yayınlanan web sayfaları ve ilgili içeriklerden oluşan bir koleksiyondur. Web üzerindeki sayfalar; metin, görsel ve animasyon şeklinde ziyaretçisine bilgi aktaran veya hizmet sunan sayfaların tümünü kapsayan bir doküman topluluğudur. Ziyaretçiler bir web sitesine, HTTP veya HTTPS protokollerinde aşağıdaki bileşenlerden oluşan benzersiz bir adresi kullanarak erişirler:

Web grafik tasarımı, grafik tasarım alanı ile yakın ilişkili bir konu olmakla birlikte kendi içinde ayrı bir dal olarak da geniş bir alanı kapsayan bir kavramdır.

AJAX, İnternet sayfalarında JavaScript ve XMLHttpRequest kullanımı ile etkileşimli uygulamalar yaratan tekniğin adıdır.

Bu liste bilinen bazı Firefox eklentilerinin listesidir. Birçok Mozilla Firefox eklentisi SeaMonkey tarayıcısında da çalışır. Daha geniş bir liste için resmi eklenti deposuna bakabilirsiniz. 30 Nisan 2007 tarihiyle bu depoda 2286 eklenti bulunmaktadır. Eklentiler geliştiriciler tarafından yaratılmaktadır. Eklentilerin tamamı kamuya açıklanmadan önce editör bir grup tarafından gözden geçirilir.

Site haritası protokolü sayesinde bir web tasarımcısı arama motorlarını, bir web sitesindeki taranacak URLler hakkında bilgilendirebilir. Bir site haritası bir sitedeki URLleri listeleyen bir XML dosyasıdır. Bu dosya sayesinde web tasarımcıları, taranacak sayfalarının üzerinde daha fazla kontrole sahip olurlar. Arama motorlarına hangi sayfanın ne sıklıkla değiştiği, en son ne zaman güncellendiği ve sitedeki hangi sayfa diğerlerinden daha önemli, öncelikli gibi bilgileri bu dosya ile gönderebilirler. Bu yolla arama motorları web sitelerini tararken daha verimli olabilmektedirler. Site haritaları yapı itibarıyla robots.txt URL hariç tutma protokolünün tamamlayıcısı olan bir URL dahil etme protokolüdür.

Googlebot, Google tarafından kullanılan bir arama botudur. Bu bot web'deki dokümanları toplar ve Google Arama Motoru için aranabilir bir içerik listesi (index) oluşturur. Eğer site yöneticiyseniz ve sitenizin Google aramalarında ya da herhangi bir arama motoru botunun indeksleme işleminde çıkmasını istemiyorsanız sitenizin dizininde bir robots.txt adlı dosya oluşturarak, ya da sadece Googlebot için aşağıdaki meta etiketini kullanarak botların indekslemesini engelleyebilirsiniz.

Web kazıma, web sitelerinden bilgi çıkartmanın bilgisayar programı tekniğidir. Çoğunlukla, bu tür yazılım programları düşük seviye Köprü Metni Aktarım Protokolü (HTTP) veya Mozilla Firefox gibi tam teşekküllü gömülü web tarayıcısı tarafından World Wide Web'in insan araştırmaları simüle edilir.

<span class="mw-page-title-main">Google Sites</span> Web sayfası oluşturma aracı

Google Siteler, Google tarafından sunulan Google Apps üretkenlik paketinin bir parçası olarak, yapılandırılmış bir viki ve Web sayfası oluşturma aracıdır. Google Sitelerin amacı herkesin bir ekip odaklı bir site oluşturmak mümkün olabilmesi ve birden fazla kişinin iş birliği ve dosyalarınızı paylaşabilmesidir.

Google Search Console, web sitesi olan bilgisayar kullanıcılarına Google tarafından ücretsiz sunulan bir web hizmetidir. Web site sahiplerinin internet sitelerini Google dizinine eklemelerini, dizindeki durumunu kontrol etmelerini ve optimize etmelerini sağlar. Eski ismi Google Web Yöneticisi Araçları olan hizmetin ismi, 20 Mayıs 2015'te Google Arama Konsolu anlamına gelen "Google Search Console" olarak değiştirilmiştir.

<span class="mw-page-title-main">Bing Web Yönetim Araçları</span>

Bing Web Yönetim Araçları, Microsoft'un Bing arama motorunun parçası olarak ücretsiz bir hizmettir. Webmasterlara web sitelerini Bing dizini tarayıcısına eklemelerine izin verir. Hizmet aynı zamanda, web sitelerinin tarama ve indekslemesi, Site Haritası oluşturma, gönderme ve ping araçları, web sitesi istatistikleri, içerik sunumunun konsolidasyonu, yeni içerik ve topluluk kaynakları ile ilgili sorunları çözmek için web yöneticileri için araçlar sunmaktadır.

Aynı kök politikası web uygulamaları güvenlik modelinde önemli bir unsurdur. Bu politikaya göre, bir web tarayıcısı, bir web sayfasında yer alan betiklerin ikinci bir web sayfası üzerindeki veriye erişimine sadece bu iki sayfa aynı köke sahipse izin vermektedir. Bir kök, URI şeması, hostname ve port numarasının bir kombinasyonu olarak tanımlanmaktadır. Bu politika, bir sayfada bulunan kötücül betiğin başka bir sayfada bulunan hassas verilere erişimini, o sayfanın Belge Nesnesi Modeli aracılığıyla engellemektedir.

<span class="mw-page-title-main">CDisplay</span>

CDisplay, görüntüleri bir çizgi roman tarzında tek tek görüntülemek için kullanılan Microsoft Windows için ücretsiz bir çizgi roman arşiv görüntüleyici ve sıralı görüntü görüntüleyici yardımcı programıdır. Çizgi roman arşiv dosyası biçimini popüler hale getirdi. CDisplay, JPEG, PNG ve statik GIF formatındaki görüntüleri sırayla kolayca görüntülemek için hazırlanmıştır. Program, mevcut resim görüntüleme programlarından daha az genel amaçlı olacak şekilde tasarlanmıştır ve resimleri sırayla görüntülemek için daha kullanışlıdır.

<span class="mw-page-title-main">Web şablon sistemi</span>

Web yayıncılığı'ndaki web şablon sistemi, web tasarımcılarının ve geliştiricilerin, bir aramanın sonuçları gibi özel web sayfa'larını otomatik oluşturmak için web şablonları ile çalışmasına olanak tanır. Bu, dinamik öğeleri web isteği parametrelerine dayalı olarak tanımlarken statik web sayfası öğelerini yeniden kullanır. Web şablonları statik içeriği destekleyerek temel yapı ve görünüm sağlar. Geliştiriciler içerik yönetim sistemlerinden, Web uygulama iskeletlerinden ve HTML düzenleyicilerinden şablonları kullanabilir.

Bir site haritası, bir etki alanındaki bir web sitesinin sayfalarının bir listesidir.

Web'de kullanıcı aracısı, kullanıcı adına hareket eden ve "Web içeriğini alan, işleyen ve son kullanıcı etkileşimini kolaylaştıran" herhangi bir yazılımdır. Bu nedenle kullanıcı aracısı özel bir yazılım aracısı türüdür.

Noindex meta etiketi veya komutu, bir web sayfasının arama motorları tarafından dizinlenmemesi gerektiğini belirten bir direktiftir. Bu etiket veya komut, arama motorlarına, sayfanın sonuçlarda görünmemesi veya dizine eklenmemesi gerektiğini bildirir. Yani, sayfanın arama sonuçlarında listelenmesi istenmiyorsa "noindex" kullanılır.

Rekabetçi Bilgi Erişimi, bilgi erişim sistemlerine yönelik saldırıları veya manipülasyonları tanımlayan bir kavramdır. Bu saldırılar genellikle bilgi arama motorlarını, web spamini ve arama motoru optimizasyonunu (SEO) hedef alır. Rekabetçi bilgi erişimi, bu tür manipülasyonları tespit etmek, izole etmek ve engellemek için çeşitli tekniklerin araştırıldığı bir alandır.