İçeriğe atla

Web kazıma

Web kazıma süreci

Web kazıma (web hasat veya web veri çekimi), web sitelerinden bilgi çıkartmanın bilgisayar programı tekniğidir. Çoğunlukla, bu tür yazılım programları düşük seviye Köprü Metni Aktarım Protokolü (HTTP) veya Mozilla Firefox gibi tam teşekküllü gömülü web tarayıcısı tarafından World Wide Web'in insan araştırmaları simüle edilir.

Web kazıma, web indeksleme ile yakından ilgilidir, web'de hangi bilgi indekslenmişse bir bot ya da web gezgini kullanılmıştır ve bu çoğu arama motoru tarafından benimsenen evrensel bir tekniktir. Buna karşılık, web kazıma genellikle web'de HTML biçimindeki yapılandırılmamış verilerin dönüşümüne odaklanır, yapılandırılmış veriler merkezi yerel veritabanında ya da tablolarda analiz edilip saklanabilir. Web kazıma aynı zamanda web otomasyonuyla ilgilidir, insan taramasının simüle edilmesi bilgisayar programı kullanılarak yapılır. Web kazımanın kullanımı, online fiyat karşılaştırması, iletişim bilgileri kazımı, hava durumu takibi, website değişikliklerinin bulunması, web mashup ve web bilgi entegrasyonunu içerir.

Web kazıma yakından çoğu arama motorları tarafından benimsenen evrensel bir tekniktir bot veya web tarayıcımızın kullanarak web'de dizine bilgileri ve web indeksleme ile ilgilidir. Buna karşılık, web kazıma merkezi yerel veritabanı veya elektronik saklanır ve analiz edilebilir yapılandırılmış veri içine, genellikle HTML biçiminde, web üzerinde yapılandırılmamış verilerin dönüşümü daha fazla odaklanıyor. Web kazıma ayrıca bilgisayar yazılımı kullanılarak insan tarama taklit web otomasyon ile ilgilidir. Web kazıma Kullanımı Online fiyat karşılaştırma, iletişim kazıma, hava durumu verileri izleme, web sitesi değişikliği algılama, araştırma, web mashup ve web veri entegrasyonu yer alıyor.

Teknikler

 Web kazıma otomatik World Wide Web'den bilgi toplama işlemidir. Bu semantik web vizyonu, hala metin işleme, anlamsal anlayış, yapay zeka ve insan-bilgisayar etkileşiminde devrimler gerektiren iddialı bir girişim ile ortak hedefe paylaşan aktif gelişmelerin bir alandır. Mevcut web kazıma çözümleri tamamen sınırlamalar, yapılandırılmış bilgi içine tüm web sitelerini dönüştürmek mümkün otomatik sistemlere kadar, insan çaba gerektiren, reklam hoc arasında değişir.

  •  İnsan kopyalama ve yapıştırma: Bazen en iyi web kazıma teknolojisi insanın manuel muayene ve kopyalama ve yapıştırma yerini alamaz ve bazen bu tek uygulanabilir çözüm olabilir zaman açıkça makine otomasyonu önlemek için engelleri kurmak kazıma için web siteleri.
  • Metin grepping ve düzenli ifade eşleşmesi: web sayfalarından bilgileri ayıklamak için basit ama güçlü bir yaklaşım UNIX grep komutuyla ya da (örneğin Perl veya Python için)Programlama dillerinin düzenli ifade eşleştirme tesislerine dayalı olabilir.
  •  HTTP programlama : Statik ve dinamik web sayfaları soket programlama kullanarak uzak web sunucusuna HTTP isteklerini göndererek alınabilir .
  •  HTML ayrıştırıcıları : Birçok web sitesi bir veritabanı gibi altta yatan yapısal bir kaynaktan dinamik olarak oluşturulan sayfaların büyük koleksiyonları var. Aynı kategorideki verileri genellikle ortak bir komut dosyası veya şablon benzer sayfalarına kodlanmıştır. Bir sargı denir veri madenciliği, belli bir bilgi kaynağı gibi şablonlar algılayan bir program, içeriği ayıklar ve ilişkisel forma çevirir. Sarıcı nesil algoritmaları bir sarmalayıcı indüksiyon sistemi giriş sayfaları ortak şablona uygun ve kolayca bir URL ortak düzeni açısından tespit edilebilir varsayalım. Ayrıca, bu tür XQuery ve HTQL gibi bazı yarı yapılandırılmış veri sorgulama dilleri, HTML sayfaları ayrıştırmak ve almak ve sayfa içeriği dönüştürmek için kullanılabilir.
  •  DOM ayrıştırma : Internet Explorer veya Mozilla tarayıcısı kontrolü gibi tam teşekküllü bir web tarayıcı, gömme, programlar istemci tarafı komut tarafından oluşturulan dinamik içeriği alabilirsiniz. Bu tarayıcı kontrolleri de programların sayfalarının parçalarını almak hangi dayalı bir DOM ağacına web sayfalarını ayrıştırmak.
  • Web kazıma yazılım: Web kazıma çözümleri özelleştirmek için kullanılabilecek birçok yazılım araçları vardır. Bu yazılım otomatik olarak sayfanın veri yapısını tanımak veya saklayabilirsiniz elle web kazıma kod yazmak için gerekliliğini ya da özü ve içeriği dönüştürmek için kullanılabilecek bazı betik fonksiyonları ve veri tabanı arayüzleri kaldıran bir kayıt arabirimi sağlamak için deneyebilir yerel veritabanlarında kazınarak verileri.
  •  Dikey kümelenme platformları: Dikey belirli hasat platformları geliştirdik birkaç şirket var. Bu platformlar oluşturmak ve hayır " döngüde adam" (doğrudan insan müdahalesi) ve belirli bir hedef sitesi ile ilgili herhangi bir çalışma ile belirli dikey için " bot" çok sayıda monitör. Hazırlık tüm dikey ve ardından platformu botlar otomatik olarak oluşturur için bilgi tabanını oluşturulması içerir. Platformun sağlamlığı (o yüzlerce ya da binlerce site kadar ölçeklendirilebilir nasıl hızlı) o alır bilgilerin (alanların genellikle sayı) ve ölçeklenebilirlik kalitesi ile ölçülür. Bu ölçeklenebilirlik çoğunlukla ortak toplayan karmaşık veya çok emek-yoğun hasat içeriğine bulmak sitelerin Long Tail hedeflemek için kullanılır.
  •  Semantik açıklama tanıyarak : özgü veri parçacıkları bulmak için kullanılabilecek meta veya anlamsal işaretlerini ve açıklamaları kucaklamak olabilir kazınarak olan sayfalar. Açıklamalar sayfalarında gömülü ise Microformat yaptığı gibi, bu teknik DOM ayrıştırma özel bir durum olarak görülebilir. Başka bir durumda, bir semantik katmana halinde organize ek açıklamalar, saklanır ve web sayfalarından ayrı olarak yönetilen, yani sıyırıcılar sayfalarını kazıma önce bu katmanda veri şema ve talimatları alabilirsiniz .
  • Bilgisayar vizyon web sayfası analiz: tanımlamak ve bir insan olarak görsel sayfaları yorumlayarak web sayfalarından bilgileri ayıklamak girişimi makine öğrenme ve bilgisayar vizyonu ile çalışmalar vardır olabilir.[1]

Yasal sorunlar

 Web kazıma bazı web sitelerinin kullanım koşullarını aykırı olabilir. Bu terimlerin uygulanabilirliği belirsizdir. Orijinal ifadenin düpedüz çoğaltılması birçok durumda yasadışı olacak olsa, Amerika Birleşik Devletleri mahkemeleri gerçeklerin çoğaltılması izin olduğunu Feist Yayınları v. Kırsal Telefon Hizmeti karar verdi. ABD mahkemeleri "kazıyıcı" veya "robotlar" nin kullanıcıların kazıyıcı kullanıcı geçmeleri ise bunun üzerine kendisinin kişisel mülkiyet kabul ediliyor, bir bilgisayar sistemi gerektirir taşınır için haneye tecavüz, işlemekten sorumlu olabileceğini kabul etmektedir. En iyi bu gibi durumlarda bilinen, eBay v. Teklif Sahibinin Kenar, toplama, erişen durdurmak için bir tedbir sipariş Teklif Sahibinin Edge sonuçlandı ve eBay web sitesinden indeksleme ihaleleri. Bu durum ihale sniping olarak bilinen tekliflerin otomatik yerleştirerek, içeriyordu. Ancak, taşınır için haneye tecavüz iddiası üzerine başarılı olmak için, davacı davalı kasten ve izinsiz bilgisayar sisteminde davacının sahiplik ilgi ile ve sanığın izinsiz kullanımı davacıya zarar olduğunu müdahale olduğunu göstermek zorundadır. Mahkemeler taşınır için suç olarak kabul edilmiştir önce değil, web spidering tüm olgular getirdi.[2]

Ekranın ilk önemli testlerden biri American Airlines (AA) dahil ve FareChase adında bir firma kazıma. AA başarıyla da AA'nın web sitesini arar eğer çevrimiçi tarifeleri karşılaştırmak olanak tanır yazılım satan farechase durdurma, Texas mahkemesinin bir emir aldı. Havayolu kamuya açık verileri toplamış zaman farechase en websearch yazılım AA'nın sunucularında tecavüz savundu. FareChase Haziran farechase tarafından 2003 yılı Mart ayında bir temyiz başvurusunda ve AA yerleşmeye karar verdiler ve temyiz düştü.[3]

Southwest Airlines ayrıca ekran kazıma uygulamaları meydan ve farechase ve yasal iddia başka bir firma, Outtask, hem de yer vardır. Southwest Airlines o "Bilgisayar Dolandırıcılığı ve Kötüye" bir örneğidir ve "Hasar ve Zarar" ve Southwest'in sitenin "Yetkisiz Erişim" yol açmıştır çünkü ekran kazıma Yasadışı olduğunu suçladı. Aynı zamanda "İş İlişkileri Girişim", "İzinsiz" ve "Bilgisayar sağlığa zararlıdır Erişim" oluşturmaktadır. Onlar da ekran kazıma yasal "zimmete para geçirme ve Sebepsiz zenginleşme", yanı sıra web sitesinin kullanıcı sözleşmesi ihlal olarak bilinen teşkil ettiğini iddia etti. Outtask Bu durumda hakim kanun ABD Telif hakkı yasası ve telif hakkı altında, bilgi parçaları telif hakkı korumasına tabi olmayacaktır kazınarak varlık olduğunu olması gerektiğini iddia ederek, tüm bu iddiaları yalanladı. Davalar, Amerika Birleşik Devletleri Yüksek Mahkemesi giderilmiş asla rağmen, FareChase sonunda ana şirket Yahoo tarafından kepenkli edildi ! ve Outtask seyahat gideri şirketi hemfikir tarafından satın alındı. 2012 yılında, 3Taps adında bir başlangıç ​​Craigslist adlı gizli konut reklamları kazınmış. Craigslist 3Taps-kes ve-vazgeçmek mektup göndermiş ve onların IP adreslerini bloke daha sonra Craigslist v. 3Taps olarak, dava açtı. Mahkeme Craigslist düzgün 3Taps olduğunu Bilgisayar Dolandırıcılık ihlal ve Kötüye Kullanma Yasası vardı iddia etmek için ateşkes ve-vazgeçmek mektup ve IP engelleme yeterli olduğuna karar vermiştir.

 Bu erken kazıma kararlar ve sorumluluk teorileri üniforma olmasa da, bu mahkemelerin bu tür sitelerin sahiplerine istenmeyen kullanımlar ticari sitelerde özel içeriği korumak için hazır olduklarını ortaya bir model göz ardı etmek zordur. Ancak, bu tür içerik için koruma derecesi yerleşmiş değildir ve raspa tarafından yapılan erişim türüne bağlıdır, bilgi miktarı erişilebilir ve kopyalanamaz, derecesi erişimi olumsuz sitesi sahibinin sistemi ve türleri ve etkileri böyle davranış üzerindeki yasaklar şekilde.[4]

Bu alanda yasa daha yerleşmiş olur iken, kişiler hakkında da bu tür eylem kullanımı ve diğer şartlar veya bildirimler yayınlanan veya site aracılığıyla sunulan koşullarını gözden tarafından yetkilendirilmiş olup olmadığını düşünmelisiniz kamu web sitesine erişmek için kazıma programları kullanılarak düşünürken. Cvent, Inc v bir 2010 kararında. Eventbrite, Inc Virginia doğu bölgesi için Amerika Birleşik Devletleri bölge mahkemesi, mahkeme kullanım koşulları bir browse için için kullanıcıların dikkatine getirdi gerektiğine hükmetti şal ​​sözleşmesi veya lisans uygulanmak üzere. Pennsylvania Doğu Bölgesi ABD Bölge Mahkemesi açılan bir 2014, yılında, e-ticaret sitesi QVC gerçek zamanlı fiyatlandırma verilerine QVC sitesinin Pinterest benzeri bir alışveriş toplayıcı Resultly en kazıma itiraz. QVC Resultly QVC perakende sitesi QVC için kayıp satış sonuçlanır iki gün çökmesine QVC sitesini neden (sözde Dakikada 36.000 isteklerine bazen dakikada QVC web sitesine 200-300 arama istekleri göndererek) "aşırı sürünerek" diye allges. QVC yaptığı şikayet davalı kaynak IP adresini maskelemek için web tarayıcısını gizlenmiş ve böylece hızlı bir şekilde sorunu tamir dan QVC engelledi iddia etmektedir. QVC QVC iddiaları Resultly neden oldu kendi web sitesi, kullanılamaması için tazminat istiyor çünkü bu özellikle ilginç kazıma durumdur.

Kullanım link şartları internet üzerindeki en siteleri gibi sayfanın altındaki sitenin tüm bağlantıları, içinde görüntülenen bu davanın döneminde davacının web sitesinde. Bu iktidar aşağıda açıklanan İrlandalı kararı çelişmektedir. Mahkeme ayrıca göz şal kısıtlamaları Düzgün Bilgisayar Enformasyon İşlemleri Yasası (UCITA )birçok ortak göz şal müteahhitlik uygulamaları konusunda lehine olduğuna inanıyordu -a üniforma hukuku Virginia'nın kabul görünümünde uygulanabilir olduğu davacının iddiasını reddetmiştir.[5]

Amerika Birleşik Devletleri dışında, 2006 yılı Şubat ayında, Danimarka Denizcilik ve Ticaret Mahkemesi (Kopenhag )Home.dk Danimarkalı yasa veya çakışmaması emlak sitesi portal sitesi OfiR.dk sistematik taranmasına, indeksleme ve derin bağlama hükmetti Avrupa Birliği direktifi veritabanı.[6]

2009 yılında Facebook bilinen bir web kazıyıcı karşı ilk telif takım elbise birini kazandı. Bu mahkemelerin internette olduğu gibi adil kullanım adlandırılan elimden doğrudan telif hakkı ihlali ve çok net parasal zararlar En son durumda olmak AP v erime suyundan oluşan, birlikte kazıma herhangi bir web kravat sayısız davalar için zemin hazırlamıştır.[7]

Şubat yargı konularında karmaşık 2.010 dava, İrlanda'nın Yüksek Mahkemesi içtihatlarını geliştirme inchoate durumunu gösteren bir karar verdi. Ryanair Ltd v Billigfluege.de GmbH şirketinin durumunda, İrlanda'nın Yüksek Mahkemesi yasal olarak bağlayıcı olmasını Ryanair " click- wrap " anlaşması hükmetti. ABD Bölge Mahkemesi Doğu Virginia Bölge ve Danimarka Denizcilik ve Ticaret Mahkemesi bu bulgular aksine, Sayın Adalet Michael Hanna Ryanair'ın hüküm ve koşullara köprü açıkça görünür oldu ve o hükmetti üzerinde yükümlülüklerini de ortadan yerleştirerek kullanıcı bir sözleşme ilişkisi içermesi yeterlidir çevrimiçi hizmetlere erişmek amacıyla şartları ve koşulları kabul etmek. Karar İrlanda'nın Yargıtay'da temyiz aşamasındadır .I[8]

Avustralya, Spam Yasası 2003 haydutlar web hasat bazı formları, bu sadece e-posta adreslerine de geçerlidir rağmen [9][10]

 Kayda değer araçları

 Teknik önlemler botlara durdurmak için

Bir web sitesinin yöneticisi durdurmak veya bot yavaş çeşitli önlemler kullanabilirsiniz. Bazı teknikler şunlardır:

  •  Bir IP adresi ya elle ya da Geolocation ve DNSRBL gibi kriterlere göre engelleme. Bu aynı zamanda bu adrese gelen tüm tarama engeller. Web sitesinin sistem altında bırakabilecek herhangi bir web servis API devre dışı bırakılması. Botlar bazen (kullanıcı aracısı dizeleri kullanarak) ve (robots.txt kullanarak) bu temelde bloke edilebilir kim beyan; 'Googlebot' bir örnektir. Diğer botlar kendileri ve bir tarayıcı kullanarak bir insanın arasında hiçbir ayrım yapmak. Botlar aşırı trafik izleme tarafından bloke edilebilir. Botlar bazen bir kaptan gibi site erişen gerçek bir kişi olduğunu doğrulamak için araçları ile bloke edilebilir. Botlar bazen açıkça belli CAPTCHA kalıplarını kırmak için kodlanmış veya okumak ve CAPTCHA zorlukları gerçek zamanlı olarak cevap insan emeğini kullanan üçüncü taraf hizmetleri istihdam edebilir. Ticari anti-bot hizmetleri: Firmalar, anti-bot ve web siteleri için hizmet anti-kazıma sunuyoruz. Birkaç web uygulama güvenlik duvarları yanı sıra bot algılama yetenekleri sınırlıdır. Bir bal küpü veya başka bir yöntemle botlar yerlerinin otomatik tarayıcılarının IP adreslerini tespit etmek. Gizleme okuyucu kullanıcıları ekrana erişilebilirlik pahasına, telefon numaraları veya e-posta adresleri gibi verileri görüntülemek için CSS sprite kullanarak. Botlar bir bot ilk kurulumunda daha insani katılımını gerektirir önemli verileri ve navigasyon elemanları çevreleyen HTML / CSS küçük varyasyonları ekleme ve etkin bir hale getirebilir yapılırsa, hedef web sitesinin ön uç kod tutarlılık dayandıklarından nedeniyle kazıma işlemini otomatikleştirmek için azalmış yeteneği kazımak için çok zor bir web sitesi hedef.

Makaleler

Web Kazıma : Bilmeniz Wanted (ama sormak korktular) Her şey [11]

Teknikler

Web kazıma otomatik olarak World Wide Web üzerinden bilgi toplama işlemidir. Mevcut web kazıma çözümleri, ad-hoc, insan çabası gerektiren, tüm websitelerini yapılandırılmış verilere dönüştüren tam otomatik sistemler ve bazı sınırlamalar arasındadır.

  • İnsan kopyalaması ve yapıştırması: Bazen en iyi web kazıma teknolojisi bile insanın manuel incelemesini ve kopyalama ve yapıştırmalarının yerini alamaz ve web kazımaya karşı bir engel varsa bazen bu tek uygulanabilir çözüm olabilir.
  • Metin araması ve düzenli ifade eşleşmesi: Web sayfalarından bilgileri ayıklamak için basit ama güçlü bir yaklaşım olan UNIX'in grep komutuyla ya da programlama dillerinin (örneğin Perl veya Python) düzenli ifade eşleştirme tesislerine dayalı olabilir.
  • HTTP programlama: Statik ve dinamik web sayfaları soket programlama kullanarak uzak web sunucusuna HTTP isteklerini göndererek alınabilir.
  • HTML ayrıştırıcıları: Birçok web sitesi bir veritabanı gibi altta yatan yapısal bir kaynaktan dinamik olarak oluşturulan sayfaların büyük koleksiyonları olabilir. Aynı kategorideki veriler genellikle ortak bir komut dosyası veya şablona benzer sayfalar olarak kodlanmıştır. Veri madenciliğinde, bir program belirli bir bilgi kaynağındaki bu tür şablonları bulur, içeriği ayıklar ve sarıcı denilen ilişkisel forma çevrilir. Ayrıca, XQuery gibi bazı yarı yapılandırılmış veri sorgulama dilleri ile HTML ayrıştırılabilir ve sayfa içeriği dönüştürülmek için kullanılabilir.
  • DOM ayrıştırma: Programlar, Internet Explorer veya Mozilla gibi tam teşekküllü gömülü web tarayıcılarıyla istemci scriptleri tarafından oluşturulan dinamik içerikleri alabilir. Bu browser kontrolleri DOM ağacından sayfaları ayırabilir, herhangi bir program sayfalardan bu parçaları alabilir.
  • Web kazıma yazılımları: Bazı yazılım araçları özelleştirilebilir web kazıma çözümleri sunar. Bu yazılımlar sayfanın yapısını otomatik olarak tanıyabilir, elle web kazıma kodları yazma zorunluluğunu ortadan kaldıran arayüzler, içeriği çıkartmak ve dönüştürmek için bazı script fonksiyonları ve kazılmış içeriği yerel veritabanına kaydetmek için veritabanı arayüzleri sağlayabilir.
  • Dikey toplama platformları: Bazı şirketler web kazıma platformları geliştirmiştir. Bu platformlar, insan müdahalesi olmayan bazı dikeyler için çok sayıda "bot" üretir ve gözler. Hiçbir çalışma belirli siteler için yapılmaz. Hazırlık, tüm dikeyler için bilgi tabanının kurulması ve sonra platformun botları otomatik olarak oluşturulmasını içerir.
  • Bilgisayar görüşlü web sayfası analistleri: Bunlar makine öğrenimi ve bilgisayar görüşü kullanarak insan gibi yorumlanmış sayfa görsellerinden web sayfasındaki bilgileri görüntüler ve tanımlar.[1]

Tanınmış araçlar

  • Apache Camel
  • Archive.is
  • Automation Anywhere
  • Convertigo
  • cURL
  • Data Toolbar
  • Diffbot
  • Firebug
  • Greasemonkey
  • Heritrix
  • HtmlUnit
  • HTTrack
  • iMacros
  • Import.io
  • Jaxer
  • Node.js
  • nokogiri
  • PhantomJS
  • ScraperWiki
  • Scrapy
  • Selenium
  • SimpleTest
  • UiPath
  • watir
  • Wget
  • Wireshark
  • WSO2 Mashup Server
  • Yahoo! Query Language (YQL)

Ayrıca bakınız

Kaynakça

  1. ^ a b Roush, Wade (25 Temmuz 2012). "Diffbot Is Using Computer Vision to Reinvent the Semantic Web". www.xconomy.com. 27 Nisan 2013 tarihinde kaynağından arşivlendi. Erişim tarihi: 15 Mart 2013. 
  2. ^ "Ticketmaster Corp. v. Tickets.com, Inc." 20 Ağustos 2007. 28 Eylül 2007 tarihinde kaynağından arşivlendi. Erişim tarihi: 20 Ağustos 2007. 
  3. ^ "American Airlines, FareChase Settle Suit". The Free Library. 13 Haziran 2003. 5 Mart 2016 tarihinde kaynağından arşivlendi. Erişim tarihi: 26 Şubat 2012. 
  4. ^ Adler, Kenneth A. (29 Temmuz 2003). "Controversy Surrounds 'Screen Scrapers': Software Helps Users Access Web Sites But Activity by Competitors Comes Under Scrutiny". 11 Şubat 2011 tarihinde kaynağından arşivlendi. Erişim tarihi: 27 Ekim 2010. 
  5. ^ "Did Iqbal/Twombly Raise the Bar for Browsewrap Claims?" (PDF). 17 Eylül 2010. 23 Temmuz 2011 tarihinde kaynağından (PDF) arşivlendi. Erişim tarihi: 27 Ekim 2010. 
  6. ^ "UDSKRIFT AF SØ- & HANDELSRETTENS DOMBOG" (PDF). bvhd.dk. 24 Şubat 2006. 12 Ekim 2007 tarihinde kaynağından (PDF) arşivlendi. Erişim tarihi: 30 Mayıs 2007. 
  7. ^ "Is web scraping illegal depends on what the meaning of the word is is". 10 Ocak 2016 tarihinde kaynağından arşivlendi. Erişim tarihi: 9 Ocak 2016. 
  8. ^ Matthews, Áine (Haziran 2010). "Intellectual Property: Website Terms of Use". Issue 26: June 2010. LK Shields Solicitors Update. s. 03. 24 Haziran 2012 tarihinde kaynağından arşivlendi. Erişim tarihi: 19 Nisan 2012. 
  9. ^ National Office for the Information Economy (Şubat 2004). "Spam Act 2003: An overview for business" (PDF). Australian Communications Authority. s. 6. 21 Mayıs 2009 tarihinde kaynağından (PDF) arşivlendi. Erişim tarihi: 9 Mart 2009. 
  10. ^ National Office for the Information Economy (Şubat 2004). "Spam Act 2003: A practical guide for business" (PDF). Australian Communications Authority. s. 20. 7 Nisan 2009 tarihinde kaynağından (PDF) arşivlendi. Erişim tarihi: 9 Mart 2009. 
  11. ^ "Web Scraping: Everything You Wanted to Know (but were afraid to ask)". Distil Networks. 22 Temmuz 2015. 7 Kasım 2015 tarihinde kaynağından arşivlendi. Erişim tarihi: 4 Kasım 2015. 

İlgili Araştırma Makaleleri

<span class="mw-page-title-main">Arama motoru</span>

Web arama motoru veya internet arama motoru, web'de sistematik bir şekilde internet kullanıcılarının istedikleri bilgilere anında erişebilmek için sıkça kullandıkları bir yazılım türüdür. Birincil işlevi internette veya internetin bir kısmında bulunmuş olan verileri bir araya getirmek ve raporlamaktır. Arama sonuçları genellikle satırlara ayrılmış sonuç sayfaları şeklinde sunulur. Bulunan bilgiler arasında web sayfası bağlantıları, görseller, videolar, infografikler, yazılar, akademik makaleler ve diğer dosya türleri yer alabilir. Arama motoru, çıktı olarak elde edilmiş kayıtlar ve bilgilerin hepsini birbiriyle karşılaştırarak sorgulayan, bir sorgunun kabul edilebilmesi için gerekli faaliyetleri gerçekleştiren, elde edilen verilerin performanslarının en yüksek olmasını amaçlayan bir sorgulama ve bulma mekanizmasıdır. Bazı arama motorları, veri tabanlarında ve kamuya açık dizinlerde bulunan bilgileri de indeksler. Bu noktada toplanan veriler, web sitesi URL’sini, web sitesinin içeriğini açıklayan bazı anahtar kelimeleri veya anahtar kelime gruplarını, web sayfasını oluşturan kod yapısını ve web sitesinde verilen bağlantıları içerir. Arama motorları, insanlar tarafından derlenen web dizinlerinin aksine, "örümcek" denilen botlar tarafından toplanan bilgileri belirli bir algoritma yardımıyla gerçek zamanlı olarak yansıtabilirler. Ve de günümüzde World Wide Web ile çok iyi bir hale gelen arama motorları, giderek profesyonelleşmeye devam etmektedir.

<span class="mw-page-title-main">Web sayfası</span> World Wide Web ve web tarayıcıları aracılığıyla doğrudan görüntülenebilen tek belge

Web sayfası, World Wide Web için hazırlanan ve web tarayıcısı kullanılarak görüntülenebilen dokümanlardır. Web sayfaları çoğunlukla HTML formatında kodlanır, CSS, betik, görsel ve diğer yardımcı kaynaklardan yararlanılarak son görünümüne sahip olur ve işlevsellik kazanır. Birden fazla web sayfasının bir araya gelmesi ile ortaya çıkan web sitesi ile karıştırılmamalıdır. Günlük konuşma dilinde internet sayfası terimi de çoğunlukla web sitesi anlamında kullanılmaktadır.

<span class="mw-page-title-main">Web 2.0</span>

Web 2.0, O'Reilly Media tarafından 2004'te kullanılmaya başlayan bir sözcüktür ve ikinci nesil internet hizmetlerini - toplumsal iletişim sitelerini, vikileri, iletişim araçlarını, folksonomileri- yani internet kullanıcılarının ortaklaşa ve paylaşarak yarattığı sistemi tanımlar. Kelimenin tam anlamı tartışmaya açıktır, Tim Berners-Lee gibi teknoloji uzmanları da kelimenin manasını sorgulamıştır.

<span class="mw-page-title-main">Web sunucusu</span> Web site içeriklerini kullanıcıya sunan sunucu

Web sunucusu, Hosting ya da "barındırma" işlemini İnternet protokolü üzerinden sunan bir sunucudur. Barındırma ya da hosting, Web sayfalarını İnternet'te yayınlamak için gerekli alanın kiralanmasıdır. Diğer bir ifade ile hosting, bir Web sitesinde yayınlanmak istenen sayfaların, resimlerin veya dokümanların İnternet kullanıcıları tarafından erişebileceği bir bilgisayarda tutulmasıdır.

<span class="mw-page-title-main">İnternet sitesi</span> tek bir web alanından sunulan ilgili web sayfaları kümesi

Web sitesi, Ortak bir alan adı ile tanımlanan ve en az bir web sunucusunda yayınlanan web sayfaları ve ilgili içeriklerden oluşan bir koleksiyondur. Web üzerindeki sayfalar; metin, görsel ve animasyon şeklinde ziyaretçisine bilgi aktaran veya hizmet sunan sayfaların tümünü kapsayan bir doküman topluluğudur. Ziyaretçiler bir web sitesine, HTTP veya HTTPS protokollerinde aşağıdaki bileşenlerden oluşan benzersiz bir adresi kullanarak erişirler:

İçerik Yönetim Sistemi dijital içerik üretilmesini ve düzenlenmesini yönetmeye yarayan yazılım. Bir İYS, genellikle doküman yönetimi, değer yönetimi ve kayıt tutma sistemlerinin birden fazla katılımcı tarafından işbirliği içinde kullanılmasını sağlar.

AJAX, İnternet sayfalarında JavaScript ve XMLHttpRequest kullanımı ile etkileşimli uygulamalar yaratan tekniğin adıdır.

Anlamsal ağ, web içeriklerinin sadece doğal dillerde değil, aynı zamanda ilgili yazılımlar tarafından anlaşılabilir, yorumlanabilir ve kullanılabilir bir biçimde ifade edilebileceği, böylece bu yazılımların veriyi kolayca bulmasını, paylaşmasını ve bilgiyi birleştirmesini sağlamayı amaçlayan, gelişen bir internet eklentisidir.

Web yazılımları, Web sitelerinin temelini oluşturan HTML işaretleme diline özellikler katmak için kullanılan yazılımlardır. Bu yazılımlar sayesinde web siteleri bir kişinin düzenlemesine ihtiyaç duyulmadan kendisini otomatik güncelleyebilir. Buna örnek vermek gerekirse bir web sitesindeki RSS beslemeleri gösterilebilir. Birçok web sitesinin RSS beslemesi kendisini otomatik günceller.

<span class="mw-page-title-main">İnternet forumu</span> internet üzerinden tartışma platformu

İnternet forumu ya da mesaj panoları, insanların iletiler biçiminde tartışma yürütebileceği platformlardır. Mesajlar genellikle bir satırdan uzun olur, başlıklara ve kategorilere ayrılır. Bu özellikler, forumları diğer sohbet odalarından ayıran özelliklerden bazılarıdır.

<span class="mw-page-title-main">HTML</span> işaretleme ve web programlama dili

Hiper Metin İşaretleme Dili web sayfalarını oluşturmak için kullanılan standart metin işaretleme dilidir. Dilin son sürümü HTML5'tir.

Googlebot, Google tarafından kullanılan bir arama botudur. Bu bot web'deki dokümanları toplar ve Google Arama Motoru için aranabilir bir içerik listesi (index) oluşturur. Eğer site yöneticiyseniz ve sitenizin Google aramalarında ya da herhangi bir arama motoru botunun indeksleme işleminde çıkmasını istemiyorsanız sitenizin dizininde bir robots.txt adlı dosya oluşturarak, ya da sadece Googlebot için aşağıdaki meta etiketini kullanarak botların indekslemesini engelleyebilirsiniz.

Robot engelleme standardı, web böceği veya web örümceği gibi yazılımların web sunucularının kamuya açık bölümlerinin tamamına veya bir kısmına erişimini engellemeye yarayan bir standarttır. Genelde web sitelerini sınıflandırmak ve arşivlemek amacı ile arama motorları ya da düzeltilmiş kaynak kodları için site yöneticileri robotları kullanırlar. Robotlar bu işlem sonucunda web siteleri için site haritaları oluştururlar.

Arama motoru teknolojisinde günümüzde genel amaçlı arama motorlarının yanında belli bir alana yoğunlaşmış arama motoru örnekleri türemektedir. Belli bir alana yoğunlaşmış arama teknolojisine Dikey Arama adı verilmektedir. Dikey arama motorları belli bir alanda bilgi almak isteyen kullanıcıları hedefleyip, İnternet’te bulunan bilgileri bu pencere çerçevesinde tarayıp kullanıcılara sunar.

Veri kazıma bir bilgisayar programı, başka bir programdan gelen insanlar tarafından okunabilir olan çıkış veri ayıklayan bir tekniktir.

<span class="mw-page-title-main">Google Sites</span> Web sayfası oluşturma aracı

Google Siteler, Google tarafından sunulan Google Apps üretkenlik paketinin bir parçası olarak, yapılandırılmış bir viki ve Web sayfası oluşturma aracıdır. Google Sitelerin amacı herkesin bir ekip odaklı bir site oluşturmak mümkün olabilmesi ve birden fazla kişinin iş birliği ve dosyalarınızı paylaşabilmesidir.

<span class="mw-page-title-main">IP adresi engelleme</span>

IP adresi engelleme, belirli IP adreslerine sahip ana bilgisayarlardan gelen istekleri engelleyen bir ağ hizmeti yapılandırmasıdır. IP adresi engelleme, yaygın olarak kaba kuvvet saldırılarına karşı koruma sağlamak ve kesintiye neden olan bir adresin erişimini önlemek için kullanılır.

<span class="mw-page-title-main">Web şablon sistemi</span>

Web yayıncılığı'ndaki web şablon sistemi, web tasarımcılarının ve geliştiricilerin, bir aramanın sonuçları gibi özel web sayfa'larını otomatik oluşturmak için web şablonları ile çalışmasına olanak tanır. Bu, dinamik öğeleri web isteği parametrelerine dayalı olarak tanımlarken statik web sayfası öğelerini yeniden kullanır. Web şablonları statik içeriği destekleyerek temel yapı ve görünüm sağlar. Geliştiriciler içerik yönetim sistemlerinden, Web uygulama iskeletlerinden ve HTML düzenleyicilerinden şablonları kullanabilir.

Bir site haritası, bir etki alanındaki bir web sitesinin sayfalarının bir listesidir.

Kurumsal arama, büyük ölçekli işletmelerin iç ve dış verilerini etkin bir şekilde aramalarını ve erişmelerini sağlayan bir bilgi yönetimi çözümüdür. Bu çözüm, farklı veri kaynaklarından verileri toplar, indeksler ve kullanıcıların hızlı ve doğru bir şekilde aramasını sağlar. Kullanıcılar genellikle bir arayüz aracılığıyla bu verilere erişir ve arama sonuçlarını filtreleyebilir veya sıralayabilir. Enterprise Search, işletmelerin veriye daha hızlı erişmesini, bilgiyi daha iyi yönetmesini ve iş süreçlerini iyileştirmesini sağlar.