İçeriğe atla

Veri kazıma

Veri kazıma bir bilgisayar programı, başka bir programdan gelen insanlar tarafından okunabilir olan çıkış veri ayıklayan bir tekniktir.

Açıklama

Normalde, programlar arasında veri transferi bilgisayarlar değil, insanlar tarafından otomatik işlenmesi için uygun veri yapılarını kullanılarak gerçekleştirilir. Böyle bir kavşak biçimleri ve protokolleri genellikle rijit kolayca çözümlenir, iyi belgelenmiş, yapılandırılmış ve en az belirsizlik devam edilmektedir . Çoğu zaman, bu yayınlar tüm insan tarafından okunabilir değil.[1]

Böylece, düzenli ayrıştırma gelen kazıma verileri ayıran unsur kazınarak olan çıkış yerine başka bir programa girdi olarak daha bir son kullanıcıya ekranda yönelik olduğu ve bu nedenle genellikle belgelenmiş ne uygun ayrıştırma yapılandırılmış ne olduğunu. Veriler genellikle ikili veri (genellikle görüntü veya multimedya veri ), görüntü biçimlendirme, gereksiz etiketler, gereksiz yorum veya ilgisiz ya da otomatik işleme engelleyen diğer bilgileri görmezden içerir kazıma.

Veri kazıma en sık mevcut donanım ile uyumlu olan başka hiçbir mekanizmaya sahip bir eski sistem ya arabirime yapılır ya da daha uygun bir API sağlamaz bir üçüncü taraf sisteme arayüz. İkinci durumda, üçüncü taraf sistemi operatör genellikle ekran nedeniyle böyle yüksek sistem yükü, reklam gelir kaybı veya bilgi içeriğinin kontrol kaybı gibi nedenlerle, istenmeyen kazıma görürsünüz.

Veri kazıma genellikle genellikle sadece veri değişimi için başka bir mekanizma mevcut bir " son çare " olarak kullanılan bir ad hoc, inelegant tekniği, kabul edilir. Kenara yüksek programlama ve işleme yükü gelen, insani tüketim amaçlı çıkış görüntüler sık sık sık yapısını değiştirmek. İnsanlar kolayca başa çıkabilir, ancak saçma bildirebilir bir bilgisayar programı, belirli bir formatta veri okumak veya belirli bir yerden ve geçerliliği için onun sonuçlarını nasıl denetleneceği hiçbir bilgi ile söylendi oylandı.

Ekran kazıma

Ekran kazıma normalde yerine Web kazıma gibi verileri ayrıştırma, bir kaynaktan gelen görsel verilerin programatik koleksiyonu ile ilişkilidir. Başlangıçta, ekran bilgisayar ekranı terminalin ekrandan metin veri okuma uygulamasına atıfta kazıma. Bu işlem genellikle, yardımcı bağlantı noktası üzerinden veya başka bir giriş noktasına, bir bilgisayar sisteminin, terminal çıkış bağlantı noktasını terminalin okuma hafızası ile yapılmıştır. Terimi ekran kazıma de yaygın veri iki yönlü değişimi ifade etmek için kullanılır. Kontrol programı kullanıcı arayüzü gezinirken ya da kontrol programı anlamına bir arabirim veri giriyor daha karmaşık senaryolar insan tarafından kullanılmak üzere burada basit vakalar olabilir.

Bilgisayar veri işleme şafak - klasik bir ekran kazıyıcı somut bir örnek olarak, 1960'ların varsayımsal eski sistem kalma düşünün. O dönemin kullanıcı arabirimleri Bilgisayar, genellikle sanal tele yazıcılar çok daha fazla değildi, sadece metin tabanlı aptal terminalleri idi (bu sistemler çeşitli nedenlerle, hala kullanımda bugün). Daha modern sistemlere böyle bir sistem arayüzü arzusu yaygındır. Bir sağlam bir çözüm genellikle kaynak kodu, sistem dokümantasyonu, API'ler ya da 50 yaşındaki bir bilgisayar sistemi deneyimi olan programcılar olarak artık şeyler, gerektirecektir. Bu gibi durumlarda, tek çözümdür bir terminalde bir kullanıcı olmak "miş gibi" ekran kazıyıcı yazmak olabilir. Ekran kazıyıcı, istenen veri ayıklamak, eski kullanıcı arayüzü gezinmek için gerekli tuş vuruşlarını, süreç ortaya çıkan görüntü çıkış taklit, Telnet üzerinden eski sisteme bağlanmak ve modern bir sisteme geçmek olabilir. Örneğin değişim kontrolü, güvenlik, kullanıcı yönetimi, veri koruma, operasyonel denetim, yük dengeleme ve kuyruk yönetimi, vb - - yönetişim ve büyük bir kuruluş tarafından gerekli kontrol sağlayan bir platform üzerine inşa edilen bu tip (A sofistike ve esnek uygulama, olabilir Robotik süreç otomasyonu yazılımının bir örneği olduğu söylenebilir.)

1980'lerde, Reuters, Telerate ve Quotron finansal veri sağlayıcıları, bir insan okuyucu yönelik 24 × 80 biçiminde veri görüntülenir. Bu veriler, özellikle yatırım bankaları, kullanıcıları yakalamak ve verileri tekrar anahtarlama olmadan ticaret kararları için hesaplamalar içine dahil edilmesi için sayısal veri olarak bu karakter verileri dönüştürmek için uygulama yazdı. Sonuçlar kağıt parçalayıcı geçtik hayal olabilir çünkü özellikle İngiltere'de bu uygulama için ortak terim, sayfa parçalama oldu. İçten Reuters VAX / VMS üzerinde gelişmiş bir bilgisayar sistemi çalıştıran, bu dönüşüm süreci için ' logicized ' terimini kullanılan Logicize denilenr.[2]

Daha modern ekran kazıma teknikleri ekrandan bitmap verilerini yakalama ve bir OCR motoru ile çalışan ya da bazı özel otomatik test sistemleri için, beklenen sonuçlara karşı ekranın bitmap verilerini eşleşen içerir. Bu programlı altta yatan programlama nesnelerine başvuruları alarak grafik kontrolleri sorgulama ile GUI uygulamaları durumunda kombine edilebilir. Web kazıma

Web kazıma

Web sayfaları, metin tabanlı mark-up dilleri ( HTML ve XHTML ) kullanılarak inşa ve sık sık metin biçiminde yararlı veri zenginliği içerirler. Ancak, çoğu web sayfaları, insan son kullanıcılar için değil, otomatik kullanım kolaylığı için tasarlanmıştır. Bu nedenle, web içeriği kazımak araç kitleri oluşturulmuştur. Bir web kazıyıcı bir web sitesine veri ayıklamak için bir API . Amazon AWS ve Google gibi şirketler, son kullanıcılara ücretsiz olarak mevcut araçları, hizmet ve kamu veri kazıma web sağlar. Web kazıma yeni formları veri web sunucularından beslemeleri dinleme içerir . Örneğin, JSON yaygın istemci ve web sunucusu arasında bir taşıma depolama mekanizması olarak kullanılır.

Son zamanlarda, şirketler otomatik olarak yararlı bilgiler elde etmek için bir web sayfasını görüntülerken oluşur insan işleme simülasyonu için DOM ayrıştırma, bilgisayar görme ve doğal dil işleme teknikleri kullanarak güveniyor web kazıma sistemleri geliştirdik.[3][4]

Rapor madencilik

Rapor madencilik insan okunabilir bilgisayar raporları veri çıkarma olduğunu. Geleneksel veri çekme bir çalışma kaynağı sistemi, uygun bağlantı standartları veya bir API ve genellikle karmaşık sorgulama bağlantısı gerektirir. Kaynak sisteminin standart raporlama seçenekleri kullanarak, bir biriktirme dosyası yerine bir yazıcıya çıktı yönlendirerek, statik raporlar rapor madencilik yoluyla çevrimdışı analiz için uygun oluşturulabilir. Bu yaklaşım, iş saatlerinde yoğun CPU kullanımını önlemek ERP müşterileri için son kullanıcı lisans maliyetlerini en aza indirebilirsiniz ve çok hızlı prototip ve özel raporların geliştirilmesi sunabilir. Veri kazıma ve web dinamik çıkışı ile etkileşim içeren kazıma Oysa, rapor madencilik gibi HTML, PDF veya metin olarak, bir insan okunabilir formatta dosyalardan veri ayıklanması içerir. Bunlar kolayca bir yazıcıya veri besleme durdurarak hemen her sistemden elde edilebilir. Bu yaklaşım, kaynak sistemine bir API programlamak gerek kalmadan veriyi elde etmek hızlı ve basit bir yol sağlayabilir.

Ayrıca bakınız

Kaynakça

  1. ^ Custom web crawlers and data scraping. Bot Gurus. 14 Ağustos 2014 tarihinde kaynağından arşivlendi. Erişim tarihi: 9 Ocak 2016. 
  2. ^ Contributors Fret About Reuters’ Plan To Switch From Monitor Network To IDN 13 Mart 2016 tarihinde Wayback Machine sitesinde arşivlendi., FX Week, 02 Nov 1990
  3. ^ "Diffbot aims to make it easier for apps to read Web pages the way humans do". MIT Technology Review. 1 Şubat 2015 tarihinde kaynağından arşivlendi. Erişim tarihi: 1 Aralık 2014. 
  4. ^ "This Simple Data-Scraping Tool Could Change How Apps Are Made". WIRED. 13 Ocak 2016 tarihinde kaynağından arşivlendi. Erişim tarihi: 8 Mayıs 2015. 

Konuyla ilgili yayınlar

  • Hemenway, Kevin and Calishain, Tara. Spidering Hacks. Cambridge, Massachusetts: O'Reilly, 2003. ISBN 0-596-00577-6.

İlgili Araştırma Makaleleri

<span class="mw-page-title-main">İşletim sistemi</span> bilgisayar donanım kaynaklarını yöneten yazılım

İşletim sistemi ya da işletim dizgesi, bir bilgisayarın donanım kaynaklarını yöneten ve uygulama yazılımlarına hizmet sağlayan yazılımların bir bütünüdür. İşletim sistemleri, bilgisayarın donanımı ile uygulama yazılımları arasında bir köprü görevi görerek kullanıcıların sistemle etkileşim kurmasını sağlar. Öne çıkan örnekler arasında Microsoft Windows, macOS, GNU/Linux dağıtımları, Android ve iOS yer alır.

<span class="mw-page-title-main">Windows Vista</span> 2007de piyasaya sürülen Windows sürümü

Windows Vista, kişisel bilgisayarlar için geliştirilen Microsoft Windows işletim sistemleri ailesinin sürüm olarak altıncı üyesidir. 22 Temmuz 2005'te gerçek adı duyurulmadan önce Longhorn kod adıyla tanınıyordu. Windows Vista, 30 Ocak 2007'de dünya çapında piyasaya sürülmüştür. Microsoft Türkiye, 24 Ocak 2007 tarihindeki tanıtımıyla Vista'nın resmî lansmanını yapan ilk Microsoft şubesi olmuştur. Windows Vista eski sürümle oranla birçok yeni özellik ve değişikliğe sahiptir. Bu değişim geliştirilmiş grafiksel kullanıcı arayüzü, görsel stil, yeniden tasarlanmış arama fonksiyonları, multimedya araçları, yeniden tasarlanmış ağ iletişimi, görüntü ve yazıcı gibi çeşitli fonksiyonları kapsamaktadır.

Telnet, Internet ağı üzerindeki çok kullanıcılı bir makineye uzaktaki başka bir makineden bağlanmak için geliştirilen bir TCP/IP protokolü ve bu işi yapan programlara verilen genel isimdir. Telnet iki bileşenden oluşur: (1) iki tarafın nasıl iletişim kuracağını belirleyen protokolün kendisi ve (2) hizmeti sağlayan yazılım uygulaması.Kullanıcı verileri, İletim Kontrol Protokolü (TCP) üzerinden 8 bitlik bayt yönlendirmeli bir veri bağlantısında Telnet kontrol bilgisi ile bant içi serpiştirilir. Telnet, 1969'da RFC 15 ile başlayarak geliştirildi, RFC 855'te genişletildi ve ilk İnternet standartlarından biri olan İnternet Mühendisliği Görev Gücü (IETF) İnternet Standardı STD 8 olarak standartlaştırıldı. encryption sağlayan bazı Telnet eklentileri geliştirilmiştir. Bağlanılan makineye girebilmek (login) için orada bir kullanıcı isminizin (İng:username) ve bağlantının gerçekleşebilmesi için bir telnet erişim programınızın olması gereklidir. Fakat bazı kütüphane ve herkese açık telnet bazlı web servisleri, bağlantı sırasında kullanıcı ismi (numarası) istemeyebilirler; ya da, kullanıcı isim ve parola olarak ne yazmanız gerektiği bağlandığınızda otomatik olarak karşınıza çıkar. Telnet, BBS sistemlere İnternet üzerinden erişimde günümüzde yaygın olarak kullanılmaktadır. Telnet erişim programları, günümüzdeki işletim sistemlerinin çoğunda işletim sistemi ile birlikte gelmektedir. Çok kullanıcılı işletim sistemleri genellikle kullanıcılara metin tabanlı bir arayüz sunar ve bu sistemlerde tüm işlemler klavye vasıtası ile komut isteminden gerçekleştirilir.

<span class="mw-page-title-main">Bilgisayar mimarisi</span>

Bilgisayar mimarisi, en küçüğe ve en başarılıya ulaşmayı hedeflerken aynı zamanda maliyeti de göz önünde bulundurduğu için sanat ve bilimin ortak buluştuğu nokta olarak da tanımlanır. Bilgisayar Mimarisi, bilgisayar parçalarının iç yapıları ve aralarındaki haberleşme bağlantıları ile ilgilidir.

<span class="mw-page-title-main">Komut satırı</span> yazıyla komutlar girilen ve çıktının da yazıyla ifade edildiği bilgisayar arayüz sistemi

Komut satırı, bir bilgisayar kullanıcısının, belirli metinleri (komutları) girerek, bilgisayarla iletişime geçmesini sağlar. Komut satırı arayüzleri; konsol, kabuk, terminal veya uçbirim diye de adlandırılır.

<span class="mw-page-title-main">Novell NetWare</span>

Novell NetWare, Novell firması tarafından yerel bilgisayar ağlarında kullanılmak üzere hazırlanmış bir işletim sistemi.

<span class="mw-page-title-main">Kullanıcı arayüzü</span> bir kullanıcının bir makineyle etkileşime girdiği ve makineyi kontrol ettiği araçlar

Kullanıcı arayüzü ya da kullanıcı arabirimi, insanların bir makine, cihaz, bilgisayar programı ya da karmaşık aletlerle etkileşimini sağlayan yöntemlerin bileşkesine verilen addır.

Giriş/çıkış, bilgi işlem sistemin değişik fonksiyonel birimleri arasındaki iletişimi veya bu arayüzlere doğrudan bilgi sinyallerini göndermeyi sağlar.

UUCP, Unix-to-Unix Copy 'nın kısaltmasıdır. Bu kavram, genellikle uzaktan komut çalıştırmaya ve bilgisayarlar arasında dosya, e-posta ve ağ haberleri taşınmasına imkân sağlayan bilgisayar programı ve protokoller paketi olarak adlandırılır.

<span class="mw-page-title-main">CUPS</span>

CUPS, bir bilgisayarın bir yazdırma sunucusu olarak hareket etmesine imkan sağlayan Unix benzeri bilgisayar işletim sistemleri için modüler bir yazdırma sistemidir. CUPS çalıştıran bir bilgisayar, istemci bilgisayarlardan yazdırma işlerini kabul edebilen, bunları işleyebilen ve uygun yazıcıya gönderebilen bir ana bilgisayardır.

<span class="mw-page-title-main">Gömülü sistem</span> Belli bir fonksiyonu yapmaya yönelik bilgisayar sistemi

Gömülü sistem, bilgisayarın kendisini kontrol eden cihaz tarafından içerildiği özel amaçlı bir sistemdir. Genel maksatlı, örneğin kişisel bilgisayar gibi bir bilgisayardan farklı olarak, gömülü bir sistem kendisi için önceden özel olarak tanımlanmış görevleri yerine getirir. Sistem belirli bir amaca yönelik olduğu için tasarım mühendisleri ürünün boyutunu ve maliyetini azaltarak sistemi uygunlaştırabilirler. Gömülü sistemler genellikle büyük miktarlarda üretildiği için maliyetin düşürülmesinden elde edilecek kazanç, milyonlarca ürünün katları olarak elde edilebilir.

Web kazıma, web sitelerinden bilgi çıkartmanın bilgisayar programı tekniğidir. Çoğunlukla, bu tür yazılım programları düşük seviye Köprü Metni Aktarım Protokolü (HTTP) veya Mozilla Firefox gibi tam teşekküllü gömülü web tarayıcısı tarafından World Wide Web'in insan araştırmaları simüle edilir.

<span class="mw-page-title-main">Mac OS X 10.0</span>

Mac OS X 10.0 veya Mac OS X Cheetah Apple tarafından üretilmiş ve piyasaya çıkarılmış ilk nesil Mac OS X bilgisayar ve sunucu işletim sistemidir. Sürüme takma isim olarak kedigillerin bir türü olan Çita ismi verildi. 129 dolar fiyat ile 24 Mart 2001'de piyasaya sürüldü.

<span class="mw-page-title-main">Kesme, kopyalama ve yapıştırma</span>

Kesme, kopyalama ve yapıştırma, İnsan bilgisayar etkileşiminde data aktarımı için bir kullanıcı arabirimi süreçlerarası iletişim tekniği sunan ilgili komutlardır. Şu an bilgisayar ve telefonlarda en yaygın kullanılan işlemlerdendir. Bilgisayarlarda hem dosya sistemi, hem de Microsoft Office gibi yazılımlarda kulanılır. Kopyalama komutu bir kopyalama oluştururan zaman kesme komutu seçili verileri orijinal konumundan kaldırır; Her iki durumda da seçilen veriler pano denilen geçici bir yerde saklanır ve sonsuz sayda yapıştırma oluyor. Kesme komutu araç çubuğundakı "dosyayı taşı" işlemi, kopyalama komutu ise "dosyayı kopyala" işlemi ile eşdeğerdir. Pano içindeki veriler daha sonra yapıştırma komutunun verildiği yere yerleştirilir. Komut adı, bir sayfa düzeni oluşturmak için el yazması düzenlemesinde kullanılan ve fiziksel prosedüre dayanan bir arayüz metaforudur. İşlem itibarile, "kes-yapıştır" dosyayı taşımak işlemi ile, "kopyala-yapıştır" ise dosyayı kopyalamak işlemi ile aynıdır.

<span class="mw-page-title-main">Ayrıştırıcı (yazılım)</span>

Ayrıştırıcı, girdi verilerini alır ve girdinin yapısal bir temsilini vererek, süreçte doğru sözdizimini kontrol eden bir veri yapısı oluşturan bir yazılım bileşenidir. Ayrıştırma öncesinde veya sonrasında başka adımlar izlenebilir veya bunlar tek bir adımda birleştirilebilir. Ayrıştırıcı, genelde girilen karakter dizisinden belirteçler oluşturan ayrı bir sözcük tabanlı analiz motorunu takip eder. Ayrıştırıcılar elle programlanabilir veya bir ayrıştırıcı üreteci tarafından otomatik olarak veya yarı otomatik olarak oluşturulabilir. Ayrıştırma, biçimlendirilmiş çıktı üretimlerini tek bir şablonda tamamlama görevi görür. Bunlar, farklı etki alanlarına uygulanabilir, ancak bir derleyicinin girdi ve çıktı aşamaları gibi genellikle bir arada sunulur.

<span class="mw-page-title-main">Pencere (bilgisayar)</span>

Bilgisayarda pencere, bir grafiksel kontrol bileşenidir. Programa ait grafiksel kullanıcı arayüzünü içeren ve bir pencere dekorasyonuyla çerçevelenen görsel bir alandan oluşur. Genellikle diğer pencereler ile üst üste gelebilen, dikdörtgen şekline sahiptir. Çıktıyı göstermek için bir veya daha fazla işleme giriş izni verebilir.

Pano, kısa süreli veri depolama, kesme, kopyalama ve yapıştırma işlemleri tarafından kullanılan, işletim sistemi tarafından sağlanan belgeler veya uygulamalar arasında veri aktarımı için kullanılan bir veri arabelleğidir. İngilizce pano ve not panosu aynı anlamı (clipboard) verir. Genellikle, ortamdaki programların çoğundan veya tanımlanmış programlama arabirimleriyle erişilebilen, bazen yapıştırma arabelleği olarak adlandırılan, adsız, geçici bir veri ara bellek olarak uygulanır. Tipik bir uygulama, tuş takımları, menü seçimleri vb. gibi kullanıcı giriş/çıkışları bu arayüzlerle eşleyerek pano işlevselliğine erişir. Pano tesisinin anlam bilimi, bir işletim sisteminden diğerine değişir ve aynı sistemin sürümleri arasında da değişebilir. Bazen farklı programlar veya kullanıcı tercihleri ile değiştirilebilirler.

<span class="mw-page-title-main">Metin tabanlı kullanıcı arayüzü</span> bir metin ekranına çıktı vermeye veya onu kontrol etmeye dayalı arabirim türü

Metin tabanlı kullanıcı arayüzü, metinsel kullanıcı arayüzü veya terminal kullanıcı arabirimi olarak da adlandırılır, grafik kullanıcı arayüzlerinin (GUI) icadından bir süre sonra ortaya çıkan ve onu grafik kullanıcı arayüzünden ayırt etmek için türetilen yeni bir terimdir. TUI'de bilgisayar grafikleri metin kipinde görüntülenir. Gelişmiş bir TUI, GUI'ler gibi tüm ekran alanını kullanabilir ve fare ve diğer girişleri kabul edebilir.

Windows API ya da WinAPI, Microsoft'un Microsoft Windows işletim sistemlerinde bulunan çekirdek uygulama programlama arayüzü kümesidir (API). Windows API adı, genellikle kendi adlarıyla atıfta bulunulan birçok farklı platform uygulamasına atıfta bulunur. Neredeyse tüm Windows programları Windows API ile etkileşime girer. Windows NT işletim sistemi satırlarında, az sayıda Native API'yi kullanır.

<span class="mw-page-title-main">Bilgisayar terminali</span> Bir bilgisayara veya bir bilgi işlem sistemi güncelleme programına veri girmek ve buradan verileri görüntülemek için kullanılan bir elektronik veya elektromekanik donanım cihazı

Bilgisayar terminali, elektronik veya elektromekanik bir donanım cihazıdır. Bir bilgisayara veya bir bilgi işlem sistemine veri girmek ve bu verilerden kopyalamak için kullanılabilir. İlk terminaller ucuz cihazlardı ancak delikli kartlara veya giriş için delikli bantlara kıyasla çok yavaştı.