İçeriğe atla

Bilgisayarlı görü

Kontrol Edilmiş
Bir file binen bir adamın fotoğrafını analiz eden DenseCap "yoğun resim yazısı" yazılımının çıktısı

Bilgisayarlı görü, bilgisayarların dijital görüntülerden veya videolardan nasıl bir anlam kazanabileceğiyle ilgilenen disiplinler arası bilimsel bir alandır. Mühendislik yöntemleriyle, insan görsel sisteminin yapabileceği görevleri anlamaya ve otomatikleştirmeye çalışmaktadır.[1][2][3]

Bilgisayarlı görü görevleri, sayısal veya sembolik bilgi üretmek için dijital görüntüleri elde etme, işleme, analiz etme ve anlamayı içermektedir. Aynı zamanda gerçek dünyadan yüksek boyutlu verilerin çıkarılmasına yönelik yöntemleri içermektedir.[4][5][6] Buna göre anlamak, görsel imgelerin (retinanın girdisi) düşünce süreçlerin anlamlandıran ve uygun eylemi ortaya çıkarabilen dünya tanımlarına dönüşümü anlamına gelmektedir.[7]

Bilgisayarlı görünün bilimsel disiplini, görüntülerden bilgi çıkaran yapay sistemlerin arkasındaki teori ile ilgilidir. Görüntü verileri; video parçaları, birden çok kameradan gelen görüntüler, bir 3B tarayıcıdan çok boyutlu veriler veya tıbbi tarama cihazından gelen görüntüler gibi birçok biçimde olabilmektedir. Bilgisayarlı görü vizyonunun teknolojik disiplini, teorilerini ve modellerini bilgisayarla görme sistemlerinin yapımına uygulamayı amaçlamaktadır.

Bilgisayarlı görünün alt alanları nesne algılama, olay algılama, video izleme, nesne tanıma, 3D poz tahmini, öğrenme, indeksleme, hareket tahmini, otomatik görsel oluşturma, 3D sahne modelleme ve görüntü onarımı gibi alanlardır.

Tanım

Bilgisayarlı görü, bilgisayarların dijital görüntülerden veya videolardan nasıl bir anlam kazanabileceğiyle ilgilenen disiplinler arası bilimsel bir alandır. Mühendislik yöntemleriyle, insan görsel sisteminin yapabileceği görevleri anlamaya ve otomatikleştirmeye çalışmaktadır.[1][2][3] "Bilgisayarlı görü, tek bir görüntüden veya bir dizi görüntüden yararlı bilgilerin otomatik olarak çıkarılması, analizi ve anlaşılmasıyla ilgilidir. Otomatik görsel anlayışa ulaşmak için teorik ve algoritmadan türetilen bir temelin geliştirilmesini içermektedir[8]". Bilimsel bir disiplin olarak bilgisayarlı görü, görüntülerden bilgi çıkaran yapay sistemlerin arkasındaki teori ile ilgilenir. Görüntü verileri, video parçaları, birden çok kameradan gelen görüntüler veya bir tıbbi tarayıcıdan gelen çok boyutlu veriler gibi birçok biçimde olabilmektedir.[9] Teknolojik bir disiplin olarak bilgisayarlı görü, teorilerini ve modellerini bilgisayarla görme sistemlerinin inşası için uygulamaya çalışmaktadır.

Tarihçe

1960'ların sonlarında, yapay zekaya öncülük eden üniversitelerden bilgisayarlı görü ile ilgili çalışmalar başlatıldı. Robotlara akıllı davranışlar kazandırmak için bir basamak olan insan görsel sistemini taklit ettirmek amaçlanıyordu.[10] 1966'da bunun, bir bilgisayara bir kamera bağlatılarak ve "gördüklerini tarif etmesini" sağlatılarak bir ufak bir proje ile başarılabileceğine inanılıyordu.[11]

Bilgisayarlı görüyü o dönemde yaygın olan dijital görüntü işleme alanından ayıran şey, tarama yapılan alanı tam olarak anlamak amacıyla görüntülerden üç boyutlu yapı çıkarma arzusuydu. 1970'lerde yapılan araştırmalar, görüntülerden kenarların çıkarılması, çizgilerin etiketlenmesi, çok yüzlü olmayan ve çok yüzlü modelleme, nesnelerin daha küçük yapıların ara bağlantıları olarak gösterilmesi, optik akış ve hareket tahmini gibi bugün var olan bilgisayarlı görü algoritmalarının birçoğunun ilk temellerini oluşturdu.[10] Daha sonraki on yıl, bilgisayar vizyonunun daha titiz matematiksel analizine ve nicel yönlerine dayanan çalışmalar görüldü. Bunlar arasında ölçek alanı kavramı, gölgeleme, doku ve odak gibi çeşitli ipuçlarından şekil çıkarımı ve yılanlar olarak bilinen kontur (Resimde nesneyi belirgin gösteren çevre çizgisi.) modelleri yer aldı. Araştırmacılar ayrıca, bu matematiksel kavramların çoğunun, düzenlileştirme ve Markov rastgele alanları ile aynı optimizasyon çerçevesi içinde ele alınabileceğini fark etmişlerdir.[12] 1990'larda, önceki araştırma konularından bazıları diğerlerinden daha aktif hale geldi. Projektif 3-D onarım araştırmaları, kamera kalibrasyonunun daha iyi anlaşılmasına yol açmıştır. Kamera kalibrasyonu için optimizasyon yöntemlerinin ortaya çıkmasıyla birlikte, fotogrametri alanından demet ayarlama teorisinde birçok fikrin keşfedildiği fark edilmiştir. Bu, birden çok görüntüden sahnelerin seyrek 3 boyutlu onarımı için farklı yöntemlere yol açmıştır. Yoğun üç boyutlu uygunluk problemi ve daha fazla çoklu-görüntülü üç boyutlu tekniklerinde ilerleme kaydedildi. Aynı zamanda, görüntü ayırmayı çözmek için grafik kesiminin varyasyonları kullanıldı. Bu on yıl içinde, görsellerdeki yüzleri tanımak için istatistiksel öğrenme tekniklerinin ilk kez pratikte kullanılmıştır (Örneğin Eigenface). 1990'ların sonlarına doğru, bilgisayar grafikleri ve bilgisayar görüşü alanları arasındaki etkileşimin artmasıyla önemli bir değişiklik meydana gelmiştir. Bu, görüntü tabanlı oluşturma, görüntü dönüştürme, görünüm enterpolasyonu, panoramik görüntü birleştirme ve erken ışık alanı oluşturmayı içeriyordu.[10]

Son zamanlarda yapılan çalışmalar, makine öğrenimi teknikleri ve karmaşık optimizasyon çerçeveleri ile birlikte kullanılan özellik tabanlı yöntemlerin yeniden canlandığını gördü.[13][14] Derin Öğrenme tekniklerinin ilerlemesi, bilgisayarlı görü alanına daha fazla yenilik getirdi. Sınıflandırma, segmentasyon ve optik akış gibi çeşitli görevler için çeşitli karşılaştırmalı bilgisayarlı görü veri setlerinde derin öğrenme algoritmalarının doğruluğu önceki yöntemleri geride bırakmıştır.

İlgili alanlar

Fotoğrafta Nesne tespiti

Katı hal fiziği

Katı hal fiziği, bilgisayarlı görü ile yakından ilgili olan başka bir alandır. Çoğu bilgisayarlı görü sistemi, tipik olarak görünür veya kızılötesi ışık şeklinde olan elektromanyetik radyasyonu algılayan görüntü sensörleri ile çalışmaktadır. Sensörler, kuantum fiziği kullanılarak tasarlanmıştır. Işığın yüzeylerle etkileşime girdiği süreç fizik kurallar kullanılarak açıklanmaktadır. Fizik, çoğu görüntüleme sisteminin temel bir parçası olan optiğin davranışını açıklar. Gelişmiş görüntü sensörleri, görüntü oluşum sürecini tam olarak anlamak için kuantum mekaniğine bile ihtiyaç duymaktadır.[10] Ayrıca, fizikteki çeşitli ölçüm problemleri, örneğin sıvılarda hareket gibi bilgisayarlı görü kullanılarak ele alınabilmektedir.

Sinir bilimi

Önemli bir rol oynayan ikinci bir alan, sinir bilimi, özellikle biyolojik görü sistemi çalışmasıdır. Geçen yüzyılda, hem insanlarda hem de çeşitli hayvanlarda görsel uyaranların işlenmesi için çalışan gözler, nöronlar ve beyin yapıları üzerinde kapsamlı bir çalışma yapılmıştır. Bu, görme ile ilgili belirli görevleri çözmek için "gerçek" görüntü sistemlerinin nasıl çalıştığına dair kaba, ancak karmaşık bir açıklamaya yol açmıştır. Bu sonuçlar, yapay sistemlerin, biyolojik sistemlerden farklı karmaşıklık düzeylerinde işlenmesine yol açmıştır. Aynı zamanda davranışları taklit edecek şekilde tasarlandığı bilgisayarlı görü içinde bir alt alana yol açmıştır. Ayrıca, bilgisayarlı görü içinde geliştirilen öğrenmeye dayalı yöntemlerden bazıları (örneğin; sinir ağı, derin öğrenme tabanlı görüntü ve özellik analizi ve sınıflandırma) biyoloji geçmişine sahiptir.

Bilgisayarlı görü araştırmalarının bazı türleri, biyolojik vizyon araştırmalarıyla yakından ilgilidir. Aslında, yapay zeka araştırmalarının birçok türünün insan bilincine yönelik araştırmalarla ve görsel bilgileri yorumlamak, entegre etmek ve kullanmak için depolanan bilginin kullanımıyla yakından bağlantılı olması gibi örnekler verilebilmektedir. Biyolojik görme alanı, insanlarda ve diğer hayvanlarda görsel algının arkasındaki fizyolojik süreçleri inceler ve modeller. Bilgisayarlı görü ise yapay görme sistemlerinin arkasında yazılım ve donanımda uygulanan süreçleri inceler ve açıklar. Biyolojik ve bilgisayarlı görü arasındaki disiplinler arası alışveriş her iki alan için de verimli olmaktadır.[15]

Sinyal işleme

Bilgisayarlı görü ilgili bir başka alan da sinyal işlemedir. Tek değişkenli sinyallerin, tipik olarak zamansal sinyallerin işlenmesine yönelik birçok yöntem, bilgisayarlı görüde iki değişkenli sinyallerin veya çok değişkenli sinyallerin işlenmesine doğal bir şekilde genişletilebilmektedir. Bununla birlikte, görüntülerin özel doğası nedeniyle, tek değişkenli sinyallerin işlenmesinde karşılığı olmayan, bilgisayarlı görü içerisinde geliştirilen birçok yöntem vardır. Sinyalin çok boyutluluğuyla birlikte, sinyal işlemede bilgisayar görüşünün bir parçası olarak bir alt alanı tanımlanmaktadır.

Robotik navigasyon

Robot navigasyonu, robotik sistemlerin bir ortamda gezinmesi için otonom yol planlaması veya düşüncesiyle ilgilenmektedir.[16] İçlerinde gezinmek için bu ortamların ayrıntılı olarak anlaşılması gerekmektedir. Çevre hakkındaki bilgiler, bir görüntü sensörü görevi gören ve çevre ile robot hakkında üst düzey bilgi sağlayan bir bilgisayar görüntü sistemi tarafından sağlanabilir.

Diğer alanlar

Bilgisayarlı görü ile ilgili yukarıda bahsedilen görüşlerin yanı sıra, ilgili araştırma konularının çoğu tamamen matematiksel bir bakış açısıyla da incelenebilmektedir. Örneğin, bilgisayarlı görüdeki birçok yöntem istatistiklere, optimizasyona veya geometriye dayanmaktadır. Son olarak, alanın önemli bir kısmı bilgisayar vizyonunun uygulama yönüne ayrılmıştır; çeşitli yazılım ve donanım kombinasyonlarında mevcut yöntemlerin nasıl gerçekleştirilebileceği veya çok fazla performans kaybetmeden işlem hızı kazanmak için bu yöntemlerin nasıl değiştirilebileceği gibi alanlarla da ilgilenmektedir. Bilgisayarlı görü ayrıca moda e-ticaretinde, envanter yönetiminde, patent araştırmasında, mobilyada ve güzellik endüstrisinde de kullanılmaktadır.

Ayrımlar

Bilgisayarlı görü ile en yakından ilgili alanlar görüntü işleme, görüntü analizi ve makine görüsüdür. Bunların kapsadığı çeşitli teknikler ve uygulamalar arasında önemli bir benzerlik vardır. Bunun anlamı, bu alanlarda kullanılan ve geliştirilen temel tekniklerin benzer olduğunu, farklı isimlere sahip tek bir alan olduğu şeklinde yorumlanabilecek olduğunu ima etmektedir. Öte yandan, araştırma gruplarının, bilimsel dergilerin, konferansların ve şirketlerin kendilerini özellikle bu alanlardan birine ait olarak sunmaları veya pazarlamaları gerekli görünmektedir. Bu nedenle, her alanı diğerlerinden ayıran çeşitli nitelendirmeler olmuştur. Bilgisayar grafikleri, 3D modellerden görüntü verileri üretmektedir, bilgisayarlı görü genellikle görüntü verilerinden 3D modeller üretmektedir.[17] Örneğin artırılmış gerçeklikte keşfedildiği gibi, iki disiplinin bir kombinasyonuna doğru bir eğilim vardır.

Aşağıdaki nitelendirmeler konuyla ilgili görünmektedir ancak evrensel olarak kabul edildiği gibi alınmamalıdır:

  • Görüntü işleme ve görüntü analizi genellikle 2D görüntülere, bir görüntünün diğerine nasıl dönüştürüleceğine, örneğin kontrast geliştirme gibi piksel bazlı işlemler, kenar çıkarma veya gürültü giderme gibi yerel işlemler veya görüntüyü döndürme gibi geometrik dönüşümlere odaklanma eğilimindedir. Bu tanımlandırma, görüntü işlemenin veya analizinin, ne varsayımlar gerektirdiğini ne de görüntü içeriği hakkında yorumlar üretmediğini ima etmektedir.
  • Bilgisayarlı görü, 2D görüntülerden 3D görüntü analizini içermektedir. Bu, bir veya birkaç görüntü üzerine yansıtılan 3D sahneyi analiz eder, örneğin; 3D sahne hakkındaki yapının veya diğer bilgilerin bir veya birkaç görüntüden nasıl yeniden yapılandırılacağı ifade etmektedir. Bilgisayarlı görü genellikle bir görüntüde tasvir edilen sahne hakkında az çok karmaşık varsayımlara dayanmaktadır.
  • Makine görüsü, endüstriyel uygulamalarda görüntüleme tabanlı otomatik inceleme, süreç kontrolü ve robot rehberliği sağlamak için bir dizi teknolojiyi ve yöntemi uygulama sürecidir.[18] Makine görüsü, temel olarak üretimde, örneğin vizyon tabanlı robotlar ve görsel tabanlı inceleme, ölçüm veya toplama (çöp toplama gibi[19]) sistemleri gibi uygulamalara odaklanma eğilimindedir. Bu, görüntü sensörü teknolojilerinin ve kontrol teorisinin genellikle bir robotu kontrol etmek için görüntü verilerinin işlenmesi ile bütünleştirildiği sonucu çıkarılmaktadır. Ayrıca gerçek zamanlı işlemenin donanım ve yazılımdaki verimli uygulamalarla vurgulandığı anlamına gelmektedir. Aynı zamanda, aydınlatma gibi dış koşulların, makine görüşünde genel bilgisayarlı görüde olduğundan daha fazla kontrol edilebileceğini ve genellikle daha kontrollü olduğunu ifade etmektedir. Bu da farklı algoritmaların kullanılmasını sağlayabileceğini ima etmektedir.
  • Öncelikle görüntü üretme sürecine odaklanan, ancak bazen görüntülerin işlenmesi ve analizi ile ilgilenen görüntüleme adı verilen bir alan da vardır. Örneğin, tıbbi görüntüleme, tıbbi uygulamalardaki görüntü verilerinin analizine yönelik önemli çalışmaları içermektedir.
  • Son olarak, örüntü tanıma, temel olarak istatistiksel yaklaşımlara ve yapay sinir ağlarına dayanan, genel olarak sinyallerden bilgi çıkarmak için çeşitli yöntemler kullanan bir alandır.[20] Bu alanın önemli bir kısmı, bu yöntemlerin görüntü verilerine uygulanmasına ayrılmıştır.

Uygulama alanları

Nesne tanımlama
Nesne tanımlama

Uygulamalar, üretim hattında hızla ilerleyen şişeleri inceleyen endüstriyel makine görme sistemleri gibi görevlerden, yapay zeka ve çevrelerindeki dünyayı kavrayabilen bilgisayarlar veya robotlar üzerine araştırmalara kadar uzanmaktadır. Bilgisayarlı görü ve makine görüsü alanları önemli ölçüde örtüşmektedir. Bilgisayarlı görü, birçok alanda kullanılan otomatik görüntü analizinin temel teknolojisini kapsamaktadır. Makine görüsü genellikle, endüstriyel uygulamalarda otomatik inceleme ve robot rehberliği sağlamak için otomatik görüntü analizini diğer yöntem ve teknolojilerle birleştirme sürecini ifade etmektedir. Pek çok bilgisayarlı görü uygulamasında, bilgisayarlar belirli bir görevi çözmek için önceden programlanmıştır, ancak öğrenmeye dayalı yöntemler artık giderek yaygınlaşmaktadır. Bilgisayarlı görü uygulamalarının örnekleri aşağıdakilere yönelik sistemleri içermektedir:

3B şekilleri öğrenmek, bilgisayarla görme alanında zor bir görev olmuştur. Derin öğrenme alanındaki son gelişmeler, araştırmacıların tek veya çoklu görünümden derinlik haritası veya siluetlerden sorunsuz ve verimli bir şekilde 3B şekilleri yeniden oluşturabilen ve üretebilen modeller oluşturmasını sağlamıştır.[21]
  • Otomatik inceleme, örneğin imalat uygulamalarında;
  • İnsanları tanımlama görevlerinde yardımcı olmak, örneğin bir tür tanımlama sistemi;[22]
  • Kontrol süreçleri, örneğin bir endüstriyel robot;
  • Olayları tespit etme, örneğin görsel izleme veya insan sayımı;
  • Etkileşim, örneğin bilgisayar-insan etkileşimi için bir cihaza girdi olarak;
  • Nesneleri veya ortamları modelleme, örneğin, tıbbi görüntü analizi veya topografik modelleme;
  • Navigasyon, örneğin, otonom bir araç veya mobil robot yön bulma;
  • Bilgilerin düzenlenmesi, örneğin görüntü veri tabanlarının ve görüntü dizilerinin indekslenmesi.

Sağlık

En önemli uygulama alanlarından biri, bir hastayı teşhis etmek için görüntü verilerinden bilgilerin çıkarılmasıyla bir sonuç elde eden tıbbi bilgisayarlı görü veya tıbbi görüntü işlemedir. Bunun bir örneği, tümörlerin veya diğer anormal değişikliklerin saptanmasıdır; organ boyutları, kan akışı vb. ölçümleri başka bir örnektir. Aynı zamanda yeni bilgiler sağlayarak tıbbi araştırmaları desteklemektedir: örneğin beynin yapısı veya tıbbi tedavilerin kalitesi hakkında. Tıbbi alandaki bilgisayarlı görü uygulamaları, örneğin gürültünün etkisini azaltmak için insanlar tarafından yorumlanan ultrasonik görüntüler veya X-ışını görüntüleri tarafından yorumlanan görüntülerin geliştirilmesini de içermektedir.

Makine görüsü

Bilgisayarlı görüdeki ikinci bir uygulama alanı, makine görüsü olarak adlandırılan ve bir üretim sürecini desteklemek amacıyla bilginin çıkarıldığı endüstridir. Bir örnek vermek gerekir ise, kusurları bulmak için ayrıntıların veya nihai ürünlerin otomatik olarak incelendiği kalite kontrolüdür. Bir başka örnek, bir robot kol tarafından alınacak detayların konumunun ve yönünün ölçülmesidir. Optik ayırma adı verilen bir işlem olan, istenmeyen gıda maddelerini dökme malzemeden çıkarmak için tarımsal süreçte yoğun bir şekilde makine görüsü kullanılmaktadır.[23]

Askerî

Bilgisayarlı görü kullanan bir insansız hava aracı.
Bilgisayarlı görü kullanan bir insansız hava aracı.

Askerî uygulamalar muhtemelen bilgisayarlı görünün en geniş alanlarından biridir. En belirgin örnekler, düşman askerlerinin veya araçlarının tespiti ve füze rehberliğidir. Füze güdümüne yönelik daha gelişmiş sistemler, füzeyi belirli bir hedef yerine bir bölgeye göndermekte ve yerel olarak elde edilen görüntü verilerine göre füze alana ulaştığında hedef seçimi yapılmaktadır. "Savaş alanı farkındalığı" gibi modern askeri kavramlar, görüntü sensörleri de dahil olmak üzere çeşitli sensörlerin, stratejik kararları desteklemek için kullanılabilecek bir savaş sahnesi hakkında zengin bir bilgi kümesi sağladığını ifade etmektedir. Bu durumda, verilerin otomatik olarak işlenmesi, karmaşıklığı azaltmak ve güvenilirliği artırmak için birden çok sensörden gelen bilgileri birleştirmek için kullanılır.

Otonom araçlar

Kara tabanlı vidasız bir araç örneği olan Curiosity adlı sanatçının Curiosity konsepti. Gezginin üstüne monte edilmiş stereo kameraya dikkat edin.

Yeni uygulama alanlarından biri, su altı araçları, kara tabanlı araçları (tekerlekli, arabalı veya kamyonlu küçük robotlar), hava araçları ve insansız hava araçlarını (İHA) içeren otonom araçlardır. Özgürlük seviyesi, tamamen otonom (insansız) araçlardan, bilgisayar destekli sistemlerin çeşitli durumlarda bir sürücüyü veya pilotu desteklediği araçlara kadar uzanmaktadır. Tamamen otonom araçlar genellikle navigasyon için bilgisayarlı görüyü kullanır, örneğin; nerede olduğunu bilmek veya çevresinin bir haritasını oluşturmak ve engelleri tespit etmek için kullanılmaktadır. Ayrıca, orman yangınlarını arayan bir İHA gibi belirli göreve özgü olayları tespit etmek için de kullanılabilmektedir. Destekleyici sistemlere örnek olarak, arabalardaki engel uyarı sistemleri ve uçakların otonom inişi için sistemler verilebilmektedir. Birkaç otomobil üreticisi otomobillerin otonom sürüşü için sistemler gösterdiler, ancak bu teknoloji hala piyasaya sürülebilecek bir seviyeye ulaşılamamıştır. Gelişmiş füzelerden keşif görevleri veya füze rehberliği için İHA'lara kadar geniş askeri otonom araç örnekleri vardır. NASA'nın Curiosity ve CNSA'nın (China National Space Administration, Çin Ulusal Uzay İdaresi) Yutu-2 gezgini gibi bilgisayarlı görü kullanan otonom araçlarla uzay araştırmaları yapılmaktadır.

Özgün görevleri

Uygulama alanlarının her biri bir dizi bilgisayarlı görü görevi kullanır; çeşitli yöntemler kullanılarak çözülebilen az çok iyi tanımlanmış ölçüm problemleri veya işleme problemleri. Özgün bilgisayarlı görü görevlerinin bazı örnekleri aşağıda sunulmuştur.

Bilgisayarlı görü görevleri, sayısal veya sembolik bilgiler, örneğin karar formlarında üretmek için dijital görüntüleri elde etme, işleme, analiz etme ve anlama ve gerçek dünyadan yüksek boyutlu verilerin çıkarılmasına yönelik yöntemleri içermektedir.[4][5] Bu bağlamda anlamak, görsel imgelerin (retinanın girdisi) diğer düşünce süreçleriyle ara yüz oluşturabilen ve uygun eylemi ortaya çıkarabilen dünyanın tanımlarına dönüştürülmesi anlamına gelmektedir. Bu görüntü anlayışı, geometri, fizik, istatistik ve öğrenme teorisi yardımıyla oluşturulan modeller kullanılarak görüntü verilerinden sembolik bilgilerin çözülmesi olarak görülebilmektedir.[7]

Tanıma

Bilgisayarlı görü, görüntü işleme ve makine görüsündeki başlıca sorunlardan biri görüntü verilerinin belirli bir nesne, özellik veya etkinlik içerip içermediğini belirlemektir. Literatürde tanıma sorunu farklı şekillerde ele alınmıştır.[24]

  • Nesne tanıma (nesne sınıflandırması da denir): Önceden belirlenmiş veya öğrenilmiş bir veya birkaç nesne veya nesne sınıfı, genellikle görüntüdeki 2D konumlarıyla veya sahnedeki 3D pozisyonlarıyla birlikte tanınabilmektedir. Blippar, Google Goggles ve LikeThat, bu işlevi gösteren bağımsız programlar sağlamaktadır.
  • Kimlik: Bir nesnenin tek bir örneği tanınır. Örnekler arasında belirli bir kişinin yüzünün veya parmak izinin tanımlanması, el yazısı rakamların tanımlanması veya belirli bir aracın tanımlanması yer almaktadır.
  • Tespit etme: Görüntü verileri belirli bir koşul için taranır. Örnekler arasında, tıbbi görüntülerde olası anormal hücrelerin veya dokuların tespiti veya bir aracın otomatik yol geçiş ücreti sisteminde tespit edilmesi yer almaktadır. Nispeten basit ve hızlı hesaplamalara dayanan tespit etme, bazen doğru bir yorumlama üretmek için daha hesaplama gerektiren tekniklerle daha fazla analiz edilebilen ilginç görüntü verilerinin daha küçük bölgelerini bulmak için kullanılmaktadır.

Şu anda, bu tür görevler için en iyi algoritmalar evrişimli sinir ağlarına dayanmaktadır. Yeteneklerinin bir örneği, ImageNet Büyük Ölçekli Görsel Tanıma Yarışması'nda verilmiştir; Bu, yarışmada kullanılan milyonlarca görüntü ve 1000 nesne sınıfıyla nesne sınıflandırma ve tespitinde bir kriterdir.[14] ImageNet testlerinde evrişimli sinir ağlarının performansı artık insanlarınkine yakındır.[14] En iyi algoritmalar, bir çiçeğin gövdesindeki küçük bir karınca veya elinde bir tüyü tutan bir kişi gibi küçük veya ince nesnelerle hala uğraşmaktadır. Ayrıca, filtrelerle bozulmuş görüntülerle de sorun yaşamaktadır. Bilgisayarların aksine, bu tür görüntüler insanları nadiren rahatsız etmektedir. Bununla birlikte, insanlar başka konularda sorun yaşama eğilimindedir. Örneğin, nesneleri belirli bir köpek türü veya kuş türleri gibi ince taneli sınıflara ayırmada iyi değillerdir, oysa evrişimli sinir ağları bunu kolaylıkla halletmektedir.

Aşağıdakiler gibi, tanımaya dayalı birkaç özel görev mevcuttur:

  • İçeriğe dayalı görüntü alma: Belirli bir içeriğe sahip daha büyük bir görüntü kümesindeki tüm görüntüleri bulmaktadır. İçerik, örneğin bir hedef görüntüye göre benzerlik açısından veya metin girişi olarak verilen üst düzey arama kriterleri gibi farklı şekillerde belirtilebilmektedir.
Halka açık yerlerde, alışveriş merkezlerinde, alışveriş merkezlerinde kişi sayma amaçlı bilgisayarla görme
  • Poz tahmini: Kameraya göre belirli bir nesnenin konumunu veya yönünü tahmin edebilmektedir.
  • Optik karakter tanıma: Genellikle metni düzenleme veya indekslemeye daha uygun bir formatta (örneğin ASCII) kodlamak amacıyla basılı veya el yazısı metnin görüntülerindeki karakterlerin tanımlanmasıdır.
  • 2D kod okuma: Veri matrisi ve QR kodları gibi 2D kodların okumaktadır.
  • Yüz tanıma
  • Şekil Tanıma Teknolojisi: İnsanları nesnelerden ayıran teknolojidir.

Hareket analizi

Çeşitli görevleri vardır. Bir görüntü dizisinin, görüntüdeki veya 3D sahnedeki her noktada veya hatta görüntüleri üreten kameranın hızının bir tahminini üretmek için işlendiği hareket tahminiyle ilgilidir. Bu tür görevlerin örnekleri şunlardır:

  • Egomotion: Kamera tarafından üretilen bir görüntü dizisinden kameranın 3D katı hareketini (döndürme ve öteleme) belirlemedir.
  • Takip: Görüntü dizisindeki (genellikle) daha küçük bir dizi ilgi noktası veya nesnenin (örneğin araçlar, nesneler, insanlar veya diğer organizmalar[25]) hareketlerini takip etmektir. Bu, yüksek çalışan makinelerin çoğu bu şekilde izlenebildiği için geniş endüstri uygulamalarına sahiptir.
  • Optik akış: Görüntüdeki her nokta için o noktanın görüntü düzlemine göre nasıl hareket ettiğini belirlemek için kullanılmaktadır. Bu hareket, hem ilgili 3D noktasının sahnede nasıl hareket ettiğinin hem de kameranın sahneye göre nasıl hareket ettiğinin bir sonucudur.

Sahne yapılandırılması

Bir sahnenin veya videonun bir veya (özgün olarak) daha fazla görüntüsü verildiğinde, sahne yeniden yapılandırması sahnenin 3D modelini hesaplamayı amaçlamaktadır. En basit durumda, model bir dizi 3D nokta olabilmektedir. Daha karmaşık yöntemler, eksiksiz bir 3D yüzey modeli üretebilmektedir. Hareket veya tarama gerektirmeyen 3D görüntülemenin ve ilgili işleme algoritmalarının ortaya çıkışı, bu alanda hızlı ilerlemeler sağlamaktadır. Izgara tabanlı 3D algılama, birden çok açıdan 3D görüntüler elde etmek için kullanılabilmektedir. Algoritmalar artık birden fazla 3D görüntüyü nokta bulutları ve 3D modeller halinde birleştirmek için kullanılabilmektedir.[26]

Görüntü onarımı

Görüntü onarımının amacı, görüntülerden gürültünün (sensör gürültüsü, hareket bulanıklığı vb.) giderilmesidir. Gürültünün giderilmesi için mümkün olan en basit yaklaşım, düşük geçişli filtreler veya medyan filtreler gibi çeşitli filtre türleridir. Daha karmaşık yöntemler, onları gürültüden ayırmak için yerel görüntü yapılarının nasıl göründüğüne dair bir model varsaymaktadır. Önce görüntü verilerinin çizgiler veya kenarlar gibi yerel görüntü yapıları açısından analiz edilmesi ve ardından analiz aşamasından gelen yerel bilgilere dayalı olarak filtrelemenin kontrol edilmesiyle, daha basit yaklaşımlara kıyasla genellikle daha iyi bir gürültü giderme seviyesi elde edilmektedir.

Bu alandaki bir örnek de boyamadır (Fotoğraflarda veya videolarda renk değişimi yapılması).

Sistem yöntemleri

Bir bilgisayarlı görü sisteminin organizasyonu büyük ölçüde uygulamaya bağlıdır. Bazı sistemler, belirli bir ölçüm veya algılama problemini çözen bağımsız uygulamalardır. Bir bilgisayarla görme sisteminin özel uygulaması aynı zamanda işlevselliğinin önceden belirlenmiş olmasına veya çalışma sırasında bir kısmının öğrenilip değiştirilemeyeceğine de bağlıdır. Birçok işlev uygulamaya özgüdür. Bununla birlikte, birçok bilgisayarlı görü sisteminde bulunan tipik işlevler vardır.

  • Görüntü edinme: Bir dijital görüntü, çeşitli ışığa duyarlı kameraların yanı sıra mesafe sensörleri, tomografi cihazları, radar, ultrasonik kameralar ve benzeri araçları içeren bir veya birkaç görüntü sensörü tarafından üretilmektedir. Sensör tipine bağlı olarak, ortaya çıkan görüntü verileri sıradan bir 2D görüntü, 3D hacim veya bir görüntü dizisidir. Piksel değerleri tipik olarak bir veya birkaç spektral banttaki (gri görüntüler veya renkli görüntüler) ışık yoğunluğuna karşılık gelir, ancak derinlik, sonik veya elektromanyetik dalgaların soğurulması veya yansıması veya nükleer manyetik rezonans gibi çeşitli fiziksel ölçülerle de ilgili olabilmektedir.[23]
  • Ön işleme: Belirli bir bilgi parçasını çıkarmak için görüntü verilerine bir bilgisayarlı görü yöntemi uygulanmadan önce, yöntemin belirlediği belirli varsayımları karşıladığından emin olmak için genellikle verileri işlemek gerekmektedir. Örnekler:
    • Görüntü koordinat sisteminin doğru olduğundan emin olmak için yeniden örnekleme.
    • Sensör gürültüsünün yanlış bilgi vermemesini sağlamak için gürültü azaltma.
    • İlgili bilgilerin tespit edilebilmesini sağlamak için karşıtlık geliştirme.
    • Görüntü yapılarını yerel olarak uygun ölçeklerde geliştirmek için alan gösterimini ölçeklendirme.
  • Özellik çıkarma: Çeşitli karmaşıklık düzeylerindeki görüntü özellikleri, görüntü verilerinden çıkarılır. Bu tür özelliklerin özgün örnekleri şunlardır:
    • Çizgiler, kenarlar ve sırtlar.
    • Köşeler, lekeler veya noktalar gibi yerelleştirilmiş ilgi noktaları.

Daha karmaşık özellikler doku, şekil veya hareketle ilgili olabilmektedir.

  • Algılama / bölümleme (segmentation): İşlemenin bir noktasında, görüntünün hangi görüntü noktalarının veya bölgelerinin daha sonraki işlemlerle ilgili olduğuna dair bir karar verilmektedir. Örnekler:
    • Belirli bir ilgi noktası kümesinin seçilmesi.
    • Belirli bir ilgi nesnesini içeren bir veya birden çok görüntü bölgesinin bölümlenmesi.
    • Görüntünün ön plan, nesne grupları, tek nesneler veya göze çarpan nesne parçalarını içeren iç içe geçmiş sahne mimarisine bölünmesi,[27] görsel belirginlik ise genellikle uzamsal ve zamansal dikkat olarak uygulanması.
  • Üst düzey işleme: Bu adımda, girdi tipik olarak küçük bir veri kümesidir, örneğin belirli bir nesneyi içerdiği varsayılan bir dizi nokta veya bir görüntü bölgesidir.[23] Örneğin aşağıdakilerle ilgilenir:
    • Verilerin model tabanlı ve uygulamaya özgü varsayımları karşıladığının doğrulanması.
    • Nesne duruşu veya nesne boyutu gibi uygulamaya özel parametrelerin tahmini.
    • Görüntü tanıma - tespit edilen bir nesneyi farklı kategorilere ayırmak.
    • Görüntü kaydı - aynı nesnenin iki farklı görünümünü karşılaştırmak ve birleştirmek.
  • Karar verme: Başvuru için gerekli olan nihai kararın verilmesidir. Örneğin:
    • Otomatik denetim uygulamalarında başarılı / başarısız.
    • Tanıma uygulamalarında eşleşme / eşleşme yok.

Görüntü anlama sistemleri

Görüntü anlama sistemleri (Image-understanding systems: IUS) aşağıdaki gibi üç soyutlama düzeyi içermektedir: düşük düzey; kenarlar, doku öğeleri veya bölgeler gibi görüntü temel öğelerini içermektedir; orta seviye; sınırları, yüzeyleri ve hacimleri içermektedir. Yüksek seviye; nesneleri, sahneleri veya olayları içermektedir. Bu gereksinimlerin çoğu, tamamen daha fazla araştırma yapılması gereken konulardır.

Bu seviyeler için IUS tasarımındaki temsil gereksinimleri şunlardır: Prototipik kavramların temsili, konsept organizasyonu, mekansal bilgi, zamansal bilgi, ölçekleme ve karşılaştırma ve farklılaştırma yoluyla açıklamadır. Çıkarım, şu anda bilinen gerçeklerden açıkça temsil edilmeyen yeni gerçekleri türetme sürecini ifade ederken; kontrol, işlemenin belirli bir aşamasında birçok çıkarım, arama ve eşleştirme tekniklerinden hangisinin uygulanması gerektiğini seçen süreci ifade etmektedir. IUS için çıkarım ve kontrol gereksinimleri şunlardır: Arama ve hipotez aktivasyonu, eşleştirme ve hipotez testi, beklentilerin oluşturulması ve kullanılması, dikkatin değişmesi ve odağı, inancın kesinliği ve gücü, çıkarım ve hedef tatminidir.[28]

Kullanılan araçlar

Bilgisayarlı görü, birçok endüstri ve sektörde çok ihtiyaç duyulan devrimi getirdi. Bulut üzerinden hizmet olarak GPU, Makine Öğrenimi cihazları ve ML platformu gibi donanımlardaki gelişmeler, günümüzde bilgisayarla görmeyi daha etkileyici hale getirdi. Bu yazılım donanımlarından en çok kullanılan 6 tanesi ise:[29]

  • OpenCV: Bu iyi bilinen kitaplıktır. Görüntü ve video işleme görevlerini yürütmek için temel stratejileri ve algoritmaları kapsayan çok platformlu bir yöntemdir. OpenCV işlevleri C++ ve Python dilleri ile çalışmaktadır.
  • Tensorflow: Google tarafından geliştirilmiştir. TensorFlow 2.0, resimler, konuşma tanıma, nesne algılama, güçlendirilmiş öğrenme ve öneriler için önceden ayarlanmış ve hazırlanmış modellerin yürütülmesini sağlamaktadır.
  • Matlab: Görüntü işleme uygulamaları yapmak için en iyi araçlardan bir tanesidir. Hızlı örneklemeye izin verdiği için araştırmalarda kullanılmaktadır. C++ dili ile karşılaştırıldığında çok sadedir ve sorun gidermeyi kolaylaştırmaktadır.
  • CUDA: NVIDIA'nın bu aracı, paralel hesaplamanın temeli olarak kullanılmaktadır. CUDA, inanılmaz performans sunmak için GPU'ların gücünü kullanmaktadır. Araç kutusu, bir dizi görüntü, sinyal ve video işleme işlevini içeren NVIDIA Performance Primitives kitaplığını içermektedir.
  • Theano: Bu Python tabanlı sayısal kitaplıktır. CPU veya GPU üzerinde çalışabilmektedir. Kanada'daki Montreal Üniversitesi'ndeki LISA grubu tarafından oluşturulmuştur. Araç, matematiksel ifadeleri kontrol etmek ve değerlendirmek için geliştirici bir derleyici olarak kullanılmaktadır.
  • Keras: Farklı kitaplıkların en iyisini araçlarını birleştiren başka bir Python tabanlı derin öğrenme kitaplığıdır. TensorFlow, Theano ve CNTK'nın gücünü birleştirerek popülerlik kazanmıştır. TensorFlow, Microsoft Cognitive Toolkit, PlaidML veya Theano üzerinde çalışabilmektedir. Keras genellikle derin sinir ağları ile hızlı sonuçlar çıkarmak için kullanılmaktadır

Donanım

LIDAR sensörlü bir 2020 model iPad Pro

Pek çok tür bilgisayarlı görü sistemi vardır; ancak hepsi şu temel öğeleri içermektedir: bir güç kaynağı, en az bir görüntü edinme cihazı (kamera, ccd, vb.), bir işlemci ve kontrol ve iletişim kabloları veya bir tür kablosuz ara bağlantı mekanizması. Ek olarak, pratik bir görsel denetim sistemi ve sistemi izlemek için yazılımın yanı sıra bir ekran içermektedir. İç mekanlar için görüntü sistemleri, çoğu endüstriyel sistemde olduğu gibi, bir aydınlatma sistemi içerir ve kontrollü bir ortama yerleştirilebilmektedir. Ayrıca, tamamlanmış bir sistem, kamera destekleri, kablolar ve konektörler gibi birçok aksesuarı içermektedir.

Çoğu bilgisayarlı görü sistemi, bir sahneyi saniyede en fazla 60 kare (genellikle çok daha yavaş) kare hızlarında pasif olarak görüntüleyen görünür ışık kameraları kullanılmaktadır. Birkaç bilgisayarlı görü sistemi, yapılandırılmış ışıklı 3D tarayıcılar, termografik kameralar, hiperspektral görüntüleyiciler, radar görüntüleme, lidar tarayıcılar, manyetik rezonans görüntüleri, yandan taramalı sonar gibi aktif aydınlatmalı veya görünür ışıktan başka bir şey veya her ikisine sahip görüntü toplama donanımını kullanmaktadır. Bu tür donanım, görünür ışıklı görüntüleri işlemek için kullanılan aynı bilgisayar görme algoritmaları kullanılarak daha sonra sıklıkla işlenen "görüntüleri" yakalamaktadır. Geleneksel yayın ve tüketici video sistemleri saniyede 30 kare hızında çalışırken, dijital sinyal işleme ve tüketici grafik donanımındaki gelişmeler, saniyede binlerce kare ile yüzlerce gerçek zamanlı sistemler için yüksek hızlı görüntü alma, işleme ve görüntülemeyi mümkün kılmıştır. Robotikteki uygulamalar için hızlı, gerçek zamanlı video sistemleri kritik öneme sahiptir ve genellikle belirli algoritmalar için gerekli olan işlemeyi basitleştirebilmiştir. Yüksek hızlı bir projektörle birleştirildiğinde, hızlı görüntü elde etme, 3D ölçümün ve özellik izlemenin gerçekleştirilmesine olanak tanımaktadır.[30]

2016 itibarıyla, görüntü işleme birimleri, bu roldeki CPU'ları ve grafik işleme birimlerini (GPU) tamamlamak için yeni bir işlemci sınıfı olarak ortaya çıkarmaktadır.[31]

Geleceği

Teknolojinin daha fazla araştırılması ve iyileştirilmesiyle, bilgisayarlı görünün geleceği için daha geniş bir işlev yelpazesi gerçekleştirdiğini gösterecektir. Yalnızca bilgisayarlı görü teknolojilerinin eğitilmesi daha kolay olmayacak, aynı zamanda görüntülerden şu anda olduğundan daha fazlasını ayırt edebilecektir. Bilgisayarlı görü, daha güçlü uygulamalar oluşturmak için diğer teknolojilerle veya diğer yapay zeka alt kümeleriyle birlikte kullanılabileceği anlamına gelmektedir. Örneğin, resim yazısı oluşturma uygulamaları, çevredeki nesneleri görme engelli kişiler için yorumlamak için doğal dil işleme ile birleştirilebilecektir. Aynı zamanda yapay genel zeka ve yapay süper zekanın geliştirilmesinde, onlara bilgiyi insan görsel sistemi kadar hatta daha iyi işleme yeteneği vererek hayati bir rol oynayacaktır.[32] Günümüzün teknoloji yetenekleri düşünüldüğünde, keşfedilmemiş kalan teknolojinin daha fazla faydası ve uygulaması olduğuna inanmak zor olabilmektedir. Bilgisayarlı görünün geleceği, bizim kadar insan olan yapay zeka sistemlerinin önünü açacaktır. Bununla birlikte, üstesinden gelinmesi gereken birkaç zorluk var, bunların en büyüğü yapay zekanın kara kutusunun gizemini çözmektir. Bunun nedeni, tıpkı diğer derin öğrenme uygulamaları gibi, işlevsel olarak etkili olmasına rağmen, iç işleyişi söz konusu olduğunda bu teknolojinin çözülemez olmasıdır.[32]

Ayrıca bakınız

Kaynakça

  1. ^ a b Ballard, Dana H. (1982). Computer vision. Christopher M. Brown. Englewood Cliffs, N.J.: Prentice-Hall. ISBN 0-13-165316-4. OCLC 7978044. 5 Haziran 2020 tarihinde kaynağından arşivlendi. Erişim tarihi: 23 Mayıs 2021. 
  2. ^ a b Proceedings : 1996 CERN School of Computing : Egmond aan Zee, the Netherlands, 8 September-21 September 1996. C. E. Vandoni. Cenevre: CERN. 1996. ISBN 92-9083-095-6. OCLC 36583267. 19 Eylül 2019 tarihinde kaynağından arşivlendi. Erişim tarihi: 23 Mayıs 2021. 
  3. ^ a b Sonka, Milan (2008). Image processing, analysis, and machine vision. 3rd ed. Vaclav Hlavac, Roger Boyle. Toronto: Thompson Learning. ISBN 0-495-08252-X. OCLC 123776599. 19 Eylül 2019 tarihinde kaynağından arşivlendi. Erişim tarihi: 23 Mayıs 2021. 
  4. ^ a b Klette, Reinhard (2014). Concise computer vision : an introduction into theory and algorithms. Londra. ISBN 978-1-4471-6320-6. OCLC 869222487. 19 Eylül 2019 tarihinde kaynağından arşivlendi. Erişim tarihi: 23 Mayıs 2021. 
  5. ^ a b Shapiro, Linda G. (2001). Computer vision. George C. Stockman. Upper Saddle River, NJ: Prentice Hall. ISBN 0-13-030796-3. OCLC 45393572. 19 Eylül 2019 tarihinde kaynağından arşivlendi. Erişim tarihi: 23 Mayıs 2021. 
  6. ^ Morris, Tim (2004). Computer vision and image processing. Basingstoke: Palgrave Macmillan. ISBN 0-333-99451-5. OCLC 52486158. 19 Eylül 2019 tarihinde kaynağından arşivlendi. Erişim tarihi: 23 Mayıs 2021. 
  7. ^ a b Forsyth, David (2003). Computer vision : a modern approach. Jean Ponce. Upper Saddle River, N.J.: Prentice Hall. ISBN 978-0-13-085198-7. OCLC 50100728. 19 Eylül 2019 tarihinde kaynağından arşivlendi. Erişim tarihi: 23 Mayıs 2021. 
  8. ^ "What is computer vision?". web.archive.org. 16 Şubat 2017. 16 Şubat 2017 tarihinde kaynağından arşivlendi. Erişim tarihi: 22 Mayıs 2021. 
  9. ^ "X Prize seeks Star Trek-style tricorder". Physics Today. 2012. doi:10.1063/pt.5.025816. ISSN 1945-0699. 
  10. ^ a b c d Szeliski, Richard (2011). Computer vision : algorithms and applications. Londra: Springer. ISBN 978-1-84882-934-3. OCLC 682910466. 19 Eylül 2019 tarihinde kaynağından arşivlendi. Erişim tarihi: 23 Mayıs 2021. 
  11. ^ Boden, Margaret A. (2008). Mind as machine : a history of cognitive science. [1st paperback ed.] Oxford: Clarendon Press. ISBN 978-0-19-954316-8. OCLC 370242127. 19 Eylül 2019 tarihinde kaynağından arşivlendi. Erişim tarihi: 23 Mayıs 2021. 
  12. ^ Kanade, Takeo (1987). Three-Dimensional Machine Vision. Boston, MA: Springer US. ISBN 978-1-4613-1981-8. OCLC 852791356. 
  13. ^ Machine learning in computer vision. Nicu Sebe. Dordrecht: Springer. 2005. ISBN 978-1-4020-3275-2. OCLC 262677676. 
  14. ^ a b c International Journal of Computer Vision. Springer Science and Business Media LLC. 
  15. ^ Steger, Carsten (2018). Machine vision algorithms and applications. 2nd, completely revised and enlarged Edition. Markus Ulrich, Christian Wiedemann, Wiley-VCH. Weinheim, Germany. ISBN 978-3-527-41365-2. OCLC 1006724129. 
  16. ^ Murray, D.; Jennings, C. "Stereo vision based mapping and navigation for mobile robots". Proceedings of International Conference on Robotics and Automation. IEEE. doi:10.1109/robot.1997.614387. ISBN 0-7803-3612-7. 
  17. ^ Soltani, Amir Arsalan; Huang, Haibin; Wu, Jiajun; Kulkarni, Tejas D.; Tenenbaum, Joshua B. (10 Temmuz 2017). "Synthesizing 3D Shapes via Modeling Multi-view Depth Maps and Silhouettes with Deep Generative Networks". 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). IEEE. doi:10.1109/cvpr.2017.269. ISBN 978-1-5386-0457-1. 
  18. ^ "Advances in computer vision help robots see". Physics Today. 2011. doi:10.1063/pt.5.025462. ISSN 1945-0699. 
  19. ^ Yoo, J.; Borselen, R.V.; Mubarak, M.S.; Tsingas, C. (2019). "Automated First Break Picking Method Using a Random Sample Consensus (RANSAC)". 81st EAGE Conference and Exhibition 2019. European Association of Geoscientists & Engineers. doi:10.3997/2214-4609.201901195. 
  20. ^ Chervyakov, N.I.; Lyakhov, P.A.; Deryabin, M.A.; Nagornov, N.N.; Valueva, M.V.; Valuev, G.V. (10 Eylül 2020). "Residue Number System-Based Solution for Reducing the Hardware Cost of a Convolutional Neural Network". Neurocomputing. 407: 439-453. doi:10.1016/j.neucom.2020.04.018. ISSN 0925-2312. 
  21. ^ Kaynak hatası: Geçersiz <ref> etiketi; 3DVAE isimli refler için metin sağlanmadı (Bkz: )
  22. ^ Zhou, Huan-Xiang (5 Kasım 2008). "The debut of PMC Biophysics". PMC Biophysics. 1 (1). doi:10.1186/1757-5036-1-1. ISSN 1757-5036. 6 Haziran 2020 tarihinde kaynağından arşivlendi. Erişim tarihi: 23 Mayıs 2021. 
  23. ^ a b c Davies, E. R. (2005). Machine vision : theory, algorithms, practicalities. 3rd ed. Amsterdam: Elsevier. ISBN 978-0-08-047324-6. OCLC 162571652. 
  24. ^ Auteur., Forsyth, David A.,. Computer vision : a modern approach. ISBN 978-1-292-01408-1. OCLC 1156470337. 
  25. ^ "Erratum". Methods in Ecology and Evolution. 9 (9): 2041-2041. 26 Temmuz 2018. doi:10.1111/2041-210x.13066. ISSN 2041-210X. 
  26. ^ Soltani, Amir Arsalan; Huang, Haibin; Wu, Jiajun; Kulkarni, Tejas D.; Tenenbaum, Joshua B. (1 Temmuz 2017). "Synthesizing 3D Shapes via Modeling Multi-view Depth Maps and Silhouettes with Deep Generative Networks". 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Honolulu, HI: IEEE: 2511-2519. doi:10.1109/CVPR.2017.269. ISBN 978-1-5386-0457-1. 23 Mayıs 2021 tarihinde kaynağından arşivlendi. Erişim tarihi: 23 Mayıs 2021. 
  27. ^ Maity, Abhishek (8 Şubat 2016). "Improvised Salient Object Detection and Manipulation". International Journal of Image, Graphics and Signal Processing. 8 (2): 53-60. doi:10.5815/ijigsp.2016.02.07. ISSN 2074-9074. 
  28. ^ Encyclopedia of artificial intelligence. 2nd ed. Stuart Charles Shapiro. New York: Wiley. 1992. ISBN 0-471-50307-X. OCLC 24589928. 
  29. ^ Jun 2020, TechnologyTechGig Correspondent | 22; Views: 1876, 01:41 PM |. "Top 6 Computer Vision tools and libraries for ML developers". TechGig. 24 Mayıs 2021 tarihinde kaynağından arşivlendi. Erişim tarihi: 24 Mayıs 2021. 
  30. ^ Kagami, Shingo (1 Haziran 2010). "High-speed vision systems and projectors for real-time perception of the world". 2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition - Workshops. IEEE. doi:10.1109/cvprw.2010.5543776. ISBN 978-1-4244-7029-7. 
  31. ^ Ionica, Mircea Horea; Gregg, David (1 Ocak 2015). "The Movidius Myriad Architecture's Potential for Scientific Computing". IEEE Micro. 35 (1): 6-14. doi:10.1109/mm.2015.4. ISSN 0272-1732. 
  32. ^ a b Joshi, Naveen. "The Present And Future Of Computer Vision". Forbes (İngilizce). 27 Haziran 2019 tarihinde kaynağından arşivlendi. Erişim tarihi: 24 Mayıs 2021. 

İlgili Araştırma Makaleleri

<span class="mw-page-title-main">Bilgisayar bilimi</span> belirli evren kurallarına dayalı, sistematik çalışan ve elementlerin ya da ağların birbirleriyle olan ilişkisi

Bilgisayar bilimi, bilgisayarların tasarımı ve kullanımı için temel oluşturan teori, deney ve mühendislik çalışmasıdır. Hesaplamaya ve uygulamalarına bilimsel ve pratik bir yaklaşımdır. Bilgisayar bilimi; edinim, temsil, işleme, depolama, iletişim ve erişimin altında yatan yönteme dayalı prosedürlerin veya algoritmaların fizibilitesi, yapısı, ifadesi ve mekanizasyonunun sistematik çalışmasıdır. Bilgisayar biliminin alternatif, daha özlü tanımı "büyük, orta veya küçük ölçekli algoritmik işlemleri otomatikleştirme çalışması" olarak nitelendirilebilir. Bir bilgisayar bilimcisi, hesaplama teorisi ve hesaplama sistemlerinin tasarımı konusunda uzmanlaşmıştır.

Bilişim, bilişim bilimi ya da bilgisayar bilimi, bilgi ve hesaplamanın kuramsal temellerini ve bunların bilgisayar sistemlerinde uygulanabilmeleri sağlayan pratik teknikleri araştıran bir yapısal bilim dalıdır. Bilişimciler ya da bilgisayar bilimcileri bilgi oluşturan, tanımlayan ve dönüştüren algoritmik süreçler icat edip, kompleks sistemleri tasarlamak ve modellemek için uygun soyutlamalar formüle ederler. Bilişim Dünya'da hızla gelişmeye devam eden önemli bir teknolojidir.

<span class="mw-page-title-main">Yapay zekâ</span> insani zekaya sahip makine ve yazılım geliştiren bilgisayar bilimleri dalı

Yapay zekâ ya da kısaca YZ,, insanlar da dahil olmak üzere hayvanlar tarafından, doğal zekânın aksine makineler tarafından görüntülenen zekâ çeşididir. İlk ve ikinci kategoriler arasındaki ayrım genellikle seçilen kısaltmayla ortaya çıkar. Güçlü yapay zeka genellikle Yapay genel zekâ olarak etiketlenirken, doğal zekayı taklit etme girişimleri yapay biyolojik zekâ olarak adlandırılır. Önde gelen yapay zeka ders kitapları, alanı zeki etmenlerin çalışması olarak tanımlar: Çevresini algılayan ve hedeflerine başarıyla ulaşma şansını en üst düzeye çıkaran eylemleri gerçekleştiren herhangi bir cihaz. Halk arasında, yapay zekâ kavramı genellikle insanların insan zihni ile ilişkilendirdiği öğrenme ve problem çözme gibi bilişsel eylemleri taklit eden makineleri tanımlamak için kullanılır.

<span class="mw-page-title-main">Yapay sinir ağları</span>

Yapay sinir ağları (YSA), insan beyninin bilgi işleme tekniğinden esinlenerek geliştirilmiş bir bilgi işlem teknolojisidir. YSA ile basit biyolojik sinir sisteminin çalışma şekli taklit edilir. Yani biyolojik nöron hücrelerinin ve bu hücrelerin birbirleri ile arasında kurduğu sinaptik bağın dijital olarak modellenmesidir. Nöronlar çeşitli şekillerde birbirlerine bağlanarak ağlar oluştururlar. Bu ağlar öğrenme, hafızaya alma ve veriler arasındaki ilişkiyi ortaya çıkarma kapasitesine sahiptirler. Diğer bir ifadeyle, YSA'lar, normalde bir insanın düşünme ve gözlemlemeye yönelik doğal yeteneklerini gerektiren problemlere çözüm üretmektedir. Bir insanın, düşünme ve gözlemleme yeteneklerini gerektiren problemlere yönelik çözümler üretebilmesinin temel sebebi ise insan beyninin ve dolayısıyla insanın sahip olduğu yaşayarak veya deneyerek öğrenme yeteneğidir.

<span class="mw-page-title-main">Görüntü</span> görme duyusu ile ilgili olan; görüntü ve gözle izlenebilen her şeyin taşıdığı özellik

Görüntü veya imge, bir şeyin görsel temsilidir. Bir görüntü; çizim, resim ve fotoğraf gibi iki boyutlu (2B) bir sunum ya da oyma ve heykel gibi üç boyutlu (3B) bir nesne olabilir. Bir görüntü; bir yüzeye yansıtma, elektronik sinyallerin etkinleştirilmesi veya dijital ekranlar dahil olmak üzere diğer ortamlar aracılığıyla görüntülenebilir. İki boyutlu görüntüler hareketsiz veya hareketli olabilir. Durağan görüntüler, baskı veya fotokopi gibi mekanik yollarla çoğaltılabilir. Bazı durumlarda, üç boyutlu görüntüler de canlandırılabilir.

<span class="mw-page-title-main">Makine öğrenimi</span> algoritmaların ve istatistiksel modellerin kullanımıyla bilgisayarların yapacakları işleri kendileri çözebilmeleri

Makine öğrenimi (ML), veriden öğrenebilen ve görünmeyen verilere genelleştirebilen ve dolayısıyla açık talimatlar olmadan görevleri yerine getirebilen istatistiksel algoritmaların geliştirilmesi ve incelenmesiyle ilgilenen, yapay zekâda akademik bir disiplindir. Makine öğrenimi, bilgisayarların deneyimlerinden öğrenerek karmaşık görevleri otomatikleştirmeyi sağlayan bir yapay zeka alanıdır. Bu, veri analizi yaparak örüntüler tespit etme ve tahminlerde bulunma yeteneğine dayanır. Son zamanlarda yapay sinir ağları, performans açısından önceki birçok yaklaşımı geride bırakmayı başardı.

Bilgisayarlı cebir sistemi (BCS) sembolik matematiği kolaylaştıran yazılım programıdır. BCS işlevselliğinin özü sembolik biçimlerdeki matematiksel ifadelerin işleme koyabilmesidir.

Görsel algı çevredeki objelerin görülebilir spektruma yansıttığı ışığı kullanarak çevreyi yorumlayabilme yeteneğidir. Bu, etrafı ne kadar net görmeyi ifade eden görsel keskinlikten farklıdır. Bir kişi 20/20 vizyonu olsa bile görsel algısal işleme ile ilgili problemler yaşayabilir.

Bilgisayar grafikleri, bilgisayarların ve özel bir grafik donanımı ve yazılımının yardımıyla bir bilgisayar tarafından görüntü verisinin temsilini kullanarak oluşturulmuş grafiklerdir. Bilgisayarların etkileşimi ve anlaşılması ve verinin yorumlanması bilgisayar grafikleri sayesinde oldukça kolaylaşmıştır. Bilgisayar grafik gelişimi birçok çoklu ortam (media) tiplerinde önemli bir etkiye sahiptir ve animasyon, sinema ve video oyun endüstrisinin gelişmesini sağlamıştır.

Sayısal görüntü işleme bilgisayar algoritmaları kullanarak sayısal resimler üzerinde görüntü işlemenin gerçekleştirilmesidir. Sayısal sinyal işlemenin bir alt konusu olarak kabul edilen sayısal görüntü işleme, analog görüntü işlemeye göre birçok avantaja sahiptir. Sayısal görüntü işlemede giriş verilerine uygulanabilecek algoritmalar daha fazladır ve analog görüntü işlemeye göre işlem sırasında ortaya çıkabilecek gürültü artışı ya da sinyal bozulması gibi problemler önlenebilir. Görüntüler iki boyuttan daha fazla boyutta tanımlanabildiğinden beri sayısal görüntü işleme çok boyutlu sistemler şekline modellenebilmektedir.

<span class="mw-page-title-main">Nesnelerin interneti</span>

Nesnelerin interneti, fiziksel nesnelerin birbirleriyle veya daha büyük sistemlerle bağlantılı olduğu iletişim ağıdır. İnternet üzerinden diğer cihazlara ve sistemlere bağlanmak ve veri alışverişi yapmak amacıyla sensörler, yazılımlar ve diğer teknolojilerle gömülüdür. Nesnelerin tekil anahtar ile işaretlenerek internet altyapısı üzerinden birlikte çalışabilmesi ve bu sayede küçük parçaların toplamından daha büyük değerler oluşturulması öngörülmüştür. Askeri sistem için "askerî nesnelerin interneti" yaratılmıştır.

Sembolik matematik; sembolik hesaplama ve cebirsel hesaplamadan oluşan bilgisayar cebrindeki, matematiksel ifadeleri ve diğer matematiksel nesneleri manipüle etmek için kullanılan algoritma ve yazılımların çalışması ve geliştirilmesine atıfta bulunan bilimsel bir alandır.Daha açıkça ifade etmek gerekirse, bilgisayar cebri bilimsel hesaplamanın bir alt alanı sayılır ve bununla beraber bilimsel hesaplama genelde yaklaşık kayan nokta sayılarına ve sayısal yaklaşımlara dayanmaktadır.Buna karşın sembolik hesaplama, hiçbir değişkeni içermeyen ifadelerle tam hesaplamayı vurgulamaktadır.Değişken içermeyen ifadelere ilişkin semboller manipüle edilmektedir ve adı bundan dolayı sembolik matematik olarak kabul edilir.

<span class="mw-page-title-main">Derin öğrenme</span> Makine öğreniminin bir branşı

Derin öğrenme bir veya daha fazla gizli katman içeren yapay sinir ağları ve benzeri makine öğrenme algoritmalarını kapsayan çalışma alanıdır.

<span class="mw-page-title-main">OpenCV</span> bir bilgisayar görüsü kütüphanesi

OpenCV gerçek-zamanlı bilgisayar görüsü uygulamalarında kullanılan açık kaynaklı kütüphane. İlk olarak Intel tarafından geliştirilmiş, daha sonra Willow Garage ve sonra Itseez tarafından sürdürüldü. Bu kütüphane çoklu platform ve BSD lisansı altında açık kaynaklı bir yazılımdır.

Nesne tespiti bilgisayarla görü ve görüntü işleme ile ilgili bilgisayar teknolojisi

Nesne tespiti, dijital görüntülerde ve videolarda belirli bir sınıftaki anlamsal nesnelerin örneklerini algılamakla ilgilenen, bilgisayarla görme ve görüntü işleme ile ilgili bir bilgisayar teknolojisidir. Nesne tespiti, bilgisayarla görme ve görüntü işlemeden farklı olarak algılanan nesnenin görüntü üzerinde koordinatlarının bulunmasını içerir. Bulunan koordinatlar ile nesnenin bir çerçeve ile içine alınacağı alan da tespit edilmiş olur. Nesne tespiti, gerçek zamanlı (anlık) ve gerçek zamanlı olmayan olarak ikiye ayrılır. Üzerinde iyi araştırma yapılmış alanlar yüz tespiti, yaya tespiti ve araç tespitidir. Nesne tespiti, görüntü alma ve video gözetimi dahil olmak üzere bilgisayarla görmenin birçok alanında uygulamaya sahiptir.

<span class="mw-page-title-main">DeepDream</span>

DeepDream, Alexander Mordvintsev adlı Google mühendisi tarafından oluşturulmuştur. DeepDream, algoritmik pareidolia yoluyla görüntülerdeki desenleri tespit etmek ve görüntüleri geliştirmek için evrişimli sinir ağı kullanmaktadır. Böylece aşırı işlenmiş görüntüler vasıtasıyla rüya tarzında halüsinojenik görüntüler oluşturan bilgisayar programıdır.

Video gözetimi için yapay zeka, insanları, araçları, nesneleri ve olayları tanımak için video gözetim kameralarından gelen ses ve görüntüleri analiz eden bilgisayar yazılım programlarını kullanmaktadır. Güvenlik müteahhitleri programı, kamera gözetimi ile korunan mülk için kameranın görüşü ve günün saatleri için programlanan kısıtlı alanları tanımlayan yazılımdır. Yapay zeka, günün o saatinde o bölgeye kimsenin girmesine izin verilmeyen "kural" setini ihlal eden bir kişi tespit ederse bir uyarı göndermektedir.

Robot Hukuku, robotların hem fiziksel hem de çevrimiçi ortamda artan kullanımı ile birlikte ortaya çıkan hukuki sorunları inceleyen, bunlarla ilgili kamu politikaları oluşturmaya çalışan hukuk alanıdır.

<span class="mw-page-title-main">Yapay hayal gücü</span>

Yapay hayal gücü, tahminler, icatlar veya bilinçli deneyimler yaratmak için gerçek veya olası kurgu modelleri üreten, simüle eden ve kolaylatıran yapay genel zekâ'nın bir alt bileşenidir.

Görüntü alma sistemi, geniş bir dijital görüntü veritabanından görüntülere göz atmak, aramak ve almak için kullanılan bir bilgisayar sistemidir. Görüntü almanın en geleneksel ve yaygın yöntemleri, görüntülere resim yazısı, anahtar sözcükler, başlık veya açıklamalar gibi meta veriler eklemeye yönelik bazı yöntemleri kullanır, böylece erişim açıklama sözcükleri üzerinden gerçekleştirilebilir. Görüntüye manuel açıklama eklemek zaman alıcı, zahmetli ve pahalıdır; Bu sorunu çözmek için otomatik görüntü açıklaması üzerine çok sayıda araştırma yapılmıştır. Ek olarak, sosyal web uygulamalarının ve anlamsal webin artması, birçok web tabanlı görsel açıklama aracının geliştirilmesine ilham kaynağı olmuştur.