İçeriğe atla

Nesne tespiti

OpenCV'nin Derin Sinir Ağı modülü (dnn) ile 80 ortak sınıftaki nesneleri algılayabilen COCO veri kümesi üzerinde eğitilmiş bir YOLOv3 modeli kullanılarak tespit edilen nesneler.

Nesne tespiti, dijital görüntülerde ve videolarda belirli bir sınıftaki (insanlar, binalar veya arabalar gibi) anlamsal nesnelerin örneklerini algılamakla ilgilenen, bilgisayarla görme ve görüntü işleme ile ilgili bir bilgisayar teknolojisidir.[1] Nesne tespiti, bilgisayarla görme ve görüntü işlemeden farklı olarak algılanan nesnenin görüntü üzerinde koordinatlarının bulunmasını içerir. Bulunan koordinatlar ile nesnenin bir çerçeve ile içine alınacağı alan da tespit edilmiş olur. Nesne tespiti, gerçek zamanlı (anlık) ve gerçek zamanlı olmayan olarak ikiye ayrılır. Üzerinde iyi araştırma yapılmış alanlar yüz tespiti, yaya tespiti ve araç tespitidir. Nesne tespiti, görüntü alma ve video gözetimi dahil olmak üzere bilgisayarla görmenin birçok alanında uygulamaya sahiptir.

Kullanımlar

Yol üzerindeki nesnelerin algılanması

Görüntü etiketleme,[2] aktivite tanıma,[3] yüz algılama, yüz tanıma, video nesnesini müşterek bölümleme gibi bilgisayarla görme görevlerinde yaygın olarak kullanılmaktadır. Örneğin bir futbol maçı sırasında oyundaki topu takip etmek, bir kriket sopasının hareketini izlemek veya bir videodaki herhangi bir kişiyi veyahut kişileri izlemek gibi durumlarda nesneleri takip etmek için kullanılır. Nesne tespiti insansız araçlarda nesnelerin konumlarını takip etmede ve nesnelerin sınıflandırılmasında da kullanılan temel bir yöntemdir. Elde edilen konum ve sınıf verisi ile araçların reaksiyon vermesi ve veriyi değerlendirmesi amaçlanmaktadır.

Konsept

Otomatik yüz algılama

Her nesne sınıfının, sınıfının sınıflandırılmasına yardımcı olan kendine özgü özellikleri vardır - örneğin, tüm daireler yuvarlaktır, deniz mavidir, ağaçların yaprakları yeşildir vb. Nesnenin sınıfı tespit edilirken, sınıflara ait olan bu özellikler kullanılır. Örneğin, herhangi bir daire ararken, bir noktadan (yani merkezden) belirli bir uzaklıkta bulunan nesneler aranır, merkezden uzaklıkları kabul edilebilir bir aralıkta olan bu noktalar bütünü daire olarak sınıflandırılabilir. Benzer şekilde, kareler ararken , köşelerde dik olan ve kenar uzunlukları eşit olan nesnelere ihtiyaç vardır. Benzer bir yaklaşım, gözlerin, burnun ve dudakların bulunabildiği ve ten rengi ve gözler arasındaki mesafe gibi özelliklerin bulunabildiği yüz tanımlaması için kullanılır. Nesnelerin şekillerinin tespit için kullanılan özelliklerden olmasının yanında aynı nesnelerin renkleri de tespit için kullanılan önemli özelliklerdendir. Bir trafik lambasında yeşil, sarı ve kırmızı renklerin nesnenin tespiti için önemli bir özelliktir. 3'lü, 2'li ve tek olan trafik lambalarında nesnelerin kendine özgü özelliklerinden olan renkleri kullanmak önem arz etmektedir.

Yöntemler

Microsoft COCO testdev veri setinde http://mscoco.org 19 Kasım 2020 tarihinde Wayback Machine sitesinde arşivlendi.[4] hız ve doğruluğunun karşılaştırılması (Tüm değerler, bu algoritmaların yazarları tarafından https://arxiv.org 26 Ocak 2017 tarihinde Wayback Machine sitesinde arşivlendi. makalelerinde bulunur)

Nesne tespiti yöntemleri genellikle sinir ağı tabanlı veya sinirsel olmayan yaklaşımlara girer. Sinirsel olmayan yaklaşımlar için, önce aşağıdaki yöntemlerden birini kullanarak özellikleri tanımlamak, ardından sınıflandırmayı yapmak için destek vektör makinesi (SVM) gibi bir teknik kullanmak gerekli hale gelir. Öte yandan, sinir teknikleri, özellikleri özel olarak tanımlamadan uçtan uca nesne algılaması yapabilir ve tipik olarak evrişimli sinir ağlarına (CNN) dayanır.

  • Sinirsel olmayan yaklaşımlar:
    • Haar özelliklerine dayalı Viola – Jones nesne tespit yapısı(detection framework)
    • Ölçekle değişmeyen özellik dönüşümü (SIFT)
    • Yönlendirilmiş gradyanların (HOG) özellikleri[5]
  • Sinir ağı yaklaşımları:
    • Bölge Önerileri (R-CNN,[6] Hızlı R-CNN,[7] Daha Hızlı R-CNN,[8] kademeli R-CNN.)
    • Tek Atış Çoklu Kutu Dedektörü (SSD)[9]
    • Sadece Bir Kez Bakarsın (YOLO)[4][10][11][12]
    • Nesne Algılama için Tek Atım İyileştirme Sinir Ağı (RefineDet)[13]
    • Retina-Net[14][15]
    • Deforme edilebilir evrişimli ağlar[16][17]

Gerçek zamanlı (anlık) nesne tespitinde, anlık elde edilen görüntüyü işleyip nesne veyahut nesnelerin tespiti esas olduğu için performansı yüksek, doğru ve kesin sonuç üretebilen algoritmalar kullanılır. YOLO (You Only Look Once) Tek Bir Sefer Bak algoritmaları bu alandaki performans, kesinlik ve doğruluk açısından tatmin edici sonuçlar verebilen önde gelen algoritmalardandır. Sinir ağı yaklaşımını temel alan YOLO algoritmaları farklı nesne tespit yapılarını (framework) kullanmaktadır.

Kullanılacak olan gerçek zamanlı nesne tespit algoritmalarında, algoritmanın yüksek işlem gereksiniminden dolayı merkezi işlem birimi ile hesaplama yapmak yerine grafik işlemci birimi kullanmak yaygın bir tercihtir. Bu gereksinimden dolayı gerçek zamanlı nesne tespit algoritmaları çalıştırılacakları donanımsal yeterliliklere göre tasarlanır ve kullanılır. Bir akıllı telefondan elde edilecek işlem gücü ile grafik işleme birimine sahip bir bilgisayardan elde edilecek işlem güçleri birbirinden farklı olduğu için her iki sistemde de aynı gerçek zamanlı algoritma çalıştırılamaz.

Ayrıca bakınız

  • Özellik algılama (bilgisayar görüşü)
  • Hareketli nesne algılama
  • Nesne tanımanın ana hatları
  • Teknomo – Fernandez algoritması
  • Derin öğrenme
  • Makine öğrenmesi

Kaynakça

Genel

  1. ^ Dasiopoulou, Stamatia, et al. "Knowledge-assisted semantic video object detection 1 Mart 2021 tarihinde Wayback Machine sitesinde arşivlendi.." IEEE Transactions on Circuits and Systems for Video Technology 15.10 (2005): 1210–1224.
  2. ^ Multimedia Image and Video Processing. CRC Press. 1 Mart 2012. ss. 331-. ISBN 978-1-4398-3087-1. 9 Mayıs 2021 tarihinde kaynağından arşivlendi. Erişim tarihi: 10 Mayıs 2021. 
  3. ^ Wu, Jianxin, et al. "A scalable approach to activity recognition based on object use 22 Şubat 2021 tarihinde Wayback Machine sitesinde arşivlendi.." 2007 IEEE 11th international conference on computer vision. IEEE, 2007.
  4. ^ a b Bochkovskiy. "Yolov4: Optimal Speed and Accuracy of Object Detection". arXiv:2004.10934 $2. 
  5. ^ Dalal, Navneet (2005). "Histograms of oriented gradients for human detection" (PDF). Computer Vision and Pattern Recognition. 1. 17 Haziran 2019 tarihinde kaynağından arşivlendi (PDF). Erişim tarihi: 10 Mayıs 2021. 
  6. ^ Ross (2014). "Rich feature hierarchies for accurate object detection and semantic segmentation" (PDF). Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. IEEE: 580-587. doi:10.1109/CVPR.2014.81. ISBN 978-1-4799-5118-5. 2 Aralık 2019 tarihinde kaynağından arşivlendi (PDF). Erişim tarihi: 10 Mayıs 2021. 
  7. ^ Girschick (2015). "Fast R-CNN" (PDF). Proceedings of the IEEE International Conference on Computer Vision: 1440-1448. 31 Ekim 2019 tarihinde kaynağından arşivlendi (PDF). Erişim tarihi: 10 Mayıs 2021. 
  8. ^ Shaoqing (2015). "Faster R-CNN". Advances in Neural Information Processing Systems. 
  9. ^ "SSD: Single shot multibox detector". Computer Vision – ECCV 2016. European Conference on Computer Vision. Lecture Notes in Computer Science. 9905. October 2016. ss. 21-37. doi:10.1007/978-3-319-46448-0_2. ISBN 978-3-319-46447-3. 
  10. ^ Redmon (2016). "You only look once: Unified, real-time object detection". Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 
  11. ^ Joseph Redmon. "YOLO9000: better, faster, stronger". arXiv:1612.08242 $2. 
  12. ^ Joseph Redmon. "Yolov3: An incremental improvement". arXiv:1804.02767 $2. 
  13. ^ Zhang (2018). "Single-Shot Refinement Neural Network for Object Detection". Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition: 4203-4212. 
  14. ^ Lin (2020). "Focal Loss for Dense Object Detection". IEEE Transactions on Pattern Analysis and Machine Intelligence. 42 (2): 318-327. doi:10.1109/TPAMI.2018.2858826. PMID 30040631. 
  15. ^ Jiangmiao Pang. "Libra R-CNN: Towards Balanced Learning for Object Detection". arXiv:1904.02701 $2. 
  16. ^ Xizhou Zhu. "Deformable ConvNets v2: More Deformable, Better Results". arXiv:1811.11168 $2. 
  17. ^ Jifeng Dai. "Deformable Convolutional Networks". arXiv:1703.06211 $2. 

Özel

Dış bağlantılar

İlgili Araştırma Makaleleri

Bilişim, bilişim bilimi ya da bilgisayar bilimi, bilgi ve hesaplamanın kuramsal temellerini ve bunların bilgisayar sistemlerinde uygulanabilmeleri sağlayan pratik teknikleri araştıran bir yapısal bilim dalıdır. Bilişimciler ya da bilgisayar bilimcileri bilgi oluşturan, tanımlayan ve dönüştüren algoritmik süreçler icat edip, kompleks sistemleri tasarlamak ve modellemek için uygun soyutlamalar formüle ederler. Bilişim Dünya'da hızla gelişmeye devam eden önemli bir teknolojidir.

Tasarım desenleri, tasarım kalıpları, tasarım örüntüleri veya tasarım şablonları, çok rastlanan, birbirine benzer sorunları çözmek için geliştirilmiş ve işlerliği kanıtlanmış genel çözüm önerileridir.

<span class="mw-page-title-main">Makine öğrenimi</span> algoritmaların ve istatistiksel modellerin kullanımıyla bilgisayarların yapacakları işleri kendileri çözebilmeleri

Makine öğrenimi (ML), veriden öğrenebilen ve görünmeyen verilere genelleştirebilen ve dolayısıyla açık talimatlar olmadan görevleri yerine getirebilen istatistiksel algoritmaların geliştirilmesi ve incelenmesiyle ilgilenen, yapay zekâda akademik bir disiplindir. Makine öğrenimi, bilgisayarların deneyimlerinden öğrenerek karmaşık görevleri otomatikleştirmeyi sağlayan bir yapay zeka alanıdır. Bu, veri analizi yaparak örüntüler tespit etme ve tahminlerde bulunma yeteneğine dayanır. Son zamanlarda yapay sinir ağları, performans açısından önceki birçok yaklaşımı geride bırakmayı başardı.

<span class="mw-page-title-main">Saldırı tespit sistemleri</span>

Saldırı Tespit Sistemleri (STS) (İngilizce: Intrusion Detection Systems (IDS)), ağlara veya sistemlere karşı yapılan kötü niyetli aktiviteleri ya da politika ihlallerini izlemeye yarayan cihaz ya da yazılımlardır. Tespit edilen herhangi bir aktivite veya ihlal, ya bir yöneticiye bildirilir ya da bir güvenlik bilgi ve olay yönetimi (SIEM) sistemi kullanılarak merkezi olarak toplanır. SIEM sistemi, çeşitli kaynaklardan gelen çıktıları birleştirir ve kötü niyetli alarmı yanlış alarmlardan ayırmak için alarm filtreleme teknikleri kullanır.

Deadlock ya da kilitlenme, iki ya da daha fazla eylemin devam etmek için birbirlerinin bitmesini beklemesi ve sonuçta ikisinin de devam edememesi durumu. Genellikle "yumurta mı tavuk mu önce gelir?" gibi paradokslarda görülür.

Beyin-bilgisayar arayüzü veya zihin-makine arayüzü veya beyin-makine arayüzü, beyin ile dış bir cihaz arasındaki doğrudan iletişim yoludur. Beyin-bilgisayar arayüzü genellikle insanoğlunun bilişsel veya duyusal motor fonksiyonlarına yardımcı olmak veya onları tamir etmek için kullanılır.

<span class="mw-page-title-main">Gözetimli öğrenme</span>

Gözetimli öğrenme ya da denetimli öğrenme, bilinen etiketler ve özellikler kullanarak bir fonksiyon öğrendiğimiz, makine öğreniminin önemli bir alt dalıdır. Bu yöntem, eğitim veri seti kullanılarak öğrenilen modelin, yeni ve bilinmeyen veri noktalarını doğru bir şekilde tahmin etmesini amaçlar.

<span class="mw-page-title-main">Destek vektör makinesi</span>

Destek vektör makinesi, eğitim verilerindeki herhangi bir noktadan en uzak olan iki sınıf arasında bir karar sınırı bulan vektör uzayı tabanlı makine öğrenme yöntemi olarak tanımlanabilir.

<span class="mw-page-title-main">Derin öğrenme</span> Makine öğreniminin bir branşı

Derin öğrenme bir veya daha fazla gizli katman içeren yapay sinir ağları ve benzeri makine öğrenme algoritmalarını kapsayan çalışma alanıdır.

<span class="mw-page-title-main">Toplanmış alan tablosu</span>

Toplanmış alan tablosu, bir ızgaranın dikdörtgen bir alt kümesindeki değerlerin toplamını hızlı ve verimli bir şekilde oluşturmak için bir veri yapısı ve algoritmadır. Görüntü işleme alanında, bütünleşik görüntü olarak da bilinir. 1984 yılında Frank Painter tarafından mipmap'lerle kullanılmak üzere bilgisayar grafiklerine tanıtıldı. Bilgisayarla görmede Lewis tarafından popüler hale getirildi ve ardından "bütünleşik görüntü" adı verildi. 2001'de Viola-Jones nesne algılama çerçevesinde belirgin bir şekilde kullanıldı. Tarihsel olarak, bu ilke, çok boyutlu olasılık dağılım fonksiyonları çalışmasında, yani ilgili kümülatif dağılım fonksiyonlarından 2D olasılıkların hesaplanmasında çok iyi bilinmektedir.

Video izleme/ Nesne Takip, bir kamera kullanarak zaman içinde hareket eden bir veya birden çok nesneyi bulma işlemidir. İnsan-bilgisayar etkileşimi, güvenlik ve gözetim, video iletişimi ve sıkıştırma, artırılmış gerçeklik, trafik kontrolü, tıbbi görüntüleme ve video düzenleme gibi çeşitli kullanımları vardır. Video izleme, videonun içerdiği veri miktarı nedeniyle zaman alıcı ve yavaş çalışabilen bir süreç olabilmektedir. Tek başına kullanımda bile zor bir problem olan bu metot, nesne tanıma teknikleriyle birlikte de kullanılarak daha işlevsel hale getirilmektedir.

<span class="mw-page-title-main">Bilgisayarlı görü</span> görsellerden veri bilgisi çıkartmak

Bilgisayarlı görü, bilgisayarların dijital görüntülerden veya videolardan nasıl bir anlam kazanabileceğiyle ilgilenen disiplinler arası bilimsel bir alandır. Mühendislik yöntemleriyle, insan görsel sisteminin yapabileceği görevleri anlamaya ve otomatikleştirmeye çalışmaktadır.

Kenar algılama, dijital bir görüntüde görüntü parlaklığının keskin bir şekilde değiştiği veya daha resmi olarak süreksizliklerin olduğu noktaları tanımlamayı amaçlayan çeşitli yöntemdir. İçerisinde çeşitli matematiksel yöntemleri barındırmakta ve görüntü parlaklığının keskin bir şekilde değiştiği noktalar tipik olarak "kenarlar" adı verilen bir dizi eğri çizgi parçası halinde düzenlenmektedir. Tek boyutlu sinyallerde süreksizlikleri bulmanın aynı problemi, adım tespiti olarak bilinmektedir. Zaman içinde sinyal süreksizliklerini bulma problemi, değişiklik tespiti olarak bilinir. Kenar algılama, görüntü işleme, makine görüşü, bilgisayarla görme ve özellikle özellik algılama ile özellik çıkarma alanlarında temel bir araçtır.

Çekişmeli üretici ağ, Ian Goodfellow ve meslektaşları tarafından 2014 yılında tasarlanan bir makine öğrenimi framework sınıfıdır. Bir oyunda iki sinir ağı birbiriyle yarışmaktadır.

<span class="mw-page-title-main">DeepDream</span>

DeepDream, Alexander Mordvintsev adlı Google mühendisi tarafından oluşturulmuştur. DeepDream, algoritmik pareidolia yoluyla görüntülerdeki desenleri tespit etmek ve görüntüleri geliştirmek için evrişimli sinir ağı kullanmaktadır. Böylece aşırı işlenmiş görüntüler vasıtasıyla rüya tarzında halüsinojenik görüntüler oluşturan bilgisayar programıdır.

Veri analizinde, anomali tespiti, verilerin çoğunluğundan önemli ölçüde farklılaşarak şüphe uyandıran nadir öğelerin, olayların veya gözlemlerin tanımlanmasıdır. Tipik olarak anormal öğeler, banka dolandırıcılığı, yapısal bir kusur, tıbbi sorunlar veya bir metindeki hatalar gibi bir tür soruna dönüşecektir. Anormallikler ayrıca aykırı değerler, yenilikler, gürültü, sapmalar ve istisnalar olarak da adlandırılmaktadır.

Otomatik hedef tanıma, bir algoritmanın veya cihazın, sensörlerden elde edilen verilere dayanarak hedefleri veya diğer nesneleri tanıma yeteneğidir.

Video içerik analizi veya video analizi olarak da bilinen video içerik analizi, zamansal ve uzamsal olayları algılamak ve belirlemek için videoyu otomatik olarak analiz etme yeteneğidir.

Rastgele yürüten algoritması, görüntü segmentasyonu için bir algoritmadır. Algoritmanın ilk açıklamasında, bir kullanıcı etkileşimli olarak az sayıda pikseli bilinen etiketlerle, örneğin "nesne" ve "arka plan" olarak etiketlemektedir. Etiketlenmemiş piksellerin her birinin rastgele bir yürüteç serbest bıraktığı düşünülmektedir. Her pikselin rastgele yürüteçlerinin ilk olarak her etiketi taşıyan bir tohuma ulaşma olasılığı hesaplanmaktadır. Yani bir kullanıcı her biri farklı bir etikete sahip K tohum yerleştirirse, o zaman gereklidir. Her piksel için, pikselden ayrılan rastgele bir yürüyenin her bir tohuma ilk varma olasılığını hesaplanır. Bu olasılıklar, bir lineer denklem sistemi çözülerek analitik olarak belirlenmektedir. Her piksel için bu olasılıkları hesapladıktan sonra, piksel, rastgele bir yürüteç gönderme olasılığı en yüksek olan etikete atanmaktadır. Görüntü, her pikselin komşu piksellere kenarlarla bağlanan bir düğüme karşılık geldiği ve kenarların pikseller arasındaki benzerliği yansıtacak şekilde ağırlıklandırıldığı bir grafik olarak modellenmektedir. Bu nedenle, rastgele yürüyüş ağırlıklı grafikte geçekleşmektedir.

Biçim algısı, nesnelerin görsel öğelerinin, özellikle şekiller, desenler ve önceden tanımlanmış önemli özelliklerle ilgili olanların tanınmasıdır. Bir nesne retina tarafından iki boyutlu bir görüntü olarak algılanır, ancak görüntü aynı nesne için görüntülendiği bağlam, nesnenin görünen boyutu, bulunduğu açı açısından farklılık gösterebilir. Görüntülendiğinde ne kadar aydınlandığını ve görüş alanının neresinde bulunduğunu gösterir. Bir nesneyi gözlemlemenin her örneğinin benzersiz bir retina tepki modeline yol açmasına rağmen, beyindeki görsel işleme, bu deneyimleri benzer olarak tanıyabilir ve değişmez nesne tanımaya izin verir. Görsel işleme, en düşük seviyelerin çizgileri ve konturları tanıdığı ve biraz daha yüksek seviyelerin sınırları tamamlama ve kontur kombinasyonlarını tanıma gibi görevleri yerine getirdiği bir hiyerarşide gerçekleşir. En yüksek seviyeler, tüm bir nesneyi tanımak için algılanan bilgiyi bütünleştirir. Esasen nesne tanıma, onları kategorize etmek ve tanımlamak için nesnelere etiketler atama, böylece bir nesneyi diğerinden ayırt etme yeteneğidir. Görsel işleme sırasında bilgi oluşturulmaz, bunun yerine uyarıcının en ayrıntılı bilgisini ortaya çıkaracak şekilde yeniden biçimlendirilir.