Nesne tespiti

OpenCV'nin Derin Sinir Ağı modülü (dnn) ile 80 ortak sınıftaki nesneleri algılayabilen COCO veri kümesi üzerinde eğitilmiş bir YOLOv3 modeli kullanılarak tespit edilen nesneler.

Nesne tespiti, dijital görüntülerde ve videolarda belirli bir sınıftaki (insanlar, binalar veya arabalar gibi) anlamsal nesnelerin örneklerini algılamakla ilgilenen, bilgisayarla görme ve görüntü işleme ile ilgili bir bilgisayar teknolojisidir.^[1] Nesne tespiti, bilgisayarla görme ve görüntü işlemeden farklı olarak algılanan nesnenin görüntü üzerinde koordinatlarının bulunmasını içerir. Bulunan koordinatlar ile nesnenin bir çerçeve ile içine alınacağı alan da tespit edilmiş olur. Nesne tespiti, gerçek zamanlı (anlık) ve gerçek zamanlı olmayan olarak ikiye ayrılır. Üzerinde iyi araştırma yapılmış alanlar yüz tespiti, yaya tespiti ve araç tespitidir. Nesne tespiti, görüntü alma ve video gözetimi dahil olmak üzere bilgisayarla görmenin birçok alanında uygulamaya sahiptir.

Kullanımlar

Görüntü etiketleme,^[2] aktivite tanıma,^[3] yüz algılama, yüz tanıma, video nesnesini müşterek bölümleme gibi bilgisayarla görme görevlerinde yaygın olarak kullanılmaktadır. Örneğin bir futbol maçı sırasında oyundaki topu takip etmek, bir kriket sopasının hareketini izlemek veya bir videodaki herhangi bir kişiyi veyahut kişileri izlemek gibi durumlarda nesneleri takip etmek için kullanılır. Nesne tespiti insansız araçlarda nesnelerin konumlarını takip etmede ve nesnelerin sınıflandırılmasında da kullanılan temel bir yöntemdir. Elde edilen konum ve sınıf verisi ile araçların reaksiyon vermesi ve veriyi değerlendirmesi amaçlanmaktadır.

Konsept

Her nesne sınıfının, sınıfının sınıflandırılmasına yardımcı olan kendine özgü özellikleri vardır - örneğin, tüm daireler yuvarlaktır, deniz mavidir, ağaçların yaprakları yeşildir vb. Nesnenin sınıfı tespit edilirken, sınıflara ait olan bu özellikler kullanılır. Örneğin, herhangi bir daire ararken, bir noktadan (yani merkezden) belirli bir uzaklıkta bulunan nesneler aranır, merkezden uzaklıkları kabul edilebilir bir aralıkta olan bu noktalar bütünü daire olarak sınıflandırılabilir. Benzer şekilde, kareler ararken , köşelerde dik olan ve kenar uzunlukları eşit olan nesnelere ihtiyaç vardır. Benzer bir yaklaşım, gözlerin, burnun ve dudakların bulunabildiği ve ten rengi ve gözler arasındaki mesafe gibi özelliklerin bulunabildiği yüz tanımlaması için kullanılır. Nesnelerin şekillerinin tespit için kullanılan özelliklerden olmasının yanında aynı nesnelerin renkleri de tespit için kullanılan önemli özelliklerdendir. Bir trafik lambasında yeşil, sarı ve kırmızı renklerin nesnenin tespiti için önemli bir özelliktir. 3'lü, 2'li ve tek olan trafik lambalarında nesnelerin kendine özgü özelliklerinden olan renkleri kullanmak önem arz etmektedir.

Yöntemler

Nesne tespiti yöntemleri genellikle sinir ağı tabanlı veya sinirsel olmayan yaklaşımlara girer. Sinirsel olmayan yaklaşımlar için, önce aşağıdaki yöntemlerden birini kullanarak özellikleri tanımlamak, ardından sınıflandırmayı yapmak için destek vektör makinesi (SVM) gibi bir teknik kullanmak gerekli hale gelir. Öte yandan, sinir teknikleri, özellikleri özel olarak tanımlamadan uçtan uca nesne algılaması yapabilir ve tipik olarak evrişimli sinir ağlarına (CNN) dayanır.

Sinirsel olmayan yaklaşımlar:
- Haar özelliklerine dayalı Viola – Jones nesne tespit yapısı(detection framework)
- Ölçekle değişmeyen özellik dönüşümü (SIFT)
- Yönlendirilmiş gradyanların (HOG) özellikleri^[5]
Sinir ağı yaklaşımları:
- Bölge Önerileri (R-CNN,^[6] Hızlı R-CNN,^[7] Daha Hızlı R-CNN,^[8] kademeli R-CNN.)
- Tek Atış Çoklu Kutu Dedektörü (SSD)^[9]
- Sadece Bir Kez Bakarsın (YOLO)^[4]^[10]^[11]^[12]
- Nesne Algılama için Tek Atım İyileştirme Sinir Ağı (RefineDet)^[13]
- Retina-Net^[14]^[15]
- Deforme edilebilir evrişimli ağlar^[16]^[17]

Gerçek zamanlı (anlık) nesne tespitinde, anlık elde edilen görüntüyü işleyip nesne veyahut nesnelerin tespiti esas olduğu için performansı yüksek, doğru ve kesin sonuç üretebilen algoritmalar kullanılır. YOLO (You Only Look Once) Tek Bir Sefer Bak algoritmaları bu alandaki performans, kesinlik ve doğruluk açısından tatmin edici sonuçlar verebilen önde gelen algoritmalardandır. Sinir ağı yaklaşımını temel alan YOLO algoritmaları farklı nesne tespit yapılarını (framework) kullanmaktadır.

Darknet Yolov2 9 Mayıs 2021 tarihinde Wayback Machine sitesinde arşivlendi.
Darknet Yolov3 6 Mayıs 2021 tarihinde Wayback Machine sitesinde arşivlendi.
Darknet Yolov4 4 Mayıs 2021 tarihinde Wayback Machine sitesinde arşivlendi.
PyTorch Yolov3 9 Kasım 2020 tarihinde Wayback Machine sitesinde arşivlendi.
PyTorch Yolov5 28 Nisan 2021 tarihinde Wayback Machine sitesinde arşivlendi.

Kullanılacak olan gerçek zamanlı nesne tespit algoritmalarında, algoritmanın yüksek işlem gereksiniminden dolayı merkezi işlem birimi ile hesaplama yapmak yerine grafik işlemci birimi kullanmak yaygın bir tercihtir. Bu gereksinimden dolayı gerçek zamanlı nesne tespit algoritmaları çalıştırılacakları donanımsal yeterliliklere göre tasarlanır ve kullanılır. Bir akıllı telefondan elde edilecek işlem gücü ile grafik işleme birimine sahip bir bilgisayardan elde edilecek işlem güçleri birbirinden farklı olduğu için her iki sistemde de aynı gerçek zamanlı algoritma çalıştırılamaz.

Ayrıca bakınız

Özellik algılama (bilgisayar görüşü)
Hareketli nesne algılama
Nesne tanımanın ana hatları
Teknomo – Fernandez algoritması
Derin öğrenme
Makine öğrenmesi

Kaynakça

Genel

^ Dasiopoulou, Stamatia, et al. "Knowledge-assisted semantic video object detection 1 Mart 2021 tarihinde Wayback Machine sitesinde arşivlendi.." IEEE Transactions on Circuits and Systems for Video Technology 15.10 (2005): 1210–1224.
^ Multimedia Image and Video Processing. CRC Press. 1 Mart 2012. ss. 331-. ISBN 978-1-4398-3087-1. 9 Mayıs 2021 tarihinde kaynağından arşivlendi. Erişim tarihi: 10 Mayıs 2021.
^ Wu, Jianxin, et al. "A scalable approach to activity recognition based on object use 22 Şubat 2021 tarihinde Wayback Machine sitesinde arşivlendi.." 2007 IEEE 11th international conference on computer vision. IEEE, 2007.
^ ^a ^b Bochkovskiy. "Yolov4: Optimal Speed and Accuracy of Object Detection". arXiv:2004.10934 $2.
^ Dalal, Navneet (2005). "Histograms of oriented gradients for human detection" (PDF). Computer Vision and Pattern Recognition. 1. 17 Haziran 2019 tarihinde kaynağından arşivlendi (PDF). Erişim tarihi: 10 Mayıs 2021.
^ Ross (2014). "Rich feature hierarchies for accurate object detection and semantic segmentation" (PDF). Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. IEEE: 580-587. doi:10.1109/CVPR.2014.81. ISBN 978-1-4799-5118-5. 2 Aralık 2019 tarihinde kaynağından arşivlendi (PDF). Erişim tarihi: 10 Mayıs 2021.
^ Girschick (2015). "Fast R-CNN" (PDF). Proceedings of the IEEE International Conference on Computer Vision: 1440-1448. 31 Ekim 2019 tarihinde kaynağından arşivlendi (PDF). Erişim tarihi: 10 Mayıs 2021.
^ Shaoqing (2015). "Faster R-CNN". Advances in Neural Information Processing Systems.
^ "SSD: Single shot multibox detector". Computer Vision – ECCV 2016. European Conference on Computer Vision. Lecture Notes in Computer Science. 9905. October 2016. ss. 21-37. doi:10.1007/978-3-319-46448-0_2. ISBN 978-3-319-46447-3.
^ Redmon (2016). "You only look once: Unified, real-time object detection". Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.
^ Joseph Redmon. "YOLO9000: better, faster, stronger". arXiv:1612.08242 $2.
^ Joseph Redmon. "Yolov3: An incremental improvement". arXiv:1804.02767 $2.
^ Zhang (2018). "Single-Shot Refinement Neural Network for Object Detection". Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition: 4203-4212.
^ Lin (2020). "Focal Loss for Dense Object Detection". IEEE Transactions on Pattern Analysis and Machine Intelligence. 42 (2): 318-327. doi:10.1109/TPAMI.2018.2858826. PMID 30040631.
^ Jiangmiao Pang. "Libra R-CNN: Towards Balanced Learning for Object Detection". arXiv:1904.02701 $2.
^ Xizhou Zhu. "Deformable ConvNets v2: More Deformable, Better Results". arXiv:1811.11168 $2.
^ Jifeng Dai. "Deformable Convolutional Networks". arXiv:1703.06211 $2.

Özel

"Object Class Detection". Vision.eecs.ucf.edu. 14 Temmuz 2013 tarihinde kaynağından arşivlendi. Erişim tarihi: 9 Ekim 2013.
"ETHZ – Computer Vision Lab: Publications". Vision.ee.ethz.ch. 3 Haziran 2013 tarihinde kaynağından arşivlendi. Erişim tarihi: 9 Ekim 2013.

Dış bağlantılar

Çoklu nesne sınıfı algılama
Mekansal-zamansal eylem yerelleştirme 1 Mart 2021 tarihinde Wayback Machine sitesinde arşivlendi.
Video nesnesi algılama ve birlikte bölümleme 7 Eylül 2018 tarihinde Wayback Machine sitesinde arşivlendi.

[1] Dasiopoulou, Stamatia, et al. "Knowledge-assisted semantic video object detection 1 Mart 2021 tarihinde Wayback Machine sitesinde arşivlendi.." IEEE Transactions on Circuits and Systems for Video Technology 15.10 (2005): 1210–1224.

[GuanHe2012-2] Multimedia Image and Video Processing. CRC Press. 1 Mart 2012. ss. 331-. ISBN 978-1-4398-3087-1. 9 Mayıs 2021 tarihinde kaynağından arşivlendi. Erişim tarihi: 10 Mayıs 2021.

[3] Wu, Jianxin, et al. "A scalable approach to activity recognition based on object use 22 Şubat 2021 tarihinde Wayback Machine sitesinde arşivlendi.." 2007 IEEE 11th international conference on computer vision. IEEE, 2007.

[yolov4-4] Bochkovskiy. "Yolov4: Optimal Speed and Accuracy of Object Detection". arXiv:2004.10934 $2.

[5] Dalal, Navneet (2005). "Histograms of oriented gradients for human detection" (PDF). Computer Vision and Pattern Recognition. 1. 17 Haziran 2019 tarihinde kaynağından arşivlendi (PDF). Erişim tarihi: 10 Mayıs 2021.

[6] Ross (2014). "Rich feature hierarchies for accurate object detection and semantic segmentation" (PDF). Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. IEEE: 580-587. doi:10.1109/CVPR.2014.81. ISBN 978-1-4799-5118-5. 2 Aralık 2019 tarihinde kaynağından arşivlendi (PDF). Erişim tarihi: 10 Mayıs 2021.

[7] Girschick (2015). "Fast R-CNN" (PDF). Proceedings of the IEEE International Conference on Computer Vision: 1440-1448. 31 Ekim 2019 tarihinde kaynağından arşivlendi (PDF). Erişim tarihi: 10 Mayıs 2021.

[8] Shaoqing (2015). "Faster R-CNN". Advances in Neural Information Processing Systems.

[9] "SSD: Single shot multibox detector". Computer Vision – ECCV 2016. European Conference on Computer Vision. Lecture Notes in Computer Science. 9905. October 2016. ss. 21-37. doi:10.1007/978-3-319-46448-0_2. ISBN 978-3-319-46447-3.

[10] Redmon (2016). "You only look once: Unified, real-time object detection". Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.

[11] Joseph Redmon. "YOLO9000: better, faster, stronger". arXiv:1612.08242 $2.

[12] Joseph Redmon. "Yolov3: An incremental improvement". arXiv:1804.02767 $2.

[13] Zhang (2018). "Single-Shot Refinement Neural Network for Object Detection". Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition: 4203-4212.

[14] Lin (2020). "Focal Loss for Dense Object Detection". IEEE Transactions on Pattern Analysis and Machine Intelligence. 42 (2): 318-327. doi:10.1109/TPAMI.2018.2858826. PMID 30040631.

[Pang_Chen_Shi_Feng_2019-15] Jiangmiao Pang. "Libra R-CNN: Towards Balanced Learning for Object Detection". arXiv:1904.02701 $2.

[16] Xizhou Zhu. "Deformable ConvNets v2: More Deformable, Better Results". arXiv:1811.11168 $2.

[17] Jifeng Dai. "Deformable Convolutional Networks". arXiv:1703.06211 $2.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]