İçeriğe atla

U-Net

U-Net, Freiburg Üniversitesi Bilgisayar Bilimleri Bölümü'nde biyomedikal alanlardaki görüntü işleme çalışmalarında bölümleme yapmak için geliştirilmiş bir evrişimsel sinir ağıdır. Ağ mimarisi, tamamen evrişimli ağa dayanmaktadır ve daha az eğitim görüntüsü ile çalışmak ve daha hassas bölümlemeler sağlamak için değiştirilmiş ve genişletilmiştir.[1] Arıca bu ağ o kadar hızlıdır ki, 512x512 piksellik bir görüntünün bölümlemesi GPU’da 1 saniyeden daha kısa sürer.[2]

Açıklama

U-Net mimarisi, ilk olarak Long, Shelhamer ve Darrell tarafından önerilen "tam evrişimli ağ" sözü ile ortaya atılmıştır.[1]

U-Net'teki önemli bir geliştirme, üst örnekleme bölümünde, ağın bağlam bilgisini daha yüksek çözünürlüklü katmanlara yaymasına izin veren çok sayıda özellik kanalı olmasıdır. Sonuç olarak, genişleyen yol, daralma yoluna simetriktir ve u-şekilli bir mimari sağlar. Ağ, tamamen bağlantılı katmanlar olmadan her evrişimin yalnızca geçerli kısmını kullanır. Görüntünün kenarlık bölgesindeki pikselleri tahmin etmek için, eksik bağlam giriş görüntüsünün aynalanmasıyla tahmin edilir. Bu yerleştirme stratejisi, ağı büyük görüntülere uygulamak için önemlidir, çünkü aksi takdirde çözünürlük GPU belleği ile sınırlı olacaktır.[1]

Evrişimli ağların genel kullanımı, bir görüntünün çıktısının tek bir sınıf etiketi olduğu sınıflandırmalar şeklindedir. Ancak birçok görsel görevde, özellikle biyomedikal görüntü işlemede, istenen çıktının yerelleşmeyi içermesi gerekir. Kısaca her piksele bir sınıf etiketi atanmalıdır. Her pikselin sınıf etiketini tahmin etmek için kayan pencere modelindeki bir ağı, o pikselin etrafında girdi olarak bir yerel bölge yapılarak eğitilmesi sağlanır. Ayrıca, biyomedikal görevlerde binlerce eğitim görüntüsüne genellikle ulaşılamaz. Bu nedenle, veri arttırma işlemi yapılır.[2]

Ağ Mimarisi

Bu görsel, 256x256 RGB görüntü için 256x256 görüntü maskeleri üretmek için örnek bir U-Net mimarisidir.
U-net Mimarisi

Ağ, bir daralma yolu (sol taraf) ve bir genişleme yolundan (sağ taraf) oluşur. Bu yapı U şekilli mimariyi verir.[3] Daralma yolu, normal bir evrişim ağının mimarisi gibi iki tane 3x3 konvolüsyonun tekrarlanarak uygulamasından oluşur. Bu uygulamalardan her biri, düzeltilmiş doğrusal birimden (ReLU) ve alt örnekleme için 2x2 maksimum havuzlama işlemleri ile oluşur. Her alt örnekleme adımında, özellik kanallarının sayısı ikiye katlanır (2^n). Genişleme yolu ise, özellik haritasının bir üst örneklemesinden ve özellik kanallarının sayısını yarıya indiren bir 2x2 evrişimden ("yukarı evrişim") meydana gelir. Ayrıca, daralma yolundan uygun şekilde kırpılmış özellik haritasıyla bir birleşmeden ve iki 3x3 evrişimden oluşur. Her bir evrişimin ardından bir ReLU işlemi uygulanır.  Kırpma işlemi, her evrişimde kenar piksellerinin kaybı nedeniyle gereklidir. Son katmanda, her 64 bileşenli özellik vektörünü istenen sayıda sınıfa eşlemek için 1x1'lik bir evrişim kullanılır. Bu sinir ağı toplamda 23 tane katmana sahip olur.[2]

Konvolüsyon

Eğitim

Veri seti içerisindeki girdi görüntüleri ve bunlara karşılık gelen segmentasyon haritaları, bu sinir ağını stokastik gradyan iniş uygulamasıyla eğitmek için kullanır. Dolgusuz konvolüsyonlar nedeniyle, eğitim sonunda oluşan çıktı görüntü, eğitilen girdi görüntüden sabit bir kenar genişliği kadar daha küçüktür. Eğitim sırasında oluşacak olan ek yükleri en aza indirmek ve GPU belleğinden maksimum düzeyde yararlanmak için, toplu haldeki iş boyutu yerine büyük giriş yerleştirmeleri tercih edilir. Bu nedenle toplu iş tek görüntüye indirgenir. Bunun için, daha önce görülen eğitim örneklerinin büyük bir kısmının mevcut optimizasyon adımındaki güncellemeyi belirleyeceği şekilde yüksek bir momentum (0.99) kullanılır.[2]

Veri Arttırma

Veri artırma işlemi, yalnızca birkaç eğitim örneği mevcut olduğunda (yeterli görsel bulunmadığında), ağa istenen değişmezlik ve sağlamlık özelliklerini öğretmek için gereklidir. Mikroskobik görüntülerde, öncelikle deformasyonlara karşı sağlamlığın yanı sıra kayma ve dönme değişmezliğine ve gri değer değişikliklerine karşı dayanıklılığa ihtiyaç vardır. Eğitim örneklerinin rastgele esnek deformasyonları, çok az sayıda açıklamalı görüntü içeren bir bölümleme ağını eğitmek için anahtar kavram gibi görünmektedir. Kalın bir 3x3 ızgara üzerinde rastgele yer değiştirme vektörleri kullanılarak pürüzsüz deformasyonlar oluşturulur. Yer değiştirmeler, 10 piksellik standart sapma ile bir Gauss dağılımından örneklenir. Piksel başına yer değiştirmeler daha sonra bikübik enterpolasyon kullanılarak hesaplanır. Daralan yolun sonundaki öğrenimini tamamlamayan (drop-out) katmanlar, daha fazla veri büyütme gerçekleştirir.[2]

Uygulamalar

U-Net'in biyomedikal görüntü bölümlemesinde; beyin görüntü bölümlemesi ('' BRATS ''[4]) ve karaciğer görüntü bölümlemesi ("siliver07"[5]) gibi birçok uygulaması vardır. Tıbbi görüntünün yeniden yapılandırılması için de U-Net'in varyasyonları uygulanmıştır.[6]

İşte U-Net'in bazı varyantları ve uygulamaları aşağıdaki gibidir:

  1. U-Net kullanarak piksel bazlı regresyon ve bunun görüntü kalitesini arttırması üzerine uygulaması;[7]
  2. 3D U-Net: Seyrek Açıklamadan Yoğun Hacimsel Segmentasyonu Öğrenme;[8]
  3. TernausNet: Görüntü Segmentasyonu için ImageNet üzerinde Önceden Eğitilmiş VGG11 Kodlayıcılı U-Net[9]

Kaynakça

  1. ^ a b c Long, Jonathan; Shelhamer, Evan; Darrell, Trevor (8 Mart 2015). "Fully Convolutional Networks for Semantic Segmentation". arXiv:1411.4038 [cs]. 20 Mayıs 2021 tarihinde kaynağından arşivlendi. Erişim tarihi: 20 Mayıs 2021. 
  2. ^ a b c d e Ronneberger, Olaf; Fischer, Philipp; Brox, Thomas (18 Mayıs 2015). "U-Net: Convolutional Networks for Biomedical Image Segmentation". arXiv:1505.04597 [cs]. 18 Mayıs 2021 tarihinde kaynağından arşivlendi. Erişim tarihi: 18 Mayıs 2021. 
  3. ^ "U-Net: Convolutional Networks for Biomedical Image Segmentation". lmb.informatik.uni-freiburg.de (Almanca). 20 Haziran 2015 tarihinde kaynağından arşivlendi. Erişim tarihi: 20 Mayıs 2021. 
  4. ^ "MICCAI BraTS 2017: Scope | Section for Biomedical Image Analysis (SBIA) | Perelman School of Medicine at the University of Pennsylvania". www.med.upenn.edu (İngilizce). 25 Mayıs 2017 tarihinde kaynağından arşivlendi. Erişim tarihi: 20 Mayıs 2021. 
  5. ^ "SLIVER07 : Home". www.sliver07.org. 29 Mayıs 2008 tarihinde kaynağından arşivlendi. Erişim tarihi: 20 Mayıs 2021. 
  6. ^ Andersson, Jonathan; Ahlström, Håkan; Kullberg, Joel (2019). "Separation of water and fat signal in whole‐body gradient echo scans using convolutional neural networks". Magnetic Resonance in Medicine. 82 (3): 1177-1186. doi:10.1002/mrm.27786. ISSN 0740-3194. PMC 6618066 $2. PMID 31033022. 
  7. ^ "Pixel-wise regression using U-Net and its application on pansharpening". Neurocomputing (İngilizce). 312: 364-371. 27 Ekim 2018. doi:10.1016/j.neucom.2018.05.103. ISSN 0925-2312. 20 Mayıs 2021 tarihinde kaynağından arşivlendi. Erişim tarihi: 20 Mayıs 2021. 
  8. ^ Çiçek, Özgün; Abdulkadir, Ahmed; Lienkamp, Soeren S.; Brox, Thomas; Ronneberger, Olaf (21 Haziran 2016). "3D U-Net: Learning Dense Volumetric Segmentation from Sparse Annotation". arXiv:1606.06650 [cs]. 18 Nisan 2021 tarihinde kaynağından arşivlendi. Erişim tarihi: 20 Mayıs 2021. 
  9. ^ Iglovikov, Vladimir; Shvets, Alexey (17 Ocak 2018). "TernausNet: U-Net with VGG11 Encoder Pre-Trained on ImageNet for Image Segmentation". arXiv:1801.05746 [cs]. 20 Mayıs 2021 tarihinde kaynağından arşivlendi. Erişim tarihi: 20 Mayıs 2021. 

İlgili Araştırma Makaleleri

<span class="mw-page-title-main">Dijital fotoğrafçılık</span>

Sayısal Fotoğrafçılık, nesnelerin görüntülerini oluşturmak için sayısal teknolojinin kullanıldığı bir fotoğrafçılık tarzıdır. Sayısal teknolojinin gelişimine kadar fotoğrafçılıkta görüntülerin karta basılması için kimyasal işlemlere ihtiyaç duyulan fotoğraf filmi kullanılmaktaydı. Aksine, sayısal görüntü kimyasal işleme gerek olmaksızın tamamen sayısal teknoloji ve bilgisayar kullanılarak görüntülenebilir, basılabilir, işlenebilir, taşınabilir ya da arşivlenebilir.

<span class="mw-page-title-main">IPTV</span>

IPTV, İnternet protokolü üzerinden görüntü ve ses aktarımı.

<span class="mw-page-title-main">H.264/MPEG-4 AVC</span>

H.264 bir görüntü sıkıştırma standardıdır ve MPEG-4 Bölüm 10 ya da MPEG-4 AVC in muadilidir. 2008 yılı itibarıyla, ITU-T, Video Coding Experts Group (VCEG), ISO/IEC içindeki Moving Picture Experts Group (MPEG) tarafından oluşturulan Birleşik Video Ekibi tarafından geliştirilen en son blok-yönelimli hareket-kompanzasyonuna dayalı çözücü standardıdır. ITU-T H.264 ve ISO/IEC MPEG-4 Bölüm 10 standartları birlikte sürdürülmektedir, dolayısıyla aynı teknik içeriğe sahiptirler. Standartın ilk nihai taslak metni Mayıs 2003'te tamamlanmıştır.

Görüntü birleştirme, fotoğraf birleştirme ya da resim birleştirme, parçalar halinde bulunan veya bölümler halinde görüntülenmiş resimlerin, görünüm alanlarının birleştirilerek panoramik veya yüksek çözünürlükte görüntüler üretebilmeyi sağlayan, fotoğrafların çoklu şekilde birleştirilmesine verilen isimdir. Görüntü birleştirme yaygın şekilde bilgisayar yazılımlarının kullanılması ile üretilir. Birleştirme esnasında sorunsuz sonuçların elde edilebilmesi için görüntülerin yaklaşma ve kesişme (birleşme) noktalarının hemen hemen tam olarak birleştirilmesi gerekir. Bazı birleştirme algoritmaları aslında faydalı olmasına rağmen, çakışma bölgelerinde HDR görüntüleme yaparak daha farklı görüntüler elde edilmesine neden olurlar. Bunların yanı sıra bazı dijital kameralar ile dahili görüntü birleştirme yapılabilir. Görüntü birleştirme günümüz dünyasında yaygın şekilde şu uygulamalarda kullanılmaktadır:

<span class="mw-page-title-main">ImageMagick</span>

ImageMagick, ücretsiz ve açık kaynak resim işleme yazılımıdır. 200'den fazla resim formatı üzerinde okuma ve yazma yapabilmektedir. ImageMagick, Apache 2.0 lisansı altındadır.

<span class="mw-page-title-main">Derin öğrenme</span> Makine öğreniminin bir branşı

Derin öğrenme bir veya daha fazla gizli katman içeren yapay sinir ağları ve benzeri makine öğrenme algoritmalarını kapsayan çalışma alanıdır.

<span class="mw-page-title-main">Uydu görüntüleri</span> Yapay bir uydudan alınan Dünya veya başka bir gök bilimsel cismin görüntüsü

Uydu görüntüleri, dünyada devletler ve işletmeler tarafından işletilen görüntüleme uyduları tarafından toplanan Dünya'nın görüntüleridir. Uydu görüntüleme şirketleri, Apple Haritalar ve Google Haritalar gibi işletmelere ve hükûmetlere lisans vererek görüntüleri satar.

Nesne tespiti bilgisayarla görü ve görüntü işleme ile ilgili bilgisayar teknolojisi

Nesne tespiti, dijital görüntülerde ve videolarda belirli bir sınıftaki anlamsal nesnelerin örneklerini algılamakla ilgilenen, bilgisayarla görme ve görüntü işleme ile ilgili bir bilgisayar teknolojisidir. Nesne tespiti, bilgisayarla görme ve görüntü işlemeden farklı olarak algılanan nesnenin görüntü üzerinde koordinatlarının bulunmasını içerir. Bulunan koordinatlar ile nesnenin bir çerçeve ile içine alınacağı alan da tespit edilmiş olur. Nesne tespiti, gerçek zamanlı (anlık) ve gerçek zamanlı olmayan olarak ikiye ayrılır. Üzerinde iyi araştırma yapılmış alanlar yüz tespiti, yaya tespiti ve araç tespitidir. Nesne tespiti, görüntü alma ve video gözetimi dahil olmak üzere bilgisayarla görmenin birçok alanında uygulamaya sahiptir.

<span class="mw-page-title-main">Görüntü eşikleme</span>

Dijital görüntü işlemede, eşikleme, görüntüleri bölümlere ayırmada kullanılan bir yöntemdir. Görüntülere gri tonlama eklendikten sonra ikili (binary) bir görüntü elde edilir. İkili görüntüler oluşturmak için eşikleme kullanılabilir.

<span class="mw-page-title-main">Bilgisayarlı görü</span> görsellerden veri bilgisi çıkartmak

Bilgisayarlı görü, bilgisayarların dijital görüntülerden veya videolardan nasıl bir anlam kazanabileceğiyle ilgilenen disiplinler arası bilimsel bir alandır. Mühendislik yöntemleriyle, insan görsel sisteminin yapabileceği görevleri anlamaya ve otomatikleştirmeye çalışmaktadır.

<span class="mw-page-title-main">İkili görüntü</span>

İkili görüntü, siyah ve beyaz olmak üzere iki renkten birine sahip olan piksellerden oluşan görüntüdür. İkili görüntülere iki seviyeli görüntüler de denir. İki renkten oluşan Pixelart, 1-Bit veya 1bit olarak adlandırılır. Bu, her pikselin tek bir bit olarak, yani 0 veya 1 olarak kaydedildiği anlamına gelir. Siyah-beyaz ve tek renkli gibi ifadeler sıklıkla kullanılır. Photoshop sözlüğünde, ikili görüntü "Bitmap" modundaki görüntü ile aynıdır.

Çekişmeli üretici ağ, Ian Goodfellow ve meslektaşları tarafından 2014 yılında tasarlanan bir makine öğrenimi framework sınıfıdır. Bir oyunda iki sinir ağı birbiriyle yarışmaktadır.

<span class="mw-page-title-main">Pixel art</span>

Pixel art, görüntülerin piksel düzeyinde düzenlendiği, yazılım ile oluşturulan dijital bir sanat türüdür. Bu tür grafikler, grafik hesap makineleri gibi sınırlı sistemlerin yanında 8 bit ve 16 bit bilgisayarlardan ve video oyun konsollarından gelir. Genellikle piksel görüntülerde kullanılan renkler oldukça sınırlıdır. Bazı pikseller sadece iki renk kullanır. Video oyunları için pixel art, karakterleri oluşturmak veya değiştirmek gibi işlemlerde kullanılır. Bunu hobi olarak yapan topluluklara spriting denir. Bu terim bilgisayar grafiklerinde kullanılan bir terim olan sprite teriminden gelir.

<span class="mw-page-title-main">DeepDream</span>

DeepDream, Alexander Mordvintsev adlı Google mühendisi tarafından oluşturulmuştur. DeepDream, algoritmik pareidolia yoluyla görüntülerdeki desenleri tespit etmek ve görüntüleri geliştirmek için evrişimli sinir ağı kullanmaktadır. Böylece aşırı işlenmiş görüntüler vasıtasıyla rüya tarzında halüsinojenik görüntüler oluşturan bilgisayar programıdır.

Otomatik hedef tanıma, bir algoritmanın veya cihazın, sensörlerden elde edilen verilere dayanarak hedefleri veya diğer nesneleri tanıma yeteneğidir.

Rastgele yürüten algoritması, görüntü segmentasyonu için bir algoritmadır. Algoritmanın ilk açıklamasında, bir kullanıcı etkileşimli olarak az sayıda pikseli bilinen etiketlerle, örneğin "nesne" ve "arka plan" olarak etiketlemektedir. Etiketlenmemiş piksellerin her birinin rastgele bir yürüteç serbest bıraktığı düşünülmektedir. Her pikselin rastgele yürüteçlerinin ilk olarak her etiketi taşıyan bir tohuma ulaşma olasılığı hesaplanmaktadır. Yani bir kullanıcı her biri farklı bir etikete sahip K tohum yerleştirirse, o zaman gereklidir. Her piksel için, pikselden ayrılan rastgele bir yürüyenin her bir tohuma ilk varma olasılığını hesaplanır. Bu olasılıklar, bir lineer denklem sistemi çözülerek analitik olarak belirlenmektedir. Her piksel için bu olasılıkları hesapladıktan sonra, piksel, rastgele bir yürüteç gönderme olasılığı en yüksek olan etikete atanmaktadır. Görüntü, her pikselin komşu piksellere kenarlarla bağlanan bir düğüme karşılık geldiği ve kenarların pikseller arasındaki benzerliği yansıtacak şekilde ağırlıklandırıldığı bir grafik olarak modellenmektedir. Bu nedenle, rastgele yürüyüş ağırlıklı grafikte geçekleşmektedir.

3D Slicer , görüntü analizi ve bilimsel görselleştirme için ücretsiz ve açık kaynaklı bir yazılım paketidir. Dilimleyici, otizm, multipl skleroz, sistemik lupus eritematozus, prostat kanseri, akciğer kanseri, meme kanseri, şizofreni, ortopedik biyomekanik, KOAH, kardiyovasküler hastalık ve beyin cerrahisi dahil olmak üzere çeşitli tıbbi uygulamalarda kullanılmaktadır.

Ağ güvenliği, bilgisayar ağının ve ağdan erişilebilen kaynakların yetkisiz erişimini, kötüye kullanımını, değiştirilmesini veya reddedilmesini önlemek, tespit etmek ve izlemek için benimsenen politika, süreç ve uygulamalardan oluşur .Ağ güvenliği, ağ yöneticisi tarafından kontrol edilen bir ağdaki verilere erişim yetkisini içerir. Kullanıcılar atanmış bir ID ve şifre veya yetkileri dahilindeki bilgilere ve programlara erişmelerine izin veren diğer kimlik doğrulama bilgilerini seçer .Ağ güvenliği, günlük işlerde kullanılan hem genel hem de özel çeşitli bilgisayar ağlarını kapsar: işletmeler, devlet kurumları ve bireyler arasında işlem ve ilişki yürütmek. Ağ güvenliği bir şirket gibi özel veya genel erişime açık olabilir. Ağ güvenliği, kuruluşlarda, işletmelerde ve diğer kurum türlerinde yer alır. Bir ağ kaynağını korumanın en yaygın ve basit yolu, ona benzersiz bir ad ve buna karşılık gelen bir parola atamaktır.

<span class="mw-page-title-main">Metinden resme model</span>

Metinden görüntüye model, girdi olarak bir metin açıklamasını alan ve bu tanıma uyan bir görüntü üreten bir makine öğrenim modelidir. Bu tür modeller, derin sinir ağlarındaki geliştirmelerin bir sonucu olarak 2010'ların ortalarında geliştirilmeye başlandı. 2022'de OpenAI'dan DALL-E 2, Google Brain'den Imagen ve StabilityAI'den Stable Diffusion gibi metinden resme modellerin çıktıları, gerçek fotoğrafların ve insan çizimlerinin kalitesine yaklaşmaya başladı.

Görüntü alma sistemi, geniş bir dijital görüntü veritabanından görüntülere göz atmak, aramak ve almak için kullanılan bir bilgisayar sistemidir. Görüntü almanın en geleneksel ve yaygın yöntemleri, görüntülere resim yazısı, anahtar sözcükler, başlık veya açıklamalar gibi meta veriler eklemeye yönelik bazı yöntemleri kullanır, böylece erişim açıklama sözcükleri üzerinden gerçekleştirilebilir. Görüntüye manuel açıklama eklemek zaman alıcı, zahmetli ve pahalıdır; Bu sorunu çözmek için otomatik görüntü açıklaması üzerine çok sayıda araştırma yapılmıştır. Ek olarak, sosyal web uygulamalarının ve anlamsal webin artması, birçok web tabanlı görsel açıklama aracının geliştirilmesine ilham kaynağı olmuştur.