İçeriğe atla

K-means kümeleme

K-ortalama kümeleme ya da K-means kümeleme (K-means clustering) yöntemi N adet veri nesnesinden oluşan bir veri kümesini giriş parametresi olarak verilen K adet kümeye bölümlemektir. Amaç, gerçekleştirilen bölümleme işlemi sonunda elde edilen kümelerin, küme içi benzerliklerinin maksimum ve kümeler arası benzerliklerinin ise minimum olmasını sağlamaktır.

K-means en sık kullanılan kümeleme algoritmalarındandır. Uygulanması kolaydır. Büyük ölçekli verileri hızlı ve etkin şekilde kümeleyebilir. “K” algoritmaya başlamadan önce ihtiyaç duyulan sabit küme sayısını ifade etmektedir. Tekrarlı bölümleyici yapısı ile K-means algoritması, her verinin ait olduğu kümeye olan uzaklıkları toplamını küçültmektedir. K-means algoritması karesel hatayı en küçük yapacak olan K adet kümeyi tespit etmeye çalışmaktadır.

K-means ile küme içi benzerlik büyük, kümeler arası benzerlik ise küçük olduğu sürece kümelenmenin doğruluğundan söz edilebilir. Problem NP-hard olmasına rağmen K-means algoritması bir iteratif (tekrarlayıcı) yaklaşım ile genelde iyi bir çözüm verir.

Tanım

Her bir veri n-boyutlu reel vektör olmak üzere bir {x1, x2, …, xN} veri kümesi ve K bölünecek küme sayısı olarak verilsin. K-means kümeleme, karesel hatayı en aza indirgemek için N tane veriyi K adet S = {S1S2, …, SK} kümeye bölümlemeyi amaçlar. Başka bir deyişle,

burada , Sj 'deki noktaların ortalaması olmak üzere

bulmaktır.

K-means algoritması nasıl çalışır?

K-means algoritmasının çalışma mekanizmasına göre öncelikle her kümenin merkez noktasını veya ortalamasını temsil etmek üzere K adet nesne rastgele seçilir. Kalan diğer nesneler, kümelerin ortalama değerlerine olan uzaklıkları dikkate alınarak en benzer oldukları kümelere dahil edilir. Daha sonra, her bir kümenin ortalama değeri hesaplanarak yeni küme merkezleri belirlenir ve tekrar nesnelerin merkeze uzaklıkları incelenir. Herhangi bir değişim olmayıncaya kadar algoritma tekrarlamaya devam eder.

Algoritma temel olarak 4 aşamadan oluşur:

1.Küme merkezlerinin belirlenmesi
2.Merkez dışındaki verilerin mesafelerine göre kümelendirilmesi
3.Yapılan kümelendirmeye göre yeni merkezlerin belirlenmesi (veya eski merkezlerin yeni merkeze kaydırılması)
4.Kararlı hale (stable state) gelinene kadar 2. ve 3. adımların tekrarlanması.

İlgili Araştırma Makaleleri

Klasik mekanikte momentum ya da devinirlik, bir nesnenin kütlesi ve hızının çarpımıdır; (p = mv). Hız gibi, momentum da vektörel bir niceliktir, yani büyüklüğünün yanı sıra bir yöne de sahiptir. Momentum korunumlu bir niceliktir ; yani bu, eğer kapalı bir sistem herhangi bir dış kuvvetin etkisi altında değilse, o kapalı sistemin toplam momentumunun değişemeyeceği anlamına gelir. Momentum benzer bir konu olan açısal momentum ile karışmasın diye, bazen çizgisel momentum olarak da anılır.

Fizikte moment, fiziksel niceliğin mesafe ile bileşimidir. Momentler, genellikle sabit bir referans noktasına ya da eksene göre tanımlanırlar, ilgili referans noktasından ya da ekseninden belirli bir mesafede ölçülen fiziksel nicelikleri ele alırlar. Mesela bir kuvvetin momenti, o kuvvetin kendisinin ve bir eksenden uzaklığının çarpımıdır ve ilgili eksenin etrafında dönmeye sebep olur. Prensip olarak herhangi bir fiziksel nicelik, moment oluşturmak üzere bir mesafe ile bileşebilir. Sıkça kullanılan nicelikler içinde kuvvetler, kütleler ve elektrik yük dağılımları bulunmaktadır.

Olasılık kuramı ve istatistik bilim dallarında varyans bir rassal değişken, bir olasılık dağılımı veya örneklem için istatistiksel yayılımın, mümkün bütün değerlerin beklenen değer veya ortalamadan uzaklıklarının karelerinin ortalaması şeklinde bulunan bir ölçüdür. Ortalama bir dağılımın merkezsel konum noktasını bulmaya çalışırken, varyans değerlerin ne ölçekte veya ne derecede yaygın olduklarını tanımlamayı hedef alır. Varyans için ölçülme birimi orijinal değişkenin biriminin karesidir. Varyansın karekökü standart sapma olarak adlandırılır; bunun ölçme birimi orijinal değişkenle aynı birimde olur ve bu nedenle daha kolayca yorumlanabilir.

Regresyon analizi, iki ya da daha çok nicel değişken arasındaki ilişkiyi ölçmek için kullanılan analiz metodudur. Eğer tek bir değişken kullanılarak analiz yapılıyorsa buna tek değişkenli regresyon, birden çok değişken kullanılıyorsa çok değişkenli regresyon analizi olarak isimlendirilir. Regresyon analizi ile değişkenler arasındaki ilişkinin varlığı, eğer ilişki var ise bunun gücü hakkında bilgi edinilebilir. Regresyon terimi için öz Türkçe olarak bağlanım sözcüğü kullanılması teklif edilmiş ise de Türk ekonometriciler arasında bu kullanım yaygın değildir.

<span class="mw-page-title-main">Açısal momentum</span> Fiziksel nicelik

Açısal momentum, herhangi bir cismin dönüş hareketine devam etme isteğinin bir göstergesidir ve bu nicelik cismin kütlesine, şekline ve hızına bağlıdır. Açısal momentum bir vektör birimidir ve cismin belirli eksenler üzerinde sahip olduğu dönüş eylemsizliği ile dönüş hızını ifade eder.

Korelasyon, olasılık kuramı ve istatistikte iki rassal değişken arasındaki doğrusal ilişkinin yönünü ve gücünü belirtir. Genel istatistiksel kullanımda korelasyon, bağımsızlık durumundan ne kadar uzaklaşıldığını gösterir.

<span class="mw-page-title-main">Normal dağılım</span> sürekli olasılık dağılım ailesi

Normal dağılım, aynı zamanda Gauss dağılımı veya Gauss tipi dağılım olarak isimlendirilen, birçok alanda pratik uygulaması olan, çok önemli bir sürekli olasılık dağılım ailesidir.

<span class="mw-page-title-main">Aritmetik ortalama</span>

Aritmetik ortalama, bir sayı dizisindeki elemanların toplamının eleman sayısına bölünmesi ile elde edilir. İstatistik bilim dalında hem betimsel istatistik alanında hem de çıkarımsal istatistik alanında en çok kullanan merkezi eğilim ölçüsü' dür.

<span class="mw-page-title-main">İş (fizik)</span>

Fizikte, bir kuvvet bir cisim üzerine etki ettiğinde ve kuvvetin uygulama yönünde konum değişikliği olduğunda iş yaptığı söylenir. Örneğin, bir valizi yerden kaldırdığınızda, valiz üzerine yapılan iş kaldırıldığı yükseklik süresince ağırlığını kaldırmak için aldığı kuvvettir.

<span class="mw-page-title-main">İndüktans</span>

İndüktans elektromanyetizma ve elektronikte bir indüktörün manyetik alan içerisinde enerji depolama kapasitesidir. İndüktörler, bir devrede akımın değişimiyle orantılı olarak karşı voltaj üretirler. Bu özelliğe, onu karşılıklı indüktanstan ayırmak için, aynı zamanda öz indüksiyon da denir. Karşılıklı indüktans, bir devredeki indüklenen voltajın başka bir devredeki akımın zamana göre değişiminin etkisiyle oluşur.

<span class="mw-page-title-main">Mie saçılması</span>

Mie saçılması veya Mie teorisi, düzlem bir elektromanyetik dalganın (ışık) homojen bir küre tarafından saçılmasını ifade eder. Maxwell denklemlerinin Lorenz–Mie–Debye çözümü olarak da bilinmektedir. Denklemlerin çözümü sonsuz bir vektör küresel harmonik serisi şeklinde yazılır. Saçılma ismini fizikçi Gustav Mie'den almaktadır; analitik çözümü ilk kez 1908 yılında yayınlanmıştır.

<span class="mw-page-title-main">Kütle merkezi</span>

Fizikte, uzaydaki ağırlığın dağılımının ağırlık merkezi, birbirlerine göre olan ağırlıkların toplamlarının sıfır olduğu noktadır. Ağırlık dağılımı, ağırlık merkezi etrafında dengelenir ve dağılan ağırlığın kütle pozisyon koordinatlarının ortalaması onun koordinatlarını tanımlar. Ağırlık merkezine göre formüle edildiği zaman mekanikte hesaplamalar basitleşir.

<span class="mw-page-title-main">Standart sapma</span> İstatistikte bir varyasyon ölçüsü

Standart sapma, Olasılık kuramı ve istatistik bilim dallarında, bir anakütle, bir örneklem, bir olasılık dağılımı veya bir rassal değişken, veri değerlerinin yayılımının özetlenmesi için kullanılan bir ölçüdür. Matematik notasyonunda genel olarak, bir anakütle veya bir rassal değişken veya bir olasılık dağılımı için standart sapma σ ile ifade edilir; örneklem verileri için standart sapma için ise s veya s'

Olasılık kuramı ve istatistik bilim kollarında, çokdeğişirli normal dağılım veya çokdeğişirli Gauss-tipi dağılım, tek değişirli bir dağılım olan normal dağılımın çoklu değişirli hallere genelleştirilmesidir.

Doğrusal cebirde veya daha genel ifade ile matematikte matris çarpımı, bir matris çiftinde yapılan ve başka bir matris üreten ikili işlemdir. Reel veya karmaşık sayılar gibi sayılarda temel aritmetiğe uygun olarak çarpma yapılabilir. Başka bir ifade ile matrisler, sayı dizileridir. Bu yüzden, matris çarpımını ifade eden tek bir yöntem yoktur. "Matris çarpımı" terimi çoğunlukla, matris çarpımının farklı yöntemlerini ifade eder. Matris çarpımının anahtar özellikleri şunlardır: Asıl matrislerin satır ve sütun sayıları, ve matrislerin girişlerinin nasıl yeni bir matris oluşturacağıdır.

<span class="mw-page-title-main">Simpleks algoritması</span>

Simpleks algoritması, doğrusal programlama problemlerinde optimum çözümü pratik olarak bulmak amacıyla George Dantzig tarafından 1947 yılında geliştirilen bir algoritmadır.

<span class="mw-page-title-main">Ölçü (matematik)</span> uzunluk, alan, hacim ve integralin bir genellemesi olarak görülebilecek bir kümenin bazı alt kümelerine sayılar atayan işlev

Matematiksel analizde, küme üzerindeki bir ölçü, bu kümenin her bir uygun alt kümesine bir sayı atamanın sistematik bir yoludur ve sezgisel olarak kümenin boyutu olarak yorumlanır. Bu anlamda ölçü, uzunluk, alan ve hacim kavramlarının bir genellemesidir. Özellikle önemli bir örnek, Öklid geometrisinin geleneksel uzunluğunu, alanını ve hacmini n-boyutlu Öklid uzayının Rn uygun alt kümelerine atayan bir Öklid uzayındaki Lebesgue ölçüsüdür. Örneğin, gerçek sayılardaki [0, 1] aralığının Lebesgue ölçüsü, kelimenin günlük anlamındaki uzunluğudur ve tam olarak 1'dir.

Otomatik kümeleme algoritmaları, veri kümeleri hakkında önceden bilgi sahibi olmadan kümeleme yapabilen algoritmalardır. Diğer küme analizi tekniklerinin aksine, otomatik kümeleme algoritmaları, gürültü ve aykırı noktaların varlığında bile en iyi küme sayısını belirleyebilir.

Fizikte Einstein ilişkisi; 1904'te William Sutherland'in, 1905'te Albert Einstein'ın ve 1906'da Marian Smoluchowski'nin Brown hareketi üzerine yaptıkları çalışmalarında bağımsız olarak ortaya koydukları önceden beklenmedik bir bağlantıdır. Denklemin daha genel biçimi:

<span class="mw-page-title-main">Otsu methodu</span>

Bilgisayarla görme ve görüntü işlemede, otomatik görüntü eşikleme yapmak için Nobuyuki Otsu tarafından oluşturulan Otsu methodu kullanılmaktadır. En basit haliyle, algoritma pikselleri ön plan ve arka plan olmak üzere iki sınıfa ayıran tek bir yoğunluk eşiği döndürmektedir. Bu eşik, sınıf içi yoğunluk varyansını en aza indirerek veya eşdeğer olarak, sınıflar arası varyansı maksimize ederek belirlenmektedir. Otsu'nun yöntemi, Fisher's Discriminant Analysis'in tek boyutlu ayrık bir analoğudur. Jenks optimizasyon yöntemiyle ilgilidir ve yoğunluk histogramında gerçekleştirilen global olarak en uygun k-ortalamalara eşdeğerdir. Çok seviyeli eşiklemenin genişletilmesi orijinal belgede açıklanmıştır ve o zamandan beri hesaplama açısından verimli uygulamalar önerilmiştir.