Algoritma k-Means sangat sensitif terhadap pencilan (outliers) karena object-object seperti ini sangat jauh letaknya/karakteristiknya dari mayoritas data lainnya, dan dengan demikian bila dimasukkan ke suatu cluster, data semacam ini bisa mendistorsi nilai rerata cluster secara dramatis. Hal ini secara tak sengaja akan mengubah penetapan object-object lainnya ke cluster-cluster. Efek ini diperburuk lagi karena penggunaan fungsi error kuadrat, seperti bisa dilihat di contoh berikut.
Contoh kelemahan k-Means. Misalkan ada enam titik dalam ruang 1-D (satu dimensi) yang nilai-nilainya adalah sebagai berikut: 1,2,3,8,9,10, dan 25. Secara intuitif, dengan melihat secara visual kita bisa membayangkan bahwa titik-titik tersebut dipartisi menjadi cluster {1,2,3} dan {8,9,10}. dimana titik 25 dikeluarkan karena terlihat sebagai suatu pencilan (outlier). Tetapi, bagaimanakah k-means akan mempartisi nilai-nilai tersebut? Jika kita menerapkan k-means dengan menggunakan k = 2 dan menggunakan persamaan dalam artikel sebelumnya tentang: [Penjelasan Cara Kerja Algoritma k-Means: Suatu Teknik Clustering Partisi Berbasis Centroid], partisi {{1,2,3}, {8,9,10,25}} akan memiliki simpangan di dalam cluster seperti berikut:
(1-2)2 + (2-2)2 + (3-2)2 + (8-13)2 + (9-13)2 + (10-13)2 + (25-13)2 = 196
karena rerata cluster {1,2,3} adalah 2 dan rerata {8,9,10,25} adalah 13. Bandingkan ini dengan partisi {{1,2,3,8}, {9,10,25}}, dimana k-means menghitung simpangan di dalam cluster seperti berikut:
(1-3.5)2 + (2-3.5)2 + (3-3.5)2 + (8-3.5)2 + (9-14.67)2 + (10-14.67)2 + (25-14.67)2 = 189.67
karena rerata cluster {1,2,3,8} adalah 3.5 dan rerata cluster {9,10,25} adalah 14.67. Partisi kedua memiliki simpangan di dalam cluster yang paling kecil, sehingga metode k-means memberikan nilai 8 ke suatu cluster yang berbeda dari cluster yang berisi 9 dan 10 karena adanya titik pencilan (outlier) 25. Selain itu, pusat cluster kedua, yaitu 14.67, sangat jauh dari semua anggota-anggotanya di dalam cluster.
Kelemahan k-means yang sensitif terhadap pencilan seperti contoh di atas bisa diperbaiki dengan teknik k-Medoids yang akan didiskusikan dalam artikel yang lain.
Artikel terkait clustering:
Artikel terkait clustering:
- Pengertian Clustering atau Analisa Cluster
- Metode-metode Dasar dalam Clustering
- Penjelasan Cara Kerja Algoritma k-Means: Suatu Teknik Clustering Partisi Berbasis Centroid
- Contoh Ilustrasi Clustering Dengan Menggunakan k-Means dan Variannya: k-Modes
- Kelemahan k-Means dan Contohnya
- Penjelasan k-Medoids, Algoritma, dan Contohnya
- k-Means vs k-Medoids, Kelemahan k-Medoids dan Solusinya: CLARA
Comments
Post a Comment