Skip to main content

Kelemahan k-Means dan Contohnya

Algoritma k-Means sangat sensitif terhadap pencilan (outliers) karena object-object seperti ini sangat jauh letaknya/karakteristiknya dari mayoritas data lainnya, dan dengan demikian bila dimasukkan ke suatu cluster, data semacam ini bisa mendistorsi nilai rerata cluster secara dramatis. Hal ini secara tak sengaja akan mengubah penetapan object-object lainnya ke cluster-cluster. Efek ini diperburuk lagi karena penggunaan fungsi error kuadrat, seperti bisa dilihat di contoh berikut.

Contoh kelemahan k-Means. Misalkan ada enam titik dalam ruang 1-D (satu dimensi) yang nilai-nilainya adalah sebagai berikut: 1,2,3,8,9,10, dan 25. Secara intuitif, dengan melihat secara visual kita bisa membayangkan bahwa titik-titik tersebut dipartisi menjadi cluster {1,2,3} dan {8,9,10}. dimana titik 25 dikeluarkan karena terlihat sebagai suatu pencilan (outlier). Tetapi, bagaimanakah k-means akan mempartisi nilai-nilai tersebut? Jika kita menerapkan k-means dengan menggunakan k = 2 dan menggunakan persamaan dalam artikel sebelumnya tentang: [Penjelasan Cara Kerja Algoritma k-Means: Suatu Teknik Clustering Partisi Berbasis Centroid], partisi {{1,2,3}, {8,9,10,25}} akan memiliki simpangan di dalam cluster seperti berikut:

(1-2)2 + (2-2)2 + (3-2)2 + (8-13)2 + (9-13)2 + (10-13)2 + (25-13)2 = 196

karena rerata cluster {1,2,3} adalah 2 dan rerata {8,9,10,25} adalah 13. Bandingkan ini dengan partisi {{1,2,3,8}, {9,10,25}}, dimana k-means menghitung simpangan di dalam cluster seperti berikut:

(1-3.5)2 + (2-3.5)2 + (3-3.5)2 + (8-3.5)2 + (9-14.67)2 + (10-14.67)2 + (25-14.67)2 = 189.67

karena rerata cluster {1,2,3,8} adalah 3.5 dan rerata cluster {9,10,25} adalah 14.67. Partisi kedua memiliki simpangan di dalam cluster yang paling kecil, sehingga metode k-means memberikan nilai 8 ke suatu cluster yang berbeda dari cluster yang berisi 9 dan 10 karena adanya titik pencilan (outlier) 25. Selain itu, pusat cluster kedua, yaitu 14.67, sangat jauh dari semua anggota-anggotanya di dalam cluster.

Comments

Popular posts from this blog

Pengertian Binding dalam Bahasa Pemrograman dan Kapan Terjadinya

Binding dimaksudkan sebagai pengikatan (association) antara suatu entity dengan atributnya, misalnya binding/pengikatan antara suatu variable dengan tipe datanya atau dengan nilainya, atau dapat juga antara suatu operasi dengan simbol, misalnya simbol + dikenali sebagai operasi penjumlahan atau simbol ^ dikenali sebagai operasi pangkat, dll.  Peristiwa binding dan kapan terjadinya binding (biasanya disebut dengan binding time ) berperan penting dalam membicarakan semantics suatu bahasa pemrograman. Beberapa kemungkinan binding time adalah:

Latihan Soal Jawab Matematika Diskrit

Berikut di bawah ini adalah latihan soal jawab untuk matematika diskrit dengan topik-topik: Pernyataan Logika Circuits dan Ekspresi Boolean Argumen (valid/tidak valid) Teori Himpunan Permutasi Fungsi --o0o-- Pernyataan Logika 1. Buatlah tabel kebenaran untuk menentukan yang mana tautology dan yang mana contradiction dalam pernyataan logika (a) dan (b) di bawah ini: a. (p ∧ q) ∨ (∼p ∨ (p ∧ ∼q)) b.  (p ∧ ∼q) ∧ (∼p ∨ q)

Contoh proses normalisasi relasi dari UNF – 1NF – 2NF – dan 3NF

Dalam posting tulisan tentang: “Tujuan dan Manfaat Normalisasi dalam Perancangan Database” , kita sudah mempelajari tentang: “Apa itu normalisasi” dan “Mengapa kita perlu melakukan normalisasi”. Kedua pertanyaan itu sudah terjawab dalam tulisan tersebut.  Kemudian dalam posting tulisan tentang: “Konsep Ketergantungan Fungsional, Normalisasi, dan Identifikasi Primary Key dalam Perancangan Sistem Database” , kita sudah mempelajari suatu konsep penting yang digunakan untuk melakukan normalisasi, yaitu konsep ketergantungan fungsional yang terdiri dari ketergantungan penuh, ketergantungan parsial atau sebagian, dan ketergantungan transitif. Proses normalisasi pertama-tama dilakukan dengan mengidentifikasi adanya ketergantungan-ketergantungan tersebut dalam relasi-relasi dan kemudian menghilangkannya. Cara melakukan normalisasi, mengidentifikasi berbagai macam ketergantungan, dan menghilangkan ketergantungan pada relasi-relasi bisa dipelajari ulang dalam postingan tulisan d...