Skip to main content

Contoh Soal dan Jawaban Ujian Data Mining

Essay:
1. Apa perbedaan supervised learning dan unsupervised learning? 
  
2. Berikut adalah decision tree


Suatu object X memiliki nilai-nilai atribut seperti berikut, X=(A=100; B=0; C=20). Klasifikasikan kelas apakah object X? 

3. Buatlah rules dari tree diatas (nomor 2)

4. Berikut adalah confusion matrix

Predicted class
Spam
Inbox
Actual Class
Spam
5800
1200
Inbox
100
2900
Berapakah akurasi classifier dari confusion matrix ditas? 


Case:
Seorang manager marketing memiliki database pelanggannya seperti dalam tabel dibawah berikut:
ID Pelanggan
Jenis Kelamin
Jenis Mobil
Ukuran Baju
Class
1
M
Family
Small
C0
2
M
Sports
Medium
C0
3
M
Sports
Medium
C0
4
M
Sports
Large
C0
5
M
Sports
Extra Large
C0
6
M
Sports
Extra Large
C0
7
F
Sports
Small
C0
8
F
Sports
Small
C0
9
F
Sports
Medium
C0
10
F
Luxury
Large
C0
11
M
Family
Large
C1
12
M
Family
Extra Large
C1
13
M
Family
Medium
C1
14
M
Luxury
Extra Large
C1
15
F
Luxury
Small
C1
16
F
Luxury
Small
C1
17
F
Luxury
Medium
C1
18
F
Luxury
Medium
C1
19
F
Luxury
Medium
C1
20
M
Luxury
Large
C1

Manager marketing tersebut ingin mengetahui klasifikasi para pelanggannya berdasarkan loyalitas terhadap produknya. Karena itu dia ingin membuat model berdasarkan data training yang ada dalam databasenye tersebut. Class C0 = loyal, sedangkan class C1 = tidak loyal.

1. Anda diminta membantu manager marketing tersebut untuk membuat model dengan menggunakan decision tree. Dalam membuat decision tree, Anda ingin menggunakan Gini index multi-split untuk menentukan atribut yang digunakan untuk menentukan simpul root dan simpul cabang-cabangnya. Jadi buatlah decision tree berdasarkan dataset di atas! 
Berikut adalah daftar Gini-Index yang bisa anda gunakan untuk petunjuk dalam membuat tree anda: a) gini index untuk atribut ‘Jenis Mobil’ = 0.1625, b) gini index untuk atribut ‘Ukuran Baju’ = 0.4914, dan c) untuk atribut ‘Jenis Kelamin’ = 0.5) 

2. Suatu data baru dengan customer ID adalah 21 memiliki atribut Jenis Kelamin = F; Jenis Mobil = Luxury; Ukuran Baju = Large. Klasifikasikan kelas dari data pelanggan dengan ID nomor 21 tersebut dengan menggunakan Bayes classifier! 


Jawaban:
Essay
1.   Supervised learning: label kelas sudah diketahui sebelumnya (klasifikasi)
      Unsupervised learning: label kelas tidak diketahui sebelumnya / tidak ada label kelas (clustering)

2. Object X masuk ke Class II

3. If attr A <= 50 and Attr C < 20 Then Class I
        If attr A <= 50 and Attr C >= 20  and Attr B = 10 Then Class I
        If attr A <= 50 and Attr C >= 20  and Attr B = 0 Then Class II
        If attr A < 5  and Attr B = 0 Then Class I
        If attr A < 5 and Attr B = 10 and Attr A < 20 Then Class II
        If attr A < 5 and Attr B = 10 and Attr A >= 20 Then Class III

4. Akurasi = TP + TN / Total 
                     = 5800 + 2900 / 10000
                     = 87%

Kasus:
1. Root adalah gini terkecil: atribut ‘Jenis Mobil’


2. P(Class = C0) = 10/20 = 0.5
        P(Class = C1) = 10/20 = 0.5

        P(Jenis Kelamin = F | Class = C0) = 4 / 10 = 0.4
        P(Jenis Kelamin = F | Class = C1) = 5 / 10 = 0.5

        P(Jenis Mobil = Luxury | Class = C0) = 1 / 10 = 0.1
        P(Jenis Mobil = Luxury | Class = C1) = 7 / 10 = 0.7

        P(Ukuran Baju = Large | Class = C0) = 2 / 10 = 0.2
        P(Ukuran Baju = Large | Class = C1) = 2 / 10 = 0.2

        ID 21?  
        P(21 | Class C0) = 0.4 * 0.1 * 0.2 * 0.5 = 0.004
        P(21 | Class C1) = 0.5 * 0.7 * 0.2 * 0.5 = 0.035
         
         Karena Class C1 > Class C0 maka ID 21 diprediksi akan masuk Class C1

Link-link terkait:

Comments

Popular posts from this blog

Pengertian Binding dalam Bahasa Pemrograman dan Kapan Terjadinya

Binding dimaksudkan sebagai pengikatan (association) antara suatu entity dengan atributnya, misalnya binding/pengikatan antara suatu variable dengan tipe datanya atau dengan nilainya, atau dapat juga antara suatu operasi dengan simbol, misalnya simbol + dikenali sebagai operasi penjumlahan atau simbol ^ dikenali sebagai operasi pangkat, dll.  Peristiwa binding dan kapan terjadinya binding (biasanya disebut dengan binding time ) berperan penting dalam membicarakan semantics suatu bahasa pemrograman. Beberapa kemungkinan binding time adalah:

Contoh proses normalisasi relasi dari UNF – 1NF – 2NF – dan 3NF

Dalam posting tulisan tentang: “Tujuan dan Manfaat Normalisasi dalam Perancangan Database” , kita sudah mempelajari tentang: “Apa itu normalisasi” dan “Mengapa kita perlu melakukan normalisasi”. Kedua pertanyaan itu sudah terjawab dalam tulisan tersebut.  Kemudian dalam posting tulisan tentang: “Konsep Ketergantungan Fungsional, Normalisasi, dan Identifikasi Primary Key dalam Perancangan Sistem Database” , kita sudah mempelajari suatu konsep penting yang digunakan untuk melakukan normalisasi, yaitu konsep ketergantungan fungsional yang terdiri dari ketergantungan penuh, ketergantungan parsial atau sebagian, dan ketergantungan transitif. Proses normalisasi pertama-tama dilakukan dengan mengidentifikasi adanya ketergantungan-ketergantungan tersebut dalam relasi-relasi dan kemudian menghilangkannya. Cara melakukan normalisasi, mengidentifikasi berbagai macam ketergantungan, dan menghilangkan ketergantungan pada relasi-relasi bisa dipelajari ulang dalam postingan tulisan d...

Latihan Soal Jawab Matematika Diskrit

Berikut di bawah ini adalah latihan soal jawab untuk matematika diskrit dengan topik-topik: Pernyataan Logika Circuits dan Ekspresi Boolean Argumen (valid/tidak valid) Teori Himpunan Permutasi Fungsi --o0o-- Pernyataan Logika 1. Buatlah tabel kebenaran untuk menentukan yang mana tautology dan yang mana contradiction dalam pernyataan logika (a) dan (b) di bawah ini: a. (p ∧ q) ∨ (∼p ∨ (p ∧ ∼q)) b.  (p ∧ ∼q) ∧ (∼p ∨ q)