Contoh Soal dan Jawaban Ujian Data Mining

Essay:
1. Apa perbedaan supervised learning dan unsupervised learning? 
  
2. Berikut adalah decision tree


Suatu object X memiliki nilai-nilai atribut seperti berikut, X=(A=100; B=0; C=20). Klasifikasikan kelas apakah object X? 

3. Buatlah rules dari tree diatas (nomor 2)

4. Berikut adalah confusion matrix

Predicted class
Spam
Inbox
Actual Class
Spam
5800
1200
Inbox
100
2900
Berapakah akurasi classifier dari confusion matrix ditas? 


Case:
Seorang manager marketing memiliki database pelanggannya seperti dalam tabel dibawah berikut:
ID Pelanggan
Jenis Kelamin
Jenis Mobil
Ukuran Baju
Class
1
M
Family
Small
C0
2
M
Sports
Medium
C0
3
M
Sports
Medium
C0
4
M
Sports
Large
C0
5
M
Sports
Extra Large
C0
6
M
Sports
Extra Large
C0
7
F
Sports
Small
C0
8
F
Sports
Small
C0
9
F
Sports
Medium
C0
10
F
Luxury
Large
C0
11
M
Family
Large
C1
12
M
Family
Extra Large
C1
13
M
Family
Medium
C1
14
M
Luxury
Extra Large
C1
15
F
Luxury
Small
C1
16
F
Luxury
Small
C1
17
F
Luxury
Medium
C1
18
F
Luxury
Medium
C1
19
F
Luxury
Medium
C1
20
M
Luxury
Large
C1

Manager marketing tersebut ingin mengetahui klasifikasi para pelanggannya berdasarkan loyalitas terhadap produknya. Karena itu dia ingin membuat model berdasarkan data training yang ada dalam databasenye tersebut. Class C0 = loyal, sedangkan class C1 = tidak loyal.

1. Anda diminta membantu manager marketing tersebut untuk membuat model dengan menggunakan decision tree. Dalam membuat decision tree, Anda ingin menggunakan Gini index multi-split untuk menentukan atribut yang digunakan untuk menentukan simpul root dan simpul cabang-cabangnya. Jadi buatlah decision tree berdasarkan dataset di atas! 
Berikut adalah daftar Gini-Index yang bisa anda gunakan untuk petunjuk dalam membuat tree anda: a) gini index untuk atribut ‘Jenis Mobil’ = 0.1625, b) gini index untuk atribut ‘Ukuran Baju’ = 0.4914, dan c) untuk atribut ‘Jenis Kelamin’ = 0.5) 

2. Suatu data baru dengan customer ID adalah 21 memiliki atribut Jenis Kelamin = F; Jenis Mobil = Luxury; Ukuran Baju = Large. Klasifikasikan kelas dari data pelanggan dengan ID nomor 21 tersebut dengan menggunakan Bayes classifier! 


Jawaban:
Essay
1.   Supervised learning: label kelas sudah diketahui sebelumnya (klasifikasi)
      Unsupervised learning: label kelas tidak diketahui sebelumnya / tidak ada label kelas (clustering)

2. Object X masuk ke Class II

3. If attr A <= 50 and Attr C < 20 Then Class I
        If attr A <= 50 and Attr C >= 20  and Attr B = 10 Then Class I
        If attr A <= 50 and Attr C >= 20  and Attr B = 0 Then Class II
        If attr A < 5  and Attr B = 0 Then Class I
        If attr A < 5 and Attr B = 10 and Attr A < 20 Then Class II
        If attr A < 5 and Attr B = 10 and Attr A >= 20 Then Class III

4. Akurasi = TP + TN / Total 
                     = 5800 + 2900 / 10000
                     = 87%

Kasus:
1. Root adalah gini terkecil: atribut ‘Jenis Mobil’


2. P(Class = C0) = 10/20 = 0.5
        P(Class = C1) = 10/20 = 0.5

        P(Jenis Kelamin = F | Class = C0) = 4 / 10 = 0.4
        P(Jenis Kelamin = F | Class = C1) = 5 / 10 = 0.5

        P(Jenis Mobil = Luxury | Class = C0) = 1 / 10 = 0.1
        P(Jenis Mobil = Luxury | Class = C1) = 7 / 10 = 0.7

        P(Ukuran Baju = Large | Class = C0) = 2 / 10 = 0.2
        P(Ukuran Baju = Large | Class = C1) = 2 / 10 = 0.2

        ID 21?  
        P(21 | Class C0) = 0.4 * 0.1 * 0.2 * 0.5 = 0.004
        P(21 | Class C1) = 0.5 * 0.7 * 0.2 * 0.5 = 0.035
         
         Karena Class C1 > Class C0 maka ID 21 diprediksi akan masuk Class C1

Link-link terkait:

No comments:

Post a Comment