Jenis-jenis Atribut Data dalam Data Mining

Apa yang dimaksud dengan atribut?

Atribut adalah bagian data, yang mewakili karakteristik atau feature dari objek data. Atribut, dimensi, feature, dan variabel sering digunakan secara bergantian dalam literatur. Istilah dimensi ini umumnya digunakan dalam literatur data warehouse. Dalam literatur Machine learning cenderung menggunakan istilah feature, sementara statistik lebih menggunakan istilah variabel. 
Data mining dan para profesional database biasanya menggunakan istilah atribut, dan disini akan kita gunakan istilah atribut juga. 

Atribut yang menggambarkan objek pelanggan dapat mencakup, misalnya, ID pelanggan, nama, dan alamat. Nilai-nilai yang diamati untuk atribut tertentu disebut dengan observasi. Satu set atribut yang digunakan untuk menggambarkan suatu objek tertentu disebut atribut vektor (atau vektor feature). Distribusi data yang melibatkan satu atribut (atau variabel) disebut univariate. Distribusi bivariate melibatkan dua atribut, dan seterusnya.

Jenis atribut ditentukan oleh himpunan nilai yang mungkin muncul, yaitu nominal, biner, ordinal, atau numerik. Dalam bagian berikut, kita bahas tentang masing-masing jenis.

Atribut Nominal

Nominal berarti "yang berkaitan dengan nama-nama." Nilai-nilai atribut nominal adalah simbol atau nama-nama dari suatu benda. Setiap nilai merupakan semacam kategori, kode, atau status dan sebagainya sehingga atribut nominal juga disebut sebagai kategorikal. Nilai-nilai di dalamnya tidak memiliki urutan. Dalam ilmu komputer, nilai-nilai tersebut disebut juga dengan enumerasi.

Contoh: atribut nominal.
Misalkan warna rambut dan status perkawinan adalah dua atribut yang menggambarkan objek orang. Dalam contoh ini, nilai yang mungkin untuk warna rambut adalah hitam, coklat, pirang, merah, cokelat kemerahan, abu-abu, dan putih. 
Atribut status perkawinan dapat berisi nilai-nilai single, menikah, bercerai, dan janda/duda. Baik warna rambut dan status perkawinan adalah atribut nominal. Contoh lain dari atribut nominal adalah pekerjaan, dengan nilainya berisi misalnya guru, dokter gigi, programmer, petani, dan sebagainya.

Meskipun nilai-nilai dalam atribut nominal adalah simbol atau "nama-nama benda", tetapi bisa saja mewakili simbol atau "nama" dengan angka. Untuk warna rambut, misalnya, kita dapat menetapkan kode 0 untuk hitam, 1 untuk coklat, dan sebagainya.

Contoh lain adalah customor ID, dengan nilai yang mungkin saja semuanya berupa angka. Namun, dalam kasus tersebut, angka-angka tersebut tidak dimaksudkan untuk digunakan secara kuantitatif. Artinya, operasi matematika tidak bisa dilakukan pada nilai atribut nominal. Jadi tidak bisa untuk mengurangi satu nomor ID pelanggan dari yang lain, tidak seperti, katakanlah, mengurangkan nilai usia dari yang lain (andaikan usia adalah atribut numerik). Meskipun atribut nominal mungkin saja berisi integer (bilangan bulat), tetapi itu tidak dianggap sebagai atribut numerik karena integer (bilangan bulat) tidak dimaksudkan untuk digunakan secara kuantitatif. 
Karena nilai atribut nominal tidak memiliki urutan dan tidak kuantitatif, jadi tidak bisa digunakan untuk menghitung nilai rata-rata (mean) atau nilai tengah (median) dari atribut seperti itu. 

Atribut Biner

Sebuah atribut biner adalah atribut nominal yang hanya berisi dua jenis nilai saja: 0 atau 1, di mana 0 biasanya berarti bahwa atribut tidak ada, dan 1 berarti bahwa itu ada. Contoh lain adalah atribut yang nilainya hanya berisi 'ya' dan 'tidak'. Atribut biner disebut sebagai Boolean jika kedua status berkaitan dengan true dan false.

Contoh: atribut biner.
Misalkan atribut 'perokok' yang menggambarkan objek pasien, 1 menunjukkan bahwa pasien merokok, sedan (kan 0 menunjukkan bahwa pasien tidak merokok. Demikian pula, misalkan pasien mengalami tes medis yang memiliki dua hasil yang mungkin. Tes medis atribut biner, di mana nilai 1 berarti hasil tes untuk pasien positif, sedangkan 0 berarti hasilnya negatif.

Sebuah atribut biner adalah simetris jika kedua status dianggap sama-sama penting dan sama-sama memiliki bobot (jumlah tuples) yang seimbang; artinya, tidak ada preferensi yang mana yang harus dikodekan dengan 0 atau 1. Salah satu contohnya adalah atribut gender yang memiliki status laki-laki dan perempuan.

Sebuah atribut biner asimetris jika salah satu statusnya dianggap lebih penting dan menjadi perhatian dari pengamatan dan memiliki jumlah bobot (jumlah tuples) yang tidak seimbang, misalnya hasil yang positif dan negatif dari tes medis untuk HIV. Berdasarkan konvensi, kode status berdasarkan nilai yang dianggap lebih penting, yang biasanya merupakan salah satu yang paling langka, misalnya 1 untuk HIV positif dan 0 untuk HIV-negatif.

Atribut Ordinal

Sebuah atribut ordinal adalah atribut dengan nilai-nilai yang memiliki urutan atau peringkat, tapi besaran nilai-nilai yang berurutan tidak diketahui.

Contoh: Ordinal atribut
Misalkan ukuran minuman yang tersedia di restoran cepat saji. Atribut nominal ini memiliki tiga kemungkinan nilai: kecil, menengah, dan besar. Nilai-nilai itu memiliki urutan (yang sesuai dengan ukuran minuman); Tetapi, kita tidak bisa mengatakan seberapa lebih besar nilainya, misalkan, yang menengah dibandingkan dengan yang besar. 
Contoh lain dari atribut ordinal adalah nilai (misalnya, A+, A, A-, B+, dan sebagainya) dan peringkat profesional. Jajaran profesional bisa dibilang (dienumerasi) secara berurutan: misalnya, asisten, associate, dan dosen penuh, dan prajurit, prajurit tingkat pertama, spesialis, kopral, dan sersan untuk jajaran militer.

Atribut ordinal bermanfaat dalam mengukur kualitas penilaian subjektif yang tidak dapat diukur secara obyektif; sehingga atribut ordinal sering digunakan dalam survei untuk penilaian. Dalam satu survei, pada umumnya partisipan diminta untuk menilai seberapa puas mereka sebagai pelanggan.
Kepuasan pelanggan memiliki kategori berikut ordinal: 0: sangat tidak puas, 1: agak tidak puas, 2: netral, 3: puas, dan 4: sangat puas.

Atribut ordinal juga bisa didapatkan dengan teknik diskritisasi dalam tipe atribut numerik dengan memisahkan rentang nilai ke dalam kategori yang berurutan. 
Nilai-nilai tengah (tendensi sentral) dari atribut ordinal dapat diwakili oleh modus dan median nya (nilai yang sering muncul dan nilai tengah), tetapi untuk mean (rata-rata) tidak bisa dihitung.

Perhatikan bahwa nominal, biner, dan atribut ordinal bersifat kualitatif. Artinya, mereka menggambarkan fitur dari sebuah objek tanpa memberikan ukuran sebenarnya atau kuantitas. Nilai-nilai dari atribut kualitatif tersebut biasanya berupa kata-kata yang mewakili kategori. Jika bilangan bulat yang digunakan, mereka mewakili kode komputer untuk kategori, dan bukan sebagai jumlah yang bisa dihitung (misalnya, 0 untuk ukuran minuman kecil, 1 untuk medium, dan 2 untuk besar). 


Atribut Numerik

Atribut numerik adalah kuantitatif; artinya, nilai atribut itu bisa diukur, disajikan dalam bentuk integer atau desimal. Atribut numerik bisa berupa interval-scaled (berskala interval) atau ratio-scaled (berskala rasio).

Atribut Interval-Scaled

Atribut Interval-Scaled diukur dengan basis skala unit dengan ukuran yang sama. Nilai-nilai atribut Interval-Scaled memiliki urutan dan bisa berupa positif, 0, atau negatif. Dengan demikian, selain bisa memberikan urutan nilai-nilai, atribut tersebut memungkinkan kita untuk menghitung perbedaan/selisih antara nilai-nilai itu.

Contoh: Atribut Interval-Scaled.
Atribut temperatur adalah interval-scaled. Misalkan kita memiliki beberapa nilai temperatur di luar ruangan untuk beberapa hari yang berbeda-beda, di mana masing-masing hari adalah sebagai obyek data. Dengan mengurutkan nilai-nilainya, kita bisa mendapatkan urutan objek berdasarkan nilai temperatur. Selain itu, kita dapat mengukur perbedaan/selisih antara nilai-nilai tersebut. Sebagai contoh, suhu 20 C adalah lima derajat lebih tinggi dari suhu 15 C. Kalender penanggalan adalah contoh yang lain. Misalnya, tahun 2002 dan 2010 adalah delapan tahun selisihnya.

Temperatur dalam Celcius dan Fahrenheit tidak memiliki 'true zero' atau titik nol absolut, artinya, pada 0 C atau 0 F tidak berarti bahwa  "tidak ada tempertaur".  Meskipun kita dapat menghitung perbedaan/selisih
antara nilai temperatur, tetapi kita tidak bisa mengatakan bahwa suatu nilai temperatur adalah sebagai hasil perkalian dari nilai yang lain. Tanpa 'true-zero' (titik nol absolut), kita tidak bisa mengatakan, misalnya, bahwa 10 C adalah dua kali lebih hangat dari 5 C. Artinya, kita tidak bisa mengatakan nilai-nilai itu dalam bentuk rasio atau perbandingan. Demikian pula, tidak ada 'true-zero' (nol absolut) untuk kalender penanggalan. (Tahun 0 tidak berarti bahwa itu adalah awal dari waktu.) 

Karena atribut interval-scaled adalah numerik, maka kita bisa menghitung nilai rata-rata (mean) dari nilai-nilai tersebut, tentu saja bisa juga menghitung nilai-nilai tengah yang lain seperti median (nilai tengah) dan modus (nilai yang paling sering muncul).

Atribut Rasio-Scaled

Atribut ratio-Scaled adalah atribut numerik dengan titik nol absoulut. Artinya, jika sistem pengukuran adalah menggunakan rasio-scaled, kita dapat menghitung perkalian atau perbandingan antara suatu nilai dengan nilai yang lain. Selain itu, nilai-nilai tersebut juga bisa diurutkan, dihitung perbedaan/selisihnya, bisa dihitung mean (rata-rata), median (nilai tengah), dan modus (yang paling sering muncul).

Contoh: Atribut Ratio-Scaled.
Tidak seperti temperatur dalam Celcius dan Fahrenheit, skala Kelvin (K) memiliki apa yang tadi disebut dengan 'true-zero' (atau titik nol absolut). 0 K = -273.15 C: Ini adalah titik di mana partikel-partikel yang terdiri materi memiliki nol energi kinetik. 
Contoh lain atribut rasio-scaled adalah atribut untuk menghitung, misalnya, tahun pengalaman (misalnya, objek data adalah karyawan) dan jumlah kata (misalnya, objek data adalah dokumen).
Contoh lain adalah atribut untuk mengukur berat badan, tinggi badan, koordinat lintang dan bujur (misalnya, ketika mengelompokkan rumah), dan jumlah moneter (misalnya, Anda adalah 100
kali lipat lebih kaya bila memiliki $ 100 dibandingkan dengan $ 1).

Atribut Diskrit vs Atribut Kontinu

Tadi, kita telah melihat atribut dalam nominal, biner, ordinal, dan jenis numerik. Ada banyak cara untuk mengorganisasi jenis-jenis atribut. Jenis-jenis atribut tersebut tidak saling eksklusif.

Algoritma klasifikasi yang dikembangkan dari bidang disiplin machine learning sering membahas atribut sebagai diskrit atau kontinu. Setiap jenis dapat diproses secara berbeda.

Suatu atribut diskrit adalah atribut yang memiliki himpunan nilai-nilai yang berhingga (finite) atau nilai-nilai tak-hingga tetapi yang bisa dihitung (countably infinite), yang mungkin saja disajikan dalam bentuk integer atau mungkin juga bukan integer. 
Atribut-atribut seperti warna rambut, perokok, tes kesehatan, dan ukuran minuman ukuran seperti contoh-contoh di atas tadi masing-masing memiliki nilai-nilai yang jumlahnya 'berhingga' (finite), jadi atribut-atribut itu adalah diskrit. 

Perhatikan bahwa atribut diskrit mungkin memiliki nilai-nilai numerik, seperti 0 dan 1 untuk atribut biner atau, nilai-nilai 0 hingga 110 untuk atribut usia. Suatu atribut adalah tak-hingga tetapi bisa dihitung (countably infinite) apabila himpunan nilai-nilainya dapat ditempatkan ke dalam relasi one-to-one dengan bilangan alami. Contohnya, atribut ID pelanggan adalah countably infinite (tak-hingga tetapi bisa dihitung/dibilang/dienumerasi). Jumlah pelanggan dapat tumbuh hingga tak-hingga, tetapi dalam kenyataannya, kumpulan nilai-nilainya bisa dihitung/dibilang (di mana nilai-nilainya dapat ditempatkan ke dalam relasi one-to-one dengan himpunan bilangan bulat). Contoh lain adalah kode pos.

Bila suatu atribut tidak diskrit, berarti atribut tersebut kontinyu (continous). Istilah atribut numerik dan atribut kontinyu sering digunakan secara bergantian dalam literatur. (Hal ini dapat membingungkan
karena, dalam pengertian klasik, nilai-nilai kontinu adalah bilangan real, sedangkan nilai numerik dapat berupa integer atau bilangan real.) Dalam prakteknya, nilai real disajikan dalam bentuk angka-angka. Atribut kontinu biasanya disajikan sebagai variabel floating-point (desimal).

Catatan:
Tips & trik mudah untuk membedakan deskrit dan kontinyu adalah sebagai berikut:

Diskrit: kalau kita mendapatkan hasil pengukuran dengan cara enumerasi atau membilang satu per satu, misalkan satu, dua,tiga,..dst,.dst. Contoh: berapa jumlah siswa di dalam kelas X? Jawaban didapatkan dengan membilang/enumerasi dengan menghitung siswa satu per satu: satu, dua,tiga,...,empat puluh. Misalkan hasilnya adalah 40 siswa.

Kontinyu: kalau kita mendapatkan hasil pengukuran dengan cara mengukur, misalnya berapa jarak ujung dinding A ke ujung dinding B? Hasil yang didapatkan adalah dengan cara mengukur misalnya menggunakan alat pengukur dan hasil yang didapatkan, misalnya, adalah 10,5 meter.

Link-link terkait:

2 comments: