Data Warehouse dan Beberapa Karakteristiknya - Seri Data Warehouse (1)

Apa yang dimaksud dengan data warehouse?

Secara literal, warehouse adalah gudang (yang berarti tempat menyimpan barang bekas/lama). Jadi secara literal data warehouse adalah gudang data (tempat menyimpan data lama). Pengertian Data warehouse (atau bisa disebut juga gudang data), dalam definisi yang paling sederhana adalah tempat kumpulan data (historis/lama) yang dibuat untuk mendukung pengambilan keputusan. Dengan definisi ini berarti kita berfokus pada hal-hal yang mendasar, dan mengabaikan karakteristik-karakteristik yang mungkin berbeda-beda dari satu data warehouse dengan data warehouse yang lainnya tetapi tidak terlalu memberikan kontribusi yang penting terhadap konsep dasar data warehouse.

Ada definisi lain yang lebih spesifik mengacu ke karakteristik data warehouse, yaitu: "data warehouse adalah sekumpulan data yang memiliki karakter-karakter berorientasi-subjek, terintegrasi, time-variant (time series), nonvolatile (bersifat tetap selamanya), yang berfungsi untuk mendukung proses pengambilan keputusan manajemen." Definisi ini menekankan hal-hal lebih spesifik, tetapi dalam setiap kasus tepatnya: sangatlah sulit, jika bukan tidak mungkin, untuk memahami suatu data warehouse yang tidak berorientasi subjek, terintegrasi, dll. [baca juga: Proses dalam Data Warehouse]

Karakteristik-karakteristik data warehouse yang ada dalam definisi diatas tersebut mengacu ke karakteristik-karakteristik fundamental dalam data warehouse yang didefinisikan oleh salah seorang 'bapak data warehouse', yaitu Inmon, yang penjelasan lebih detilnya adalah seperti berikut:
  • Berorientasi-subjek: Data diorganisir berdasarkan subjek secara mendetil, seperti misalnya, penjualan, produk, atau pelanggan, yang hanya berisi informasi yang relevan terhadap pendukung keputusan. Orientasi-subjek ini akan memungkinkan manajemen untuk menentukan tidak hanya 'bagaimana' bisnis mereka berjalan tetapi juga 'mengapa'. Data warehouse berbeda dengan database operasional dalam arti bahwa sebagian besar database operasional memiliki orientasi produk dan di-sesuaikan untuk menangani transaksi yang selalu mengupdate database. Orientasi subjek memberikan 'view' yang lebih komprehensif tentang perusahaan.
  • Terintegrasi: Integrasi sangat terkait dengan orientasi subjek. Data warehouse harus menaruh data dari berbagai sumber yang berbeda ke dalam format yang sama dan konsisten. Untuk melakukan hal ini, data warehouse pasti akan menghadapi hal-hal seperti konflik-konflik penamaan dan perbedaan-perbedaan tentang berbagai unit-unit pengukuran. Suatu data warehouse harus dianggap benar-benar terintegrasi.
  • Time-variant (time series): Data warehouse pasti menyimpan dan memelihara data historis. Data tidak terlalu perlu menyediakan status saat ini (kecuali dalam sistem real-time). Data itu akan mengetahui tentang trend, deviasi/penyimpangan, dan hubungan jangka panjang untuk memprediksi dan membandingkan, yang menyebabkan pengambilan keputusan. Setiap data warehouse memiliki kualitas yang bersifat sementara. Waktu adalah satu dimensi penting dalam data warehouse. Data untuk analisa dari berbagai sumber berisi banyak titik-titik waktu (misalnya, 'view' secara harian, mingguan, bulanan).
  • Nonvolatile: Setelah data dimasukkan ke data warehouse, pengguna tidak bisa mengubah atau meng-update data. Perubahan pada data akan di-record sebagai data baru.
Karakteristik-karakteristik berikut memungkinkan data warehouse untuk disesuaikan dengan bagaimana data diakses. Beberapa karakteristik tambahan tersebut antara lain:

Meskipun data warehouse adalah suatu bentuk repository/tempat penyimpanan data, tetapi 'data warehousing' secara literal adalah proses pada data warehouse secara keseluruhan. Data warehousing juga meliputi suatu disiplin ilmu yang menghasilkan aplikasi-aplikasi yang memberikan kemampuan pendukung keputusan, mendorong akses terhadap informasi bisnis, dan menciptakan insight bisnis. 
Tiga jenis utama data warehouse adalah data marts, operational data stores (ODS), dan enterprise data warehouse (EDW). [Baca juga: Data Warehouse Real-Time]

Apa yang dimaksud dengan ODS atau Operational Data Store?
Operational Data Store (ODS) adalah database yang digunakan bisnis/perusahaan secara terus menerus.

Bagaimana membedakan data mart, ODS (Operasional Data Store), dan EDW (Enterprise Data Warehouse)?
ODS (Operational Data Store) adalah database yang digunakan bisnis/perusahaan untuk beroperasi terus menerus.
Sementara baik data mart dan EDW adalah data warehouse. EDW (Enterprise Data Warehouse) adalah data warehouse yang meliputi seluruh area subjek dengan scope seluruh perusahaan. Data Mart adalah data warehouse yang lebih kecil yang didesain untuk sekitar satu problem, satu fungsi organisasi/perusahaan, topik, atau satu area saja.

Mengapa metadata adalah suatu yang penting?

Metadata, "data tentang data", adalah cara-cara bagaimana aplikasi dan pengguna mengakses isi dari data warehouse, yang didalamnya ada pengelolaan aspek keamanannya, dan bagaimana manajemen perusahaan, dalam arti yang sebenarnya, mengelola tentang aset informasinya. Sebagian besar sistem manajemen database tidak bisa berfungsi tanpa, minimal, beberapa metadata. Sebenarnya, penggunaan metadata, akan memungkinkan akses data melalui nama-namanya dan logical relationship-nya dibandingkan dengan lokasi fisik, dan ini adalah sesuatu yang fundamental dalam konsep DBMS.
Metadata sangatlah penting bagi database apapun, tidak hanya pada data warehouse.
[Baca juga: Apa itu Repositori Metadata di Data Warehouse dan Apa Isinya?

Bagaimana membedakan data warehouse dengan database (perbedaan data warehouse vs database)?

Secara teknis data warehouse adalah database, namun memiliki karakteristik-karakteristik tertentu untuk memfasilitasi perannya dalam mendukung keputusan. Secara lebih spesifik, seperti dalam tulisan di atas, adalah suatu sistem penyimpanan data yang bersifat berorientasi subjek, nonvolatile, time-variant, dan terintegrasi yang digunakan untuk pendukung keputusan dan analisa bisnis dalam suatu perusahaan.
Karakteristik-karateristik itulah yang tidak perlu ada dalam database pada umumnya, meskipun masing-masing karakteristik bisa saja diterapkan secara individu pada suatu database.
Secara praktisnya, sebagian besar database pasti mangalami normalisasi untuk menghindari anomali saat update data. Data warehouse justru sebaliknya mengalami denormalisasi demi alasan performa/kinerja data warehouse. Hal ini bisa diterima karena isinya tidak pernah terupdate, hanya selalu ditambahkan saja (dalam data warehouse: tidak ada update, tetapi selalu insert). Data historis selalu bersifat statis.  [Baca juga: Perbedaan yang lebih lengkap antara database vs data warehouse]

1 comment: