Skip to main content

Pengertian Big Data

Definisi Big Data

Memanfaatkan data untuk memahami pelanggan atau klien dan sistem operasi bisnis untuk mempertahankan maupun meningkatkan pertumbuhan dan profit adalah hal yang selalu menantang bagi perusahaan-perusahaan saat ini. Karena data semakin lama semakin tersaji dalam berbagai macam bentuk dan cara, maka pemrosesan data yang cepat dan tepat waktu menggunakan cara-cara tradisional menjadi tidak praktis. Fenomena ini disebut dengan "Big Data", yang mendapatkan penerimaan dari dunia media massa dan menarik perhatian dari kalangan pebisnis dan profesional TI (Teknologi Informasi). Hasilnya adalah bahwa "Big Data' menjadi 'terlalu' sensasional dan menjadi semacam jargon marketing yang terlalu berlebihan.

Big Data bisa berarti macam-macam bagi orang dengan latar-belakang dan minat yang berbeda-beda. Sebelumnya, istilah Big Data telah digunakan untuk mendeskripsikan volume data yang masif yang dianalisa oleh berbagai organisasi besar seperti Google atau riset-riset project di NASA. Tetapi bagi kebanyak perusahaan, itu adalah istilah yang relatif: "Big" bergantung pada ukuran suatu organisasi. Poinnya adalah lebih pada menemukan nilai/manfaat baru di dalam dan diluar sumber-sumber data konvensional. Dengan memperluas batas-batas analisa data akan menyingkap wawasan-wawasan dan peluang baru, dan kata "big" bergantung pada dimana kita mulai dan bagaimana kita menjalankannya. Coba kita ambil deskripsi populer berikut tenttan "Big Data": Big Data melampaui pencapaian hardware yang umum digunakan dan/atau kemampuan software dalam mengambil, mengelola, dan memproses data dalam rentang waktu yang bisa ditoleransi oleh penggunanya. Big Data menjadi istilah yang populer untuk menggambarkan pertumbuhan yang eksponensial, ketersediaan, dan penggunaan informasi, baik yang terstruktur maupun tak-terstruktur. Banyak hal sudah ditulis tentang trend Big Data dan bagaimana bisa digunakan sebagai dasar inovasi, diferensiasi, dan pertumbuhan.

Dari mana sumber datangnya Big Data? Jawaban sederhananya adalah: "dari mana saja". Sumber-sumber data yang waktu lalu diabaikan karena berbagai macam keterbatasan teknis sekarang dianggap sebagai tambang emas. Big Data bisa berasal dari log-log Web, RFID, sistem GPS, jaringan sensor-sensor, media sosial, teks-teks berbasis internet, indeks pencarian internet, catatan-catatan panggilan telphone, astronomi, biologi, genomics, fisika nuklir, eksperimentasi biokimia, catatan medis, penelitian ilmiah, pengintaian militer, arsip photography, arsip video, e-commerce skala besar, dan lain-lain.

Big Data bukanlah sesuatu yang baru. Apa yang baru adalah definisi dan struktur Big Data yang selalu berevolusi. Berbagai perusahaan sudah menyimpan dan menganalisa volume data yang besar sejak munculnya data warehouse pada awal 1990. Saat itu ukuran sebesar terrabytes menjadi sinonim dengan apa yang disebut dengan Big Data warehouse, saat ini ukuran itu menjadi petabytes, dan laju pertumbuhan volume data tersebut terus meningkat karena organisasi-organisasi selalu mencari dan menganalisa tingkat transaksi yang lebih dalam, termasuk data yang dihasilkan dari web dan berbagai macam mesin, untuk mendapatkan pemahaman yang lebih baik tentang perilaku pelanggan dan faktor-faktor pendorong bisnis.

Banyak orang (termasuk para akademisi dan snalist/pemimpin industri) mengira bahwa Big Data adalah suatu misnomer (nama yang salah). Apa yang dikatakan dan apa yang dimaksudkan tidaklah benar-benar sama. Itulah, Big Data bukanlah sekedar "big" (besar). Volume data hanyalah salah satu dari banyak karakteristik yang terkait dengan Big Data, seperti variety (keragaman jenis data), velocity (kecepatan dalam memproses data), veracity(kebenaran/akurasi atau kesesuaian dengan fakta), variability (perubahan data), dan value proposition (manfaat bisnin yang lebih besar).



Berbagai macam karakteristik "V" yang mendefinisikan Big Data

Big Data biasanya didefinisikan dengan tiga "V" yaitu: volume (jumlah data), variety (keragaman jenis data), dan velocity (kecepatan memproses data). Selain tiga tersebut, beberapa penyedia solusi Big Data yang terkenal menambahkan "V" yang lain, misalnya veracity atau akurasi data (IBM), variability atau perubahan data (SAS), dan value proposition (kemanfaatan yang lebih besar bagi bisnis)

Volume

Volume adalah ciri yang paling umum tentang Big Data. Banyak sekali faktor yang berkontribusi pada peningkatan eksponensial volume data, misalnya data yang berbasis transaksi yang disimpan bertahun-tahun, data teks yang berasal dari media sosial, data sensor yang terus menerus meningkat, data yang dihasilkan otomastis dari RFID dan GPS, dan seterusnya. Dulu, data yang berlebihan adalah masalah bagi media penyimpanan baik secara teknis maupun finansial. Sekarang dengan kemajuan teknologi dan biaya media penyimpanan yang semakin murah hal itu tidak lagi menjadi masalah penting, tetapi sebaliknya, masalah lain muncul, termasuk bagaimana menentukan relevansi data di tengah-tengah membludaknya volume data yang besar dan bagaimana membuat nilai/manfaat data yang dianggap releva tersebut.

Seperti sudah disebutkan di atas, "big" adalah kata yang relatif. Dia selalu berubah sepanjang waktu dan diartikan berbeda-beda bagi berbagai macam organisasi. Dengan peningkatan volume data yang mengejutkan, bahkan penamaan Big Data itu sendiri menjadi suatu tantangan tersendiri. Jumlah data terbesar yang dulu biasa disebut adalah petabytes (PB) sudah bergerak ke zettabytes (ZB) yang artinya satu triliun gigabytes (GB) atau satu billion terabytes.

Secara singkat riwayat volume data, pada tahun 2009 dunia memiliki data sebesar 0.8 ZB; pada tahun 2010 jumlah data sudah melebihi 1 ZB; pada akhir 2011 jumlah data menjadi 1.8 ZB. Pada 2017 atau 2018 diperkirakan jumlah data akan menjadi 35 ZB (IBM, 2013). Meskipun ukuran tersebut angat mencengangkan, begitu pula dengan tantangan dan peluang yang akan mengikutinya.

Variety

Data saat ini ada dalam berbagai macam jenis format mulai dari database tradisional hingga ke data hirarkis yang dibuat oleh end-user dan sistem OLAP [baca juga: OLTP vs OLAP] hingga ke dokumen teks, email, XML, data dari berbagai macam sensor, hingga video, audio, dan data ticker di pasar bursa. Dengan suatu estimasi, 80 hingga 85 persen dari semua data organisasi adalah dalam bentuk data tak-terstruktur atau semi terstruktur (format yang tidak cocok untuk skema database tradisional). Tetapi tidak dapat disangkal manfaatnya dan karena itu harus dimasukkan dalam analisa untuk mendukung proses pengambilan keputusan.

Velocity

Menurut Gartner, velocity artinya adalah seberapa cepat data diproduksi dan seberapa cepat harus diproses (misalnya diambil, disimpan, dan dianalisa) supaya sesuai dengan kebutuhan. Tag-tag RFID, sensor-sensor otomatis, perangkat-perangkat GPS, dan lain-lain mendorong kebutuhan yang terus meningkat berkaitan dengan membludaknya data real-time. Merespon dengan cepat velocity marupakan tantangan tersendiri bagi banyak organisasi. Untuk organisasi yang sensitif terhadap waktu, opportunity cost sudah mulai sejak data tercipta. Karena waktu berjalan terus, value proposition dari data tersebut akan menurun dan akhirnya tidak berguna sama sekali. Area-area seperti kondisi kesehatan pasien, keadaan trafik lalu lintas, atau kesehatan portfolio investasi adalah area yang memiliki ouput yang akan lebih bermanfaat apabila mengakses dan merespon data dengan lebih cepat.

Dalam keriuhan Big Data yang saat ini kita lihat, hampir semua orang terpaku pada "at-rest analytics (analytics yang sudah 'fixed', statis, dan biasa digunakan), dengan menggunakan berbagai macam software dan hardware untuk menganalisa jumlah data yang besar dari berbagai macam sumber. Meskipun ini sangat penting dan sangat bernilai, tetapi ada kategori lain dari analitycs yang berasal dari velocity dalam Big Data, yang disebut dengan "data stream analytics" atau "in-motion analytics", yang seringkali diremehkan. Bila dilakukan dengan benar, "data stream analytics" bisa sangat bermanfaat, dan dalam beberapa lingkungan bisnis lebih bermanfaat dibandingkan dengan "at-rest analytics".

Veracity

Veracity adalah istilah yang diperkenalkan oleh IBM yang biasanya digunakan sebagai "V" yang keempat untuk menggambarkan Big Data. Istilah ini mengacu pada kesesuaian dengan fakta yaitu: akurasi data, kualitas data, kebenaran data, tingkat kepercayaan data. Piranti dan teknik yang sering digunakan untuk menangani veracity dalam Big Data adalah dengan men-ttansformasi data menjadi insight yang berkualitas dan terpercaya.

Variability

Selain meningkatnya velocity dan variety data, aliran data bisa sangat tidak konsisten dengan puncak periodik. Apakah ada sesuatu yang sedang trending di media sosial? Barangkali ada IPO yang tinggi menjulang. Mungkin ada diskon besar-besaran paket wisata? Beban data puncak yang dipicu oleh peristiwa tertentu, musiman atau harian bisa menjadi suatu tantangan yang harus dikelola terutama yang melibatkan media sosial.

Value Proposition

Kehebohan diseputar big Data adalah value propositionnya (manfaatnya). Gagasan yang sudah dipercaya sebelumnya tentang Big Data adalah bahwa Big Data berisi (atau berisi potensi yang lebih besar) lebih banyak pola-pola dan anomali yang menarik dibandingkan dengan data yang kecil. Jadi dengan menganlisa data yang besar dan kaya dengan fitur, organisasi-organisasi bisa mendapatkan nilai/manfaat bisnis yang lebih besar. Kalau user bisa mendeteksi pola-pola dalam jumlah data yang kecil dengan menggunakan metode statistik sederhana dan metode machine learning atau query ad hoc dan berbagai macam reporting tools, maka Big Data berarti "big analytics. Dan big analytics berarti bisa memberi insight yang lebih bagus dan keputusan yang lebih bagus, sesuatu yang dibutuhkan oleh semua organisasi.

Karena definisi yang tepat tentang "Big Data" masih merupakan diskusi yang terus berlangsung di dalam lingkaran akademik dan industri, sangat mungkin bahwa akan ada beberapa karakteristik (barangkali "V" yang lain) yang sangat mungkin bisa ditambahkan lagi. Tanpa menghiraukan apa yang sedang terjadi, betapa oenting dan nilai/manfaat Big Data ada disini.


Comments

Popular posts from this blog

Pengertian Binding dalam Bahasa Pemrograman dan Kapan Terjadinya

Binding dimaksudkan sebagai pengikatan (association) antara suatu entity dengan atributnya, misalnya binding/pengikatan antara suatu variable dengan tipe datanya atau dengan nilainya, atau dapat juga antara suatu operasi dengan simbol, misalnya simbol + dikenali sebagai operasi penjumlahan atau simbol ^ dikenali sebagai operasi pangkat, dll.  Peristiwa binding dan kapan terjadinya binding (biasanya disebut dengan binding time ) berperan penting dalam membicarakan semantics suatu bahasa pemrograman. Beberapa kemungkinan binding time adalah:

Contoh proses normalisasi relasi dari UNF – 1NF – 2NF – dan 3NF

Dalam posting tulisan tentang: “Tujuan dan Manfaat Normalisasi dalam Perancangan Database” , kita sudah mempelajari tentang: “Apa itu normalisasi” dan “Mengapa kita perlu melakukan normalisasi”. Kedua pertanyaan itu sudah terjawab dalam tulisan tersebut.  Kemudian dalam posting tulisan tentang: “Konsep Ketergantungan Fungsional, Normalisasi, dan Identifikasi Primary Key dalam Perancangan Sistem Database” , kita sudah mempelajari suatu konsep penting yang digunakan untuk melakukan normalisasi, yaitu konsep ketergantungan fungsional yang terdiri dari ketergantungan penuh, ketergantungan parsial atau sebagian, dan ketergantungan transitif. Proses normalisasi pertama-tama dilakukan dengan mengidentifikasi adanya ketergantungan-ketergantungan tersebut dalam relasi-relasi dan kemudian menghilangkannya. Cara melakukan normalisasi, mengidentifikasi berbagai macam ketergantungan, dan menghilangkan ketergantungan pada relasi-relasi bisa dipelajari ulang dalam postingan tulisan d...

Latihan Soal Jawab Matematika Diskrit

Berikut di bawah ini adalah latihan soal jawab untuk matematika diskrit dengan topik-topik: Pernyataan Logika Circuits dan Ekspresi Boolean Argumen (valid/tidak valid) Teori Himpunan Permutasi Fungsi --o0o-- Pernyataan Logika 1. Buatlah tabel kebenaran untuk menentukan yang mana tautology dan yang mana contradiction dalam pernyataan logika (a) dan (b) di bawah ini: a. (p ∧ q) ∨ (∼p ∨ (p ∧ ∼q)) b.  (p ∧ ∼q) ∧ (∼p ∨ q)