Skip to main content

10 Fakta Tentang Hadoop Yang Bertentangan Dengan Anggapan Banyak Orang

Gambar, sumber: flickr, license: public domain
Meskipun Hadoop dan beberapa teknologi terkait sudah muncul selama lebih dari 7 tahun dari sekarang, tetapi masih banyak orang yang masih salah paham dengan beberapa konsepsi tentang Hadoop dan beberapa teknologi terkait seperti MapReduce dan Hive. Berikut di bawah ini adalah 10 daftar fakta yang dimaksuudkan untuk menjelaskan apakah Hadoop itu dan bagaimana kaitannya dengan Business Intelligence (BI), dan juga pada situasi bisnis dan teknologi yang bagaimana BI yang berbasis Hadoop, data warehousing, dan analitycs bisa bermanfaat.

Fakta #1. Hadoop terdiri dari banyak produk.
Kita berdiskusi tentang Hadoop seolah-olah Hadoop adalah sesuatu yang satu monolitik. Padahal Hadoop adalah suatu keluarga produk-produk dan teknologi yang open-source yang dikelola oleh Apache Software Foundation (ASF). Catatan: beberapa produk Hadoop juga tersedia melalui distribusi vendor; nanti dibahas dalam post artikel lain.

Library Apache Hadoop meliputi (urutan menurut prioritas BI) Hadoop Distributed File System (HDFS), MapReduce, Hive, Hbase, Pig, Zookeeper, Flume, Sqoop, Oozie, Hue, dan seterusnya. Kita bisa menggabungkan itu semua dengan berbagai macam cara, tetapi HDFS dan MapReduce (barangkali juga Hbase dan Hive) merupakan rangkaian teknologi yang sangat bermanfaat untuk penerapan pada BI (Business Intelligence), Data Warehouse, dan analytics.

Fakta #2. Hadoop adalah open-source tetapi juga tersedia di vendor-vendor juga. 

Library open-source dari Apache Hadoop tersedia di website ASF di apache.org. bagi para pengguna yang menginginkan package yang sudah lebih siap untuk level enterprise, ada beberapa vendor yang menawarkan distribusi Hadoop yang mencakup beberapa tool administratif tambahan dan support teknis.

Fakta #3. Hadoop adalah suatu ekosistem, dan bukan satu produk tunggal. 

Selain produk-produk dari Apache, ekosistem Hadoop tambahan meliputi produk-produk dari vendor-vendor yang terus bertambah yang mengintegrasikan dengan beberapa teknologi Hadoop yang sudah dikembangkan lebih lanjut.

Fakta #4. HDFS adalah suatu file system, bukan database management system (DBMS).

Hadoop pada intinya adalah suatu file system terdistribusi dan dan kemampuannya kurang maksimal bila kita menghubungkannya dengan suatu DBMS seperti indexing, random access ke data, dan mendukung SQL. Hal itu juga bisa, karena HDFS melakukan hal-hal yang tidak bisa dilakukan oleh DBMS.

Fakta #5. Hive mirip dengan SQL tetapi bukan SQL yang standard. 

Banyak dari kita yang sangat familiar dengan SQL karena memahaminya dengan baik. Bagi orang yang paham SQL bisa dengan cepat belajar menulis kode dengan Hive, tetapi hal itu tidak berarti mengatasi masalah kompatibilitas dengan tool berbasis SQL. Sangat mungkin bahwa produk-produk Hadoop akan segera men-support SQL standard, sehingga hal ini tidak akan lagi menjadi masalah yang diperdebatkan.

Fakta #6. Hadoop dan MapReduce saling terkait tetapi tidak saling bergantung satu sama lain.

Para developer di Google sudah mengembangkan MapReduce sebelum HDFS ada, dan beberapa variasi pekerjaan MapReduce dengan berbagai macam teknologi penyimpanan data, termasuk HDFS, file system yang lain, dan beberapa DBMS.

Fakta #7. MapReduce menyediakan kontrol terhadap analytics, bukan melulu analytics saja.

MapReduce adalah mesin eksekusi yang serbaguna yang menangani kompleksitas komunikasi jaringan, pemrograman parallel, dan fault-tolerance untuk aplikasi apapun dimana kita bisa menuliskan kode pemrograman bukan hanya analytics saja.

Fakta #8. Hadoop adalah tentang keberagaman data, bukan hanya tentang volume data. 

Secara teori, HDFS bisa mengelola storage dan akses terhadap data apapun asalkan kita bisa menaruh data di dalam suatu file dan me-copy file tersebut ke dalam HDFS. Kelihatannya nampak sederhana, tetapi nyatanya memang begitu, dan itulah yang membuat banyak pengguna menggunakan Apache HDFS.

Fakta #9. Hadoop melengkapi Data Warehouse; jarang sekali dimanfaatkan sebagai pengganti Data Warehouse. 

Sebagian besar perusahaan sudah mendesain Data Warehouse mereka untuk menyimpan data relasional, data terstruktur, yang sulit untuk memunculkan value (manfaat) BI dari data yang tak-terstruktur dan semi-terstruktur. Hadoop menjanjikan sebagai pelengkap Data Warehouse dengan menangani jenis-jenis data yang multi-terstruktur yang tidak bisa ditangani oleh sebagian besar Data Warehouse.

Fakta #10. Hadoop memungkinkan berbagai macam jenis analytics, bukan sekedar web analytics. 

Hadoop mendapatkan banyak bahasan di dunia pers tentang bagaimana persuhaan-perusahaan internet menggunakannya untuk menganalisa berbagai macam log di web dan data-data web lainnya, tetapi untuk penggunaan yang lainnya juga bisa. Contohnya, anggap saja Big Data yang berasal dari berbagai macam perangkat sensor seperti robot-robot di manufaktur, RFID di retail, dan lain-lain. Penerapan-penerapan analytics yang lebih tua sebelumnya seperti segmentasi pelanggan, deteksi kecurangan, analisa risiko bisa memanfaatkan Big Data yang diolah oleh Hadoop. Demikian juga, data lain Hadoop bisa dibentangkan dengan view 360 derajat untuk membuat view yang lebih lengkap dan granular/detil.

Comments

Popular posts from this blog

Pengertian Binding dalam Bahasa Pemrograman dan Kapan Terjadinya

Binding dimaksudkan sebagai pengikatan (association) antara suatu entity dengan atributnya, misalnya binding/pengikatan antara suatu variable dengan tipe datanya atau dengan nilainya, atau dapat juga antara suatu operasi dengan simbol, misalnya simbol + dikenali sebagai operasi penjumlahan atau simbol ^ dikenali sebagai operasi pangkat, dll.  Peristiwa binding dan kapan terjadinya binding (biasanya disebut dengan binding time ) berperan penting dalam membicarakan semantics suatu bahasa pemrograman. Beberapa kemungkinan binding time adalah:

Contoh proses normalisasi relasi dari UNF – 1NF – 2NF – dan 3NF

Dalam posting tulisan tentang: “Tujuan dan Manfaat Normalisasi dalam Perancangan Database” , kita sudah mempelajari tentang: “Apa itu normalisasi” dan “Mengapa kita perlu melakukan normalisasi”. Kedua pertanyaan itu sudah terjawab dalam tulisan tersebut.  Kemudian dalam posting tulisan tentang: “Konsep Ketergantungan Fungsional, Normalisasi, dan Identifikasi Primary Key dalam Perancangan Sistem Database” , kita sudah mempelajari suatu konsep penting yang digunakan untuk melakukan normalisasi, yaitu konsep ketergantungan fungsional yang terdiri dari ketergantungan penuh, ketergantungan parsial atau sebagian, dan ketergantungan transitif. Proses normalisasi pertama-tama dilakukan dengan mengidentifikasi adanya ketergantungan-ketergantungan tersebut dalam relasi-relasi dan kemudian menghilangkannya. Cara melakukan normalisasi, mengidentifikasi berbagai macam ketergantungan, dan menghilangkan ketergantungan pada relasi-relasi bisa dipelajari ulang dalam postingan tulisan d...

Latihan Soal Jawab Matematika Diskrit

Berikut di bawah ini adalah latihan soal jawab untuk matematika diskrit dengan topik-topik: Pernyataan Logika Circuits dan Ekspresi Boolean Argumen (valid/tidak valid) Teori Himpunan Permutasi Fungsi --o0o-- Pernyataan Logika 1. Buatlah tabel kebenaran untuk menentukan yang mana tautology dan yang mana contradiction dalam pernyataan logika (a) dan (b) di bawah ini: a. (p ∧ q) ∨ (∼p ∨ (p ∧ ∼q)) b.  (p ∧ ∼q) ∧ (∼p ∨ q)