Berbagai Tool Software Data Mining - Seri Data Mining for Business Intelligence (7)

Berbagai Tool Software Data Mining

Banyak vendor software menyediakan berbagai tool data mining. Contoh-contoh vendor tersebut adalah SPSS (PASW Modeler, sebelumnya dikenal sebagai Clementine), SAS (Enterprise Miner), StstSoft (Statistica Data Miner), Salford (CART, MARS, TreeNet, RandomForest), Angoss (KnowledgesSTUDIO, KnowledgeSeeker), dan Megaputer (PolyAnalyst). Seperti bisa dilihat diatas, kebanyakan dari tool-tool popular tersebut dikembangkan oleh perusahaan-perusahaan software statistic terbesar (SPSS, SAS, dan StatSoft). Kebanyakan dari vendor-vendor tool ‘business intelligence (BI)’ (seperti IBM Cognos, Oracle Hyperion, SAP Business Objects, Microstrategy, Teradata, dan Microsoft) juga memiliki tingkat kemampuan data mining yang terintegrasi dengan tawaran-tawaran software mereka.tool-tool BI ini utamanya masih berfokus pada pemodelan multidimensional dan visualisasi data dan tidak ditujukan untuk menjadi pesaing langsung dari vendor-vendor tool data minig tersebut.

Selain tool-tool komersial tadi, beberapa tool software data mining open source dan/atau gratis juga tersedia di internet. Barangkali tool software data mining gratis (dan open source) yang paling popular adalah Weka, yang dikembangkan oleh sejumlah peneliti dari Universitas Waikato di New Zealand (tool tersebut bisa didownload di cs.waikato.ac.nz/ml/weka/). Weka meliputi banyak sekali algorithma untuk berbagai perkerjaan data mining yang berbeda-beda dan memiliki user interface yang intuitif. Satu lagi yang baru saja dirilis, tool data mining gratis (bagi penggunaan non-komersial) adalah RapidMiner (yang dikembangkan oleh Rapid-I; dan bisa didownload dari rapid-i.com). GUI (graphical user interface) yang sudah ditingkatkan kemampuannya, penerapan banyak sekali algorithma, dan penyatuan dengan berbagai fitur-fitur visualisasi data membuatnya berbeda dari tool-tool gratisan lainnya. Perbedaan utama antara tool-tool komersialm seperti Enterprise Miner, PASW, dan Statistika, dan tool-tool gratisan, seperti Weka dan RapidMiner, adalah efisiensi komputasionalnya. Pekerjaan data mining yang sama yang melibatkan dataset yang agak besar mungkin saja akan memakan waktu yang jauh lebih lama bila dilakukan oleh software gratisan, dan dalam beberapa kasus mungkin bahkan tidak layak untuk digunakan (misalnya, crash karena penggunaan memori computer yang tidak efisien). Tabel berikut adalah daftar dari beberapa produk utama beserta websitenya.
Tabel Software Data Mining
Nama produk                                             
Situs (URL)
Clementine
Spss.com/Clementine
Enterprise Miner
Sas.com/technologies/bi/analytics/index.html
Statistica
Ststsoft.com/products/dataminer.htm
Intelligent Miner
Ibm.com/software/data/iminer
Polyanalyst
Megaputer.com/polyanalyst.php
CART, MARS, TreeNet, RandomForest
Salford-systems.com
Insightful Miner
Insightful.com
XLMiner
Xlminer.net
KXEN (Knowledge eXtraction Engines)
Kxen.com
GhostMiner
Fqs.pl/ghostminer
Microsoft SQL Server Data Mining
Microsoft.com/sqlserver/2008/data-mining.aspx
Knowledge Miner
Knowledgeminer.net
Teradata Warehouse Miner
Ncr.com/products/software/teradata_mining.htm
Oracle Data Mining (ODM)
Otn.oracle.com/products/bi/9idmining.html
Fair Isaac Business Science
Fairisaac.com/edm
DeltaMaster
Bissantz.de
iData Analyzer
Infoacumen.com
Orange Data Mining Tool
Ailab.si/orange/
Zementis Predictive Analytics
Zementis.com


Satu paket dari berbagai kemampuan ‘BI’ yang semakin lama semakin popular untuk berbagai kajian dalam data mining adalah Microsoft’s SQL Server, dimana data dan model-modelnya disimpan dalam lingkungan database relasional yang sama, yang membuat manajemen model menjadi sangat mudah ditangani. Microsoft Enterprise Consortium menyediakan sumber untuk akses secara global untuk Microsoft’s SQL Server 2008 untuk maksud-maksud akademis – pengajaran dan riset. Konsorsium tersebut didirikan untuk mendorong universitas-universitas di seluruh dunia mengakses teknologi enterprise tanpa harus me-maintain hardware dan software yang diperlukan di kampus mereka. Konsorsium tersebut juga menyediakan berbagai tool pengembangan ‘BI’ (misalnya data mining, cube building, business reporting) dan dataset riil yang besar sekali dari Sam’s club, Dillard’s, dan Tyson Foods. Screenshot dibawah ini menunjukkan pengembangan pohon keputusan untuk ‘churn analysis’ di SQL Server 2008 Business Intelligence Development Suite.

‘The Microsoft Consortium’ adalah gratis dan hanya bisa digunakan untuk kepentingan akademis. ‘The Sam M. Walton College of Business’ di Universitas Arkansas meng-host enterprise sistem ini dan mempersilahkan para anggota konsorsium dan para mahasiswanya untuk mengakses sumberdaya ini dengan menggunakan ‘remote desktop connection’ biasa. Detil-detil mengenai bagaimana menjadi bagian dari konsorsium dan disertai dengan tutorial yang mudah diikuti dan contoh-contohnya bisa didapatkan di enterprisewaltoncollege.uark.edu.mec/.

Satu survey pada bulan mei 2009 yang dilakukan oleh kdnuggets.com melakukan polling pada komunitas data mining dengan pertanyaan berikut: “Tool-tool data minig apa yang telah anda gunakan untuk project riil (tidak hanya untuk evaluasi saja) dalam 6 bulan terakhir?”. Untuk membuat hasil-hasilnya lebih representative, votes dari vendor-vendor tool dihilangkan. Pada tahun-tahun sebelumnya, ada hubungan yang sangat kuat antara penggunaan SPSS Clementine dan SPSS Statistics juga SAS Enterprise Miner dan SAS Statistics, karenanya votes untuk kedua keluarga tool tersebut dikelompokkan bersama. Totalnya, 364 votes unique dihitung berdasarkan rangkings. Tool-tool yang paling popular adalah SPSS PASW Modeler (sebelumnya dikenal sebagai Clementine), RapidMiner, SAS Enterprise Miner, dan Microsoft Excel. Dibandingkan dengan hasil poll pada tahun-tahun sebelumnya (silahkan lihat data 2008 di kdnuggets.com/polls/2008/data-mining-software-tools-used.htm), diantara tool-tool komersial SPSS PASW Modeler, StatSoft Statistica, dan SAS Enterprise Miner menunjukkan pertumbuhan paling tinggi; pada tool-tool gratis, RapidMiner dan Orange menunjukkan pertumbuhan paling tinggi. Hasilnya ditunjukkan seperti gambar di bawah ini.

No comments:

Post a Comment