Apa itu Hadoop aplikasi pemrosesan di era big data


Apa itu hadoop? mungkin tidak banyak orang tahu tentang aplikasi ini kecuali yang berkecimpung dengan Big Data. Apakah saya sedang berkecimpung dengan Big Data? oh nggak, saya hanya suka mencoba hal-hal yang baru terutama tentang teknologi terbaru seperti Hadoop ini. Sebenarnya teknologi ini tidak bisa dibilang baru juga, hanya saja mungkin sedang jadi trend karena saat ini era-nya Big Data dimana salah satu primadona aplikasinya ya si Hadoop ini. 

Hadoop menurut websitenya (hadoop.apache.org) adalah aplikasi pemrosesan yang scalable, reliable dan terdisitribusi sehingga dapat digunakan untuk memproses data yang besar (Big Data). Arsitektur aplikasi si Hadoop ini dapat dijalankan di hardware murah sekalipun dan sifatnya yang terdistribusi membuat aplikasi ini menjadi powerfull dan high availability. Kenapa saya bilang hardware murah? karena saya pernah tahu ada yang menjalankan aplikasi Hadoop ini di atas hardware Raspberry Pi untuk membangun mini computer cluster. Anda tahu harga raspberry pi dan spesifikasinya? Tidak usah saya jawab ya, silakan di browsing sendiri :P

Hadoop merupakan karya salah satu (ex) engineer Yahoo! saat itu yaitu Doug Cutting dan temannya yang terinspirasi oleh penelitian teknologi pemrosesan milik Google yang disebut Map Reduce dan dipublikasikan oleh Google dalam bentuk paper ilmiah. Asal mula nama Hadoop ini sebenarnya cukup unik, karena diambil dari nama salah satu nama mainan gajah dari putri si pembuat (Doug Cutting).

Hingga sekarang Hadoop sudah dimasukkan ke dalam proyek open source yang didukung oleh Apache Foundation sehingga bisa digunakan dan dikembangkan oleh siapa saja, berbeda dengan Map Reduce yang propertiary (closed source). 

Hadoop sendiri sampai tulisan ini dipublish sudah mencapai versi 2.7.x stable dan menjadi framework dasar untuk membangun aplikasi pemrosesan big data seperti yang terkenal salah satunya adalah HortonWorks dan Cloudera.

Aplikasi Hadoop ini juga dapat digabungkan dengan beberapa aplikasi lainnya seperti Mahout, HBase, Hive, Pig, Cassandra dan lain-lain sehingga mampu membentuk ekosistem aplikasi pemrosesan Big Data yang handal. Aplikasi ini juga dapat dijalankan secara single atau cluster (distributed) dan tidak memiliki standart hardware tertentu untuk menjalankannya.

Detik.com sendiri merupakan salah satu perusahaan yang memanfaatkan aplikasi Hadoop untuk menganalisa berita yang sering dilihat dari log web-nya. Anda bisa bayangkan portal sekelas detik.com dengan viewernya yang sangaaat banyak memiliki log seberapa besar untuk dianalisa? Jika dari perusahaan di luar negeri yang memanfaatkan hadoop salah satunya adalah Facebook yang menginstall Hadoop di atas 1100 mesin dan 300 mesin yang dijadikan 2 cluster data warehouse. Amazing bukan?

Sebenarnya banyak yang ingin saya tulis disini tentang Hadoop, tetapi mungkin lain kali akan saya bahas lagi di tulisan selanjutnya. Terima kasih telah berkunjung.


Comments