Belajar Keputusan Berbasis Data untuk Manajer di Perusahaan Gaya Baru bersama Profesor Dutta dari Amerika Serikat Part 7.3

Perkembangan teknologi informasi saat ini sangat membantu dalam bisnis perusahaan. Namun demikian kalau kita tidak paham tipe teknologi yang dibutuhkan bisa saja kita akan salah memilih teknologi. Khususnya dalam bidang pengambilan keputusan untuk perusahaan terdapat salah satu produk teknologi informasi yang sangat membantu, yaitu sistem pendukung keputusan.

Usaha universitas STEKOM untuk memiliki jangkauan global diantaranya dengan mengadakan webinar dalam skala internasional. Pada kesempatan kali ini kita akan membahas sebuah webinar internasional yang diadakan oleh Universitas STEKOM yang salah satu narasumbernya adalah seorang profesor dari Amerika Serikat. Narasumber tersebut adalah Kaushik Dutta yang merupakan seorang Professor dan School Director di Universitas Florida Selatan. Profesor Dutta dalam presentasinya menyampaikan materi tentang sistem pendukung keputusan yang merupakan produk IT yang sangat berguna dalam bisnis perusahaan.

Materi yang disampaikan oleh profesor Dutta meliputi Framework, Applications for Business, Techniques, dan Infrastructure. Karena materi yang disampaikan cukup panjang, artikel berita yang membahas tentang presentasi Profesor Dutta kita bagi menjadi beberapa bagian. Saat ini kita memasuki part ke 7.3. Jika pembaca ingin tahu presentasi sebelumnya, silahkan lihat beberapa part sebelumnya pada judul artikel yang sama.

Bersambung dari part sebelum, masih tentang materi yang disampaikan oleh Profesor Dutta. Artikel ini merupakan artikel terakhir yang membahas materi yang disampaikan oleh Profesor Dutta. Pada akhir presentasinya, Profesor Dutta membahas ringkasan tentang sistem big data.

Big data adalah sekumpulan data yang memiliki volume atau ukuran yang sangat besar yang terdiri dari data yang terstruktur (structured), semi-terstruktur (semi structured), dan tidak terstruktur (unstructured) yang dapat berkembang seiring waktu berjalan.

Big data storage dalam penjelasan Profesor Dutta dibagi menjadi dua yaitu database dan file sistem. Penjelasan tentang database sudah dibahas pada judul artikel yang sama pada part yang berbeda. Jadi kita tidak akan membahasnya lagi disini.

Adapun tentang file sistem, ini adalah metode dan struktur data yang digunakan sistem operasi untuk mengontrol bagaimana data disimpan dan diambil. Tanpa sistem file, data yang ditempatkan dalam media penyimpanan akan menjadi satu kumpulan data yang besar tanpa cara untuk mengetahui di mana satu bagian data berhenti dan yang berikutnya dimulai, atau di mana bagian data berada ketika tiba waktunya untuk mengambilnya. Dengan memisahkan data menjadi beberapa bagian dan memberi setiap bagian nama, data tersebut mudah diisolasi dan diidentifikasi. Mengambil namanya dari nama sistem manajemen data berbasis kertas, setiap kelompok data disebut "file". Struktur dan aturan logika yang digunakan untuk mengelola grup data dan namanya disebut "sistem file".

Lalu tentang Query, Profesor Dutta menjelaskan dua model query yang ada pada layanan Hadoop pache, yaitu Impala dan Hive. Dimana Hive untuk pekerjaan offlien, sedangkan impala untuk pekerjaan online.

Dalam bidang komputasi, Profesor Dutta mencontohkan model Map-reduce pada Hadoop dan apache spark. MapReduce adalah sebuah model pemrograman untuk melakukan pemrosesan dataset berukuran besar melalui sistem file terdistribusi (seperti HDFS). MapReduce dirancang untuk dapat memproses data tidak terstruktur pada cluster komoditi besar, menangani kegagalan hardware, duplikasi task, dan aggregat hasil.

Model pemrograman MapReduce terdiri dari fungsi map dan fungsi reduce. Fungsi map menerima setiap record dari data masukan (input data) sebagai key-value lalu menghasilkan data keluaran (output data) key-value. Setiap pemanggilan fungsi map tidak saling bergantung satu sama lain memungkinkan framework untuk menggunakan strategi divide and conquer untuk mengeksekusi komputasi secara paralel. Hal ini juga memungkinkan untuk melakukan duplikasi eksekusi atau mengeksekusi ulang tugas map (map task) jika terjadi kegagalan tanpa mempengaruhi hasil dari komputasi. Biasanya, Hadoop membuat map task tunggal untuk setiap datablock HDFS dari input data. Jumlah pemanggilan fungsi map di dalam sebuah map task sama dengan jumlah record dalam
pada blok input data pada map task tertentu.

Selanjutnya, key-value dari seluruh map task dikelompokkan berdasarkan key-nya dan lalu didistribusikan ke dalam reduce task. Proses pendistribusian dan transmisi data ke reduce task ini disebut fase shuffle. Input data yang masuk ke tiap reduce task juga disortir dan dikelompokkan berdasarkan key-nya. Fungsi reduce dipanggil untuk tiap key dan tiap kelompok value dari key tersebut. Pada program MapReduce yang umumnya, pengguna hanya perlu mengimplementasikan fungsi Map dan fungsi Reduce dan Hadoop yang mengurus scheduling dan mengeksekusinya secara paralel. Jika terdapat task yang gagal, maka Hadoop akan menjalankan kembali (re-run) task tersebut.

Adapun apache Spark adalah sebuah framework komputasi terdistribusi yang dirancang untuk melakukan komputasi secara umum dengan cepat. Spark mengembangkan model pemrograman MapReduce untuk mampu melakukan berbagai macam jenis komputasi seperti interactive queries dan streaming processing. Spark memiliki fitur in-memory computation yang dimana proses komputasi dilakukan di dalam memori komputer, bukan di dalam disk seperti yang Hadoop MapReduce lakukan.

Bagian terakhir pembahasan ringkasan penting tentang big data adalah teknologi machine learning. Diantaranya adalah Pyspark. PySpark adalah antarmuka untuk Apache Spark dengan Python. Ini tidak hanya memungkinkan Anda untuk menulis aplikasi Spark menggunakan API Python, tetapi juga menyediakan shell PySpark untuk menganalisis data Anda secara interaktif dalam lingkungan terdistribusi. PySpark mendukung sebagian besar fitur Spark seperti Spark SQL, DataFrame, Streaming, MLlib (Machine Learning) dan Spark Core.

Alternatif teknologi machine learning lainnya adalah tensorflow. Tensorflow adalah sebuah framework machine learning yang mungkin akan menjadi sahabat ketika kita bermain dengan data dan apabila kamu fans dari salah satu area di AI (artificial intelligence) yaitu deep learning. Tensorflow dapat membantumu membuat neural network (jaringan artifisial yang mirip otak manusia) dalam skala besar. Tensorflow telah membantu para ilmuwan dalam proyek-proyek seperti pencarian planet baru, membantu dokter mencegah kebutaan dalam pasien yang terkena diabetes dan lain-lain. Tensorflow juga adalah framework yang menopang proyek seperti AlphaGo dan Google Cloud Vision yang kamu dapat gunakan.

Sebenarnya ada alternatif teknologi maschine learning lainnya yang dibahas Profesor Dutta, yaitu H2O. Tapi menurut penulis, diata teknologi diatas lebih menarik untuk ditulis dalam artikel ini.