SIRINGMAKAR 24: “Kupas Tuntas BIG DATA”

Bagikan Artikel ini di:

Pemateri: Taufik Edy Sutanto (Founder ‘tau-data Indonesia’)

Moderator: Wayan Dadang

Diskusi

[Taufik Edy Sutanto, 2019]

Pemaparan diskusi mengenai Big Data ini akan saya mulai dengan milestone Era Revolusi Industri, secara berurutan adalah pengenalan mesin uap, penggunaan listrik dan elektronik, serta robotik di industri. Jika sisi kanan (industry 4.0) dirangkum dalam satu kata, maka kata tersebut adalah ‘Data’. Sehingga, penanda Era Industri 4.0 adalah penggunaan data (data-driven) dalam industri, terutama di bidang industri kreatif. Walaupun Industri 4.0 sebenarnya bukan hanya tentang Big Data dan Data Science, namun pembahasan diskusi akan fokus kepada dua hal tersebut.

[Taufik Edy Sutanto, 2019]

Dahulu banyak perusahaan dan pemerintahan/ negara yang berebut untuk mengeksploitasi minyak bumi. Saat ini berganti era menjadi eksploitasi data. Persamaannya, minyak bumi adalah sumber daya yang terbatas (limited), sementara Data terus bertambah (unlimited).

[Taufik Edy Sutanto, 2019]

Apa itu ‘Big Data’?

Pertama kali yang hendak ditekankan disini terlebih dahulu bahwa big data tidak sama dengan sekadar data yang besar. Big data telah disepakati sebagai sebuah istilah (term) dan bukan sebuah kata/ frasa bahasa Inggris biasa, “data yang besar” terjemahan formalnya adalah “Large Data” bukan “Big Data”. Sebagai sebuah istilah, maka ia memiliki makna khusus.

Big data sendiri didefinisikan secara berbeda-beda di kalangan akademisi (not written in the stone).

Wikipedia mencantumkan beberapa definisi, Forbes memuat setidaknya 12 definisi yang berbeda dari beberapa sumber. Kalau dari segi ukuran data, awalnya data berukuran Terrabyte sudah dianggap besar, namun sekarang Petabyte juga sepertinya sudah biasa. Namun demikian, banyak yang keberatan jika masalah big data harus dibatasi dengan menggunakan ukuran data.

[Taufik Edy Sutanto, 2019]

Istilah dan ukuran big data memang belum (tidak) memiliki konsensus, namun ada kesepakatan bersama mengenai big data yang bisa digunakan sebagai koridor yang benar agar kita dapat menggunakan istilah big data dengan tepat atau tidak berlebihan dalam menggunakan istilah ini.

[Taufik Edy Sutanto, 2019]

[Taufik Edy Sutanto, 2019]

[Taufik Edy Sutanto, 2019]

Tiga ‘V’ (3V) menunjukkan big data bersifat terdistribusi. Memiliki sebuah database besar yang terpusat (database konvensional) sudah mulai ditinggalkan. Biaya yang dibutuhkan untuk data terpusat seperti itu terlalu besar dan non-scalable. Non-scalable dalam penjelasan sederhana, artinya ketika kelak datanya membesar, maka para staff IT dan pimpinan perusahaan/ institusi terkait akan bingung karena performa sistem mereka yang semakin menurun dan sulit untuk dicari solusinya (selain membuat sistem baru). Di masa depan, sistem terdistribusi seperti pada gambar akan semakin jamak (ubiquitous).

[Taufik Edy Sutanto, 2019]

[Taufik Edy Sutanto, 2019]

[Taufik Edy Sutanto, 2019]

[Taufik Edy Sutanto, 2019]

Menurut saya, ada hal mengenai big data ini yang perlu ditekankan, yaitu: Tidak tepat jika menganggap Big Data hanya masalah Komputasi, Database dan Pemrograman Statistika pada teknologi yang ‘super’ saja. Teorinya pun harus berubah sebagai akibat dari berbagai karakteristik Big Data yang telah dipaparkan sebelumnya.

[Taufik Edy Sutanto, 2019]

Ada berbagai ciri lain pada big data, yaitu user generated content. Sebelum era big data, data biasanya dihasilkan oleh institusi, semisal data perusahaan, pegawai transaksi, dsb.

Di era big data, data juga dapat dihasilkan oleh pengguna/ user (user generated content). Pengaplikasian big data tentu saja ada perdebatan, baik yang pro maupun yang kontra.

[Taufik Edy Sutanto, 2019]

[Taufik Edy Sutanto, 2019]

Persepsi tantangan big data pun terus berubah (dinamis) dari tahun ke tahun.

[Taufik Edy Sutanto, 2019]

Ada banyak aspek dari big data (industri 4.0), itulah mengapa ada cukup banyak universitas yang “memaksa” hampir semua bidang ilmu untuk menyesuaikan diri dengan perkembangan ini. Bahkan, termasuk ilmu hukum, psikologi, bahasa, dsb.

[Taufik Edy Sutanto, 2019]

[Taufik Edy Sutanto, 2019]

Contoh tantangan hukum dan etika pada big data, dimana kemajuan dan teknologi jauh lebih cepat ketimbang hukum/ peraturan yang mengaturnya.

[Taufik Edy Sutanto, 2019]

Big data mempengaruhi bahkan masyarakat yang ‘offline’. Retail di era big data akan mempengaruhi teknik dagang konvensional, sehingga semua orang harus mampu untuk adaptif dalam menghadapi perubahan zaman ini.

[Taufik Edy Sutanto, 2019]

Selain tantangan, tentu saja ada potensi yang sangat besar. Terutama terkait kreativitas kita dalam memanfaatkan data. Banyak perusahaan besar dan start ups yang sukses dan tidaknya sangat bergantung pada bagaimana mereka memanfaatkan data dengan baik.

[Taufik Edy Sutanto, 2019]

[Taufik Edy Sutanto, 2019]

Tanya-Jawab (QnA)

 

  1. Hafizh. Q1: Apakah untuk menjadi data scientist harus memiliki latar belakang pendidikan matematika/ IT?, bagaimanakah jika bukan berasal dari latar belakang tersebut?, semisal dari teknik sipil?. A.1 Gelar saat ini signifikansinya semakin berkurang. Jangan ragu untuk belajar apapun walaupun gelar kita tidak bersesuaian. Dasar data science memang Matematika, Statistika dan Ilmu Komputer. Namun, dalam penekanan yang agak berbeda.

    | Q.2 Bahasa pemrograman apa yang harus dikuasai untuk menjadi seorang data scientist?. A.2 Bahasa pemrograman yang saya sarankan Phyton, saya tidak terlalu menyarankan R.
  2. Azhar. Q. Big Data di bidang kesehatan sepemahaman saya merupakan potensi penting untuk meningkatkan kualitas kesehatan di Indonesia. Selain Riset Kesehatan Dasar (Riskesdas) yang terbit 5 tahun sekali, saat ini mayoritas Puskesmas di Indonesia sudah terhubung dengan sistem data online Puskesmas dan kalangan internal Kemenkes bisa mengakses data statistik sangat cepat. Pertanyaan saya, apakah itu sudah termasuk Big data?, jika tidak, sampai mana batasan jumlah atau kecepatan data dapat dikatakan Big data?, sebab jika saya lihat definisi dari 3V, sepertinya sih sudah. Apa artinya Indonesia sudah maju dalam statistik kesehatan?, lalu apa kendala kita di tahap selanjutnya dalam big data dalam kesehatan di mata pak Taufik?. A. Iya, kategori aplikasi data tersebut sudah termasuk big data, terutama jika data tidak terstrukturnya juga diolah (misal gambar Rontgen, detak jantung, EEG, dsb.). Indonesia sudah memulai berbagai riset big data di bidang kesehatan. Saat ini UI dan RSCM termasuk salah satu pelopornya. Istri saya S1, S2 dan S3-nya di bidang Statistika Medis. Beliau yang saat ini sedang kerjasama penelitian UI-RSCM. Kendala yang saat ini dihadapi adalah akses data dan aturan yang mengaturnya dan masalah privacy data.

  3. Fuji. Q. Seperti apa contoh pengaplikasian Big Data dalam dunia pendidikan, baik di Indonesia maupun di luar negeri?. A. Menurut saya, salah satu contoh terbaik untuk aplikasi big data di bidang Pendidikan adalah CheckMySchool milik Filipina.

    Di Indonesia, Diknas bekerjasama dengan salah satu perusahaan di Bandung untuk menerapkan big data lewat resources elektronik yang akan bisa diakses di mobile App dan akan di-embbed dengan teknologi Artificial Intelligent untuk meningkatkan efektivitas pembelajaran.

  4. Regita. Q. Apakah big data dapat dikombinasikan dengan arsitektur lanskap agar menghasilkan solusi yang lebih tepat dan akurat?. A. Sangat bisa, inilah yang jarang ada di literatur. Di banyak referensi, ketika menerangkan big data seringkali dianggap hal tersebut seolah-olah dia mandiri. Namun tidak tepat, yang sudah ada, sering ia ter-embedded ke sistem lain.
    Ini salah satu arsitektur sederhana big data yang saya kembangkan.


    Contoh lain.


    Semoga saya tidak keliru memahami pertanyaan dan cukup jelas untuk arsitektur big data.

  5. Rahman. Q. Beberapa waktu lalu, dosen saya pernah bercerita jika beliau sedang melakukan riset di bidang Akutansi dan Sistem Informasi. Topik penelitiannya berkaitan dengan disclosure informasi oleh perusahaan-perusahaan yang dimuat didalam annual report perusahaan. Beliau bercerita jika menggunakan teknik data mining untuk mendapatkan informasi yang dimuat didalam annual report tersebut. Kesimpulan akan diambil, misalnya dari seberapa sering perusahaan men-disclose informasi mengenai lingkungan, maka perusahaan tersebut dianggap peduli/ tidak peduli terhadap lingkungan, dsb. Pertanyaan saya, apakah cara yang lazim digunakan untuk penelitian-penelitian saat ini?, bagaimana keandalan data penelitian mengenai disclosure yang diperoleh menggunakan teknik data mining dalam konteks artikel yang akan dikirimkan ke jurnal internasional bereputasi?. A. Ketika seseorang melakukan penelitian di bidang data science/ big data, maka faktor Novelty setidaknya dapat diperoleh melalui 2 jalan: 1). Novelty di bidang aplikasinya, yaitu tidak mengapa jika metode/ algoritma/ model menggunakan yang konvensional. Fokus penelitian lebih ke seberapa penting (signifikansi) APLIKASI baru ini diselesaikan dengan metode yang konvensional; 2). Novelty di Metode/ Algoritma/ Modelnya, yaitu sebaiknya data menggunakan data publik (public repository). Tujuannya agar peneliti lain bisa memverifikasi hasilnya. Istilah resminya “repeatability” dari riset yang kita lakukan. Jalan tengah dari data yang bersifat private agar publik tetap bisa verifikasi adalah dengan mengacak datanya tanpa menghilangkan ‘topologi data’.

    Model yang digunakan jika datanya private dan decentralize (terdistribusi) juga ada khusus.

  6. Kadek. A. Hal apa saja yang harus dipelajari/ diperhatikan untuk mendapatkan skill yang baik dalam mengolah big data?, serta adakah tips yang relevan terkait hal tersebut untuk mahasiswa prodi Matematika seperti saya?. Q. Saya sering berbincang dengan berbagai CEO perusahaan di Indonesia. Mulai dari startup pemula hingga perusahaan besar yang telah mapan. Salah satu keluhan yang sering diutarakan CEO terhadap para data scientists mereka interpretasi yang keliru. Banyak yang bisa membuat model, namun ketika diterjemahkan ke dunia nyata (interpretasi), maka seringnya bukan apa yang sebenarnya ‘model katakan’. Hal ini biasanya karena statistical thinking-nya kurang. Filosofi/ konsep statistik perlu agar interpretasi tidak keliru.

    Interpretasi model yang keliru ini pernah mengakibatkan salah satu perusahaan besar di Indonesia rugi cukup besar.

    Tips saya ketika belajar Matematika dan Statistika, fokus pada filosofi: yaitu kelemahan, kelebihan, batasan, generalisasi, dsb. Tanyakan “mengapa?”, “apa maksudnya?”, “bagaimana kalau tidak begitu?”, “kalau begitu boleh saya ubah begini?”, dsb.

  7. Azman. Q. Manakah yang lebih bagus dipakai antara Bahasa R atau Phyton untuk big data?, dan adakah rekomendasi tempat belajar online untuk bahasa Phyton?. A. Bahasa R lambat, dia cocok hanya jika penelitiannya lebih ke statistika. Bahasa R juga bukan full-programming language, dia lebih tepat disebut sebagai research programming language.

    Jika kita lihat language support dari sistem big data juga hanya Java dan Phyton, namun tidak ada yang sia-sia, semua bahasa pemrograman baik, terutama jika kita paham logika dengan baik.


    Hanya saja suatu bahasa pemrograman tertentu lebih cocok ke aplikasi tertentu. Menurut saya bahasa R lebih cocok ke riset tentang model (misal, statistika). Gbr Phyton mendukung berbagai konsep pemrograman, mulai dari procedural, OOP hingga functional programming yang dibutuhkan big data.

  8. Anonim. Q. Bagaimana hasilnya jika IT/ data digabungkan dengan Usaha Perkebunan/ Pertanian?, apakah sudah ada yang pernah menerapkannya?. A. Tentu saja sudah ada, biasanya dikaitkan dengan IoT (Internet of Things), beberapa publikasi aplikasinya dapat diakses. Saya pernah menjadi konsultan Kementerian Pertanian Australia.

  9. Fakhry. Q. Bagaimana aplikasi big data di bidang Pemerintahan?, saya pernah mendengar program seperti ‘Satu Data’, namun tidak tahu apakah program tersebut masih berlanjut atau tidak. A. tau-data Indonesia saat ini sedang membantu beberapa kementerian mempersiapkan sistem big data mereka, saya tidak bisa memberikan detail karena rahasia (confidential), tetapi melalui sistem big data yang sedang disusun ini nantinya koruptor akan semakin sulit ruang geraknya. Contoh lain adalah membantu kerja para ASN di Kementerian tersebut. AI dan big data sudah mulai diterapkan, bahkan para menteri dapat memantau melalui sistem ini di ruang kerja mereka. Hanya memang yang bersentuhan langsung dengan masyarakat kemungkinan akan siap 2-3 tahun mendatang.

  10. Anonim. A. Tahapan agar mampu me-manage data yang baik agar tidak terjadi duplikasi data yang bisa menyebabkan kerugian pada perusahaan apa saja?. A. Domain Constraint’ seperti di sistem konvensional tetap bisa digunakan. Misal, field domain di database dan variable type di pemrograman. Namun, jika mau spesifik di big data, saya sarankan untuk menggunakan hash locality indexing. Di big data agak beda masalahnya dengan BD konvensional karena datanya kebanyakan tidak terstruktur.

    Selain itu, cara duplikasi detection lain tetap bisa digunakan.

Penutup

Setiap pagi di Afrika, seekor Rusa bangun, dia tahu bahwa har ini ia harus berlari lebih cepat dari Singa tercepat, atau kematian akan menjemputnya. Setiap pagi di Afrika, seekor singa bangun, dia tahu bahwa hari ini ia harus lari lebih cepat dari Rusa yang paling lambat, atau kelaparan akan membunuhnya. Tidak menjadi masalah apakah kita bagaikan seekor “Rusa” atau “Singa”. Saat pagi menyingsing, inilah saatnya untuk berlari.

Tau-data Indonesia adalah perusahaan yang didirikan pada awal 2019, bergerak di bidang konsultan, pendidikan dan penelitian data science dan big data. Tau-data Indonesia saat ini bekerjasama dengan berbagai kementerian dan lembaga, juga beberapa perusahaan swasta serta beberapa universitas negeri dan swasta utamanya yang berada di Pulau Jawa dan Pulau Sumatera. Lebih detail tentang tau-data Indonesia dapat dilihat di website https://tau-data.id/about atau jika ingin mengenal saya lebih jauh bisa diakses di http://linkedin.com/in/taufikedys .

 

 

 

 

Nilai Artikel Ini
Bagikan Artikel ini di: