Oleh: Nur Nafiiyah
Pengklasifikasian menggunakan algoritma naïve bayes dan decision tree menurut Andrew Mc Callum, Kamal Nigam bahwa Naïve Bayes klassifier adalah model yang paling sederhana dari beberapa klassifier, di mana dalam mengasumsikan semua atribut saling independen satu sama lain dalam konteks kelasnya[1].
Dalam penelitian P. Bhargavi, S. Jyothi, 2009 bahwa Naïve Bayes classifier dapat bekerja dengan cepat dan ikremental sehingga dapat menangani atribut yang diskrit dan berkelanjutan. Naïve bayes juga memiliki kinerja yang sangat baik dalam menangani data di kehidupan nyata dan dapat mengambil keputusan sangat baik[14].
Algoritma decision tree terdiri dari ID3, C4.5, CART. Di mana Mardi mengatakan bahwa klasifikasi dalam data mining dapat dilakukan dengan menggunakan algoritma C4.5. Dengan algoritma C4.5, akan didapatkan sebuah pohon keputusan yang mudah dipahami dan mudah dimengerti[7].
Dalam penelitian Fadlan Amirudin, Eneng Tita Tosida, Irma Anggraeni, Algoritma CART ini menggunakan pendekatan nonparametic yang tidak membutuhkan asumsi distribusi, lalu akan mengidentifikasi variable secara otomatis yang berpengaruh dan mereduksi kompleksitas data, mudah dalam mengatasi data outlier, dan mudah dalam interpretasi. Untuk itu diterapkan algoritma CART dengan tujuan mampu menghasilkan klasifikasi berdasarkan informasi data yang ada[3].
Di penelitian Rani, 2015 dengan metode keputusan desicion tree menggunakan algoritma C4.5 diharapkan proses penggalian informasi lebih cepat dan optimal dengan kapasitas data yang lebih besar, sehingga kesalahan yang ditimbulkan dalam pengambilan keputusan lebih diminimalkan[16].
Salah satu tugas yang dapat dilakukan dengan data mining adalah pengklasifikasian. Klasifikasi pertama kali diterapkan pada bidang tanaman yang mengklasifikasi suatu spesies tertentu, seperti yang dilakukan oleh Carolus von Linne (atau dikenal dengan nama Carolus Linnaeus) yang pertama kali mengklasifikasi spesies berdasarkan karakteristik fisik[7].
Diantara beberapa metode yang dapat digunakan untuk klasifikasi adalah metode pohon keputusan atau decission tree. Metode pohon keputusan merupakan sebuah metode yang dapat mengubah fakta yang sangat besar menjadi sebuah pohon keputusan yang merepresentasikan aturan[7].
Sebuah pohon keputusan adalah sebuah struktur yang dapat digunakan untuk membagi kumpulan-kumpulan data yang besar menjadi himpunan-himpunan record yang lebih kecil dengan menerapkan serangkaian aturan keputusan. Dengan masing-masing rangkaian pembagi, anggota himpunan hasil menjadi mirip satu dengan yang lainnya. Data dalam pohon keputusan biasanya dinyatakan dalam bentuk tabel dengan atribut dan record. Atribut menyatakan suatu parameter yang dibuat sebagai kriteria dalam pembentukan pohon[7].
Banyak algortima yang bisa digunakan dalam pembentukan pohon keputusan, antara lain ID3, CART, dan C4.5. Algoritma C4.5 merupakan pengembangan dari algoritma ID3[7]. Salah satu algoritma yang dapat digunakan untuk membuat pohon keputusan (decission tree) adalah algoritma C4.5. Algoritma C4.5 merupakan algoritma yang sangat populer yang digunakan oleh banyak peneliti di dunia, hal ini dijelaskan oleh Xindong Wu dan Vipin Kumar dalam bukunya yang berjudul The Top Ten Algorithms in Data Mining. Algoritma C4.5 merupakan pengembangan dari algoritma ID3 yang diciptakan oleh J. Rose Quinlan[7].
Secara umum untuk membangun pohon keputusan menggunakan algoritma C4.5 sebagai berikut: pilih atribut sebagai akar, buat cabang untuk tiap-tiap nilai, bagi kasus dalam cabang, ulangi proses untuk setiap cabang sampai semua kasus pada cabang memiliki kelas yang sama[7].
Untuk memilih atribut sebagai akar, didasarkan pada nilai gain tertinggi dari atribut-atribut yang ada. Nilai gain dari atribut-atribut dihasilkan dari entropy seperti persamaan 1.
…………(1)
Di mana
Klasifikasi merupakan salah satu teknik dalam data mining. Klasifikasi didefinisikan sebagai berikut: (1) Meramalkan kategori label kelas (diskrit atau nominal). (2) Mengklasifikasikan (membuat suatu model) berdasarkan himpunan pelatihan dan nilai-nilai (label kelas) dalam suatu atribut klasifikasi dan menggunakannya di dalam mengklasifikasikan data baru[8]
Decision Tree adalah pohon terstruktur dari sekumpulan atribut untuk diuji dengan tujuan meramalkan output-nya. Pohon keputusan merupakan salah satu tool paling populer untuk klasifikasi karena hasilnya yang dapat dipahami dalam bentuk kaidah keputusan. Untuk memutuskan atribut mana yang harus diuji pertama, yaitu atribut yang memiliki perolehan tertinggi[8].
Langkah-langkah algoritma CART adalah sebagai berikut:
- Langkah pertama, susunlah calon cabang (candidate split). Penyusunan ini dilakukan terhadap seluruh variabel prediktor secara lengkap (exhaustive). Daftar yang berisi calon cabang disebut daftar calon cabang mutakhir.
- Langkah kedua adalah menilai kinerja keseluruhan calon cabang yang ada pada daftar calon cabang mutakhir dengan jalan menghitung nilai besaran kesesuaian. dalam persamaan 2.
- Langkah ketiga adalah menentukan calon cabang manakah yang akan benar-benar dijadikan cabang dengan memilih calon cabang yang memiliki nilai kesesuaian Setelah itu, gambarkanlah percabangan. Jika tidak ada lagi noktah keputusan, pelaksanaan algoritma CART akan dihentikan. Namun jika masih terdapat noktah keputusan, pelaksanaan algoritma dilanjutkan dengan kembali ke langkah kedua, dengan terlebih dahulu membuang calon cabang yang telah berhasil menjadi cabang sehingga mendapatkan daftar calon cabang mutakhir yang baru.
ID3 merupakan sebuah metode yang digunakan untuk membangkitkan pohon keputusan. Input dari algoritma ini adalah sebuah database dengan beberapa variabel yang juga dikenal dengan atribut. Setiap masukan dalam database menyajikan sebuah objek dari domain yang disebut dengan variabel bebas (independent variable). Sebuah atribut didesain untuk mengklasifikasikan objek yang disebut dengan variabel tidak bebas (dependent variable). Alur dalam algoritma ID3 seperti Gambar 1.
Gambar 1: Alur Algoritma ID3
Naïve bayes merupakan algoritma klasifikasi yang terbimbing. Di mana untuk melakukan klasifikasi harus disediakan data yang sudah didefinisikan masing-masing atribut atau variabel kriteria dan kelas. Untuk melakukan klasifikasi dihitung berdasarkan nilai probabilitas dari setiap kelas terhadap variabel seperti persamaan 3.
Di mana p(H|E)= merupakan nilai probabilitas hipotesis terhadap evidance, p(H)= merupakan nilai probabilitas hipotesis, p(E|H)= nilai probabilitas evidance terhadap hipotesis, dan p(E)= nilai probabilitas evidance.
Hasilnya dapat disimpulkan bahwa: Klasifikasi kelas siswa dalam penelitian ini terdapat 3 kelas, yaitu: kelas Low, kelas Middle, dan kelas High. Data yang digunakan dalam penelitian ini sebanyak 480 baris dan 12 atribut, dengan total kelas Low 127 baris, kelas Middle 211 baris, dan kelas High sebanyak 142 baris. Di mana data yang digunakan dalam penelitian merupakan data bersifat kategori. Karena algoritma Naïve Bayes, dan Decision Tree merupakan algoritma yang baik untuk klasifikasi dengan tipe data kategori. Klasifikasi dengan algoritma Naïve bayes menghasilkan nilai akurasi 58%, algoritma ID3 60%, algoritma C4.5 62% dan algoritma CART 58%. Sehingga dari algoritma decision tree yang paling baik dalam mengklasifikasikan kelas belajar mengajar siswa, yaitu C4.5 dengan nilai akurasi 62%. Sedangkan hasil klasifikasi algoritma naïve bayes nilai akurasinya masih di bawah algoritma decision tree.
Daftar Pustaka
- Andrew Mc Callum, Kamal Nigam. (n.d.). A Comparison of Event Models for Naive Bayes Text Classification.
- Eko Cahyo Pramulanto, Mahmud Imrona, Eko Darviyanto. (2015). Aplikasi Pendukung Keputusan untuk Pemilihan Produk Asuransi dengan Metode Entropy dan Vikor pada AJB Bumi Putera 1912 Jepara. e-proceeding of Engineering Vol.2, No.1, (pp. 1283-1294).
- Fadlan Amirudin, Eneng Tita Tosida, Irma Anggraeni. (n.d.). Implementasi Algoritma Classification and Regression Tree (CART) untuk Klasifikasi Bantuan Usaha Mikro Kecil Menengah (UMKM) Jasa Telematika Indonesia.
- Heroe Santoso, I Putu Hariyadi, Prayitno. (2016). Data Mining Analisa Pola Pembelian Produk dengan Menggunakan Metode Algoritma Apriori. Seminar Nasional Teknologi Informasi dan Multimedia (pp. 19-23). Yogyakarta: STIMIK AMIKOM.
- Srinivas, B. Kavitha Rani, A. Gourdhan. (2010). Applications of Data Mining Techniques in Healthcare and Prediction of Heart Attacks. International Journal on Computer Science and Engineering Vo.2, No.2, 250-255.
- Mahmoodi, A. Mirzazadeh. (2014). A New Aanlysis of Failure Models and Effects by Fuzzy Todim with using Fuzzy Time Function. International Journal of Fuzzy Logic System Vol.4, No.2, 7-21.
- Mardi, Y. (n.d.). Data Mining: Klasifikasi Menggunakan Algoritma C4.5. Jurnal Endik Informatika Vo.2, No.2, 213-219.
- Nafiiyah, N. (2015). Algoritma CART dalam Penentuan Pohon Keputusan Sertifikasi Guru. Jurnal SPIRIT Vol7, No.2.
- Nafiiyah, N. (2015). Penerapan Regresi Linear dalam Memprediksi Harga Jual Mobil Bekas. SENABAKTI (pp. 1-5). Surabaya: UPN JAWA TIMUR’.
- Nafiiyah, N. (2016). Perbandingan Regresi Linear, Backpropagation dan Fuzzy mamdani dalam Memprediksi Harga Emas. SENIATI (pp. 1-6). Malang: ITN.
- Nur Nafiiyah, Retno Wardani. (2017). Analisa Pola Transaksi Penjualan Ikan di TPI Brondong Lamongan. Jurnal SPIRIT Vol.9, No.2.
- Nur Nafiiyah, Retno Wardhani. (2018). Analisa Fuzzy C45 dalam Mengklasifikasi Jenis Kelamin Manusia dari Fitur Citra Panoramik Gigi Kaninus. SENIATI (pp. 160-166). Malang: ITN.
- Nur Suriati Jamil, Nor Adzlan Jamaludin, Nurazzah Abdul Rahman, Nora Shida Sabari. (2011). Implementation of Vector-Space Online Document Retrieval System using Open Source Technology . Conference on Open System (pp. 395-399). Malaysia: IEEE.
- Bhargavi, S. Jyothi. (2009). Applying Naive Bayes Data Mining Techniques for Classification of Agricultural Land Soils. International Journal of Computer Science and Network Security Vol.9, No.8, 117-122.
- Ramadhanuz A Djamal, Warih Maharani, Angelina Prima Kurniati. (2010). Analisis dan Implementasi Metode Item-based Clustering Hybrid pada Recommender System. Konferensi Nasional Sistem & Informatika, (pp. 216-222). Bali.
- Rani, L. N. (2015). Klasifikasi Nasabah Menggunakan Algoritma C4.5 sebagai Dasar Pemberian Kredit. Jurnal KomTekInfo Vol. 2, No. 2, 33-38.
- Sellappan Palaniappan, Rafiah Awang. (2008). Intelligent Heart Disease Prediction System using Data Mining Techniques. IEEE, 108-115.
- Shelly Gupta, Dharminder Kumar, Anand Sharma. (2011). Data Mining Classification Techniques Applied for Breast Cancer Diagnosis and Prognosis. Indian Journal of Computer Science and Engineering Vol.2, No.2, 188-195.
- Krishnaiah, G. Narsimha, N. Subhash Chandra. (2013). Diagnosis of Lung Cancer Prediction System using Data Mining Classification Techniques. International Journal of Computer Science and Information Technologies Vol.4, No.1, 39-45.
- Wendi Warasta, Zaki Parasti. (n.d.). Implementasi Algoritma Apriori untuk Menganalisa Pola Pembelin Produk pada Data Transaksi Penjualan. 1-6.
- Yahya Al-Ashmoery, Rochdi Messoussi. (2015). Learning Analysis System for Assessing Students Performance Quality and Text Mining in Online Commication. IEEE.
- Yi-Chung Hu, Ruey-Shun Chen, Gwo-Hshiung Tzeng. (2003). Finding Fuzzy Classification Rules using Data Mining Techniques. Pattern Recognition Latters Vol. 24, 509-519.
- (2015). Algoritma AdaBoost dalam Pengklasifikasian. Seminar Nasional Matematika & Pendidikan Matematika (pp. 559-569). UMS.