KAJIAN SENSITIVITAS PARAMETER ALGORITME PADA METODE ROTATION FOREST MUHAMMAD IQBAL

Transkripsi

1 KAJIAN SENSITIVITAS PARAMETER ALGORITME PADA METODE ROTATION FOREST MUHAMMAD IQBAL DEPARTEMEN STATISTIKA FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2016

2

3 PERNYATAAN MENGENAI SKRIPSI DAN SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA* Dengan ini saya menyatakan bahwa skripsi berjudul Kajian Sensitivitas Parameter Algoritme pada Metode Rotation Forest adalah benar karya saya dengan arahan dari komisi pembimbing dan belum diajukan dalam bentuk apa pun kepada perguruan tinggi mana pun. Sumber informasi yang berasal atau dikutip dari karya yang diterbitkan maupun tidak diterbitkan dari penulis lain telah disebutkan dalam teks dan dicantumkan dalam Daftar Pustaka di bagian akhir disertasi ini. Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut Pertanian Bogor. Bogor, Juni 2016 Muhammad Iqbal NIM G

4 ABSTRAK MUHAMMAD IQBAL. Kajian Sensitivitas Parameter Algoritme pada Metode Rotation Forest. Dibimbing oleh BAGUS SARTONO dan CICI SUHAENI. Rotation forest merupakan metode klasifikasi baru untuk membangun metode pohon gabungan (classifier ensembles) dengan menggunakan pohon keputusan yang saling bebas. Proses pembeda dalam rotation forest adalah penerapan analisis komponen utama untuk merotasi peubah asal menjadi peubah baru yang saling bebas. Beberapa penelitian telah membuktikan bahwa rotation forest lebih akurat dalam melakukan dugaan klasifikasi dibandingkan metode bagging dan random forest. Penentuan parameter algoritme, yakni ukuran banyaknya pohon keputusan yang digunakan dalam metode gabungan (l) dan banyaknya pemisah gugus peubah asal (k) memegang peranan penting dalam menentukan keberhasilan dan keakuratan dugaan klasifikasi. Penelitian ini menggunakan data dengan peubah respon terdiri dari 2 kategori/kelas. Hasil penelitian adalah: (1) Tidak didapatkan nilai k spesifik untuk tiap kategori data yang dapat memaksimumkan nilai keakuratan klasifikasi nilai, nilai k = (p-1) cenderung menghasilkan keakuratan klasifikasi yang lebih rendah dibandingkan nilai k = {1, 2, 3, p/3}. (2) Metode gabungan rotation forest efektif digunakan untuk melakukan pengklasifikasian data dengan hanya menggunakan sedikit pohon keputusan yakni 10 sampai 20 pohon. (3) Terdapat hubungan negatif antara nilai keakuratan klasifikasi dengan proporsi keragaman kumulatif data, yakni semakin tinggi nilai proporsi keragaman kumulatif suatu data cenderung menurunkan nilai keakuratan klasifikasi, atau sebaliknya. Kata kunci: analisis komponen utama, metode pohon gabungan, rotation forest

5 ABSTRACT MUHAMMAD IQBAL. Study of Algorithm Parameter Sensitivity on Rotation Forest Method. Supervised by BAGUS SARTONO and CICI SUHAENI. Rotation forest is a new classification method for building classifier ensembles using independently trees. The main different heuristic on rotation forest than other ensembles approaches is applying principal component analysis to rotate origin variables into new variables that are independent. Previous experiments have shown that rotation forest is more accurate on classification estimation than bagging and random forest. Determination of algorithm parameter on rotation forest, number of trees that are used in ensemble methods (l) and number of splitting origin variables (k), have an important role for the classification success and accuracy. This research uses data with respond variable that consist of binary category. This research shows that: (1) There is no specific value of k for each data category that can maximize the value of classification accuracy, but k = (p-1) tends to produce lower value of classification accuracy than other k = {1, 2, 3, p / 3}. (2) Rotation forest is effectively used to classify data using only little single trees, 10 to 20 single trees, but still give high classification accuracy. (3) There is a negative correlation between classification accuracy with cumulative diversity proportion of a data, the higher of cumulative diversity proportion tends to decrease classification accuracy of a data, or vice versa. Keywords: principal component analysis, rotation forest method, classifier ensembles

6

7 KAJIAN SENSITIVITAS PARAMETER ALGORITME PADA METODE ROTATION FOREST MUHAMMAD IQBAL Skripsi sebagai salah satu syarat untuk memperoleh gelar Sarjana Statistika pada Departemen Statistika DEPARTEMEN STATISTIKA FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2016

8

9 Judul Skripsi : Kajian Sensitivitas Parameter Algoritme pada Metode Rotation Forest Nama : Muhammad Iqbal NIM : G Disetujui oleh Dr Bagus Sartono, MSi Pembimbing I Cici Suhaeni, MSi Pembimbing II Diketahui oleh Dr Anang Kurnia, MSi Ketua Departemen Tanggal Lulus:

10 PRAKATA Puji dan syukur penulis panjatkan kepada Allah subhanahu wa ta ala atas segala karunia-nya sehingga karya ilmiah ini berhasil diselesaikan. Tema yang dipilih dalam penelitian adalah metode rotation forest. Penelitian ini merupakan penelitian pertama di Indonesia yang mengangkat tema metode rotation forest. Penulis mengucapkan salam terima kasih dan salam sukses kepada seluruh pihak yang telah membantu penulis dalam menyelesaikan karya ilmiah ini, antara lain: 1. Bapak Dr Bagus Sartono, MSi dan Ibu Cici Suhaeni, MSi selaku komisi pembimbing yang telah memberikan banyak saran, nasihat, dan masukan selama penyusunan karya ilmiah ini, 2. Keluarga penulis yang selalu memberi dukungan, 3. Seluruh dosen pengajar Departemen Statistika IPB atas ilmu dan nasehat yang bermanfaat yang telah diberikan, 4. Seluruh staf Tata Usaha Departemen Statistika IPB yang telah membantu dalam segala proses adminitrasi selama penyelesaian karya ilmiah ini, 5. Muli, Sandi, Riski, Debi, Nina, Farida, Rini, Kunto, Widya, Nofa, Tata, Zainal, Dio, Itak, Nanda sebagai teman seperjuangan yang saling memberikan semangat dan masukan, 6. Rekan-rekan keluarga besar Statistika IPB 49, Tanoto Scholars Association (TSA) IPB, dan Ikatan Himpunan Mahasiswa Statistika Indonesia (IHMSI) atas kebersamaan dan dukungannya selama ini, 7. Para data analyst Statistics Centre, Mbak Maya, Mbak Eka, Mbak Tika, Bang Ozi, Mbak Rina, Bang Abe, Herul atas ilmu dan dukungan yang diberikan, 8. Rekan-rekan kakak tingkat, alumni, dan adik tingkat yang telah memberikan berbagai dukungan dan bantuan. Semoga karya ilmiah ini dapat bermanfaat bagi semua pihak. Penulis mohon maaf atas segala kekurangan dan kesalahan yang terdapat dalam karya ilmiah ini. Bogor, Juni 2016 Muhammad Iqbal

11 DAFTAR ISI DAFTAR ISI ix DAFTAR GAMBAR x DAFTAR LAMPIRAN x PENDAHULUAN 1 Latar Belakang 1 Tujuan Penelitian 2 TINJAUAN PUSTAKA 2 Pohon Regresi dan Klasifikasi (Classification and Regression Trees / CART) 2 Bagging (Boostrap Agregating) 3 Random Forest 3 Rotation Forest 4 METODOLOGI 5 Data 5 Analisis Data 6 HASIL DAN PEMBAHASAN 7 Sensitivitas Parameter Algortime K dan L 7 Efektivitas Analisis Komponen Utama dalam Metode Rotation Forest 11 SIMPULAN 13 Simpulan 13 DAFTAR PUSTAKA 13 LAMPIRAN 15 RIWAYAT HIDUP 17

12 DAFTAR GAMBAR 1 Pola hubungan antara tingkat keakuratan klasifikasi dengan nilai K dan L pada data dengan proporsi keragaman kumulatif rendah 8 2 Pola hubungan antara tingkat keakuratan klasifikasi dengan nilai K dan L pada data dengan proporsi keragaman kumulatif sedang 9 3 Pola hubungan antara tingkat keakuratan klasifikasi dengan nilai K dan L pada data dengan proporsi keragaman kumulatif tinggi 10 4 Pola hubungan antara tingkat keakuratan klasifikasi dengan proporsi keragaman kumulatif matriks rotasi (sumbu-x) pada data dengan keakuratan klasifikasi (sumbu-y) keragaman: (A) rendah, (B) sedang, dan (C) tinggi 12 DAFTAR LAMPIRAN 1 Proporsi keragaman kumulatif pada 13 sumber data penelitian 15 2 Hasil analisis profil pada data dengan proporsi keragaman kumulati rendah 16 3 Hasil analisis profil pada data dengan proporsi keragaman kumulatif sedang 17 4 Hasil analisis profil pada data dengan proporsi keragaman kumulatif tinggi 17

13 PENDAHULUAN Latar Belakang Metode pohon gabungan (classifier ensembles) merupakan pengembangan dari metode pohon keputusan tunggal pada metode pohon regresi dan klasifikasi (classification and regression trees / CART). Pembuatan pohon gabungan memanfaatkan gabungan dari beberapa pohon keputusan dalam melakukan dugaan klasifikasi. Pada banyak kasus, metode pohon gabungan telah terbukti lebih akurat melakukan dugaan klasifikasi dibandingkan pohon keputusan tunggal. Pada perkembangannya, muncul beberapa jenis metode pohon gabungan, salah satunya yakni bagging. Bagging (bootstrap aggregating) merupakan metode pohon gabungan yang terdiri dari 2 tahapan utama, yakni bootstrap dan aggregating. Bootstrap merupakan pengambilan contoh acak dari gugus data contoh (resampling) dan aggregating merupakan penggabungan banyak nilai dugaan dari beberapa pohon keputusan menjadi satu nilai dugaan akhir. Bagging sangat efektif digunakan untuk mengurangi tingkat kesalahan klasifikasi pada pohon klasifikasi. Proses pembuatan pohon keputusan dalam metode bagging melibatkan semua peubah yang terdapat dalam data, sehingga pohon keputusan yang dihasilkan memiliki ukuran dan bentuk yang relatif sama. Berk (2008) telah membuktikan bahwa metode bagging berpotensi menghasilkan ragam dugaan yang lebih besar akibat tingginya korelasi antar peubah penjelas. Random forest diperkenalkan oleh Breiman (2001) untuk memperbaiki proses pendugaan klasifikasi pada metode bagging. Pada proses pembentukan pohon keputusan dengan metode random forest, dilakukan tahapan random subsetting, yakni peubah penjelas yang digunakan untuk pembentukan pohon keputusan hanya sebagian saja hasil pemilihan secara acak pada gugus peubah asal. Proses ini akan menghasilkan kumpulan pohon keputusan dengan ukuran dan bentuk yang berbeda-beda. Banyaknya peubah penjelas yang digunakan dalam pembentukan pohon keputusan memegang peranan penting dalam menentukan ukuran kebaikan random forest yang dihasilkan. Hasil yang diharapkan adalah kumpulan pohon keputusan memiliki korelasi yang kecil antar pohonnya sehingga permasalahan besarnya ragam dugaan pohon pada metode bagging teratasi dan menghasilkan pohon keputusan dengan keakuratan dugaan klasifikasi yang tinggi dan ragam dugaan yang kecil. Rotation forest merupakan metode pohon gabungan baru pengembangan dari bagging dan random forest, yakni penerapan analisis komponen utama untuk merotasi perubah saat proses ekstraksi dalam pembentukan pohon keputusan. Proses rotasi menyebabkan pohon keputusan saling bebas satu sama lain. Penggunaan rotasi peubah dan pohon gabungan merupakan 2 unsur yang melatarbelakangi metode ini diberi nama rotation forest. Pada percobaan yang dilakukan oleh Rodriguez et al. (2006) menyimpulkan bahwa metode gabungan rotation forest menghasilkan penduga klasifikasi yang lebih akurat dibandingkan bagging dan random forest. Pada metode rotation forest, gugus peubah asal dibagi secara acak menjadi k buah gugus baru masing-masing terdiri dari m peubah asal. Kemudian dilakukan analisis komponen utama pada tiap gugus baru yang terbentuk dan menyusunnya kembali menjadi sebuah peubah ektrak baru dengan tetap

14 2 mempertahankan semua komponen utama yang terbentuk. Penentuan parameter algoritme, yakni ukuran banyaknya pohon keputusan yang digunakan dalam metode gabungan (l) dan banyaknya pemisah gugus peubah asal (k) memegang peranan penting dalam menentukan keberhasilan metode rotation forest. Pada penelitian Rodriguez dan Ludmila (2007) terhadap 32 data benchmark dari UCI repository, menyatakan bahwa rotation forest bersifat robust atau kekar terhadap pemilihan nilai k. Namun, pada penelitian yang dilakukan Rodriguez dan Ludmila (2007) tidak dijelaskan mengenai karakteristik data yang digunakan dalam pengujian nilai k. Metode rotation forest juga telah dibutikan efektif untuk melakukan pendugaan gabungan hanya dengan menggunakan sedikit pohon keputusan. Dugaan nilai awal l yang dipilih oleh Rodriguez dan Ludmila (2007) yakni 10, nilai l tersebut lebih rendah dibandingkan nilai l yang digunakan pada metode bagging yakni l = 50 (Breiman 1996) dan random forest yakni l = 1000 (Breiman dan Cutler 2003). Sehingga pada penelitian mereka menyarankan untuk dilakukan penelitian lanjutan terhadap penentuan nilai l pada metode rotation forest. Oleh karena itu, pada karya tulis ilmiah ini akan dilakukan kajian mengenai sensitivitas parameter algoritme k dan l pada metode rotation forest untuk berbagai karakteristik data, sehingga dihasilkan dugaan klasifikasi dengan keakuratan yang tinggi. Tujuan Penelitian Tujuan dari penelitian ini adalah untuk melakukan kajian sensitivitas parameter algoritme k dan l pada metode rotation forest untuk berbagai karakteristik data. Sensitivitas yang dimaksud dalam penelitian ini adalah besarnya nilai k dan l yang konsisten menghasilkan keakuratan klasifikasi yang tinggi pada tiap kategori data. TINJAUAN PUSTAKA Pohon Regresi dan Klasifikasi (Classification and Regression Trees / CART) CART (classification and regression trees) adalah metode statistik nonparametrik yang dikembangkan berdasarkan kaidah pohon keputusan. Pohon keputusan (decision tree) merupakan suatu metode klasifikasi yang menggunakan struktur pohon, dimana setiap simpul merepresentasikan atribut, cabang merepresentasikan nilai dari atribut, dan daun merepresentasikan kelas/kategori respon. Pembuatan CART yakni pohon regresi untuk peubah respon numerik dan pohon klasifikasi untuk peubah respon kategorik diharapkan diperoleh pemisahan sehingga permasalahan kelinieran pada metode regresi dan klasifikasi linier bisa teratasi. Permasalahan kelinieran hubungan antara peubah bebas dengan peubah respon sering kali menjadi kendala dalam metode regresi dan metode klasifikasi klasik, seperti regresi logistik, diskriminan linier, dan diskriminan kuadratik. Metode-metode yang berbasis pada model linier akan kesulitan memperoleh model pengklasifikasian yang mampu melakukan klasifikasi dengan kesalahan yang sangat rendah (Sartono dan Syafitri 2010). Tujuan dari CART adalah untuk

15 mendapatkan subset-subset yang memiliki nilai peubah respon yang lebih homogen dibandingkan sebelum dilakukan pemisahan (Breiman et al. 1984). Salah satu kelemahan pada CART yakni sifat pohon keputusan yang dihasilkan tidak stabil. Dari populasi yang sama, jika diambil contoh yang berbeda maka sangat mungkin diperoleh pohon dengan bentuk yang berbeda (Berk 2008). Menurut Berk (2008), ketidakstabilan disebabkan oleh beberapa faktor, diantaranya: ukuran contoh yang kecil, terminal nodes yang heterogen, dan tingginya korelasi antar peubah penjelas. 3 Bagging (Boostrap Agregating) Bagging merupakan salah satu jenis metode klasifikasi pohon gabungan yang terdiri dari 2 tahapan utama, yaitu bootstrap, yakni pengambilan contoh acak dari gugus data contoh yang dimiliki (resampling) dan aggregating, yakni menggabungkan banyak nilai dugaan menjadi satu nilai dugaan akhir. Tahapan penyusunan dan pendugaan menggunakan metode bagging adalah sebagai berikut: 1. Penyusunan k buah pohon keputusan: a. Tahapan bootstrap, yakni tarik contoh acak dengan permulihan berukuran n dari gugus data training b. Susun pohon terbaik berdasarkan data tersebut c. Ulangi langkah a-b sebanyak l kali sehingga diperoleh l buah pohon keputusan 2. Lakukan pendugaan gabungan berdasarkan l buah pohon tersebut. Pendugaan dapat dilakukan dengan menggunakan konsep pengambilan suara terbanyak (majority vote) pada kasus pohon klasifikasi, rata-rata pada kasus pohon regresi, dan penjumlahan dugaan peluang masingmasing kelas pada kasus pohon klasifikasi dan pohon regresi (Rokach 2008). Metode bagging sangat membantu dalam mengatasi sifat ketidakstabilan pada pohon klasifikasi dan pohon regresi tunggal / CART. Hastie et al. (2008) menyatakan bahwa proses bagging dapat mengurangi galat baku dugaan yang dihasilkan oleh pohon keputusan tunggal. Selain itu Breiman (1996) mencatat bahwa pada banyak gugus data yang dia coba, bagging mampu mengurangi tingkat kesalahan klasifikasi pada kasus klasifikasi. Akan tetapi, Berk (2008) mencatat beberapa kasus bahwa dugaan bagging memiliki ragam dugaan yang lebih besar akibat tingginya korelasi antar peubah penjelas atau disebabkan oleh bias yang lebih besar. Ini terjadi antara lain pada kasus dengan kategori peubah respon yang sangat tidak seimbang, dan juga pada kondisi peubah penjelas yang distribusinya memiliki tingkat kemenjuluran yang tinggi. Random Forest Random forest merupakan metode pohon gabungan perbaikan dari proses pendugaan yang dilakukan menggunakan metode bagging. Random forest dikembangkan oleh Breiman dilatarbelakangi oleh teori hukum kuat bilangan besar

16 4 (the strong law of large number). Perbedaan utama terletak pada penambahan tahapan random sub-setting sebelum di setiap kali pembentukan pohon keputusan (Breiman 2001). Pada proses pembentukan pohon keputusan dengan metode random forest, kandidat peubah penjelas yang digunakan untuk melakukan pemisahan bukanlah seluruh peubah yang terlibat namun hanya sebagian saja hasil pemilihan secara acak (tahapan random sub-setting). Proses ini akan menghasilkan kumpulan pohon keputusan dengan ukuran dan bentuk yang berbeda-beda. Hasil yang diharapkan adalah kumpulan pohon keputusan memiliki korelasi yang kecil antar pohonnya. Korelasi kecil ini mengakibatkan ragam dugaan hasil random forest menjadi kecil dan lebih kecil dibandingkan ragam dugaan hasil bagging (Hastie et al. 2008). Dengan demikian, banyaknya peubah penjelas yang digunakan sebagai pemisah dalam pembentukan pohon memegang peranan penting dalam menentukan ukuran kebaikan random forest yang dihasilkan (Breiman dan Cutler 2003). Random forest dapat juga digunakan untuk menentukan peubah penciri yang paling stabil dalam penentuan pohon keputusan (Sandri 2006). Data yang digunakan untuk pembentukan pohon adalah 2/3 dari set data contoh dan disebut sebagai gugus data training. Sepertiga bagian lainnya digunakan untuk menghitung nilai salah klasifikasi dan validasi pada pohon disebut sebagao gugus data Out of Bag (OOB). Nilai salah klasifikasi random forest diduga melalui error OOB. Pengolahan data dapat dilakukan dengan menggunakan program R dengan paket randomforest version Rotation Forest Rotation forest merupakan metode pohon gabungan (classifier ensembles) pengembangan dari bagging dan random forest, yakni penerapan analisis komponen utama atau principal component analysis (PCA) pada pembentukan pohon keputusan. Pohon keputusan digunakan sebagai dasar pengklasifikasian karena sifatnya yang sensitif terhadap rotasi sumbu peubah namun tetap akurat. Metode rotation forest meliputi proses pembagian secara acak peubah asal f sebanyak k buah gugus baru yang masing-masing gugus terdiri dari m peubah asal. Analisis komponen utama dilakukan secara terpisah pada tiap gugus dan menyusunnya kembali menjadi sebuah peubah ekstrak baru dengan mempertahankan semua komponen utama yang terbentuk. Tiap peubah ekstrak baru merupakan kombinasi linier dari m peubah asal dengan menggabungkan semua komponen utama dari gugus tersebut. Penggunaan semua komponen utama dimaksudkan untuk membangun pohon dengan tetap menjaga keragaman informasi data. Data kemudian ditansformasi secara linier menjadi dimensi peubah baru yang bersesuaian dengan peubah asal dan pohon keputusan dibangun dengan menggunakan gugus data ini. Proses rotasi pada analisis komponen utama akan menghasilkan pohon keputusan yang saling bebas satu sama lain dengan tingkat keakuratan klasifikasi yang tinggi. Perbedaan dalam membagi (splitting) gugus peubah asal akan mengkibatkan perbedaan dalam proses ektrasi peubah, sehingga akan berkontribusi pada keragaman pohon yang dihasilkan.

17 Algoritma dalam pembentukan sebuah pohon keputusan Di, untuk i = 1,2,3 l, yakni sebagai berikut: misalkan terdapat gugus data dengan n amatan dan p peubah bebas, l merupakan banyaknya pohon keputusan yang digunakan dalam metode pohon gabungan rotation forest, f merupakan gugus p peubah asal, k merupakan banyaknya gugus/kelompok baru hasil pembagian gugus peubah asal f yang masing-masing terdiri dari m peubah asal, m j = p untuk j = 1,2,3 k,. Misalkan xb = [x b1, x b2, x bp ] T merupakan vektor amatan ke-b (b = 1,2,3, n) dengan p peubah, X merupakan gugus data dari gabungan vektor x berukuran n p, Y = [y 1, y 2, y n ] merupakan vektor kelas dari peubah respon berukuran n 1. Algortima untuk pembuatan pohon keputusan D i, i = 1 sampai l, lakukan langkah-langkah di bawah ini: 1. Bagi f secara acak menjadi k gugus peubah saling lepas dengan banyaknya peubah asal (m) hampir sama. fi,j merupakan merupakan gugus peubah untuk membangun pohon Di, dengan m j peubah asal, untuk j = 1,2,3, k. X i,j merupakan gugus data X dengan peubah f i,j. 2. Pada gugus data X i,j lakukan proses bootstrap, yakni 75% dari total data X i,j (ukuran standar pohon keputusan J48). Gugus data contoh hasil bootstrap dinyatakan dengan X i,j. 3. Lakukan analisis komponen utama pada X i,j dan simpan koefisien komponen utama sebagai a (1) i,j, a (2) (m i,j. a j ) i,j pada matriks C i,j berukuran m j Susun C i,j, untuk j = 1, 2, k dalam sebuah matriks rotasi R i, berukuran p p seperti dibawah ini: R i = [ a i,1, a (m i,1, a 1 ) i,1 [0] [0] [0] a i,2, a (m i,2, a 2 ) i,2 [0] [0] [0] a i,k, a i,k, a i,k 5 (m k ) ] 5. Untuk membangun pohon D i, pertama susun kembali kolom peubah R i sehingga bersesuaian dengan gugus peubah asal f. Nyatakan matriks rotasi yang telah tersusun kembali dengan R a i, berukuran p p. 6. Bangun pohon D i dengan menggunakan XR a i sebagai gugus data training. METODOLOGI Data Penelitian ini menggunakan 13 gugus data yang digunakan oleh mahasiswa Departemen Statistika IPB pada penyelesaian tugas akhir mereka. Data yang digunakan merupakan data penelitian yang menggunakan metode pengklasifikasian dengan variabel respon (Y) berupa data kategorik dengan dua kelas/kategori. Daftar judul karya ilmiah yang datanya digunakan pada penelitian ini disajikan pada

18 6 Lampiran 1. Data yang digunakan memiliki karakteristik yang berbeda antar data, yakni data dengan proporsi keragaman kumulatif rendah, proporsi keragaman kumulatif sedang, dan proporsi keragaman kumulatif tinggi. Masing-masing kategori data diwakili oleh satu data, sehingga dipilih 3 data berbeda dari 13 data yang diperoleh sebagai bahan penelitian. Hal ini dimaksudkan untuk memperoleh hasil dugaan sensitivitas nilai algoritme parameter metode rotation forest untuk berbagai karakteristik data. Analisis Data Penelitian ini menggunakan program R version dengan paket rotationforest version 0.1 untuk melakukan metode rotation forest. Tahapan analisis yang dilakukan dalam penelitian ini adalah sebagai berikut: 1. Melakukan persiapan data Karena metode rotation forest menggunakan analisis komponen utama, maka setiap variabel harus diubah menjadi variabel numerik. Variabel boneka digunakan untuk mentransformasikan variabel berskala ordinal dan nominal sehingga dapat dilakukan proses analisis komponen utama. 2. Menghitung nilai korelasi pada data yang direpresentasikan sebagai proporsi keragaman kumulatif data (p d merupakan proporsi kumulatif pada data ke-d untuk d = 1, 2, 3) pada setiap data yang digunakan. Hal ini berdasarkan eksplorasi peneliti bahwa proporsi keragaman kumulatif data cenderung berhubungan positif dengan besarnya korelasi data. Matriks korelasi yang didominasi oleh nilai korelasi yang tinggi cenderung menghasilkan proporsi keragaman kumulatif yang tinggi dan sebaliknya. Matriks korelasi yang didominasi oleh nilai korelasi yang rendah cenderung menghasilkan proporsi keragaman kumulatif yang rendah. Menghitung matriks korelasi antar peubah bebas pada setiap data 1 r 12 r 1p r r d = 21 1 r 2p [ r 1p r 2p 1 ] Menentukan nilai akar ciri dari matriks korelasi yang terbentuk (A λi) r d = 0 A λi = 0 Menghitung nilai proporsi keragaman kumulatif pada tiap data dengan menggunakan formula: max (λ) p d = λ 3. Mengkategorikan data berdasarkan nilai proporsi keragaman kumulatif, p d, yang diperoleh. Terdapat 3 kategori yang penulis gunakan, yakni: 0.0 p d < 0.3, termasuk kategori rendah 0.3 p d < 0.6, termasuk kategori sedang 0.6 p d 1.0, termasuk kategori tinggi

19 4. Melakukan metode rotation forest pada setiap data untuk masing-masing kategori dengan berbagai nilai k dan l. Nilai parameter algoritme k yang digunakan dalam penelitian ini, yakni k {1, 2, 3, p/3, p-1} dan nilai l {1, 5, 10, 15, }. 5. Melakukan ulangan sebanyak 10 kali pada langkah Melakukan analisis deskriptif melalui pembuatan line chart untuk mengetahui perubahan nilai keakuratan klasifikasi pada masing-masing kategori untuk berbagai nilai k dan l. 7. Melakukan analisis profil, dengan nilai k sebagai faktor dan nilai l sebagai waktu pada taraf nyata 5%. Pada analisis profil terdapat 3 pengujian hipotesis dilakukan (Sumertajaya dan Mattjik 2011), antara lain: a) Uji Kesejajaran Uji ini berkaitan dengan hipotesis tentang interaksi antara nilai k dan l. Jika menghasilkan kesimpulan tak tolak H0 atau sejajar, maka dapat disimpulkan bahwa tidak terdapat interaksi antara nilai k dan l atau peningkatan nilai l untuk berbagai nilai k yang berbeda cenderung meningkatkan keakuratan klasifikasi dengan proporsi yang sama. b) Uji Keberhimpitan Uji keberhimpitan dilakukan jika hasil uji kesejajaran menghasilkan kesimpulan tak tolak H0 atau sejajar. Uji ini berkaitan dengan hipotesis tentang kesamaan pengaruh nilai k pada setiap nilai l. Jika kesimpulan uji ini tak tolak H0 atau berhimpit, maka dapat disimpulkan bahwa perubahan rataan keakuratan klasifikasi untuk tiap nilai k yang berbeda pada tiap nilai l adalah sama. c) Uji Kesamaan UJi kesamaan dilakukan jika hasil uji keberhimpitan menunjukkan kesimpulan tak tolak H0 atau berhimpit. Uji ini dilakukan untuk menguji hipotesis apakah kesemua nilai k menghasilkan rataan keakuratan klasifikasi yang sama untuk setiap nilai l. 8. Pembahasan dan penarikan kesimpulan terhadap hasil analisis pada langkah 6 dan 7. 7 HASIL DAN PEMBAHASAN Sensitivitas Parameter Algortime k dan l Hasil penelitian terhadap hubungan antara tingkat keakuratan klasifikasi metode rotation forest dan nilai k {1, 2, 3, p/3, p-1} dan l {1, 5, 10, 15, } untuk tiap kategori data disajikan dalam bentuk diagram garis atau line chart. Nilai l merupakan parameter algortime yang merepresentasikan banyaknya kelompok peubah baru hasil dari pembagian peubah asal, dimana semakin kecil nilai k maka proses rotasi peubah semakin sedikit dilakukan, atau sebaliknya. Nilai l merupakan parameter algoritme yang merepresentasikan banyaknya pohon keputusan yang

20 8 digunakan dalam membangun pohon gabungan. Gambar 1, 2 dan 3 secara berturutturut menunjukkan diagram garis pola hubungan antara tingkat keakuratan klasifikasi metode rotation forest dengan nilai k dan l untuk data dengan proporsi keragaman kumulatif rendah, sedang, dan tinggi. Data Rakhmawati dipilih sebagai data sampel proporsi keragaman rendah, data Gitania Nur Rahisti sebagai data sampel proporsi keragaman sedang, dan data IDGR Alan Amory sebagai data sampel proporsi keragaman tinggi (disajikan pada Lampiran 1). Keakuratan Klasifikasi Nilai l k = 1 k = 2 k = 3 k = p/3 k = (p-1) Gambar 1 Pola hubungan antara tingkat keakuratan klasifikasi dengan nilai k dan l pada data dengan proporsi keragaman kumulatif rendah Berdasarkan tampilan Gambar 1, dapat ditunjukkan bahwa terdapat sebuah pola hubungan antara nilai keakuratan klasifikasi dan nilai l, yakni nilai keakuratan klasifikasi cenderung naik mulai l = 1 sampai l = 20, dan konstan pada suatu nilai setelah l = 25. Pola ini terjadi untuk setiap nilai k yang berbeda. Hasil analisis profil pada data menunjukkan bahwa tidak ditemukan interaksi nyata antara nilai k dan nilai l. Hasil analisis profil juga menyimpulkan bahwa Gambar 1 memiliki pola sejajar dan berhimpitan. Sehingga dapat disimpulkan bahwa seiring dengan peningkatan nilai l maka keakuratan klasifikasi pada setiap nilai k yang berbeda cenderung mengalami penambahan dengan proporsi dan nilai yang sama. Apabila dicermati dengan seksama, dapat ditunjukkan juga bahwa nilai k = (p-1) mayoritas menghasilkan nilai keakuratan klasifikasi yang lebih rendah dibandingkan nilai k lainnya. Hasil ini menimbulkan dugaan bahwa proses rotasi peubah berperan dalam meningkatkan keakuratan klasifikasi dalam metode rotation forest untuk data dengan proporsi keragaman kumulatif rendah.

21 Keakuratan Klasifikasi Nilai l k = 1 k = 2 k = 3 k = p/3 k = (p-1) Gambar 2 Pola hubungan antara tingkat keakuratan klasifikasi dengan nilai k dan l pada data dengan proporsi keragaman kumulatif sedang Pada tampilan Gambar 2, dapat ditunjukkan bahwa nilai keakuratan klasifikasi pada data dengan proporsi keragaman kumulatif sedang cenderung berpola konstan pada suatu nilai (selang nilai 86-90) untuk berbagai nilai k dan l yang berbeda. Keakuratan nilai klasifikasi mulai terlihat konstan atau tidak berubah saat nilai l = 10. Hasil ini diperkuat dengan hasil analisis profil yang menunjukkan bahwa tidak ditemukan interaksi nyata antara nilai k dan nilai l. Hasil analisis profil juga menunjukkan bahwa Gambar 2 berpola sejajar namun tidak berhimpitan, atau dengan kata lain terdapat perbedaan rataan nilai keakuratan klasifikasi untuk nilai k yang berbeda. Keakuratan klasifikasi k = 1 mayoritas lebih tinggi dibandingkan nilai k lainnya. Sedangkan keakuratan klasifikasi saat nilai k = (p-1) menghasilkan keakuratan nilai terendah dibandingkan nilai k lainnya. Saat nilai k = 1 bermakna bahwa tidak dilakukan proses pemisahan pada gugus peubah asal. Artinya, proses analisis komponen utama dilakukan dengan menggunakan seluruh peubah asal sekaligus dalam pembentukan pohon keputusan. Nilai k = (p-1) bermakna bahwa secara keseluruhan tidak dilakukan proses rotasi pada kelompok gugus peubah asal. Hasil ini menunjukkan bahwa proses rotasi terbukti menghasilkan keakuratan klasifikasi yang lebih tinggi pada data dengan proporsi keragaman kumulatif sedang. Berdasarkan Gambar 3, dapat ditunjukkan bahwa terdapat suatu pola hubungan antara nilai keakuratan klasifikasi dan nilai l untuk data dengan proporsi keragaman kumulatif tinggi. Nilai keakuratan klasifikasi menunjukkan pola meningkat mulai l = 1 hingga l = 5, dan konstan pada satu nilai mulai l = 10. Pola tersebut terjadi untuk setiap nilai k yang berbeda. Hasil ini diperkuat dengan hasil analisis profil yang menunjukkan bahwa tidak ditemukan interaksi nyata antara nilai k dan nilai l. Hasil analisis profil juga menyimpulkan bahwa Gambar 3 memiliki pola sejajar dan berhimpitan. Sehingga dapat disimpulkan bahwa seiring

22 10 dengan peningkatan nilai l maka keakuratan klasifikasi pada setiap nilai k yang berbeda cenderung mengalami penambahan dengan proporsi dan nilai yang sama. Pada gambar juga didapat ditunjukkan bahwa nilai keakuratan klasifikasi yang dihasilkan dengan metode rotation forest sangat tinggi dan tidak berfluktuatif dengan perbedaan nilai k yang digunakan. Sehingga penerapan metode rotation forest efektif menghasilkan keakuratan klasifikasi yang tinggi dengan penggunaan pohon gabungan yang sedikit yakni kurang dari 20 (l < 20) dan tidak ditemukan pola hubungan konsisten antara keakuratan klasifikasi dengan nilai k yang digunakan. 100 Keakuratan Klasifikasi Nilai l k = 1 k = 2 k = 3 k = p/3 k = (p-1) Gambar 3 Pola hubungan antara tingkat keakuratan klasifikasi dengan nilai k dan l pada data dengan proporsi keragaman kumulatif tinggi Berdasarkan hasil Gambar 1, 2, dan 3 terdapat beberapa kesamaan terhadap pola grafik yang dihasilkan pada kategori data yang berbeda. Pertama, untuk jenis data dengan proporsi keragaman kumulatif yang berbeda, nilai k = (p-1) cenderung menghasilkan nilai keakuratan klasifikasi yang lebih rendah dibandingkan nilai k lainnya. Namun tidak ditemukan nilai k yang spesifik yang menghasilkan keakuratan klasifikasi yang tinggi untuk tiap kategori data. Sehingga dapat disimpulkan bahwa proses rotasi peubah dalam metode rotation forest efektif dalam meningkatkan keakuratan nilai keakuratan klasifikasi. Kedua, penggunaan pohon gabungan dalam metode rotation forest menunjukkan pola konsisten, yakni mulai nilai l = 20, nilai keakuratan klasifikasi yang dihasilkan cenderung konstan dan tinggi untuk tiap kategori data. Penggunaan pohon gabungan yang sedikit sangat bermanfaat untuk mempercepat proses komputasi hasil. Sehingga dapat disimpulkan bahwa metode rotation forest merupakan metode pengklasifikasian dengan penggunaan pohon gabungan yang sedikit namun menghasilkan keakuratan klasifikasi yang tinggi.

23 11 Efektivitas Analisis Komponen Utama dalam Metode Rotation Forest Analisis komponen utama merupakan analisis multivariate atau peubah ganda yang digunakan untuk proses reduksi dimensi dan rotasi peubah pada peubah asal suatu gugus data. Secara aljabar linier, komponen utama merupakan kombinasi linier dari p peubah asal x1, x2, x3, xp yang memaksimumkan keragaman data. Proses reduksi dimensi dilakukan dengan memilih komponen utama dengan ragam paling besar dan memuat informasi paling banyak. Proses rotasi peubah pada analisis komponen utama merupakan pembentukan sistem koordinat baru melalui rotasi sistem dengan p peubah asal x1, x2, x3, xp sebagai sumbu koordinat (Johnson dan Dean 2002). Pada metode rotation forest, analisis komponen utama tidak digunakan untuk mereduksi dimensi, tetapi digunakan untuk proses rotasi peubah asal dengan tetap mempertahankan semua komponen utama/dimensi yang dihasilkan. Seluruh komponen utama digunakan untuk menjaga keragaman dan keinformasian pada data. Komponen utama dengan kontribusi keragaman terkecil juga berpengaruh terhadap proses scoring index pembentukan pohon gabungan (Rodriguez dan Kuncheva 2007). Terdapat alternatif metode lain yang dapat digunakan untuk melakukan proses rotasi peubah yakni nonparametric discriminant analysis (NDA). Pada penelitian Rodriguez dan Kuncheva (2007) telah dibuktikan bahwa analisis komponen utama secara unggul menghasilkan keakuratan klasifikasi yang lebih tinggi dibandingkan dengan nonparametric discriminant analysis (NDA). Alasan yang menjelaskan hal ini adalah karena matriks rotasi yang dihasilkan melalui analisis komponen utama memiliki korelasi yang sangat kecil sehingga membentuk pohon keputusan yang saling bebas satu sama lain. Pada penelitian ini akan dibuktikan efektivitas analisis komponen utama yakni proses rotasi peubah terhadap keakuratan hasil klasifikasi untuk data dengan karakteristik proporsi keragaman kumulatif rendah, sedang, dan tinggi. Parameter atau ukuran rotasi peubah yang digunakan adalah nilai proporsi keragaman kumulatif matriks rotasi yang direpresentasikan sebagai ukuran korelasi data pada metode rotation forest. Diagram garis digunakan untuk melihat pola hubungan antara proporsi keragaman kumulatif matriks rotasi (sumbu x) dan keakuratan klasifikasi (sumbu y). Berdasarkan tampilan Gambar 4, dapat dibuktikan bahwa analisis komponen utama terbukti efektif dalam menurunkan proporsi keragaman kumulatif data. Ratarata proporsi keragaman kumulatif data dengan proporsi keragaman kumulatif rendah, sedang, dan tinggi sebelum proses rotasi peubah berturut-turut sebesar , , dan Setelah proses rotasi peubah pada metode rotation forest, rata-rata nilai proporsi keragaman kumulatif berturut-turut menjadi , , dan Pada Gambar 4 dapat ditunjukkan juga bahwa keakuratan klasifikasi dengan proporsi keragaman kumulatif pada data dengan proporsi keragaman kumulatif rendah (A) dan sedang (B) cenderung berhubungan negatif. Pertambahan nilai proporsi keragaman kumulatif cenderung menurunkan nilai keakuratan klasifikasi pada pembentukan pohon gabungan, atau sebaliknya penurunan nilai proporsi keragaman kumulatif cenderung menaikkan nilai keakuratan klasifikasi. Namun, pada data dengan proporsi keragaman kumulatif tinggi (C), grafik garis membentuk

24 12 pola konstan pada suatu nilai keakuratan klasifikasi untuk nilai proporsi keragaman kumulatif yang berbeda. Gambar 4 Pola hubungan antara tingkat keakuratan klasifikasi dengan proporsi keragaman kumulatif matriks rotasi (sumbu x) pada data dengan keakuratan klasifikasi (sumbu y) keragaman: (A) rendah, (B) sedang, dan (C) tinggi Sehingga dapat disimpulkan bahwa analisis komponen utama terbukti efektif dalam menurunkan proporsi keragaman kumulatif data sehingga menghasilkan pohon gabungan yang saling bebas satu sama lain. Nilai proporsi keragaman kumulatif cenderung berhubungan negatif dengan keakuratan klasifikasi, semakin tinggi proporsi kumulatif pada suatu data cenderung menurunkan nilai keakuratan klasifikasi, begitu juga sebaliknya.

25 13 SIMPULAN Simpulan Kesimpulan yang diperoleh dari penelitian ini adalah sebagai berikut. Hasil grafik garis antara nilai keakuratan klasifikasi dengan nilai k dan l menunjukkan bahwa tidak diperoleh nilai k optimal untuk tiap kategori data yang dapat memaksimumkan nilai keakuratan klasifikasi pada data dengan peubah respon 2 kategori/kelas. Namun penggunaan nilai k = (p-1) cenderung menghasilkan keakuratan klasifikasi yang lebih rendah dibandingkan nilai k = {1, 2, 3, p/3}. Sehingga, proses rotasi peubah pada metode rotation forest berperan penting dalam meningkatkan nilai keakuratan klasifikasi. Metode gabungan rotation forest efektif menghasilkan keakuratan klasifikasi yang tinggi dengan cukup menggunakan sedikit pohon keputusan yakni 10 l 20. Pada metode rotation forest, nilai keakuratan klasifikasi cenderung berhubungan negatif dengan proporsi keragaman kumulatif data, yakni semakin tinggi nilai proporsi keragaman kumulatif suatu data cenderung menurunkan nilai keakuratan klasifikasi, atau sebaliknya. DAFTAR PUSTAKA Berk RA Statistical Learning from a Regression Perspective. New York (US): Springer Science + Business Media. Breiman L, Friedman JH, Olshen RA, Stone CJ Classification and Regression Trees. New York (US): Chapman & Hall. Breiman L Bagging Predictors. Machine Learning. 24: Breiman L Random Forests. Machine Learning. 45:5-32. Breiman L, Cutler A Manual on Setting Up, Using, and Understanding Random Forest V4.0.[Internet]. [diunduh 2016 Februari 05]. Tersedia pada: Hastie TJ, Tibshirani RJ, Friedman JH The Elements of Statistical Learning: Data-mining, Inference and Prediction.Second Edition. New York (US): Springer-Verlag. Johnson RA, Dean WW Applied Multivariate Statistical Analysis. New Jersey (US): Pearson Education International. Rodriguez JJ, Kuncheva LI, dan Alonso CJ Rotation forest: A new classifier ensemble method. IEEE Transactions on Pattern Analysis and Machine Intelligence, 28(10): Rodriguez JJ, Kuncheva LI An Experimental Study on Rotaion Forest Ensembles. MCS 07, LNCS 4472, hal Berlin (GER): Springer-Verlag Berlin Heidelberg. Rokach L Ensemble Methods for Classifiers dalam Data Mining and Knowledge Discovery Handbook (editor Maimon O. and Rokach L.). New York (US): Springer Science+Business Media.

26 14 Sandri M, Zuccolotto P Variable Selection Using Random Forest. Di dalam: Zani S, Cerioli A, Riani M, Vichi M, editor. Data Analysis, Classification and the Forward Search. Proceedings of the Meeting of the Classification and Data Analysis Group (CLADAG) of the Italian Statistical Society; University of Parma, 6-8 Juni New York (US): Springer Berlin Heidelberg. Sartono B, Syafitri UD Metode Pohon Gabungan: Solusi Pilihan untuk Mengatasi Kelemahan Pohon Regresi dan Klasifikasi Tunggal. Forum Statistika dan Komputasi. 15(1): 1-7. Sumertajaya MI, Mattjik AA Sidik Peubah Ganda. Bogor (ID): IPB Press.

27 15 Lampiran 1 Proporsi keragaman kumulatif pada 13 sumber data penelitian No Penulis Judul Karya Ilmiah 1 Adi Nugraha Faktor-Faktor yang Mempengaruhi Minat Mahasiswa Berwirausaha dengan Menggunakan Regresi Logistik 2 Nur Fitriani Metode QUEST untuk Klasifikasi dan Penentuan Faktor Risiko Infeksi Toxocara cati pada Kucing Peliharaan 3 Rossi Azmatul Penerapan Synthetic Minority Oversampling Borro Technique (SMOTE) terhadap Data Tidak Seimbang pada Pembuatan Model Komposisi Jamu 4 Gitania Nur Evaluasi Kredit Tidak Lancar Nasabah Rahisti Kredit Mikro dengan Metode CART 5 Meita Ariani Penerapan Regresi Logistik Biner dan Rubiati Analisis Dominan untuk Menganalisis Faktor-Faktor yang Berpengaruh terhadap Hipertensi (Studi Kasus: Kabupaten Gunung Kidul 6 Rakhmawati Credit Risk Modeling Using Logistic Ridge Regression 7 Dimas Perbandingan Multivariate Adaptive Adiangga Regression Spline (MARS) dan Pohon Klasifikasi C5.0 pada Data Tidak Seimbang (Studi Kasus: Pekerja Anak di Jakarta) d ) data digunakan sebagai data sampel penelitian Jumlah Amatan Jumah Peubah (X) Proporsi Keragaman Kumulatif Kategori rendah rendah rendah sedang d rendah rendah d rendah

28 16 Lanjutan Lampiran 1 No Penulis Judul Karya Ilmiah 8 Shafa Rosea Kajian Penentuan Klasifikasi Desa Subakti di Indonesia Penerapan Dominance Analysis 9 Alfin Khairi untuk Menentukan Kepentingan Faktor-Faktor yang Mempengaruhi Tingkat Adopsi Teknologi Nelayan (Studi Kasus pada Nelayan Kabupaten Aceh Jaya) Identifikasi Faktor-Faktor yang 10 Nita Nurgenita Memengaruhi Ketepatan Waktu Kelulusan Mahasiswa Program Sarjana IPB Analisis CHAID untuk Identifikasi 11 Rindy AP Ketepatan Waktu Lulus Berdasarkan Karakteristik Mahasiswa Penerapan Fungsi Diskriminan dalam Deteksi Dini Penentuan 12 IDGR Alan Status Mastitis Subklinis pada Sapi Amory Perah (Studi Kasus : Kawasan Usaha Ternak Cibungbulang, Kabupaten Bogor Tahun ) 13 Resty IS Penerapan Fungsi Diskriminan Linier dalam Pengklasifikasian Status Kredit Debitur (Studi Kasus Data German Credit Tahun 1992) d ) data digunakan sebagai data sampel penelitian Jumlah Amatan Jumah Peubah (X) Proporsi Keragaman Kumulatif Kategori sedang rendah rendah rendah tinggid rendah

29 Lampiran 2 Hasil analisis profil pada data dengan proporsi keragaman kumulatif rendah Sumber Derajat Jumlah Kuadrat keragaman bebas kuadrat tengah Nilai F Nilai p k Galat Sumber Derajat Jumlah Kuadrat keragaman bebas kuadrat tengah Nilai F Nilai p l * l * k Galat(l) *) signifikan pada taraf nyata 5% 17 Lampiran 3 Hasil analisis profil pada data dengan proporsi keragaman kumulatif sedang Sumber Derajat Jumlah Kuadrat keragaman bebas kuadrat tengah Nilai F Nilai p k * Galat Sumber Derajat Jumlah Kuadrat keragaman bebas kuadrat tengah Nilai F Nilai p l * l * k Galat (l) *) signifikan pada taraf nyata 5% Lampiran 4 Hasil analisis profil pada data dengan proporsi keragaman kumulatif tinggi Sumber Derajat Jumlah Kuadrat keragaman bebas kuadrat tengah Nilai F Nilai p k Galat Sumber Derajat Jumlah Kuadrat keragaman bebas kuadrat tengah Nilai F Nilai p l * l * k Galat (l) *) signifikan pada taraf nyata 5%

30 18 RIWAYAT HIDUP Muhammad Iqbal dilahirkan di Lamongan, Jawa Timur pada tanggal 31 Agustus 1994 dari pasangan Bapak Muhtadin dan Ibu Istikharoh. Penulis merupakan anak pertama dari empat bersaudara. Pada tahun 2009 penulis menyelesaikan pendidikan sekolah menengah pertama di SMP Negeri 1 Lamongan. Tahun 2012 penulis menyelesaikan pendidikan sekolah menengah atas di SMA Negeri 2 Lamongan. Pada tahun 2012 penulis diterima sebagai mahasiswa Departemen Statistika, Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor (IPB) melalui jalur Seleksi Nasional Masuk Perguruan Tinggi Negeri (SNMPTN). Penulis mengambil program minor Matematika Keuangan dan Aktuaria di Departemen Statistika, Fakultas Matematika dan Ilmu Pengetahan Alam, IPB. Selama mengikuti perkuliahan, penulis aktif dalam kegiatan berorganisasi. Penulis pernah menjadi ketua Badan Pengawas Himpunan Profesi Gamma Sigma Beta (GSB) periode 2014/2015, ketua Wilayah II (Jawa Barat, Jabodetabek, dan Banten) Ikatan Himpunan Mahasiswa Statistika Indonesia (IHMSI) periode 2014/2016, dan Ketua Tanoto Scholars Association (TSA) IPB periode 2015/2016. Tahun 2015 penulis berkesempatan melaksanakan kegiatan praktik lapang selama 2 bulan di Divisi Penelitian Hama, Balai Penelitian dan Umbi, Malang, Jawa Timur. Untuk memaksimalkan waktu luang dan pengaplikasian ilmu statistika, penulis pernah menjadi asisten praktikum mata kuliah Metode Statistika dan Perancangan Percobaan tahun ajaran 2014/2015, pengajar di Katalis Corp periode 2013/2015, data analyst di Statistics Centre periode 2014/2016, dan research consultant PT. Agricon Indonesia periode 2015/2016. Selama berkuliah penulis juga pernah mendapatkan beberapa penghargaan dari perlombaan yang diikuti, antara lain: The Best ASEAN Traditional Culture, The Best Simulation Process of ASEAN Group Discuss, Speaker on the 3 rd International Conference on Global Trends in Academic Research, The Best Presenter of Social Project (Tanoto Foundation), dan menjadi semifinalis pada Olimpiade Nasional Statistika Penulis merupakan penerima National Champion Scholarship Tanoto Foundation tahun 2014 sampai 2016.