PERBANDINGAN ALGORITME FEATURE SELECTION INFORMATION GAIN DAN SYMMETRICAL UNCERTAINTY PADA DATA KETAHANAN PANGAN DELKI ABADI

Transkripsi

1 PERBANDINGAN ALGORITME FEATURE SELECTION INFORMATION GAIN DAN SYMMETRICAL UNCERTAINTY PADA DATA KETAHANAN PANGAN DELKI ABADI DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2013

2

3 PERNYATAAN MENGENAI SKRIPSI DAN SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA* Dengan ini saya menyatakan bahwa skripsi berjudul Perbandingan Algoritme Feature Selection Information Gain dan Symmetrical Uncertainty pada Data Ketahanan Pangan adalah benar karya saya dengan arahan dari komisi pembimbing dan belum diajukan dalam bentuk apa pun kepada perguruan tinggi mana pun. Sumber informasi yang berasal atau dikutip dari karya yang diterbitkan maupun tidak diterbitkan dari penulis lain telah disebutkan dalam teks dan dicantumkan dalam Daftar Pustaka di bagian akhir skripsi ini. Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut Pertanian Bogor. Bogor, Mei 2013 Delki Abadi NIM G

4 ABSTRAK DELKI ABADI. Perbandingan Algoritme Feature Selection Information Gain dan Symmetrical Uncertainty pada Data Ketahanan Pangan. Dibimbing oleh Annisa. Pengelompokan daerah berdasarkan indikator ketahanan pangan sangat penting dilakukan untuk mengambil kebijakan yang tepat dalam hal penentuan sasaran dan pemberian rekomendasi untuk mengatasi masalah kerawanan pangan. Salah satu metode yang dapat digunakan untuk mengelompokkan objek ke dalam kelas-kelas adalah algoritme decision tree. Pada penelitian ini, akan dibangun dua model decision tree. Decision tree pertama menggunakan algoritme seleksi fitur information gain, sedangkan decision tree kedua menggunakan algoritme seleksi fitur symmetrical uncertainty. Kedua metode ini digunakan untuk mengklasifikasikan data indikator ketahanan pangan untuk seluruh kabupaten di Indonesia yang diperoleh dari United Nations World Food Programme dan Dewan Ketahanan Pangan. Kemudian, akurasi kedua metode dibandingkan satu sama lain. Hasil yang diperoleh menunjukkan bahwa akurasi decision tree pertama lebih baik dibandingkan decision tree kedua. Rata-rata akurasi decision tree pertama yaitu 52.02%, sedangkan rata-rata akurasi decision tree kedua yaitu 49.84%. Kata Kunci: decision tree, information gain, symmetrical uncertainty ABSTRACT DELKI ABADI. Comparison of Information Gain and Symmetrical Uncertainty Feature Selection Algorithm in Food security Data. Supervised by ANNISA. Regional grouping based on indicators of food security is very important to take the proper policy in terms of deciding the targets and providing recommendations for tackling food insecurity. One method that can be used to classify objects into classes is decision tree algorithm. In this research, two decision tree models are constructed. The first decision tree utilizes information gain feature selection algorithm, whereas the second decision tree uses symmetrical uncertainty feature selection algorithm. These methods are used to classify the indicator of food security data from all districts in the provinces of Indonesia, obtained from the United Nations World Food Programme and Food Security Council. Then, the accuracy of both methods are compared. The result showed that the first decision tree is better than the second decision tree. The average accuracy of the first decision tree is 52.02%, while the average accuracy of second decision tree is 49.84%. Keywords: decision tree, information gain, symmetrical uncertainty

5 PERBANDINGAN ALGORITME FEATURE SELECTION INFORMATION GAIN DAN SYMMETRICAL UNCERTAINTY PADA DATA KETAHANAN PANGAN DELKI ABADI Skripsi sebagai salah satu syarat untuk memperoleh gelar Sarjana Ilmu Komputer pada Departemen Ilmu Komputer DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2013

6

7 Judul Skripsi : Perbandingan Algoritme Feature Selection Information Gain dan Symmetrical Uncertainty pada Data Ketahanan Pangan Nama : Delki Abadi NIM : G Disetujui oleh Annisa, SKom, MKom Pembimbing Diketahui oleh Dr Ir Agus Buono, MSi, MKom Ketua Departemen Ilmu Komputer Tanggal Lulus:

8

9 PRAKATA Puji dan syukur penulis panjatkan kepada Allah subhanahu wata ala atas segala karunia-nya sehingga karya ilmiah ini berhasil diselesaikan. Tema yang dipilih dalam penelitian yang dilaksanakan sejak bulan Maret 2012 ini ialah seleksi fitur, dengan judul Perbandingan Algoritme Feature Selection Information Gain dan Symmetrical Uncertainty pada Data ketahanan Pangan. Terima kasih penulis ucapkan kepada Ibu Annisa, SKom, MKom selaku pembimbing yang telah memberikan arahan dan saran selama penelitian ini berlangsung. Ungkapan terima kasih juga disampaikan kepada orangtua, kakak, serta seluruh keluarga atas segala doa dan kasih sayangnya. Ucapan terima kasih juga penulis sampaikan kepada seluruh teman-teman satu bimbingan yang telah membantu dalam penyelesaian penelitian ini. Penulis menyadari bahwa masih terdapat kekurangan dalam penulisan skripsi ini. Semoga karya ilmiah ini bermanfaat. Bogor, Mei 2013 Delki Abadi

10 DAFTAR ISI DAFTAR TABEL vi DAFTAR GAMBAR vi DAFTAR LAMPIRAN vi PENDAHULUAN 1 Latar Belakang 1 Tujuan Penelitian 2 Batasan Penelitian 2 TINJAUAN PUSTAKA 2 Decision Tree 2 Algoritme ID3 2 Seleksi Fitur 3 Entropy, Information Gain, dan Symmetrical Uncertainty 3 K-Fold Cross Validation 4 Overfitting 5 Pruning 5 METODE PENELITIAN 5 Data Indikator Ketahanan Pangan 5 Pembersihan Data 5 Transformasi Data 6 Data Latih dan Data Uji 6 Klasifikasi 8 Pruning 9 Perhitungan Akurasi 9 Lingkungan Pengembangan 10 HASIL DAN PEMBAHASAN 10 Data Indikator Ketahanan Pangan 10 Pembersihan Data 10 Transformasi Data 10 Data Latih dan Data Uji 11 Klasifikasi 11

11 Pruning 14 Perbandingan Akurasi Model 1 dan Model 2 16 KESIMPULAN DAN SARAN 17 Kesimpulan 17 Saran 18 DAFTAR PUSTAKA 18 RIWAYAT HIDUP 23

12 DAFTAR TABEL 1 Contoh data latih 7 2 Urutan fitur berdasarkan nilai information gain 8 3 Urutan fitur berdasarkan nilai symmetrical uncertainty 8 4 Pembagian data ketahanan pangan 11 5 Pola percobaan 11 6 Akurasi pengujian model Confusion matrix iterasi kesepuluh pada model Akurasi pengujian model Confusion matrix iterasi pertama pada model Akurasi pengujian setelah dilakukan pruning pada model Akurasi pengujian setelah dilakukan pruning pada model Perbandingan akurasi model 1 dan model 2 sebelum dan sesudah dilakukan pruning 16 DAFTAR GAMBAR 1 Tahapan penelitian 6 2 Decision tree model Decision tree model Contoh aturan hasil iterasi kesepuluh pada model Contoh aturan hasil iterasi pertama pada model 2 14 DAFTAR LAMPIRAN 1 Contoh data sebelum transformasi data 19 2 Interval indikator-indikator data ketahanan pangan 20 3 Contoh data hasil transformasi data 22

13 PENDAHULUAN Latar Belakang Algoritme ID3 merupakan algoritme klasifikasi yang banyak digunakan dalam machine learning. Algoritme ID3 merupakan sebuah metode yang digunakan untuk konstruksi decision tree. Algoritme ID3 menggunakan algoritme seleksi fitur information gain untuk memilih fitur terbaik yang akan digunakan pada decision tree. Algoritme seleksi fitur information gain yang digunakan pada ID3 menghasilkan pemilihan fitur yang dapat menentukan akurasi dari hasil klasifikasi. Selain information gain, terdapat beberapa algoritme lain yang dapat digunakan untuk memilih fitur terbaik yang akan digunakan pada decision tree seperti symmetrical uncertainty. Pada penelitian yang dilakukan oleh Hall (1999) dijelaskan bahwa symmetrical uncertainty merupakan bentuk turunan dari information gain. Symmetrical uncertainty digunakan untuk menghilangkan bias pada information gain. Bias pada information gain terjadi karena information gain mendukung fitur dengan kemungkinan nilai yang banyak sehingga fitur dengan kemungkinan nilai yang banyak akan memiliki ukuran information gain yang lebih besar dibanding fitur yang memiliki kemungkinan nilai yang lebih sedikit, bahkan ketika fitur tersebut tidak lebih baik dari fitur lainnya. Untuk itu, symmetrical uncertainty digunakan untuk menormalisasi information gain untuk memastikan semua fitur sebanding atau memiliki efek yang sama. Hasil dari klasifikasi dapat dilihat dari tingkat akurasi yang dihasilkan. Sering kali model decision tree mengalami masalah overfitting. Overfitting di dalam decision tree menghasilkan suatu keadaan yang lebih kompleks daripada yang dibutuhkan. Hal ini juga membuat tingkat akurasi tidak cukup baik untuk mengklasifikasikan data baru. Oleh karena itu, diperlukan cara untuk meningkatkan akurasi dari model tree yang dihasilkan. Salah satu metode yang bisa digunakan untuk meningkatkan akurasi dari tree ialah pruning. Pruning bekerja dengan memotong atau memangkas tree. Pruning diharapkan dapat meningkatkan akurasi yang dihasilkan dalam proses klasifikasi. Penelitian ini mencoba untuk membandingkan tingkat akurasi model decision tree yang dibangun menggunakan algoritme ID3 yang melakukan pemilihan fitur berdasarkan information gain dan algoritme decision tree dengan menggunakan symmetrical uncertainty untuk pemilihan fitur. Untuk meningkatkan akurasi dalam proses klasifikasi, diterapkan juga metode pruning. Dari penelitian ini diharapkan algoritme seleksi fitur yang paling baik digunakan untuk membangun model decision tree pada suatu data dapat diketahui.

14 2 Tujuan Penelitian Tujuan dari penelitian ini ialah: 1 Menerapkan model klasifikasi decision tree menggunakan algoritme ID3 yang melakukan pemilihan fitur berdasarkan information gain dan algoritme decision tree dengan menggunakan symmetrical uncertainty untuk pemilihan fitur. 2 Membandingkan tingkat akurasi decision tree yang dibangun menggunakan algoritme ID3 dan algoritme decision tree dengan menggunakan symmetrical uncertainty untuk pemilihan fitur. 3 Menerapkan pruning pada decision tree. Batasan Penelitian Penelitian ini dibatasi pada pembangunan model decision tree pada data ketahanan pangan menggunakan algoritme ID3 yang melakukan pemilihan fitur berdasarkan information gain dan algoritme decision tree dengan menggunakan symmetrical uncertainty untuk pemilihan fitur, serta penerapan metode pruning untuk meningkatkan akurasi dari model decision tree yang dibangun. Data ketahanan pangan yang digunakan adalah data sekunder berupa indikatorindikator ketahanan pangan untuk seluruh wilayah di Indonesia. TINJAUAN PUSTAKA Decision Tree Decision tree merupakan salah satu metode klasifikasi yang menggunakan representasi struktur pohon. Setiap node pada decision tree merepresentasikan atribut, cabangnya merepresentasikan nilai dari atribut dan daun merepresentasikan kelas. Node paling atas dari decision tree disebut sebagai node akar (Han & Kamber 2001). Pembentukan decision tree terdiri atas tahap-tahap berikut: 1 Konstruksi tree, yaitu membuat tree yang diawali dengan pembentukan bagian akar, kemudian data terbagi berdasarkan atribut-atribut yang cocok untuk dijadikan node akar. 2 Pemangkasan tree (pruning), yaitu mengidentifikasi dan membuang cabang yang tidak diperlukan pada tree yang telah terbentuk. 3 Pembentukan aturan keputusan, yaitu membuat aturan keputusan dari tree yang telah dibentuk. Algoritme ID3 Algoritme ID3 atau Iterative Dichotomiser 3 (ID3) merupakan sebuah metode yang digunakan untuk membuat decision tree. Algoritme pada metode ini menggunakan konsep entropi informasi.

15 Strategi pembentukan decision tree dengan algoritme ID3 yaitu (Tan et al. 2006): 1 Tree dimulai sebagai node tunggal (akar) yang merepresentasikan semua data. 2 Sesudah node akar dibentuk, data pada node akar akan diukur dengan information gain untuk memilih atribut yang akan dijadikan atribut pembaginya. 3 Sebuah cabang dibentuk dari atribut yang dipilih menjadi pembagi dan data akan didistribusikan ke dalam cabang masing-masing. 4 Algoritme ini akan terus menggunakan proses yang sama atau bersifat rekursif untuk dapat membentuk sebuah decision tree. Ketika sebuah atribut telah dipilih menjadi node pembagi atau cabang, atribut tersebut tidak diikutkan lagi dalam penghitungan nilai information gain. 5 Proses pembagian rekursif akan berhenti jika salah satu dari kondisi berikut terpenuhi: a b c Semua data dari anak cabang telah termasuk dalam kelas yang sama. Semua atribut telah dipakai, tetapi masih tersisa data dalam kelas yang berbeda. Dalam kasus ini, data yang mewakili kelas terbanyak untuk dijadikan label kelas diambil. Tidak terdapat data pada anak cabang yang baru. Dalam kasus ini, node daun akan dipilih pada cabang sebelumnya dan diambil data yang mewakili kelas terbanyak untuk dijadikan label kelas. 3 Seleksi Fitur Menurut Ramaswami dan Bhaskaran (2009), tujuan utama dari seleksi fitur ialah memilih fitur terbaik dari suatu kumpulan fitur data. Pada decision tree, algoritme seleksi fitur yang digunakan untuk konstruksi decision tree menentukan tingkat akurasi dari decision tree yang dihasilkan. Fitur-fitur yang digunakan pada decision tree merupakan fitur-fitur yang dianggap relevan dalam menentukan kelas target dari suatu objek data. Entropy, Information Gain, dan Symmetrical Uncertainty Information gain dan symmetrical uncertainty adalah suatu nilai statistik untuk memilih fitur yang akan mengekspansi tree. Suatu entropy dipergunakan untuk mendefinisikan nilai information gain dan symmetrical uncertainty. Entropy menggambarkan banyaknya informasi yang dibutuhkan untuk mengkodekan suatu kelas. Entropy dirumuskan sebagai berikut (Han & Kamber 2001):

16 4 m Info D = - p i log 2 p i i Info(D) adalah entropi dari D dan p i adalah rasio dari kelas C i pada himpunan data contoh D. p i = C i,d D Misalkan himpunan data contoh D dipartisi berdasarkan atribut A yang mempunyai v kemungkinan nilai, {a 1, a 2,, a v }. Atribut A dapat digunakan untuk mempartisi himpunan data contoh D menjadi v partisi atau subset,{ D 1, D 2,, D v }, dengan D j merupakan himpunan data contoh D yang memiliki atribut A dengan nilai a j. Banyaknya informasi yang dibutuhkan untuk mempartisi himpunan data contoh D berdasarkan atribut A dirumuskan sebagai berikut (Han & Kamber 2001): info A D = v j=1 D j D x info(d j ) D j D merupakan rasio dari data dengan atribut j pada himpunan data contoh D. info A (D) menggambarkan banyaknya informasi yang dibutuhkan untuk mempartisi himpunan data contoh D berdasarkan atribut A. Information gain dirumuskan sebagai berikut (Han & Kamber 2001): Gain A = info D - info A (D) Symmetrical uncertainty didapatkan dengan membagi information gain atribut A dengan jumlah dari entropi himpunan data contoh D ditambah dengan entropi dari atribut A (Novakovic et al. 2011). SU A = Gain (A) info D + info(a) K-Fold Cross Validation K-Fold Cross Validation (Fu 1994) adalah sebuah metode yang membagi himpunan contoh secara acak menjadi k himpunan bagian (subset). Pada metode ini dilakukan pengulangan sebanyak k kali untuk data pelatihan dan pengujian. Pada setiap pengulangan, satu subset digunakan untuk pengujian, sedangkan subset sisanya digunakan untuk pelatihan.

17 5 Overfitting Overfitting merupakan masalah yang sering muncul di dalam upaya klasifikasi. Overfitting di dalam decision tree menghasilkan tree yang lebih kompleks daripada yang dibutuhkan. Gejala yang ditunjukkan di dalam overfitting yaitu memberikan akurasi yang baik pada data latih, namun memberikan akurasi yang buruk pada data uji. Di samping itu, overfitting mengakibatkan semakin besar ukuran dari tree (ditinjau dari jumlah node-nya), justru memberi nilai akurasi yang rendah dalam proses klasifikasi. Pruning merupakan cara yang baik untuk menghindari atau mengatasi overfitting. Setelah pruning, tingkat akurasi dalam proses klasifikasi bisa meningkat (Tan et al. 2006). Pruning Pruning (pemangkasan tree) merupakan bagian dari proses pembentukan decision tree. Saat pembentukan decision tree, beberapa node merupakan outlier atau noise. Penerapan pruning pada decision tree dapat mengurangi outlier maupun noise data pada decision tree awal sehingga dapat meningkatkan akurasi pada klasifikasi data (Han & Kamber 2001). Prinsip pruning terbagi menjadi dua: pre-pruning dan post pruning. Prepruning merupakan proses pemangkasan saat tree belum terbentuk secara sempurna, sedangkan post pruning bekerja setelah tree terbentuk dengan sempurna. METODE PENELITIAN Penelitian ini akan dilakukan dalam beberapa tahap. Tahapan dalam penelitian ini dapat dilihat pada Gambar 1. Data Indikator Ketahanan Pangan Data yang akan digunakan pada penelitian ini adalah data indikator ketahanan pangan yang dikumpulkan oleh DKP dan WFP (2009). Pada penelitian ini, data ketahanan pangan untuk seluruh kabupaten di Indonesia digunakan. Pembersihan Data Pembersihan data dilakukan jika terdapat noise, nilai kosong, atau duplikasi data. Pada penelitian ini jika terdapat data yang kosong, data tersebut dihilangkan.

18 6 Mulai Pengumpulan Data Pembersihan Data Transformasi Data Data Latih Pembagian Data Data Uji Klasifikasi Akurasi Decision Tree Pruning Perbandingan Akurasi Selesai Gambar 1 Tahapan penelitian Transformasi Data Data yang sudah dibersihkan kemudian diubah menjadi bentuk yang tepat untuk di-mining. Information gain dan symmetrical uncertainty merupakan teknik seleksi fitur yang memakai metode scoring untuk nominal ataupun pembobotan atribut kontinu yang didiskretkan menggunakan maksimal entropy sehingga indikator data ketahanan dan kerentanan pangan harus ditransformasikan ke dalam bentuk atribut kategorik. Hal ini merupakan salah satu syarat yang harus dipenuhi dalam penerapan algoritme seleksi fitur information gain dan symmetrical uncertainty. Pada penelitian ini akan dilakukan diskretisasi data menggunakan interval yang sudah ada. Data Latih dan Data Uji Setelah tahap transformasi data dilakukan, tahap selanjutnya yaitu pembagian data. Pada tahap ini, data dibagi menjadi data latih dan data uji. Pada penelitian ini digunakan k-fold cross validation untuk menentukan data latih dan data uji. Pada penelitian ini menggunakan metode 10-fold cross validation. Oleh karena itu, data yang digunakan dibagi menjadi 10 subset secara acak yang

19 masing-masing subset memiliki jumlah instances yang hampir sama. Pembagian data untuk setiap subset dipilih secara acak. Pembagian data ini digunakan pada proses iterasi klasifikasi. Iterasi dilakukan sebanyak 10 kali karena penelitian ini menggunakan metode 10-fold cross validation. Pada setiap iterasi, satu subset digunakan untuk pengujian, sedangkan sembilan subset lainnya digunakan untuk pelatihan. 7 Seleksi Fitur Penelitian ini menggunakan dua algoritme seleksi fitur dasar yaitu algoritme seleksi fitur information gain dan symmetrical uncertainty. Kedua algoritme ini digunakan untuk mengekspansi tree pada algoritme decision tree. Decision tree hasil kedua algoritme seleksi fitur ini akan dibandingkan akurasinya untuk menentukan algoritme seleksi fitur yang lebih baik. Contoh data latih ditampilkan pada Tabel 1. Tabel 1 Contoh data latih Fitur 1 Fitur 2 Fitur 3 Fitur 4 Fitur 5 Kelas Surplus Hampir Sangat Agak Kecil Sangat prioritas 2 Tinggi Miskin Sedikit Rendah Surplus Hampir Sangat Banyak Sangat Agak prioritas 1 Sedang Miskin Banyak Rendah Defisit Sangat Miskin Sangat Banyak Sangat prioritas 1 Tinggi Banyak Rendah Defisit Hampir Sangat Sangat Kecil Agak prioritas 2 Sedang Miskin Sedikit Tinggi Surplus Mendekati Sangat Sangat Rendah prioritas 6 Sedang Miskin Sedikit Kecil Surplus Hampir Sangat Sangat Sangat Rendah prioritas 5 Tinggi Miskin Sedikit Kecil Surplus Miskin Sangat Sangat Agak prioritas 6 Tinggi Sedikit Kecil Rendah Surplus Rendah Hampir Mendekati Sangat Miskin Sedikit Sangat Kecil Rendah prioritas 5 Surplus Tinggi Surplus Tinggi Surplus Tinggi Surplus Tinggi Hampir Mendekati Sangat Miskin Hampir Mendekati Sangat Miskin Hampir Sangat Miskin Hampir Sangat Miskin Sedikit Sedikit Sedikit Sedikit Sangat Kecil Sangat Kecil Sangat Kecil Sangat Kecil Agak Rendah prioritas 4 Rendah prioritas 4 Rendah prioritas 3 Agak Rendah prioritas 3

20 8 Seleksi Fitur Menggunakan Information Gain (IG) Information gain dihitung untuk setiap fitur dalam data latih. Kemudian, fitur diurutkan berdasarkan nilai information gain dari yang terbesar ke yang terkecil. Fitur yang memiliki nilai information gain tertinggi pada suatu data akan dijadikan node parent untuk node-node selanjutnya pada decision tree. Hasil penghitungan nilai information gain dari setiap fitur berdasarkan data pada Tabel 1 dapat dilihat pada Tabel 2. Tabel 2 Urutan fitur berdasarkan nilai information gain Urutan Atribut Fitur 3 Fitur 2 Fitur 4 Fitur 1 Fitur 5 IG Tabel 2 menunjukkan bahwa fitur yang memiliki nilai information gain tertinggi ialah fitur 3 dengan nilai information gain Seleksi Fitur Menggunakan Symmetrical Uncertainty (SU) Symmetrical uncertainty dihitung untuk setiap fitur dalam data latih. Kemudian, fitur diurutkan berdasarkan nilai symmetrical uncertainty dari yang terbesar ke yang terkecil. Fitur yang memiliki nilai symmetrical uncertainty tertinggi pada suatu data akan dijadikan node parent untuk node-node selanjutnya pada decision tree. Hasil penghitungan nilai symmetrical uncertainty dari setiap fitur berdasarkan data pada Tabel 1 dapat dilihat pada Tabel 3. Dari Tabel 3 dapat dijelaskan bahwa fitur dengan nilai symmetrical uncertainty tertinggi ialah fitur 3 dengan nilai symmetrical uncertainty Tabel 3 Urutan fitur berdasarkan nilai symmetrical uncertainty Urutan Atribut Fitur 3 Fitur 2 Fitur 4 Fitur 1 Fitur 5 IG Klasifikasi Pada tahap ini akan dibangun dua model decision tree. Model 1 dibangun menggunakan algoritme decision tree ID3 yang melakukan pemilihan fitur menggunakan algoritme seleksi fitur information gain. Model 2 dibangun menggunakan algoritme decision tree dengan menggunakan algoritme seleksi fitur symmetrical uncertainty untuk pemilihan fitur. Hasil dari tahapan ini berupa aturan klasifikasi yang diperoleh dari decision tree. Decision tree model 1 dan model 2 berdasarkan data pada Tabel 1 dapat dilihat pada Gambar 2 dan Gambar 3. Dari Gambar 2 dan Gambar 3 dapat dilihat bahwa decision tree yang dihasilkan memiliki perbedaan. Hal ini menunjukkan bahwa algoritme seleksi fitur yang digunakan untuk memilih fitur pada decision tree mempengaruhi tree yang dihasilkan.

21 9 Gambar 2 Decision tree model 1 Gambar 3 Decision tree model 2 Pruning Pada tahap ini, decision tree yang dihasilkan pada tahap klasifikasi akan dipangkas. Decision tree yang dihasilkan setelah pemangkasan tree akan dilakukan pengujian kembali dengan menggunakan data uji yang sama sebelum dilakukan pemangkasan tree. Perhitungan Akurasi Akurasi menunjukkan tingkat kebenaran klasifikasi data terhadap kelas yang sebenarnya. Semakin rendah nilai akurasi, semakin tinggi kesalahan klasifikasi. Tingkat akurasi yang baik adalah tingkat akurasi yang mendekati nilai 100%. Menurut Han dan Kamber (2001), pengukuran akurasi atau ketepatan model dapat dilakukan dengan menghitung perbandingan jumlah prediksi benar terhadap total seluruh record yang dapat diprediksi (persentase dari data uji yang diprediksi dengan benar oleh model). Tingkat akurasi dihitung untuk setiap model decision tree yaitu model 1 dan model 2. Akurasi decision tree model 1 dan model 2 dibandingkan untuk mengetahui algoritme seleksi fitur terbaik dalam membangun decision tree pada data ketahanan pangan.

22 10 Lingkungan Pengembangan Penelitian ini menggunakan perangkat keras dan perangkat lunak dengan spesifikasi sebagai berikut: 1 Perangkat keras: Intel(R) Core(TM) i3 CPU M GHz 2.13 GHz. Memori 2 GB. Harddisk kapasitas 320 GB. 2 Perangkat lunak: Windows 7 Ultimate. XAMPP PHP HASIL DAN PEMBAHASAN Data Indikator Ketahanan Pangan Data sumber yang digunakan pada penelitian ini adalah data indikator ketahanan pangan untuk seluruh kabupaten di Indonesia dengan jumlah record sebanyak 348 baris dan 9 atribut. Atribut-atribut tersebut adalah rasio konsumsi normatif terhadap produksi bersih per kapita, penduduk di bawah garis kemiskinan, desa tanpa akses ke jalan, rumah tangga tanpa akses ke listrik, angka harapan hidup, berat badan balita di bawah standar, perempuan buta huruf, rumah tangga tanpa akses ke air bersih, dan rumah tangga dengan jarak 5 km dari fasilitas kesehatan. Data ini dikelompokkan kedalam enam kelas, yaitu prioritas 1, prioritas 2, prioritas 3, prioritas 4, prioritas 5, dan prioritas 6 (DKP dan WFP 2009). Contoh data dapat dilihat pada Lampiran 1. Pembersihan Data Dalam data ketahanan pangan terdapat dua data kabupaten yang tidak lengkap, yaitu Kabupaten Puncak Jaya dan Kabupaten Pegunungan Bintang sehingga data kedua kabupaten tersebut tidak digunakan dalam pembuatan model decision tree. Setelah dilakukan pembersihan data, jumlah data yang digunakan ialah sebanyak 346 record data. Transformasi Data Proses diskretisasi dilakukan karena data yang digunakan memiliki tipe data yang kontinu. Diskretisasi merupakan proses mengubah sebuah atribut kontinu menjadi atribut kategorik. Proses mengubah artibut kontinu menjadi atribut kategorik menggunakan interval tertentu yang sudah ada pada data ketahanan

23 pangan. Interval indikator-indikator ketahanan pangan dapat dilihat pada Lampiran 2 dan contoh data hasil transformasi data dapat dilihat pada Lampiran Data Latih dan Data Uji Setelah tahap transformasi data dilakukan, tahap selanjutnya ialah membagi data menjadi 10 subset. Subset-subset inilah yang akan digunakan pada tahap klasifikasi sebagai data pelatihan dan pengujian. Subset yang terbentuk memiliki jumlah instance yang hampir sama dengan mengabaikan proporsi perbandingan antar kelas. Pembagian data secara keseluruhan dari kesepuluh subset data tersebut disajikan pada Tabel 4. Tabel 4 Pembagian data ketahanan pangan Subset S1 S2 S3 S4 S5 S6 S7 S8 S9 S10 Total Jumlah Instance Klasifikasi Berdasakan penjelasan pada tahapan penelitian, pada tahap ini akan dibangun 2 model decision tree, yaitu model 1 dan model 2. Setiap model akan dilakukan percobaan sebanyak 10 kali percobaan. Pola percobaan disajikan pada Tabel 5. Tabel 5 Pola percobaan Iterasi Data Latih Data UJi 1 S2, S3, S4, S5, S6, S7, S8, S9, S10 S1 2 S1, S3, S4, S5, S6, S7, S8, S9, S10 S2 3 S1, S2, S4, S5, S6, S7, S8, S9, S10 S3 4 S1, S2, S3, S5, S6, S7, S8, S9, S10 S4 5 S1, S2, S3, S4, S6, S7, S8,S9, S10 S5 6 S1, S2, S3, S4, S5, S7, S8, S9, S10 S6 7 S1, S2, S3, S4, S5, S6, S8, S9, S10 S7 8 S1, S2, S3, S4, S5, S6, S7, S9, S10 S8 9 S1, S2, S3, S4, S5, S6, S7, S8, S10 S9 10 S1, S2, S3, S4, S5, S6, S7, S8, S9 S10 Model 1 Model 1 merupakan model decision tree yang dibangun menggunakan algoritme decision tree ID3 yang melakukan pemilihan fitur menggunakan algoritme seleksi fitur information gain. Hasil pengujian model 1 dapat dilihat pada Tabel 6.

24 12 Tabel 6 Akurasi pengujian model 1 Iterasi Akurasi (%) Rata-rata Dari Tabel 6 terlihat bahwa akurasi tertinggi diperoleh pada iterasi kesepuluh dengan nilai akurasi 64.52% dan iterasi terkecil diperoleh pada iterasi ketujuh dengan nilai akurasi 28.57%. Hal ini menunjukkan bahwa tingkat kesalahan pada iterasi ketujuh paling besar dibandingkan iterasi yang lainnya. Hal ini dapat disebabkan instance-instance data yang ada pada subset data uji iterasi ketujuh belum dapat mewakili setiap fitur untuk dapat diklasifikasikan pada kelas tertentu. Kelas-kelas yang salah diklasifikasikan pada iterasi kesepuluh dapat dilihat pada Tabel 7 dan contoh aturan hasil iterasi kesepuluh dapat dilihat pada Gambar 4. Tabel 7 Confusion matrix iterasi kesepuluh pada model 1 Kelas Prioritas 1 Prioritas 2 Prioritas 3 Prioritas 4 Prioritas 5 Prioritas 6 Prioritas Prioritas Prioritas Prioritas Prioritas Prioritas Dari Gambar 4 dapat dijelaskan bahwa untuk menentukan kelas target dari suatu data, yang pertama kali diperiksa ialah fitur rumah tangga tanpa akses ke listrik. Tahap selanjutnya ialah memeriksa fitur rumah tangga tanpa akses ke air bersih. Misalnya nilai fitur rumah tangga tanpa akses ke air bersih ialah sangat besar (>= 70) maka data dimasukkan ke dalam prioritas 1.

25 13 Gambar 4 Contoh aturan hasil iterasi kesepuluh pada model 1 Model 2 Model 2 merupakan model decision tree yang dibangun menggunakan algoritme decision tree dengan menggunakan algoritme seleksi fitur symmetrical uncertainty untuk pemilihan fitur. Hasil pengujian model 2 dapat dilihat pada Tabel 8. Tabel 8 Akurasi pengujian model 2 Iterasi Akurasi (%) Rata-rata Tabel 8 menunjukkan bahwa akurasi terkecil terdapat pada iterasi ketujuh dengan nilai akurasi 28.57% dan akurasi terbesar terdapat pada iterasi pertama dengan nilai akurasi 54.29%. Kelas-kelas yang salah diklasifikasikan pada iterasi pertama dapat dilihat pada Tabel 9 dan contoh aturan hasil iterasi pertama disajikan pada Gambar 5.

26 14 Tabel 9 Confusion matrix iterasi pertama pada model 2 Kelas Prioritas 1 Prioritas 2 Prioritas 3 Prioritas 4 Prioritas 5 Prioritas 6 Prioritas Prioritas Prioritas Prioritas Prioritas Prioritas Gambar 5 Contoh aturan hasil iterasi pertama pada model 2 Dari Gambar 5 dapat dijelaskan bahwa untuk menentukan kelas target dari suatu data, yang pertama kali diperiksa ialah fitur rumah tangga tanpa akses ke listrik. Tahap selanjutnya ialah memeriksa fitur rumah tangga tanpa akses ke air bersih. Misalnya nilai fitur rumah tangga tanpa akses ke air bersih ialah agak besar (50-60) maka data dimasukkan ke dalam prioritas 1. Pruning Perlakuan selanjutnya adalah proses pemangkasan tree. Pemangkasan ini bertujuan menyederhanakan struktur tree yang dihasilkan namun dengan tidak mengurangi tingkat akurasi dalam proses klasifikasi. Pada penelitian ini, dipilih metode post pruning. Sebelum memasuki pruning dengan metode ini, perlu disiapkan validation set. Validation set merupakan bagian dari data latih yang digunakan sebagai evaluasi awal terhadap tree yang terbentuk sebelum diujikan terhadap data uji. Pada penelitian ini, digunakan 60 record validation set. Pada metode post pruning, model tree dipotong dari bagian bawah tree. Subtree yang dipotong akan diganti dengan sebuah node akar. Node akar akan diberi label dengan kelas yang sering muncul. Setelah dilakukan pemotongan

27 sebuah subtree, tree akan diujikan terhadap validation set. Jika tree yang dihasilkan meningkatkan akurasi pada validation set, tree tersebut akan digunakan dan jika tidak, tree tersebut tidak digunakan. Proses ini akan terus dilakukan sampai tidak ada lagi tree yang dapat meningkatkan akurasi pada validation set. Pruning pada Model 1 Pada tahap ini, pruning dilakukan terhadap decision tree yang dihasilkan pada model 1. Akurasi setelah dilakukan pruning pada model 1 disajikan pada Tabel Tabel 10 Akurasi pengujian setelah dilakukan pruning pada model 1 Iterasi Akurasi (%) Rata-rata Setelah dilakukan pruning pada model 1, akurasi mengalami kenaikan cukup baik. Dari Tabel 10 terlihat bahwa umumnya akurasi pada setiap iterasi mengalami kenaikan. Akurasi tertinggi didapat pada iterasi kesepuluh dengan nilai akurasi 67.74% dan iterasi terkecil didapat pada iterasi ketujuh dengan nilai akurasi 40.00%. Rata-rata akurasi sebelum dan sesudah dilakukan pruning pada model 1 secara berurutan ialah 45.31% dan 52.02%. Pruning pada Model 2 Pada tahap ini, pruning dilakukan terhadap decision tree yang dihasilkan pada model 2. Akurasi setelah dilakukan pruning pada model 2 disajikan pada Tabel 11. Setelah dilakukan pruning pada model 2, akurasi juga mengalami kenaikan cukup baik. Dari Tabel 11 terlihat bahwa akurasi pada setiap iterasi mengalami kenaikan. Akurasi tertinggi didapat pada iterasi kesepuluh dengan nilai akurasi 61.29% dan iterasi terkecil didapat pada iterasi ketujuh dengan nilai akurasi 37.14%. Rata-rata akurasi sebelum dan sesudah dilakukan pruning pada model 2 secara berurutan ialah 43.45% dan 49.84%.

28 16 Tabel 11 Akurasi pengujian setelah dilakukan pruning pada model 2 Iterasi Akurasi (%) Rata-rata Perbandingan Akurasi Model 1 dan Model 2 Tujuan dilakukan perbandingan akurasi model 1 dan model 2 ialah untuk menentukan algoritme seleksi fitur yang paling baik digunakan dalam membangun decision tree untuk menentukan daerah yang tahan atau rawan pangan. Perbandingan akurasi model 1 dan model 2 sebelum dan sesudah dilakukan pruning dapat dilihat pada Tabel 12. Tabel 12 Perbandingan akurasi model 1 dan model 2 sebelum dan sesudah dilakukan pruning Iterasi Sebelum pruning Model 1 Model 2 Sesudah pruning Sebelum pruning Sesudah pruning Rata-rata

29 17 Tabel 12 menunjukkan bahwa sebelum dilakukan pruning rata-rata akurasi model 1 lebih tinggi dibandingkan rata-rata akurasi model 2. Rata-rata akurasi model 1 dan model 2 sebelum dilakukan pruning ialah 45.31% dan 43.45%. Model 1 mencapai akurasi maksimal dengan nilai akurasi 64.52%, sedangkan akurasi maksimal yang dicapai pada model 2 ialah 54.29%. Berdasarkan rata-rata akurasi dan nilai akurasi maksimal yang didapatkan pada model 1 dan model 2 sebelum dilakukan pruning, dapat dijelaskan bahwa model 1 lebih baik dibandingkan model 2. Secara keseluruhan, kedua model decision tree mengalami peningkatan akurasi setelah dilakukan pruning. Rata-rata akurasi model 1 dan model 2 sesudah dilakukan pruning secara berurutan ialah 52.02% dan 49.84%. Hal ini menunjukkan bahwa decision tree yang terbentuk sebelum dilakukan pruning mengalami suatu gejala overfitting. Hal ini terbukti dengan meningkatnya akurasi pada kedua model decision tree sesudah dilakukan pruning. Oleh karena itu, tree yang mengalami overfitting perlu dipangkas. Dari hasil penelitian, dapat diketahui bahwa proses pruning bisa meningkatkan hasil akurasi. Sesudah dilakukan pruning, model 1 mencapai akurasi maksimal dengan nilai akurasi 67.74%. Jumlah node dan aturan yang dibutuhkan model 1 untuk mencapai akurasi maksimal ialah 119 node dan 102 aturan, sedangkan model 2 membutuhkan 129 node dan 110 aturan untuk mencapai akurasi maksimal yaitu 61.29%. Berdasarkan jumlah node dan aturan yang dibutuhkan untuk mencapai akurasi maksimal terlihat bahwa model 1 lebik baik dibandingkan dengan model 2. Model 1 dan model 2 membutuhkan 8 fitur untuk mencapai akurasi maksimal. Fitur yang tidak digunakan model 1 dan model 2 untuk mencapai nilai maksimal adalah fitur rumah tangga dengan jarak 5 km dari fasilitas kesehatan. KESIMPULAN DAN SARAN Kesimpulan Algoritme ID3 merupakan sebuah metode yang digunakan untuk konstruksi decision tree. Algoritme ID3 mengkonstruksi decision tree berdasarkan ukuran information gain. Information gain merupakan salah satu algoritme seleksi fitur yang digunakan untuk memilih fitur terbaik. Selain information gain, terdapat beberapa algoritme lain yang dapat digunakan untuk memilih fitur terbaik yang akan digunakan pada decision tree seperti symmetrical uncertainty. Algoritme seleksi fitur yang digunakan pada decision tree dapat menentukan akurasi dari decision tree yang dibangun. Rata-rata akurasi decision tree yang dibangun menggunakan algoritme ID3 sebelum dan sesudah dilakukan pruning ialah 45.31% dan 52.08%, sedangkan rata-rata akurasi decision tree yang dibangun menggunakan algoritme decision tree dengan menggunakan ukuran symmetrical uncertainty untuk pemilihan fitur ialah 43.45% dan 49.84%. Berdasarkan rata-rata akurasi sebelum dan sesudah dilakukan pruning maka dapat disimpulkan bahwa decision tree yang dibangun

30 18 menggunakan algoritme ID3 lebih baik dalam menentukan daerah yang tahan atau rawan pangan di Indonesia jika dibandingkan dengan algoritme decision tree menggunakan ukuran symmetrical uncertainty untuk pemilihan fitur. Hal ini menunjukkan bahwa bias pada information gain tidak terjadi pada data yang memiliki perbedaan kemungkinan nilai pada setiap fiturnya tidak terlalu besar. Dengan demikian, information gain tidak perlu dinormalisasi menggunakan symmetrical uncertainty. Maksimal kemungkinan nilai pada fitur data ketahanan pangan ialah 6 kemungkinan, sedangkan minimal kemungkinan nilai fitur ialah 4 kemungkinan. Saran Penelitian ini masih memiliki beberapa kekurangan yang dapat diperbaiki pada penelitian selanjutnya. Beberapa saran tersebut di antaranya: 1 Menggunakan algoritme seleksi fitur yang lain sehingga bisa dibandingkan algoritme seleksi fitur yang paling baik. 2 Menggunakan data yang memiliki perbedaan kemungkinan nilai fitur yang besar agar perbedaan akurasi dapat dilihat perbedaanya. 3 Menggunakan algoritme klasifikasi yang lain agar perbedaan akurasi dari kedua algoritme seleksi fitur dapat dilihat perbedaannya. DAFTAR PUSTAKA [DKP dan WFP] Dewan Ketahanan Pangan dan World Food Programme Peta Ketahanan dan Kerawanan Pangan Indonesia. Jakarta: Dewan Ketahanan Pangan, Departemen Pertanian RI. Fu L Neural Network in Computers Intelligence. Singapura: McGraw-Hill. Hall MA Feature selection for discrete and numeric class machine learning [internet]. [diacu 2013 April 7]. Tersedia dari: http: // ml/publications/1999/99mh-feature-select.pdf. Han J, Kamber M Data Mining Concepts & Techniques. San Fransisco: Morgan Kaufman. Novakovic J, Strbac P, Bulatovic D Toward optimal feature selection using rangking methods and classification algorithms. Yugoslav Journal of Operations Research. 21(1): Ramaswami M, Bhaskaran R A study on feature selection techniques in educational data mining. Journal of Computing. 1(1):7-11. Tan S, Kumar P, Steinbach M Introduction To Data Mining. Minneapolis: Addison-Wesley

31 19 Lampiran 1 Contoh data sebelum transformasi data Nama kabupaten Rasio Konsumsi Normatif Penduduk dibawah garis kemiskinan Rumah tangga tanpa akses ke listrik Desa tanpa akses ke jalan Perempuan buta huruf Angka harapan hidup Berat badan balita dibawah standar Rumah tangga dengan jarak 5 km dari fasilitas kesehatan Rumah tangga tanpa akses ke air bersih Simeulue prioritas 2 Aceh Singkil prioritas 2 Aceh Selatan Prioritas 4 Aceh Tenggara Prioritas 4 Aceh Timur Prioritas 4 Aceh Tengah Prioritas 5 Aceh Barat Prioritas 4 Aceh Besar Prioritas 5 Pidie Prioritas 4 Bireuen Prioritas 3 Aceh Utara Prioritas 3 Aceh Barat Daya Prioritas 4 Gayo Lues Prioritas 2 Aceh Tamiang Prioritas 5 Nagan Raya Prioritas 2 Aceh Jaya Prioritas 3 Kelas

32 20 Lampiran 2 Interval indikator-indikator data ketahanan pangan Indikator Nilai awal Kelas < 0.50 Surplus Tinggi Surplus Sedang Rasio Konsumsi Normatif Per Surplus Rendah Kapita terhadap Produksi Bersih Serealia Defisit Rendah Defisit Sedang >= 1.50 Defisit Tinggi 0-10 Hampir Mendekati Miskin Hampir Miskin Miskin Penduduk Hidup di Bawah Garis Kemiskinan Hampir Mendekati Sangat Miskin Hampir Sangat Miskin >= 35 Sangat Miskin < 10 Sangat Sedikit Sedikit Rumah Tangga tanpa Akses Agak Sedikit ke Listrik Agak Banyak Banyak >= 50 Sangat Banyak 0-10 Sangat Kecil Kecil Desa tanpa Akses ke Jalan Agak Kecil Agak Tinggi Tinggi >= 30 Sangat Tinggi < 5 Sangat Rendah 5-10 Rendah Perempuan Buta Huruf Agak Rendah Agak Tinggi Tinggi >= 40 Sangat Tinggi < 58 Sangat Pendek Pendek Angka Harapan Hidup Agak Pendek Kurang Panjang Cukup Panjang >= 70 Panjang

33 21 Lampiran 2 Lanjutan Indikator Nilai awal Kelas < 10 Baik Berat Badan Balita di Bawah Kurang Standar Buruk >= 30 Sangat Buruk Rumah Tangga dengan Jarak 5 KM dari Fasilitas Kesehatan Rumah Tangga tanpa Akses ke Air Bersih < 20 Sangat Kecil Kecil Agak Kecil Agak Tinggi Tinggi >= 60 Sangat Tinggi < 30 Sangat Sedikit Sedikit Agak Sedikit Agak Besar Besar >= 70 Sangat Besar

34 22 Lampiran 3 Contoh data hasil transformasi data id Rasio Konsumsi Normatif 1 Surplus Tinggi 2 Defisit Sedang 3 Surplus Tinggi 4 Surplus Tinggi 5 Surplus Tinggi 6 7 Surplus Rendah Surplus Sedang 8 Surplus Tinggi Penduduk dibawah garis kemiskinan Hampir Sangat Miskin Hampir Sangat Miskin Hampir Mendekati Sangat Miskin Hampir Mendekati Sangat Miskin Hampir Sangat Miskin Hampir Mendekati Sangat Miskin Hampir Sangat Miskin Hampir Sangat Miskin Rumah tangga tanpa akses ke listrik Agak Sedikit Sangat Sedikit Sedikit Sedikit Sedikit Sedikit Agak Sedikit Sangat Sedikit Desa tanpa akses ke jalan Kecil Kecil Sangat Kecil Sangat Kecil Kecil Sangat Kecil Agak Kecil Sangat Kecil Perempuan buta huruf Sangat Rendah Agak Tinggi Agak Rendah Rendah Agak Rendah Angka harapan hidup Agak Buruk Agak Bagus Agak Bagus Bagus Berat badan balita dibawah standar Sangat Buruk Rumah tangga dengan jarak 5 km dari fasilitas kesehatan Rumah tangga tanpa akses ke air bersih Kelas Sangat Kecil Sangat Besar prioritas 2 Buruk Sangat Kecil Agak Besar prioritas 2 Buruk Sangat Kecil Sedikit prioritas 4 Sangat Buruk Sangat Kecil Sangat Sedikit prioritas 4 Bagus Buruk Sangat Kecil Agak Besar prioritas 4 Rendah Bagus Kurang Sangat Kecil Agak Sedikit prioritas 5 Agak Rendah Rendah Bagus Buruk Sangat Kecil Sedikit prioritas 4 Sangat Bagus Buruk Sangat Kecil Sangat Sedikit prioritas 5

35 RIWAYAT HIDUP 23 Penulis dilahirkan di Kenagarian Simpang Kapuk, Kec. Mungka, Kab. Lima Puluh Kota, Sumatra Barat pada Tanggal 7 Desember 1987 dari pasangan Ayah Lukman dan Ibu Nurhayati. Penulis merupakan anak bungsu dari lima bersaudara. Penulis melanjutkan pendidikan di Sekolah Menengah Atas Negeri 1 Payakumbuh dan lulus pada Tahun Setelah lulus dari SMA, penulis diterima sebagai mahasiswa Direktorat Program Diploma (DPD) Institut Pertanian Bogor (IPB) pada Tahun 2007 melalui jalur Undangan Seleksi Masuk IPB (USMI) pada Program Keahlian Teknik Komputer. Pada tahun 2010, penulis lulus dari Diploma IPB dan pada tahun yang sama penulis melanjutkan pendidikan di Program Alih Jenis Ilmu Komputer, Fakultas Matematika dan Ilmu Pengetahuan Alam, IPB.

36