BAB I PENDAHULUAN 1.1 Latar Belakang

dokumen-dokumen yang mirip
BAB I PENDAHULUAN Latar Belakang

BAB I PENDAHULUAN Latar Belakang

BAB I PENDAHULUAN Latar Belakang

BAB I PENDAHULUAN 1.1.Latar Belakang Masalah

BAB I PENDAHULUAN Latar Belakang

Penerapan Data Mining dalam Memprediksi Pembelian cat

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1-1

BAB 1 PENDAHULUAN 1-1

1. Pendahuluan 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1. Latar Belakang

BAB 1 PENDAHULUAN 1-1

BAB I PENDAHULUAN 1.1 Latar Belakang

1. PENDAHULUAN 1.1. Latar Belakang Masalah

BAB 2 LANDASAN TEORI

BAB I PENDAHULUAN I.1. Latar Belakang Masalah

UKDW. Bab 1 PENDAHULUAN

BAB 3 METODE PENELITIAN

BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI. yang tepat. Sistem data mining mampu memberikan informasi yang tepat dan

BAB 1 PENDAHULUAN. teknologi informasi yang memungkinkan data dalam jumlah besar terakumulasi. Hampir

BAB I PENDAHULUAN. ada tiga, yaitu association rules, classification dan clustering.

BAB I PENDAHULUAN. pengetahuan yang sangat populer saat ini. Dengan ilmu pengetahuan ini, teknologi di

BAB I PENDAHULUAN Latar Belakang

BAB 1 PENDAHULUAN. harus bersaing secara ketat dengan perusahaan lain. Berbagai tantangan dan

BAB I PENDAHULUAN 1. 1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1. Latar Belakang Masalah

BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB I PENDAHULUAN. 1.1 Latar Belakang

UKDW. BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN. jurusan ditentukan berdasarkan standar kriteria tiap jurusan.

BAB III METODOLOGI 3.1. Prosedur Penelitian Identifikasi Masalah

BAB 1 PENDAHULUAN. retail di Indonesia pada semester I 2010 telah mencapai Rp 40 triliun. Omzet perusahaan

BAB 1 PENDAHULUAN 1.1 Latar Belakang

yang lama. Biaya yang tidak sedikit dan sangat terbuka untuk melakukan kesalahan dalam menentukan orang yang tepat. Pengelolaan sumber daya manusia

PENERAPAN KLASIFIKASI DENGAN ALGORITMA CART UNTUK PREDIKSI KULIAH BAGI MAHASISWA BARU

APLIKASI MATLAB UNTUK PERAMALAN BEBAN JARINGAN DISTRIBUSI DI UPJ RANDUDONGKAL TAHUN

BAB I PENDAHULUAN. penerapan dengan menggunakan teknologi informasi adalah e-customer


BAB 1 PENDAHULUAN Latar Belakang

BAB I PENDAHULUAN. bidang industri peralatan rumah tangga dengan berbagai jenis dan ukuran.

BAB 1 PENDAHULUAN. PT Muara Tour adalah perusahaan yang bergerak di bidang layanan Tours dan Travel

BAB I PENDAHULUAN. Organisasi industri merupakan salah satu mata rantai dari sistem

APLIKASI ALGORITMA CLASSIFY-BY-SEQUENCE UNTUK PENILAIAN KREDIT PADA BANK Y. Mohammad Iqbal 1. Abstrak

BAB 1 PENDAHULUAN. 1.1 Latar Belakang. Perkembangan teknologi informasi yang semakin pesat turut memacu

BAB I PENDAHULUAN 1.1 Latar Belakang Masalah

BAB I PENDAHULUAN. pula. Teknologi juga bisa diibaratkan suatu alat yang sangat penting untuk

2. Tahapan Penelitian

BAB I PENDAHULUAN. diperoleh melalui proses penerimaan pegawai yang efektif (Ambar, 2003).

UKDW BAB 1 PENDAHULUAN. 1.1 Latar Belakang Masalah

BAB 1 PENDAHULUAN. 1.1 Latar Belakang Masalah

BAB I PENDAHULUAN. bahkan kebutuhan yang sangat bersifat umum dan fital, terutama bagi perusahaan

SOLUSI PREDIKSI MAHASISWA DROP OUT PADA PROGRAM STUDI SISTEM INFORMASI FAKULTAS ILMU KOMPUTER UNIVERSITAS BINA DARMA

CONTOH KASUS DATA MINING

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang 1.2 Tujuan Penelitian

BAB I PENDAHULUAN 1.1 Latar Belakang

Bab I Pendahuluan. 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN. pendapatan lebih besar dari jumlah biaya yang dibebankan.

BAB 1 PENDAHULUAN 1.1 Latar Belakang Dropout Data mining

BAB I PENDAHULUAN. berjudul Kualitas SDM Indonesia di Dunia, Indonesia berada pada peringkat 108

BAB I PENDAHULUAN. untuk menemukan pengetahuan atau informasi berharga yang tersembunyi di

BABI PENDAHULUAN. 1.1 Latar Belakang

BAB I PENDAHULUAN. bersaing. Dalam dunia bisnis yang dinamis dan penuh persaingan. Seiring dengan

MENGGUNAKAN DATA MINING

BAB 1. Pendahuluan. 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang Masalah

PENERAPAN DATA MINING UNTUK MENGANALISA JUMLAH PELANGGAN AKTIF DENGAN MENGGUNAKAN ALGORITMA C4.5

BAB I PENDAHULUAN. pengetahuan yang tersembunyi di dalam database. Data mining merupakan proses

BAB I PENDAHULUAN. Poliklinik di Universitas Putra Bangsa Surabaya (UPB) sebagai institusi

Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi

BAB I PENDAHULUAN Latar Belakang Masalah

PENENTUAN PENERIMA BEASISWA PENINGKATAN PRESTASI AKADEMIK DENGAN ALGORITME C5.0

BAB I PENDAHULUAN Latar Belakang Masalah

BAB I PENDAHULUAN 1.1. Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang

Penerapan Algoritma C4.5 Untuk Menentukan Kesesuaian Lensa Kontak dengan Mata Pasien

BAB I PENDAHULUAN. metode transaksi yang di lakukan secara online mulai berkembang pesat,

BAB I PENDAHULUAN. atau benda ke dalam golongan atau pola-pola tertentu berdasarkan kesamaan ciri.

BAB I PENDAHULUAN 1.1. Latar Belakang Masalah

BAB I PENDAHULUAN 1.1 Latar Belakang Masalah

BAB I PENDAHULUAN. Korea, Australia, Timur tengah, Asia tenggara dan Afrika.

BAB 1 PENDAHULUAN. lebih cepat dan murah tentunya menuntut para pemberi informasi untuk memiliki

PENGELOMPOKAN DAN ANALISIS PELANGGAN DENGAN MENGGUNAKAN FUZZY C-MEANS CLUSTERING


1 BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB I PENDAHULUAN. pesat khususnya kemajuan pada bidang teknologi komputer dan telekomunikasi.

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN. PT. Bekaert Advanced Filtration adalah suatu perusahaan internasional

Identifikasi Tekstur Saluran Pencernaan Bagian Atas Pada Foto Gastroscopy untuk Deteksis Dini Penyakit Saluran Pencernaan 1

BAB I PENDAHULUAN Latar Belakang

BAB I PENDAHULUAN. terjadi kesalahan dalam proses tersebut, karena tidak didasari oleh suatu acuan tertulis

BAB 1 PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang

2. Bagaimana menerapkan metode Simple Additive Weighting (SAW) pada sistem pendukung keputusan tersebut?

BAB 1 PENDAHULUAN. lembaga kesehatan pemerintah yang memberikan jasa pelayanan kesehatan

1. PENDAHULUAN 1.1. Latar Belakang

Transkripsi:

BAB I PENDAHULUAN 1.1 Latar Belakang Seiring berjalannya waktu, manusia mulai menyadari betapa pentingnya data. Data dapat dikumpulkan melalui sensus, survei, ataupun data administrasi. Data dapat dimanfaatkan untuk kepentingan jangka panjang ke depan dan dapat pula digunakan untuk melihat historis dari kegiatan di masa yang lalu. Namun, apabila tidak dapat mengolahnya, maka data tersebut hanya tinggal data yang tidak dapat memberikan informasi apapun untuk kita. Ini merupakan suatu fenomena dimana banyak data yang terkumpul namun tidak berguna. Salah satu bentuk data yang sangat bermanfaat adalah data pendapatan seseorang. Menurut sebuah situs informasi kependudukan dunia yang berdasarkan hasil laporan dari Divisi Kependudukan Perserikatan Bangsa-Bangsa, jumlah penduduk dunia pada tanggal 1 Juli 2015 diperkirakan sebesar 7.324.782.225 jiwa. Dari sekian milyar jiwa, pastilah kebutuhan dan keinginan masyarakatnya sangat kompleks, apalagi pada masa sekarang ini teknologi sudah berkembang sangat pesat. Oleh karena itu, masyarakat berupaya seoptimal mungkin untuk memenuhi kebutuhan dan keinginannya. Dalam mencapai kebutuhan dan keinginan tersebut, seseorang akan rela melakukan berbagai usaha. Usaha dalam hal ini adalah bekerja. Seseorang akan bekerja demi memperoleh hasil yang disebut sebagai pendapatan. Tersedia banyak dataset tentang pendapatan penduduk di suatu daerah bahkan di suatu negara, oleh karena itu dibutuhkan suatu alat analisis yang mampu menganalisis dengan baik data yang sangat besar tersebut. Berangkat dari fakta-fakta yang terjadi, dibentuklah suatu teknologi yang disebut sebagai teknologi data mining. Teknologi tersebut berfungsi untuk memilah data dalam berbagai sudut pandang dan kemudian membuat kesimpulan dari data yang diteliti (Efendi, 2015). Terdapat beberapa langkah dalam pra pengolahan data sebelum melakukan data mining, yakni membersihkan data dari noise dan data yang tidak

konsisten, mengkombinasikan kembali data-data yang telah bersih, maka kita akan memiliki database yang baru, selanjutnya data dilihat kembali apakah membutuhkan suatu transformasi ataukah tidak, barulah setelah itu data dapat diolah (Han dan Kamber, 2006). Dalam mengerjakan data mining, kita juga membutuhkan klasifikasi terhadap data. Klasifikasi ini merupakan proses untuk menemukan model yang dapat menggambarkan dan membedakan kelas-kelas dari data yang kita miliki. Sedangkan menurut Hamandoko, Towa dan Tairas (1999) yang dikutip dari Milana dan Abadyo (2013), klasifikasi adalah pengelompokkan yang sistematias pada sejumlah objek, gagasan, buku atau benda-benda lain ke dalam kelas atau golongan tertentu berdasarkan ciri-ciri yang sama. Ada beberapa metode yang digunakan untuk mengklasifikasi data, seperti metode C5.0 dan metode CHAID. Kedua metode tersebut dibandingkan akurasinya untuk kemudian digunakan sebagai model dalam mengklasifikasi data pendapatan penduduk tersebut. Metode C5.0 dan metode CHAID sangat mendukung dalam pembagian pohon keputusan dengan 2 atau lebih subgrup. Namun, keduanya memiliki persamaan dalam membangun pohon keputusan dengan pembagian data secara berulang kedalam subgrup-subgrup yang ditetapkan dengan prediktor yang menghubungkan hasil-hasilnya. Sehingga, kita dapat melakukan perbandingan diantara keduanya untuk selanjutnya dipilih yang terbaik guna melakukan prediksi. Oleh sebab itu, pada skripsi ini akan dibahas penggunaan metode C5.0 dan metode CHAID, serta pemilihan model terbaiknya untuk melakukan klasifikasi terhadap pendapatan penduduk, beserta prediksi pendapatan penduduk tersebut berdasarkan variabel-variabel lain yang dianggap mempengaruhi besar kecilnya pendapatan seseorang. 1.2 Perumusan Masalah berikut: Berdasarkan latar belakang masalah di atas, dapat dirumuskan hal-hal sebagai

1. Bagaimana cara kerja algoritma C5.0 dan CHAID dalam melakukan klasifikasi pendapatan seseorang per tahun, dengan menggunakan software SPSS-Clementine 12.0? 2. Bagaimana model pohon keputusan yang terbentuk dari masing-masing model? 3. Bagaimana keakurasian masing-masing model dalam mengklasifikasikan data pendapatan seseorang per tahun? 4. Metode manakah yang paling cocok untuk klasifikasi data pendapatan penduduk berdasarkan tingkat akurasinya? 1.3 Batasan Masalah Adapun batasan-batasan masalah pada penelitian tugas akhir ini, adalah: 1. Software yang digunakan pada penelitian tugas akhir ini adalah menggunakan software SPSS-Clementine 12.0. 2. Data yang digunakan merupakan data yang diambil dari machine learning UCI repository. 3. Analisis ini hanya akan melakukan klasifikasi dan prediksi terhadap data pendapatan seseorang per tahun. 1.4 Tujuan Penelitian Tujuan utama yang ingin dicapai melalui penelitian ini adalah penulis ingin menunjukkan bahwa terdapat berbagai alat yang digunakan untuk mengklasifikasi data. Disini penulis memanfaatkan algoritma C5.0 dan algoritma CHAID untuk melakukan klasifikasi terhadap data pendapatan penduduk. Dengan menunjukkan perhitungan tingkat akurasi untuk masing-masing model, penulis ingin menunjukkan algoritma apa yang cocok untuk melakukan klasifikasi terhadap data pendapatan penduduk. 1.5 Manfaat Penelitian Manfaat yang diharapkan dari penelitian ini adalah:

1. Menunjukkan bahwa algoritma C5.0 dan CHAID dapat digunakan dalam melakukan klasifikasi terhadap pendapatan seseorang per tahun. 2. Menjelaskan kepada pembaca bahwa selain digunakan untuk mengklasifikasikan data, algoritma C5.0 dan CHAID juga dapat digunakan untuk memprediksi pendapatan seseorang per tahun. 1.6 Tinjauan Pustaka Saat ini, banyak orang yang menginginkan pendapatan per tahun yang tinggi guna mencukupi kebutuhan mereka. Namun, kita membutuhkan solusi yang tepat untuk melakukan klasifikasi yang akurat serta dapat memprediksi tingkat pendapatan kita kedepannya. Salah satu cara yang dapat dilakukan untuk melakukan klasifikasi adalah dengan menggunakan algoritma C5.0 dan algoritma CHAID. Saptarini (2012) membahas algoritma C4.5 yang digabungkan dengan logika fuzzy untuk menjadi alat klasifikasi talenta karyawan. Data yang digunakan adalah data studi kasus Politeknik Negeri Bali di provinsi Bali. Kesimpulan yang diambil dari penelitian tersebut bahwa algoritma C4.5 merupakan alat klasifikasi berbentuk pohon yang sangat mudah dipahami oleh manusia dengan akurasi yang cukup tinggi. Paratu (2012) membahas mengenai customer churn dengan menggunakan algoritma C4.5. Metode algoritma tersebut dapat digunakan dalam costumer churn classification pada masalah perpindahan pelanggan pada perusahaan penyedia jasa telepon selular dan menghasilkan keakuratan pengklasifikasian yang tinggi. Hssina, Merbouha, dan Ezzikouri dalam IJACSA/International Journal of Advanced Computer Science and Applications membahas mengenai perbandingan antara pohon keputusan ID3 dan C4.5. Pada jurnal ini juga disebutkan bahwa C4.5 telah digantikan dengan See5/C5.0 pada tahun 1997. C5.0 memiliki kelebihan yakni dapat digunakan pada multiple CPUs. Edi (2011) membahas mengenai analisis faktor-faktor yang mempengaruhi keputusan pasien rawat jalan dalam memilih rumah sakit dengan menggunakan algortima CHAID. Pohon klasifikasi dapat digunakan pada beberapa bidang, salah satunya kesehatan. Dengan menggunakan pohon klasifikasi CHAID, kita dapat mengetahui faktor-faktor yang paling signifikan terhadap kedatangan pasien baik dari kelas menengah

kebawah, kelas menengah keatas, maupun secara keseluruhan sehingga dapat ditarik analisa dari pohon keputusan yang terbentuk dan dapat diolah sebuah strategi pemasaran yang tepat bagi rumah sakit. Yogi Yusuf W (2007) membahas mengenai pembangunan model credit scoring. Dengan menggunakan algoritma C5.0, CART, dan CHAID, dihasilkan model yang berbeda untuk data set yang sama, yakni data credit scoring. Dari analisis yang dilakukan, diperoleh bahwa tidak ada perbedaan performansi diantara ketiga algoritma. 1.7 Metode Penulisan Metode yang digunakan dalam penulisan tugas akhir ini lebih kepada studi literatur (literatur buku-buku, jurnal-jurnal, atau media lainnya) yang dapat dijadikan sebagai referensi dalam penulisan tugas akhir ini. Penelitian ini diselesaikan dengan menggunakan software SPSS-Clementine 12.0 dan Microsoft Excel 2013. Data yang digunakan penulis dalam penelitian ini adalah data pendapatan seseorang per tahun, yang diperoleh dari machine learning yang ada pada UCI repository dengan nama file income. 1.8 Sistematika Penulisan Sistematika penulisan yang digunakan dalam penyusunan tugas akhir ini adalah sebagai berikut: BAB I Pendahuluan Bab I ini menjelaskan mengenai alasan melakukan penelitian ini (latar belakang), perumusan masalah, batasan-batasan masalah, tujuan penelitian, manfaat penelitian, dan tinjauan pustaka yang digunakan sebagai referensi penulisan tugas akhir, metode penelitian yang digunakan, serta sistematika penulisan tugas akhir. BAB II Landasan Teori Bab II ini membahas mengenai teori-teori yang menjadi landasan pada topik yang dibahas pada tugas akhir ini, yakni mengenai pendapatan seseorang per tahun, yang akan digunakan lebih lanjut di bab-bab selanjutnya. BAB III Pembahasan

Bab III ini, akan membahas mengenai penggunaan algoritma C5.0 dan CHAID dalam melakukan klasifikasi pada data pendapatan seseorang per tahun. BAB IV Studi Kasus Bab ini membahas tentang data yang digunakan dalam penelitian. Pada bab ini juga akan dibahas mengenai bagaimana algoritma C5.0 dan CHAID akan melakukan klasifikasi yang akurat terhadap data tersebut. BAB V Penutup Bab ini berisi tentang kesimpulan yang telah diperoleh, pemecahan masalah, serta saran yang dapat diberikan karena adanya kelebihan ataupun kekurangan pada hasil penelitian ini. Daftar Pustaka Lampiran