BAB I PENDAHULUAN 1.1 Latar Belakang Penyakit Kanker merupakan suatu peyakit yang paling ditakuti oleh masyakat karena proses penyembuhannya yang sulit, efek yang ditimbulkan dan memerlukan biaya yang cukup besar untuk pengobatan dan juga perawatan. Banyak masyarakat beranggapan bahwa kanker sama seperti tumor, padahal kenyataannya tumor yang muncul tidak berati kanker. Munculnya benjolan yang aneh dari segi bentuk maupun letak tumbuhnya perlu dicurigai, karena itu bisa dipastikan adalah tumor. Tumor jinak dan tumor ganas adalah dua jenis tumor yang berbeda. Semua jenis kanker ganas bisa diklasifikasikan sebagai kanker. Kanker dapat menimpa setiap orang di dunia ini, karena di dalam tubuh setiap manusia memiliki sel kanker yang ada sejak lahir. Namun tidak selalu bahwa setiap orang positif mengidap penyakit kanker, ada beberapa faktor yang menyebabkan meningkatnya resiko kanker pada diri seseorang seperti terpaparnya bahan kimia dari asap rokok atau dari industri (dalam kurun yang waktu lama), penyinaran yang berlebihan (sinar radio aktif, sinar ultraviolet, sinar X dan radiasi), adanya jenis virus yang berhubungan erat dengan perubahan sel normal menjadi sel kanker, hormon dan makanan. Zat yang dihasilkan kelenjar tubuh yang memiliki fungsi untuk mengatur kegiatan organ tubuh dari selaput tertentu biasa disebtu dengan faktor hormon. Kenyataanya dari sejumlah penelitian dapat diketahui bahwa pemberian hormon tertentu secara berlebihan tidak baik untuk tubuh dan dapat menyebabkan meningkatnya beberapa jenis resiko penyakit kanker seperti Kanker Panyudara dan beberapa kanker lainnya [1]. Sebelum mempelajari tentang Kanker Payudara atau Breast Cancer, perlu diketahui pengertian payudara. Payudara adalah organ tubuh yang letaknya di permukaan bagian dada, sehingga apabila terjadi kelainan seperti 1
tumor dapat mudah diketahui oleh penderita itu sendiri maupun dokter saat melakukan pemeriksaan. Namun kenyataannya penderita kanker payudarapada stadium awal tidak merasakan sakit apapun tapi muncul benjolan kecil yang tidak dihiraukan oleh penderita. Menurut statistik data di Laboraturium Patologi Anatomi yang ada di seluruh Indonesia, penyakit Kanker Payudara menduduki peringkat kedua terganas setelah Kanker Serviks (kanker mulut rahim) yang diidap oleh para wanita Indonesia [2]. Pada tahun 2012 kasus kanker payudara di Indonesia mencapai kurang lebih 40 kasus untuk setiap 100.000 penduduk dan kejadian itu meningkat pada setiap tahunnya (Menurut Data WHO). Data terbaru yang didapatkan oleh Riset Kesehatan Dasar 2013, kasus kematian pasien penyakit kanker payudara meningkat menjadi kasus kematian tertinggi dengan angka 21,5 pada setiap 100.000 penduduk. Dibandingkan dengan malaysia, di Indonesia penderita kanker payudara lebih dominan diderita oleh wanita berusia muda dan pada tahap yang lebih lanjut [2]. Angka kematian yang terus meningkat dari kasus Kanker Payudara membutuhkan perhatian khusus untuk upaya pencegahan dini dan penanggulanan dengan diagnosa gejala awal kanker payudara. Diagnosis dini penyakit kanker payudara atau breast cancer dapat dilakukan dengan metode data mining. Dimana proses data mining bertujuan untuk menguraikan temuan baru di dalam dataset dan menjelaskan suatu proses yang menggunakan teknik statistik, matematis, artificial intellegence, dan machine learning untuk melakukan ekstrak dan identifikasi informasi yang bermanfaat dan pengetahuan yang terkait dari database tersebut [3]. Klasifikasi dengan data mining dapat dilakukan menggunakan beberapa metode yaitu Decision Tree, K-Nearest Neighbor, Naive Bayes, ID3, CART, Linear Discriminant Analityc dan lain sebagainya yang tentunya memiliki kelebihan dan kekurangan masing-masing [4]. Namun pada penelitian kali ini, penulis berfokus pada klasifikasi data mining dengan menggunakan algoritma Naive Bayes Classifier (NBC) dan akan dikombinasikan dengan metode feature selection agar mendapatkan nilai akurat yang lebih tinggi. 2
Alasan penulis memilih algoritma naive bayes classifier karena dalam bidang kesehatan atau kedokteran terutama untuk yang bersangkutan dengan diagnosis secara statistik yang berhubungan dengan kemungkinan dari suatu gejala-gejala penyakit. [5]. Naive Bayes Classifier merupakan salah satu cara mengklasifikasi data secara statistik yang gunanya untuk memprediksi suatu kemungkinan dari keanggotaan suatu class. Kuat terhadap titik noise yang diisolasi seperti contoh titik yang dirata-rata ketika mengestimasi peluang bersyarat, bisa mengangani data kuantitatif dan data diskrit, dalam perhitungan membutuhkan data uji yang sedikit untuk melakukan estimasi pada parameter yang diperlukan, dapat menangani nilai kosong atau missing value dan bisa tetap berkerja meskipun terdapat atribut yang tidak berhubungan merupakan kelebihan dari algoritma NBC sehingga proses kerja algoritma cepat dan efisien. Tidak menutup kemungkinan algoritma NBC mememiliki beberapa kekurangan yaitu pada algoritma ini terdapat banyak celah untuk mengurangi keefektifan seperti contoh misalnya meloloskan data kedalam kelas tertentu yang sudah jelas data tersebut tidak layak masuk ke dalam kelas tersebut [4]. Algoritma NBC terbukti memiliki tingkat keakuratan yang tinggi apabila diterapkan ke sebuah database yang berjumlah banyak atau big data. Berdasar dari penelitian terdahulu terkait dengan klasifikasi menggunakan algoritma naive bayes classifier yang diterapkan pada data kesehatan seperti diagnosis gejala penyakit hasil keakuratannya bisa dibilang sangat baik. Pada kasus Breast Cancer Winconsin atau kanker payudara yang pernah dituangkan dalam jurnal hasil akurasi klasifikasi dengan algoritma naive bayes classifier adalah 95,85% [6] dan 93% [7]. Dari kedua hasil tersebut maka penulis ingin melakukan peningkatan akurasi pada klasifikasi keganasan kanker payudara dari data Breast Cancer Winconsin Original dengan menambahkan seleksi fitur yaitu foward selection. Perpaduan dua metode yang digunakan akan membantu dalam peningkatan hasil akurasi. Feature Selection atau seleksi fitur adalah salah satu teknik penting yang sering digunakan dalam preprocessing data pada data mining untuk 3
memepercepat serta memaksimalkan kerja suatu algoritma (dalam penelitian ini algoritma yang dimaksud adalah algoritma naive bayes). Teknik seleksi fitur adalah memilih subset dari fitur dengan jumlah besar yaitu mengarah pada penghilangan fitur-fitur yang tidak memiliki pengaruh untuk melakukan klasifikasi. Seleksi fitur juga dapat meningkatkan akurasi dari sebuah penelitian. Jenis metode dari seleksi fitur dapat diklasifikasikan menjadi empat yaitu filter, wrapper, embedded, dan hybrid approaches [8]. Diantara keempat metode tersebut wrapper approach merupakan metode yang sering digunakan karena dapat menghasilkan subset fitur lebih baik dan lebih sesuai sehingga hasil akurasi dari klasifikasi yang didapat lebih tinggi. Yang termasuk dalam wrapper approach yaitu forward selection dan backward elimination [9] [10]. Kinerja yang dimiliki oleh forward selection lebih baik dari backward elimination karena prosesnya lebih cepat dan memiliki skala lebih bagus untuk dataset besar [11]. Penelitian ini akan menganalisis Breast Cancer Winconsin Original data set yang diperoleh dari UCI Machine Learning Repository (repositori data penelitian) untuk melakukan klasifikasi keganasan kanker payudara. Kali ini penulis mengkobinasikan antara algoritma naive bayes yang memiliki kemampuan baik untuk mengolah database yang besar dan metode feature selection yaitu foward selection, dimana foward selection merupakan salah satu metode yang cocok diterapkan pada klasifikasi keganasan kanker payudara karena memiliki hasil yang akurat dan prosesnya lebih cepat. Atas permasalahan yang ada dan beberapa landasan yang telah diterangkan diatas, maka perlu adanya penelitian Diagnosa Keganasan Kanker Payudara Berbasis dengan Seleksi Fitur Foward Selection Meggunakan Algoritma Naive Bayes Classifier. 4
1.2 Rumusan Masalah a. Bagaimana cara meningkatkan hasil akurasi dari algoritma Naive Bayes Classifier untuk diagnosa keganasan kanker payudara? b. Bagaimana cara kerja dari metode seleksi fitur foward selection dengan algoritma Naive Bayes Classifier untuk mengklasifikasikan keganasan kanker payudara? 1.3 Batasan Masalah Batasan masalah perlu disertakan dalam penelitian ini sebagai acuan tidak terjadi perluasan masalah yang dibahas dan supaya penelitian ini berfokus pada pokok pembahasan yaitu sebagai berikut : a. Data diagnosa didapat dari Universitas California Irvene (UCI) Machine Learning Repository yaitu Breast Cancer Winconsin Original Data Set yang berjumlah 699 record. b. Penerapan algoritma Naive Bayes Classifier akan menghasilkan kemungkinan atau probabilitas benign (jinak) atau malignant (ganas). c. Penerapan metode seleksi fitur yaitu foward selection sebagai seleksi fiitur untuk menghilangkan atribut yang tidak berhubungan dalam klasifikasi keganasan kanker payudara. d. Pengujian data set menggunakan software datamining yaitu RapidMinner. 1.4 Tujuan Penelitian a. Hasil klasifikasi keganasan kanker payudara dengan algoritma Naive Bayes Classifier memberikan nilai probabilitas yaitu identifikasi apakah diagnosa tersebut menunjukan tingkat keganasan kanker yang Benign (jinak) atau Malignant (ganas). b. Penggunaan seleksi fitur foward selection bertujuan untuk menghilangkan atribut yang tidak memiliki hubungan dalam proses klasifikasi dan menentukan atribut mana yang paling berpengaruh di data set kanker payudara. Alasan atribut dihilangkan karena tidak semua 5
atribut berhubungan terhadap masalah yang ada. Dari penambahan metode foward selection yang diterapkan bersama algoritma Naive Bayes Classifier diharapkan dapat meningkatkan hasil akurasi untuk klasikfikasi keganasan kanker payudara. c. Sistem klasifikasi keganasan kanker payudara akan diperuntukan kepada masyarakat sebagai cara deteksi dini agar bisa dilakukan pencegahan dini. 1.5 Manfaat Penelitian a. Manfaat bagi Masyarakat 1. Masyarakat dapat melakukan diagnosa dini dengan mudah dan cepat agar penderita kanker payudara yang masih stadium awal bisa segera melakukan pengobatan. 2. Dapat digunakan untuk sistem pendukung keputusan tentang keganasan kanker pada penderita 3. Hasil diagnosa dapat digunakan untuk penanganan dan pencegahan secara dini terhadap penderita kanker payudara. b. Manfaat bagi Mahasiswa 1. Sebagai acuan serta pembuka wawasan untuk mahasiswa mengenai permasalahan diagnosis keganasan kanker payudara yang banya muncul di sekitar kita. 2. Dapat menerapkan ilmu yang telah diajarkan selama masa perkuliahan khususnya dibidang data mining. 3. Memberikan referensi untuk penulisan penelitian dengan menggunakan algoritma yang sama. 4. Menjadi tolak ukur mahasiswa untuk penelitian selanjutnya agar lebih baik lagi dari penelitian sebelumnya. c. Manfaat Bbagi Akademis Universitas 1. Dapat mengembangkan penelitian dari mahasiswa sehinngga bisa meningkatkan minat mahasiswa untuk melakukan penelitian atau pengembangan penelitian yang sudah ada. 6
2. Dapat menjadi nilai tambah bagi Universitas dalam meningkatkan kualitas Univeristas. Menambah kuantitas dalam jumlah penelitian yang telah dilakukan mahasiswa sehingga dapat berdampak pada akreditasi perguruan tinggi. 7