BAB 2 LANDASAN TEORI 2.1 Pengertian Data Mining

Transkripsi

1 BAB 2 LANDASAN TEORI 2.1 Pengertian Data Mining Menurut Han dan Kamber (2011, p36), data mining adalah proses menemukan pola yang menarik dan pengetahuan dari data yang berjumlah besar. Sedangkan menurut Linoff dan Berry (2011, p7) Data mining adalah suatu pencarian dan analisa dari jumlah data yang sangat besar dan bertujuan untuk mencari arti dari pola dan aturan. Lalu menurut Connolly dan Begg,(2010), Data mining adalah suatu proses ekstraksi atau penggalian data yang belum diketahui sebelumnya, namun dapat dipahami dan berguna dari database yang besar serta digunakan untuk membuat suatu keputusan bisnis yang sangat penting. Dan menurut Vercellis (2009, p77), Data mining adalah aktivitas yang menggambarkan sebuah proses analisis yang terjadi secara iteratif pada database yang besar, dengan tujuan mengekstrak informasi dan knowledge yang akurat dan berpotensial berguna untuk knowledge workers yang berhubungan dengan pengambilan keputusan dan pemecahan masalah. Dari beberapa teori yang dijabarkan oleh para ahli diatas, bahwa Data mining adalah suatu pencarian dan analisa pada suatu koleksi data (database) yang sangat besar sehingga ditemukan suatu pola yang menarik dengan tujuan mengekstrak informasi dan knowledge yang akurat dan berpotensial, serta dapat dipahami dan berguna dari database yang besar serta digunakan untuk membuat suatu keputusan bisnis yang sangat penting. Menurut Han dan Kamber, (2011, p24), secara garis besar data mining dapat dikelompokkan menjadi 2 kategori utama, yaitu: Predictive Predictive merupakan proses untuk menemukan pola dari data dengan menggunakan beberapa variabel lain di masa depan. Salah satu teknik yang terdapat dalam predictive mining adalah klasifikasi. Tujuan dari tugas prediktif adalah untuk memprediksi nilai dari atribut tertentu berdasarkan pada nilai atribut-atribut lain. Atribut yang diprediksi umumnya dikenal sebagai target atau variable tak bebas, sedangkan atribut-atribut yang digunakan untuk membuat prediksi dikenal sebagai explanatory atau variable bebas. Contohnya, perusahaan retail dapat menggunakan 7

2 8 data mining untuk memprediksikan penjualan dari produk mereka di masa depan dengan menggunakan data-data yang telah didapatkan dari beberapa minggu. Descriptive Descriptive dalam data mining merupakan proses untuk menemukan karakteristik penting dari data dalam suatu basis data. Tujuan dari tugas deskriptif adalah untuk menurunkan pola-pola (korelasi, trend, cluster, teritori, dan anomali) yang meringkas hubungan yang pokok dalam data. Tugas data mining deskriptif sering merupakan penyelidikan dan seringkali memerlukan teknik post-processing untuk validasi dan penjelasan hasil. Menurut Hoffer, Ramesh & Topi (2012), tujuan dari adanya data mining adalah: explanatory, yaitu untuk menjelaskan beberapa kegiatan observasi atau suatu kondisi. confirmatory, yaitu untuk mengkonfirmasi suatu hipotesis yang telah ada. exploratory, yaitu untuk menganalisis data baru suatu relasi yang janggal. Karakteristik data Mining menurut Turban (2007, p230): a. Seringnya data terpendam dalam database yang sangat besar dan kadang datanya sudah bertahun-tahun. b. Lingkungan data mining biasanya berupa arsitektur client-server atau arsitektur system informasi berbasis web. c. Tool baru yang canggih, termasuk tool visualisasi tambahan, membantu menghilangkan lapisan informasi yang terpendam dalam file-file yang berhubungan atau record-record arsip publik. d. Pemilik biasanya seorang end user, didukung dengan data drill dan tool penguasaan query yang lain untuk menanyakan pertanyaan dan mendapatkan jawaban secepatnya, dengan sedikit atau tidak ada kemampuan pemrograman. e. Tool data mining dengan kesediannya dikombinasikan dengan spreadsheet dan tool software pengembangan yang lainnya. f. Karena besarnya jumlah data dan usaha pencarian yang besar-besaran, kadang-kadang diperlukan penggunaan proses parallel untuk data mining. Kelebihan Data Mining sebagai alat analisis : a. Data mining mampu menangani data dalam jumlah besar dan kompleks. b. Data mining dapat menangani data dengan berbagai macam tipe atribut.

3 9 c. Data mining mampu mencari dan mengolah data secara semi otomatis. Disebut semi otomatis karena dalam beberapa teknik data mining, diperlukan parameter yang harus di-input oleh user secara manual. d. Data mining dapat menggunakan pengalaman ataupun kesalahan terdahulu untuk meningkatkan kualitas dan hasil analisa sehingga mendapat hasil yang terbaik. 2.2 Fungsi Data Mining Menurut Maclennan, Tang, & Crivat (2009, p6). Berikut adalah fungsi data mining secara umum : 1. Classification Classification adalah proses untuk mencari model atau fungsi yang menggambarkan dan membedakan kelas-kelas atau konsep data. Fungsi dari Classification adalah untuk mengklasifikasikan suatu target class ke dalam kategori yang dipilih. Gambar 2.1 Classification - Decision Tree Sumber: (Maclennan, Tang, & Crivat, 2009, p7) Decision tree adalah sebuah flowchart yang menyerupai struktur pohon, dimana tiap node menunjukkan sebuah test dari nilai atribut, tiap cabang merepresentasikan sebuah hasil dari test, dan decision tree merepresantasikan kelas-kelas atau distribusi kelas. Decision trees dapat dengan mudah di konversi ke aturan klasifikasi. Neural network ketika digunakan untuk klasifikasi, biasanya koleksi dari neuron seperti unit pengolahan dengan pertimbangan koneksi antara tiap unit. Ada banyak metode untuk membangun model klasifikasi seperti naïvebayesian classification, support vector machine (SVM) dan k-nearest neighbor classication.

4 10 2. Clustering Fungsi dari clustering adalah untuk mencari pengelompokkan atribut ke dalam segmentasi-segmentasi berdasarkan similaritas. Gambar 2.2 Clustering Sumber: (Maclennan, Tang, & Crivat, 2009, p7) 3. Association Fungsi dari association adalah untuk mencari keterkaitan antara atribut atau item set, berdasarkan jumlah item yang muncul dan rule association yang ada. Gambar 2.3 Product Association Sumber: (Maclennan, Tang, & Crivat, 2009, p7) 4. Regression Fungsi dari regression hampir sama dengan klasifikasi. Fungsi dari regression adalah bertujuan untuk mencari prediksi dari suatu pola yang ada. 5. Forecasting Fungsi dari forecasting adalah untuk peramalan waktu yang akan datang berdasarkan trend yang telah terjadi di waktu sebelumnya.

5 11 Gambar 2.4 Time Series Sumber: (Maclennan, Tang, & Crivat, 2009, p8) 6. Sequence Analysis Fungsi dari sequence analysis adalah untuk mencari pola urutan dari rangkaian kejadian. Gambar 2.5 Web Navigation Sequence Sumber: (Maclennan, Tang, & Crivat, 2009, p9) 7. Deviation Analysis Fungsi dari deviation analysis adalah untuk mencari kejadian langka yang sangat berbeda dari keadaan normal (kejadian abnormal). 2.3 Data Preprocessing Menurut Han dan Kamber (2011, p83), Tahapan Data Preprocessing terbagi menjadi: Data Preprocessing : An Overview Pada bagian ini menyajikan gambaran dari data preprocessing. Pada bagian data quality, mengilustrasikan banyak unsur yang menentukan

6 12 kualitas data. Ini memberikan insentif balik bagi Data preprocessing dan selanjutnya menguraikan tugas utama dalam data preprocessing. Data Quality: Data memiliki kualitas jika data tersebut memenuhi persyaratan dari penggunaan yang data yang dimaksudkan. Faktor-faktor yang terdiri dari kualitas data seperti akurasi, kelengkapan, konsistensi, ketepatan waktu, kepercayaan, dan interpretability. Banyak alasan yang memungkinkan untuk data yang tidak akurat (yaitu, memiliki nilai atribut yang salah). Kesalahan dalam transmisi data juga dapat terjadi. Kualitas data tergantung pada tujuan penggunaan data. Ketepatan waktu juga mempengaruhi kualitas data. Major Tasks in Data Preprocessing: Langkah-langkah utama yang terlibat dalam preprocessing data, yaitu data pembersihan, integrasi data, reduksi data, dan transformasi data. Pembersihan data bekerja untuk "membersihkan" data dengan mengisi nilai-nilai yang hilang, smoothing noisy data, mengidentifikasi atau menghapus outlier, dan menyelesaikan inkonsistensi. Langkah pre-processing yang berguna adalah menjalankan data dengan pembersihan data. Gambar 2.6 Bentuk Data preprocessing Sumber: Han dan Kamber, 2011, p Data Cleaning Pembersihan data (atau data cleansing) ber-upaya untuk mengisi nilai-nilai yang hilang, menghaluskan noisy data, mengidentifikasi outlier, dan inkonsistensi yang benar dalam data.

7 13 Missing Values: Banyak tuple yang tidak memiliki nilai yang tercatat ke dalam atribut. Cara mengatasi missing values: 1. Abaikan tuple : dilakukan ketika label kelas hilang. Metode ini sangat tidak efektif, kecuali tuple berisi beberapa atribut dengan nilai-nilai yang hilang. Dengan mengabaikan tuple, memungkinkan untuk tidak menggunakan nilai-nilai atribut yang tersisa dalam tuple. 2. Isikan nilai yang hilang secara manual : Secara umum, pendekatan ini memakan waktu dan mungkin tidak layak diberi dataset yang besar dengan banyak nilai-nilai yang hilang 3. Gunakan konstan global untuk mengisi nilai yang hilang: Ganti semua nilai atribut yang hilang dengan konstanta yang sama seperti label "Unknown". 4. Gunakan ukuran tendensi sentral untuk atribut (misalnya, ratarata atau median ) untuk mengisi nilai yang hilang. 5. Gunakan atribut berarti atau rata-rata untuk semua sampel milik kelas yang sama seperti tuple yang diberikan. 6. Gunakan nilai yang paling mungkin untuk mengisi nilai yang hilang: dapat ditentukan dengan regresi, alat berbasis inferensi menggunakan formalisme Bayesian atau decision tree. Noisy Data: Noise adalah kesalahan acak atau varian dalam variabel yang diukur. Cara mengatasi Noisy Data: 1. Binning: pertama-tama melakukan pengurutan data dan partisi ke dalam (frekuensi yang sama) suatu tempat. 2. Regression: menghaluskan dengan mencocokkan data ke dalam fungsi regresi. 3. Outlier Analysis: Mendeteksi dan menghapus outlier. Data Cleaning as a Process: Melakukan deteksi perbedaan data menggunakan metadata (domain, range, ketergantungan, distribusi), mendeteksi bagian overloading, mendeteksi uniqueness rule, consecutive rule dan null, menggunakan komersial tools. Data migrasi dan integrasi: memungkinkan transformasi yang ditentukan dengan data migrasi tools dan memungkinkan pengguna untuk menentukan transformasi melalui pengguna grafis dengan ETL tools. Integrasi dari dua proses: Iterative dan Interactive.

8 Data Integration Integrasi data merupakan penggabungan data dari berbagai database ke dalam satu database baru. Tidak jarang data yang diperlukan untuk data mining tidak hanya berasal dari satu database tetapi juga berasal dari beberapa database atau file teks. Integrasi data dilakukan pada atribut-aribut yang mengidentifikasikan entitas-entitas yang unik seperti atribut nama, jenis produk, nomor pelanggan dan lainnya. Integrasi data perlu dilakukan secara cermat karena kesalahan pada integrasi data bisa menghasilkan hasil yang menyimpang dan bahkan menyesatkan pengambilan aksi nantinya. Sebagai contoh bila integrasi data berdasarkan jenis produk ternyata menggabungkan produk dari kategori yang berbeda maka akan didapatkan korelasi antar produk yang sebenarnya tidak ada Data Reduction Data Reduction berguna untuk mendapatkan pengurangan representasi dari kumpulan data yang jauh lebih kecil di dalam volume tetapi belum menghasilkan hasil yang sama (atau hampir sama) dari suatu hasil analisis. Teknik dalam Data Reduction: a) Strategi dimensionality reduction pengurangan data meliputi dimensionality reduction, numerosity reduction, dan kompresi data. b) Wavelet Transform: Data ditransformasikan ke jarak relatif antara obyek pada berbagai tingkat resolusi. c) Principal component Analysis d) Attribute Subset Reduction e) Regression dan Log linear models f) Histogram g) Clustering h) Sampling i) Data cube Agreggation Data Transformation and Data Discretization Dalam Data Transformation dan Data Discretization, data diubah atau dikonsolidasikan sehingga proses mining yang dihasilkan mungkin lebih efisien, dan pola yang ditemukan mungkin lebih mudah untuk dipahami.

9 15 Strategi Data Transformation: 1. Smoothing, yang bekerja untuk menghilangkan noise dari dana data. 2. Atribut konstruksi (konstruksi atau fitur), di mana atribut baru dibangun dan ditambahkan oleh himpunan atribut untuk membantu proses mining. 3. Agregasi, dimana ringkasan atau agregasi operasi diterapkan pada data. 4. Normalisasi, dimana data atribut adalah skala sehingga jatuh dalam kisaran yang lebih kecil. 5. Discretization, dimana nilai-nilai baku dari atribut numerik (misalnya, usia) akan diganti dengan label Interval (misalnya, 0-10, 11-20, dll) atau label konseptual (misalnya, remaja, dewasa,senior). 6. Generasi hirarki konsep untuk data nominal, di mana atribut dapat digeneralisasi untuk konsep-tingkat yang lebih tinggi, seperti kota atau negara. 2.4 Teknik Data Mining Teknik data mining terbagi menjadi tiga, yaitu: Association Rule Mining, Classification, Clustering dan Regretion Association Rule Mining Menurut Olson dan Shi (2013), Association Rule Mining merupakan teknik data mining untuk menemukan aturan asosiatif antara suatu kombinasi item atau untuk menemukan hubungan hal tertentu dalam suatu transaksi data dengan hal lain di dalam transaksi, yang digunakan untuk memprediksi pola. Sedangkan menurut Han dan Kamber (2011, p246), Association Rule Mining terdiri dari itemset yang sering muncul. Association Rule Mining dapat dianalisa lebih lanjut untuk mengungkap aturan korelasi untuk menyampaikan korelasi statistik antara itemsets A dan B Classification Menurut Olson dan Shi (2013), Klasifikasi (Classification), metodemetodenya ditunjukan untuk pembelajaran fungsi-fungsi berbeda yang memetakan masing-masing data terpilih ke dalam salah satu dari kelompok kelas yang telah ditetapkan sebelumya. Menurut Han dan Kamber (2011,

10 16 327), Classification adalah proses untuk menemukan model atau fungsi yang menjelaskan atau membedakan konsep atau kelas data, dengan tujuan untuk dapat memperkirakan kelas dari suatu objek yang labelnya tidak diketahui. dasar pengukuran untuk mengukur kualitas dari penemuan teks, yaitu: Precision: tingkat ketepatan hasil klasifikasi terhadap suatu kejadian. Recall: tingkat keberhasilan mengenali suatu kejadian dari seluruh kejadian yang seharusnya dikenali. F-Measure adalah nilai yang didapatkan dari pengukuran precision dan recall antara class hasil cluster dengan class sebenarnya yang terdapat pada data masukan. Precision dan recall bisa didapatkan dengan rumus sebagai berikut : Gambar 2.7 : Rumus Precision dan Recall Sumber: (Wicaksana & Widiartha, 2012) Rumus untuk menghitung nilai F-Measure: Gambar 2.8: Rumus F-Measure Sumber: (Wicaksana & Widiartha, 2012) Keterangan nya adalah ni adalah jumlah data dari kelas i yang diharapkan sebagai hasil query, nj adalah jumlah data dari cluster j yang dihasilkan oleh query, dan nij adalah jumlah elemen dari kelas i yang masuk di cluster j. Untuk mendapatkan pembobotan yang seimbang antara precision dan recall, digunakan nilai b = 1. Untuk mendapatkan nilai F-Measure dari dataset dengan jumlah data n, maka rumus yang digunakan adalah sebagai berikut :

11 17 Gambar 2.9: Rumus F-Measure Dataset Sumber: (Wicaksana & Widiartha, 2012) Salah satu pengukur kinerja klasifikasi adalah tingkat akurasi. Sebuah sistem dalam melakukan klasifikasi diharapkan dapat mengklasifikasi semua set data dengan benar, tetapi tidak dipungkiri bahwa kinerja suatu sistem tidak bisa 100% akurat. (Prasetyo, 2012). Untuk menghitung akurasi digunakan formula : Gambar 2.10 : Rumus Akurasi Sumber: (Prasetyo,2012) Clustering Menurut Han dan Kamber (2011), Clustering adalah proses pengelompokkan kumpulan data menjadi beberapa kelompok sehingga objek di dalam satu kelompok memiliki banyak kesamaan dan memiliki banyak perbedaan dengan objek dikelompok lain. Perbedaan dan persamaannya biasanya berdasarkan nilai atribut dari objek tersebut dan dapat juga berupa perhitungan jarak. Clustering sendiri juga disebut Unsupervised Classification, karena clustering lebih bersifat untuk dipelajari dan diperhatikan. Cluster analysis merupakan proses partisi satu set objek data ke dalam himpunan bagian. Setiap himpunan bagian adalah cluster, sehingga objek yang di dalam cluster mirip satu sama dengan yang lainnya, dan mempunyai perbedaan dengan objek dari cluster yang lain. Partisi tidak dilakukan dengan manual tetapi dengan algoritma clustering. Oleh karena itu, Clustering sangat berguna dan bisa menemukan group yang tidak dikenal dalam data. Teknik clustering umumnya berguna untuk merepresentasikan data secara visual, karena data dikelompokkan berdasarkan kriteria-kriteria umum. Dari representasi target tersebut, dapat dilihat adanya kecenderungan lebih

12 18 tingginya jumlah lubang pada bagian-bagian atau kelompok-kelompok teretentu dari target tersebut Regresi Menurut Han dan Kamber (2011, p245), Regresi merupakan fungsi pembelajaran yang memetakan sebuh unsur data ke sebuah variabel prediksi bernilai nyata. 2.5 Metode Data Mining Menurut Han dan Kamber (2011, p327), metode data mining terdiri dari: Naïve Bayes Naïve Bayes merupakan pengklasifikasian dengan metode probabilitas dan statistik yang dikemukakan oleh ilmuwan Inggris Thomas Bayes. Menurut Olson dan Delen (2008, p102) menjelaskan Naïve bayes untuk setiap kelas keputusan, menghitung probabilitas dengan syarat bahwa kelas keputusan adalah benar, mengingat vektor informasi obyek. Algoritma ini mengasumsikan bahwa atribut obyek adalah independen. Probabilitas yang terlibat dalam memproduksi perkiraan akhir dihitung sebagai jumlah frekuensi dari "master" tabel keputusan. Sedangkan menurut Han dan Kamber (2011, p351) Proses dari The Naïve Bayesian classifier, atau Simple Bayesian Classifier, sebagai berikut: 1. Variable D menjadi pelatihan set tuple dan label yang terkait dengan kelas. Seperti biasa, setiap tuple diwakili oleh vektor atribut n- dimensi, X = (x1, x2,..., xn), ini menggambarkan pengukuran n dibuat pada tuple dari atribut n, masing-masing, A1, A2,..., An. 2. Misalkan ada kelas m, C1, C2,..., Cm. Diberi sebuah tuple, X, classifier akan memprediksi X yang masuk kelompok memiliki probabilitas posterior tertinggi, kondisi-disebutkan pada X. Artinya, classifier naive bayesian memprediksi bahwa X tuple milik kelas Ci jika dan hanya jika : Gambar 2.11 Rumus Classifier Naïve Bayesian (1) Sumber: Han dan Kamber (2011, p351)

13 19 Jadi memaksimalkan P (Ci X). Ci kelas yang P (Ci X) dimaksimalkan disebut hipotesis posteriori maksimal. Dengan teorema Bayes: Gambar 2.12: Rumus Classifier Naïve Bayesian (2) Sumber: Han dan Kamber (2011, p351) Keterangan : P(Ci X) = Probabilitas hipotesis Ci jika diberikan fakta atau record X (Posterior probability) P(X Ci) = mencari nilai parameter yang memberi kemungkinan yang paling besar (likelihood) P(Ci) = Prior probability dari X (Prior probability) P(X) = Jumlah probability tuple yg muncul 1. Ketika P (X) adalah konstan untuk semua kelas, hanya P (X Ci) P (Ci) butuh dimaksimalkan. Jika probabilitas kelas sebelumnya tidak diketahui, maka umumnya diasumsikan ke dalam kelas yang sama, yaitu, P (C1) = P (C2) = = P (Cm), maka dari itu akan memaksimalkan P (X Ci). Jika tidak, maka akan memaksimalkan P (X Ci) P (Ci). Perhatikan bahwa probabilitas sebelum kelas dapat diperkirakan oleh P (Ci) = Ci, D / D, dimana Ci, D adalah jumlah tuple pelatihan kelas Ci di D. 2. Mengingat dataset mempunyai banyak atribut, maka akan sangat sulit dalam mengkomputasi untuk menghitung P(X Ci). Agar dapat mengurangi perhitungan dalam mengevaluasi P(X Ci), asumsi naïve independensi kelas bersyarat dibuat. Dianggap bahwa nilai-nilai dari atribut adalah kondisional independen satu sama lain, diberikan kelas label dari tuple (yaitu bahwa tidak ada hubungan ketergantungan diantara atribut ) dengan demikian :

14 20 Gambar 2.13 : Rumus Classifier Naïve Bayesian (3) Sumber: Han dan Kamber (2011, p351) Maka dapat dengan mudah memperkirakan probabilitas P (x1 Ci), P (x2 Ci),..., P (xn Ci) dari pelatihan tuple. Ingat bahwa di sini xk mengacu pada nilai atribut Ak untuk tuple X. Untuk setiap atribut, dilihat dari apakah atribut tersebut kategorikal atau continuous-valued. Misalnya, untuk menghitung P (X Ci) mempertimbangkan hal-hal berikut: a. Jika Ak adalah kategorikal, maka P (Xk Ci) adalah jumlah tuple kelas Ci di D memiliki nilai Xk untuk atribut Ak, dibagi dengan Ci, D, jumlah tuple kelas Ci di D. b. Jika Ak continuous-valued, maka perlu melakukan sedikit lebih banyak pekerjaan, tapi perhitunganya cukup sederhana. Sebuah atribut continuous-valued biasanya diasumsikan memiliki distribusi Gaussian dengan rata-rata µ dan standar deviasi σ, didefinisikan oleh: Gambar 2.14 : Rumus Classifier Naïve Bayesian (4) Sumber: Han dan Kamber (2011, p351) sehingga : Gambar 2.15 : Rumus Classifier Naïve Bayesian (5) Sumber: Han dan Kamber (2011, p351) Setelah itu hitung µci dan σci, yang merupakan deviasi mean (rata-rata) dan standar masing-masing nilai atribut k untuk tuple pelatihan kelas Ci. Setelah itu gunakan kedua

15 21 kuantitas dalam Persamaan, bersama-sama dengan xk, untuk memperkirakan P (xk Ci). 3. Untuk memprediksi label kelas x, P(X Ci)P(Ci) dievaluasi untuk setiap kelas Ci. Classifier memprediksi kelas label dari tuple x adalah kelas Ci, jika Gambar 2.16 : Rumus Classifier Naïve Bayesian (6) Sumber: Han dan Kamber (2011, p351) Dengan kata lain, label kelas diprediksi adalah Ci yang mana P (X Ci) P (Ci) adalah maksimal. Pengklasifikasi Bayesian memiliki tingkat kesalahan minimal dibandingkan dengan klasifikasi lainnya. Namun, dalam prakteknya hal ini tidak selalu terjadi, karena ketidakakuratan asumsi yang dibuat untuk penggunaannya, seperti kondisi kelas independen, dan kurangnya data probabilitas yang tersedia. Pengklasifikasi Bayesian juga berguna dalam memberikan pembenaran teoritis untuk pengklasifikasi lain yang tidak secara eksplisit menggunakan teorema Bayes Decision Tree Menurut Han dan Kamber (2011, p332), Decision Tree adalah top-down pohon rekursif dari algoritma induksi, yang menggunakan ukuran seleksi atribut untuk memilih atribut yang diuji. Algoritma decision tree mencoba untuk meningkatkan akurasi dengan menghapus cabang-cabang pohon yang mencerminkan noise dalam data. Decision tree merupakan salah satu teknik yang dapat digunakan untuk melakukan klasifikasi terhadap sekumpulan objek atau record. Teknik ini terdiri dari kumpulan decision node, dihubungkan oleh cabang, bergerak ke bawah dari root node sampai berakhir di leaf node (Yusuf, 2009). Decision Tree adalah sistem pendukung keputusan yang berupa pohon grafik keputusan. Decision Tree

16 22 digunakan untuk belajar classification function yang menyimpulkan nilai atribut dependen (variabel). (Girja, Bhargava & Mathuria, 2013) Entropy Entropy "digunakan dalam proses ini. Entropy adalah ukuran dari gangguan (disorder) data. Entropy diukur dalam bit. Ini juga disebut pengukuran ketidakpastian dalam setiap variabel acak. (Girja, Bhargava & Mathuria, 2013) Gambar 2.17 : Rumus Entropy Sumber: (Girja, Bhargava & Mathuria, 2013) Information Gain Informasi Gain adalah untuk mengukur input dan output diantara asosiasi. (Girja, Bhargava & Mathuria, 2013) Gambar 2.18 : Rumus Information Gain Sumber: (Girja, Bhargava & Mathuria, 2013) Confusion Matrix Confusion Matrix berisi informasi aktual dan klasifikasi prediksi dilakukan dengan sistem klasifikasi. Kinerja sistem nya menggunakan data dalam matriks. (Girja, Bhargava & Mathuria, 2013) Confidence Confidence adalah ukuran yang menilai tingkat kepastian asosiasi terdeteksi, ini diambil sebagai probabilitas bersyarat P (Y X), yaitu probabilitas bahwa transaksi yang mengandung X juga Berisi Y (Han dan Kamber,2011,p21). Support Support adalah ukuran yang mewakili persentase transaksi dari database transaksi yang diberikan aturan yang

17 23 memuaskan, ini diambil untuk menjadi P probabilitas (XUY), di mana XUY menunjukkan bahwa transaksi berisi baik X dan Y, yaitu sekumpulan itemset X dan Y. (Han dan Kamber,2011,p21) K-Means Menurut Aryan (2010) K-Means merupakan algoritma yang umum digunakan untuk clustering dokumen. Prinsip utama K-Means adalah menyusun k prototype atau pusat massa (centroid) dari sekumpulan data berdimensi n. Sebelum diterapkan proses algoritma K-means, dokumen akan di preprocessing terlebih dahulu. Kemudian dokumen direpresentasikan sebagai vektor yang memiliki term dengan nilai tertentu. Sedangkan menurut Chen yu (2010), K-Means merupakan algoritma untuk cluster n objek berdasarkan atribut menjadi k partisi, dimana k < n. Dari teori-teori yang dijabarkan oleh para ahli diatas, bahwa K-means merupakan salah satu metode data clustering non hirarki untuk clustering dokumen yang berusaha mempartisi data yang ada ke dalam bentuk satu atau lebih cluster/kelompok berdasarkan atribut menjadi k partisi, dimana k < n. Algoritma K-means Menurut Widyawati, (2010), Algoritma k-means merupakan algoritma yang membutuhkan parameter input sebanyak k dan membagi sekumpulan n objek kedalam k cluster sehingga tingkat kemiripan antar anggota dalam satu cluster tinggi sedangkan tingkat kemiripan dengan anggota pada cluster lain sangat rendah. Kemiripan anggota terhadap cluster diukur dengan kedekatan objek terhadap nilai mean pada cluster atau dapat disebut sebagai centroid cluster atau pusat massa. Menurut Kantardzic (2009), teknik data mining yang paling umum, antara lain: Metode statistika klasik yaitu linier, quadratic dan logistic discriminate analyses.

18 24 Teknik statistika modern yaitu projection pursuit classification, density estimation, k-nearest neighbor, Bayesian networks. Artificial Neural Network (ANN), yaitu model matematis yang meniru atau mensimulasikan struktur dan aspek fungsi dari jaringan saraf biologis. Support Vector Machine (SVM), yaitu rangkaian metode supervised learning yang digunakan untuk klasifikasi dan regresi. Decision Trees (DT), yaitu tool pendukung suatu keputusan yang menggunakan grafik seperti pohon atau model keputusan yang terdiri dari konsekuensi-konsekuensi. Association Rules (AR), yaitu suatu metode riset untuk menemukan hubungan yang menarik antar variabel dalam suatu database yang besar. Case Based Reasoning (CBS), yaitu proses untuk memecahkan suatu masalah baru berdasarkan solusi dari masalah-masalah masa lalu yang mirip. Fuzzy Logic System (FLS), yaitu sebuah bentuk dari logika nilai ganda yang terkait dengan kesimpulan dari suatu alasan (reasoning) secara pendekatan. Logika fuzzy mempunyai nilai kebenaran diantara 0 dan 1. Genetic Algorithms (GA), yaitu algoritma pencarian heuristic yang meniru proses evolusi alam (genetika), untuk mendapatkan solusi yang optimum. Semakin meningkatnya kompleksitas dari sistem, maka beberapa teknik data mining digunakan secara bersama-sama dalam suatu penelitian. Menurut Paton & Amazouz (2009), beberapa peneliti menggunakan gabungan teknik data mining untuk mendapatkan kelebihan dari masingmasing teknik diantaranya : Hall Barbosa et al (2009) menggunakan Bayesian Neural Network untuk memprediksi kualitas dari produk destilasi untuk REPAR refinery di Brazil.

19 25 Zhou (2009) mengembangkan model NN untuk memonitor proses, deteksi kegagalan (fault) dan skema klasifikasi pada batch reaktor polimerisasi dalam proses produksi polymethylmethacrylate. Feedforward NN digunakan untuk memodelkan proses dan radial basis function (RBF) NN digunakan untuk klasifikasi. Zhou menggunakan regresi polynomial untuk mereduksi dimensi dari model NN. Zamprogna et al (2010) mengembangkan model berdasarkan PCA dan Partial Least Squares (PLS) untuk memonitor proses dan untuk mendeteksi ubnormality pada proses penuangan logam (steel casting). PCA/PLS digunakan untuk mengidentifikasi korelasi data dalam kondisi normal. Model memberikan pemahaman yang mendalam mengenai interaksi antar parameter proses sehingga dapat digunakan untuk mendeteksi kegagalan (ubnormality) di dalam proses. Ahvenlamp et al (2010) menggunakan kombinasi NN dan fuzzy logic untuk memprediksi nomor Kappa dan untuk memonitor perubahan di dalam variabel proses, untuk mendeteksi kegagalan dan untuk maksud klasifikasi. Dilaporkan bahwa kombinasi ini mempunyai performa prediksi yang baik dan dapat mendeteksi perilaku abnormal bahkan ketika deviasinya kecil. 2.6 Framework Data Mining Beberapa framework penerapan data mining telah dikembangkan berdasarkan proses bisnis industri dan bisnis. Framework tersebut dikembangkan karena kegiatan data mining semakin kompleks dengan melibatkan banyak data, kepakaran yang bervariasi ataupun lingkungan bisnis yang beragam. Karena itu, frameworks data mining diharapkan dapat dijadikan sebagai panduan untuk proses koleksi data, analisis, diseminasi hasil data mining dan pengembangan dari penerapan data mining tersebut. Beberapa framework yang berkembang saat ini adalah: 1. CRISP (Cross Industrial Standard Process for Data Mining). Framework ini diusulkan oleh konsorsium Uni Eropa. Secara umum CRISP terdiri dari tahapan pemahaman pada proses bisnis dan data, persiapan data, pemodelan, evaluasi dan penerapan. 2. DMAIC (Define-Measure-Analyze-Improve-Control). Framework ini berdasarkan pada metodologi Six-Sigma yang ditujukan untuk mengeliminasi cacat, pemborosan, berorientasi pada pengendalian

20 26 kualitas dalam kegiatan manufaktur, industri jasa, manajemen dan aktivitas lainnya. 3. SEMMA (Sample-Explore-Modify-Model-Assess). Framework ini dikembangkan oleh SAS (Statistical Analysis Sistem) Institute. Framework ini mempunyai tahapan yang mirip dengan Six-Sigma. 2.7 WEKA WEKA merupakan API Java yang menyediakan API untuk pengolahan dalam data mining yang berbasis open source (GPL) dan berengine JAVA. WEKA dikembagkan oleh Universitas Waikato di Selandia Baru dan juga merupakan perangkat lunak gratis yang tersedia dibawah GNU (General Public License). WEKA menyediakan penggunaan teknik klasifikasi menggunakan pohon keputusan dengan algoritma J48. Teknik yang digunakan WEKA adalah classifier. Menurut situs resmi WEKA (Waikato Environment for Knowledge Analysis), WEKA is a collection of machine learning algorithms for data mining tasks. The algorithms can either be applied directly to a dataset or called from your own Java code. Weka contains tools for data pre-processing, classification, regression, clustering, association rules, and visualization. It is also well-suited for developing new machine learning schemes. The Waikato Environment for Knowledge Analysis (Weka) adalah rangkaian lengkap perpustakaan kelas Java yang mengimplementasikan banyak state-of-the-art pembelajaran mesin dan algoritma data mining. Weka tersedia secara bebas di World Wide Web dan menyertai teks baru pada dokumen data mining dan sepenuhnya menjelaskan semua algoritma yang dikandungnya. Aplikasi yang ditulis menggunakan library class pada Weka yang dapat dijalankan pada komputer manapun dengan kemampuan browsing Web, ini memungkinkan pengguna untuk menerapkan teknik pembelajaran mesin untuk data mereka sendiri terlepas dari platform komputer. (Witten, Frank & Hall, 2011)

21 27 Gambar 2.19 : Tampilan Awal GUI WEKA Sumber: WEKA mulai dikembangkan sejak tahun 1994 dan telah menjadi software data mining open source yang paling popular. WEKA mempunyai kelebihan seperti mempunyai banyak algoritma data mining dan machine learning, kemudahan dalam penggunaannya, selalu up-to-date dengan algoritma-algoritma yang baru. Software WEKA tidak hanya digunakan untuk akademik saja namun cukup banyak dipakai oleh perusahaan untuk meramalkan bisnis dari suatu perusahaan. Ian H. Witten merupakan latar belakang dibalik kesuksesan WEKA. Beliau merupakan profesor di Universitas of Waikato, New Zealend, yang menekuni Digital Library, Text Mining, Machine Learning dan Information Retrieval. Pada Weka ada beberapa metode pemilihan variable dari suatu dataset, diantaranya BestFirst, ExhautiveSearch, FCBFSearch, GeneticSearch, GreedyStepwise, RaceSearch, RandomSearch, Rankerdan, RankerSearch. Metode atau Teknik yang digunakan Weka adalah Predictive dan Descriptive karena Weka mendukung teknik-teknik data preprocessing, clustering, classification, regression, visualization, dan feature Reduction. Semua teknik Weka adalah didasarkan pada asumsi bahwa data tersedia sebagai flat file tungggal atau hubungan, dimana setiap titik data digambarkan oleh sejumlah tetap atribut (biasanya, atribut numeric atau nominal, tetapi beberapa jenis atribut lain juga didukung) Format Input WEKA WEKA mendukung beberapa format file untuk inputnya, yaitu: Comma Separated Values (CSV): Merupakan file teks dengan pemisah tanda koma (,) yang cukup umum digunakan. File ini dapat dibuat dengan menggunakan Microsoft Excel atau membuat sendiri dengan menggunakan notepad.

22 28 Format C45: Merupakan format file yang dapat diakses dengan menggunakan aplikasi WEKA. Attribute-Relation File Format (ARFF): Merupakan tipe file teks yang berisi berbagai instance data yang berhubungan dengan suatu set atribut data yang dideskripsikan serta di dalam file tersebut. SQL Server/MySql Server: Dapat mengakses database dengan menggunakan SQL Server/MySql Server Algoritma J48 pada WEKA J48 merupakan implementasi C4.5 pada WEKA. J48 menangani himpunan data dalam format ARFF, tidak mengandung kode untuk mengkonstruksi pohon keputusan. Kelas ini mereferensi kelas-kelas lain, kebanyakan pada paket Weka. Classifiers J48, yang mengerjakan semua proses konstruksi pohon.adapun kelebihan C4.5 antara lain: C4.5 mampu menangani atribut dengan tipe diskrit atau kontinu C4.5 mampu menangani atribut yang kosong (Missing Value) C4.5 telah berkembang menjadi C5. C4.5 merupakan pengembangan dari ID3 (Iterative Dichotomiser 3). ID3 merupakan algoritma yang dipergunakan untuk membuat sebuah decision tree atau pohon keputusan. Algoritma ID3 ditemukan oleh J. Ross Quinlan, dengan memanfaatkan teori informasi milik Shanon. Idenya adalah membuat pohon dengan percabangan awal yang dapat membagi antara iya dan tidak. Pada WEKA ada pilihan untuk menggunakan ID3 dengan nama yang sama dan atributnya harus bertipe nominal dan tidak boleh terdapat atribut yang kosong Algoritma Naive Bayes pada WEKA Proses klasifikasi (classify) menggunakan metode Naïve Bayesian Classifier (dalam software Weka disebut sebagai metode NaïveBayes). WEKA dapat digunakan sebagai perangkat lunak pembelajaran mesin untuk menghasilkan dan model uji Naive Bayes secara otomatis. Kelas untuk Naive Bayes classifier menggunakan kelas estimator. Nilai estimator presisi Numeric dipilih berdasarkan analisis data training. Classifier ini akan menggunakan presisi default 0,1 untuk atribut numerik ketika buildclassifier

23 29 disebut dengan kasus tarining nol. Naive Bayes tidak memilih fitur penting. Hasil dari training Naive Bayes classifier adalah mean dan varians untuk setiap fitur. Klasifikasi sampel baru ke 'Ya' atau 'Tidak' didasarkan pada apakah nilai-nilai fitur dari sampel test terbaik dengan rata-rata dan varians dari fitur yang menjadi training baik untuk 'Ya' atau 'Tidak' Test Options WEKA WEKA memiliki empat jenis test option, yaitu: Use training set: Classifier ini dilakukan dengan menggunakan data training itu sendiri. Supplied test set: Classifier ini dievaluasi dengan memprediksi seberapa baik satu set class yang diambil dari sebuah file. Test option ini dilakukan dengan menggunakan data lain. Cara yang dilakukan adalah dengan mengklik set tombol yang menampilkan dialog yang memungkinkan untuk memilih file untuk menguji. Cross-validation: Classifier ini dievaluasi oleh cross-validation, menggunakan jumlah fold yang dimasukkan ke dalam kolom teks folds. Pada cross-validation akan ada pilihan berapa fold yang akan digunakan. Nilai default-nya adalah 10. Percentage split: Classifier ini dievaluasi dengan memprediksi seberapa baik persentase dari data yang digunakan selama pengujian. Jumlah data tersebut dibagi berdsarkan nilai yang dimasukkan ke dalam field%. 2.8 Structure Query Language (SQL) Menurut Connolly & Begg (2010, p221), Structure Query Language atau SQL adalah non producedural language terdiri dari kata english standar seperti SELECT, INSERT, dan DELETE yang digunakan oleh profesional dan nonprofesional. SQL menggunakan bahasa yang standar untuk mendefinisikan dan memanipulasi hubungan database. Sedangkan, menurut Hall (2011, p787), Structure Query Language adalah suatu alat pengolahan data untuk pengguna dan programmer profesional untuk mengakses data dalam basis data secara langsung tanpa membutuhkan program konvensional. Dari beberapa teori yang dijabarkan oleh para ahli diatas, bahwa Structure Query Language atau SQL adalah suatu alat pengolahan data untuk pengguna dan

24 30 programmer profesional untuk mengakses data non producedural language seperti SELECT, INSERT, dan DELETE. 2.9 Data Warehouse Menurut Turban (2011, p52), Data Warehouse adalah kumpulan data yang dibuat untuk mendukung pengambilan keputusan dan juga merupakan tempat penyimpanan data sekarang dan lampau. Data warehouse memiliki bentuk bentuk, yaitu: Functional Data Warehouse Functional Data Warehouse dibuat lebih dari satu dan dikelompokkan berdasarkan masing-masing fungsinya. Penerapan jenis pengumpulan data dengan tipe ini dapat beresiko kehilangan konsistensi data diluar lingkungan bisnis. Centralized Data Warehouse Centralized Data Warehouse terlihat seperti bentuk Functional Data Warehouse, namun seumber data terlebih dahulu dikumpulkan dan diintegrasikan secara terpusat pada suatu tempat, dan setelah itu, data dapat dibagi-bagi berdasarkan fungsi-fungsi yang dibutuhkan. Pada bentuk ini, pemakai hanya dapat mengambil data dari bagian pengumpulan saja, dan tidak secara langsung berhubungan dengan pemasok data. Distributed Data Warehouse Distributed Data Warehouse memungkinkan user untuk berhubungan secara langsung dengan sumber data dan pusat pengumpul data lain. Pada bentuk ini mengandalkan keunggulan dari teknologi client-server, untuk mengambil data dari berbagai sumber OLTP (Online Transaction Processing) Menurut Kimball (2010, p408), OLTP adalah gambaran pasti dari segala aktifitas dan asosiasi sistem dengan menginput data yang dapat dipercaya ke dalam database. OLTP menggambarkan sebuah kebutuhan sistem dalam ruang lingkup operasional dan merupakan proses yang dapat mendukung kegiatan bisnis sehari hari. Sedangkan, menurut Connolly dan Begg (2010, p1199), OLTP adalah sebuah sistem yang telah dirancang untuk menangani pemrosesan transaksi tingkat tinggi. Dari beberapa teori yang dijabarkan oleh para ahli diatas, dapat diambil kesimpulan bahwa OLTP (Online Transaction Processing), merupakan sebuah

25 31 sistem yang telah dirancang untuk menangani pemrosesan transaksi tingkat tinggi yang dapat mendukung kegiatan bisnis sehari hari ETL (Extraction Transformation Loading) Menurut Vercellis (2009, p53), ETL (Extraction Transformation Loading) mengacu pada alat piranti lunak yang didedikasikan untuk melakukan ekstraksi, transformasi, dan load data ke dalam data warehouse. Menurut Kimball dan Ross (2010, p8) Extract-transform-load (ETL) adalah kumpulan dari proses dimana sumber data operational disiapkan untuk dimasukan kedalam data warehouse. Proses ekstraksi (extracting) data operational dari sumber aplikasi, mengubah bentuknya (transform), mengeluarkan (loading) dan membuat index dari data itu, menjamin kualitas dari data tersebut, dan menerbitkan data tersebut. 1. Data Extraction Menurut Kimball dan Ross (2010, p8), extraction adalah langkah pertama dalam proses memasukkan data ke dalam lingkungan data warehouse. Extracting berarti membaca dan memahami sumber data dan menyalin data yang dibutuhkan untuk data warehouse ke dalam staging area untuk manipulasi lebih jauh. 2. Data Transforming Menurut Kimball dan Ross (2010, p8), setelah data di ekstrak ke staging area, ada banyak perubahan yang mungkin dilakukan, seperti cleansing data (memperbaiki kesalahan ejaan, mengatasi konflik domain, menangani bagian yang hilang, atau parsing ke dalam format standar), menggabungkan data dari berbagai sumber, menghilangkan data berulang, dan memberikan warehouse keys. 3. Data Loading Menurut Kimball dan Ross (2010, p8),setelah melakukan transformasi maka data dapat dimuat ke dalam data warehouse. Sedangkan, menurut Connolly dan Begg (2010, 1208), loading data ke dalam data warehouse dapat terjadi setelah semua transformasi telah terjadi atau sebagai bagian dari proses transformasi. Trigger yang akan aktif pada saat dilakukan loading data, juga berkontribusi pada kualitas seluruh kinerja data pada proses ETL. Dari beberapa teori yang dijabarkan oleh para ahli diatas, dapat diambil kesimpulan bahwa ETL (Extraction Transformation Loading) mengacu pada alat

26 32 piranti lunak dimana sumber data operational disiapkan untuk dimasukan kedalam data warehouse. Proses ekstraksi (extracting) data operational dari sumber aplikasi, mengubah bentuknya (transform), mengeluarkan (loading) dan membuat index dari data itu, menjamin kualitas dari data tersebut, dan menerbitkan data tersebut Star Schema Menurut Turban (2011, p75), Skema Bintang (Star Schema) adalah sebuah dimensional modeling yang menampilkan satu atau beberapa table fakta yang terhubung dengan beberapa table dimensi, dimana table fakta mengandung atribut deskriptif dan table dimensi menandung klasifikasi dan kumpulan informasi tentang nilai dari table fakta. Sedangkan, menurut Connolly dan Begg (2010, p1227), star schema adalah struktur logikal yang memiliki tabel fakta yang memuat data faktual di pusat dan dikelilingi oleh tabel dimensi yang memuat data referensi (yang dapat didenormalisasi). Fact table Menurut Connolly dan Begg (2010, p1227), tabel fakta merupakan tabel yang memiliki sebuah composite primary key dimana tabel tersebut akan membentuk sebuah model dimensional. Dimention Table Menurut Connolly dan Begg (2010, p1227), tabel dimensi merupakan sekumpulan dari tabel-tabel yang lebih kecil yang memiliki sebuah primary key sederhana yang merespon secara benar terhadap salah satu komponen dari composite key yang ada dari tabel fakta. Dari beberapa teori yang dijabarkan oleh para ahli diatas, dapat diambil kesimpulan bahwa Skema Bintang (Star Schema) adalah struktur logikal yang menampilkan satu atau beberapa table fakta yang terhubung dengan beberapa table dimensi Rumah Sakit Rumah sakit adalah suatu badan usaha yang menyediakan dan memberikan jasa pelayanan medis jangka pendek dan jangka panjang yang terdiri atas tindakan observasi, diagnostik, terapeutik dan rehabilitative untuk orang-orang yang menderita sakit, terluka dan untuk yang melahirkan (World Health Organization). Rumah sakit merupakan sarana upaya kesehatan serta dapat dimanfaatkan untuk pendidikan tenaga kesehetan dan penelitian (permenkes no.159b/1988)

27 33 UU NO.44 tahun 2009 tentang rumah sakit, rumah sakit adalah institusi pelayanan kesehatan yang menyelenggarakan pelayanan kesehatan perorangan secara paripurna yang menyediakan pelayanan rawat inap, rawat jalan dan gawat darurat. Pelayanan rumah sakit juga diatur dalam KODERSI/kode etik rumah sakit, dimana kewajiban rumah sakit terhadap karyawan, pasien dan masyarakat diatur. Berdasarkan Pasal 29 ayat (1) huruf f dalam UU No. 44 Tahun 2009 tentang Rumah Sakit. Rumah Sakit sebenarnya memiliki fungsi sosial yaitu antara lain dengan memberikan fasilitas pelayanan pasien tidak mampu/miskin, pelayanan gawat darurat tanpa uang muka, ambulans gratis, pelayanan korban bencana dan kejadian luar biasa, atau bakti sosial bagi misi kemanusiaan. Pelanggaran terhadap kewajiban tersebut bisa berakibat dijatuhkannya sanksi kepada Rumah Sakit tersebut, termasuk sanksi pencabutan izin Rekam Medik Menurut Edna K Huffman, Rekam medik adalah berkas yang menyatakan siapa, apa, mengapa, dimana, kapan, dan bagaimana pelayanan yang diperoleh seorang pasien selama dirawat atau menjalani pengobatan. Menurut Permenkes No. 79a/Menkes /Per/XII/1989, Rekam medik adalah berkas yang berisi catatan dan dokumen mengenai identitas pasien, hasil pemeriksaan, pengobatan, tindakan dan pelayanan lainnya yang diterima pasien pada sarana kesehatan, baik rawat jalan maupun rawat inap. Menurut Gemala Hatta, Rekam Medik merupakan kumpulan fakta tentang kehidupan seseorang dan riwayat penyakitnya, termasuk keadaan sakit, pengobatan saat ini, dan saat lampau yang ditulis oleh para praktisi kesehatan dalam upaya mereka membiarkan pelayanan kesehatan kepada pasien. Berdasarkan pengertian diatas rekam medik adalah suatu catatan dari setiap orang yang melakukan pengobatan, yang berisi tentang data riwayat penyakit saati ini dan masa lampau yang ditulis oleh praktisi kesehatan ICD-10 Menurut WHO (2004) ICD-10 merupakan klasifikasi statistik, yang terdiri dari sejumlah kode alfanumerik yang satu sama lain berbeda (mutually exclusive) menurut kategori, yang menggambarkan konsep seluruh penyakit. Menurut WHO (2004), ICD-10 terdiri dari 3 volume yaitu: 1. Volume 1 berisi klasifikasi utama.

28 34 Sebagian besar buku Volume 1 terdiri dari daftar kategori3 karakter dan daftar tabel inklusi dan subkategori 4 karakter. Inti klasifikasi adalah daftar kategori 3 karakter yang dianjurkan untuk pelaporan ke WHO mortality database dan perbandingan umum internasional. Daftar bab dan judul blok juga termasuk inti klasifikasi. Daftar tabular memberikan seluruh rincian level 4 karakter dan dibagi dalam 22 bab. 2. Volume 2 berisi petunjuk pemakaian ICD 3. Volume 3 berisi alfabet klasifikasi, dibagi dalam 3 bagian: Bagian 1, terdiri atas indeks tentang penyakit dan luka alami. Bagian 2, merupakan indeks penyebab luar morbiditas dan mortalitas, berisi seluruh term yang diklasifikasi. Bagian 3, berisi tabel obat dan bahan kimia. Kode utama untuk penyakit yang mendasari diberi tanda dagger ( ) dan kode tambahan untuk manifestasinya diberi tanda asterisk (*). Kode dagger adalah kode utama dan harus selalu digunakan. Dalam coding, kode asterisk tidak bisa digunakan sendiri