Klasifikasi Data Otomotif Menggunakan SVM Light
|
|
- Yuliana Dharmawijaya
- 7 tahun lalu
- Tontonan:
Transkripsi
1 DATA MINING LANJUT Klasifikasi Data Otomotif Menggunakan SVM Light Proyek Disusun Oleh: FITRA RIYANDA JURUSAN INFORMATIKA FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM UNIVERSITAS SYIAH KUALA DARUSSALAM, BANDA ACEH JUNI, 2013
2 ABSTRAK Klasifikasi data secara otomatis merupakan salah satu sarana yang sangat penting dalam informasi dan memudahkan segalanya untuk mendapatkan informasi. Dalam laporan ini menyajikan klasifikasi data baru dengan menggunakan perbandingan antara model positif yang memiliki label. Dalam kasus ini melakukan penelitian masalah klasifikasi data dokumen otomotif. Pemberian data training set dilakukan dengan melakukan perbandingan antara data training set positif dan kamus yang sudah dinormalisasi dengan threshold sebanyak 45% dan 50% masing-masing dibandingkan dan data training set dibangun menjadi sebuah fitur untuk masingmasing threshold dan dilakukan pengujian dengan membangun model dari data testing set untuk masing-masing threshold yang sudah dibangun menjadi sebuah fitur menggunakan svm classify. Keyword : Klasifikasi, SVM Light
3 DAFTAR ISI Halaman ABSTRAK... DAFTAR ISI... DAFTAR GAMBAR... i ii iii BAB I BAB II BAB III BAB IV BAB V PENDAHULUAN 1.1. Latar Belakang Rumusan Masalah Tujuan Penelitian Manfaat Penelitian... 2 TINJAUAN KEPUSTAKAAN 2.1. Data Mining Data Warehouse Kegunaan Data Warehouse Konsep Dasar Data Warehouse Metode KNN (K-Nearest Neighbor) Algoritma KNN Metode SMART... 9 METODE KERJA 3.1. Pengambilan Data Sampel Membersihkan Data Dokumen Membagi Dataset Menjadi Data Training dan Testing Membangun Kamus dan Threshold Membangun Fitur, Model dan Pengujian HASIL DAN PEMBAHASAN 4.1. Data Hasil Pengamatan Pembahasan PENUTUP 5.1. Kesimpulan Saran DAFTAR PUSTAKA... 22
4 DAFTAR GAMBAR Halaman Gambar 2.1. Flowchart Metode KNN... 8 Gambar 2.2. Flowchart Metode SMART Gambar 3.1. Flowchart Tahapan Kerja Gambar 4.1. Training Set Kamus 45% Gambar 4.2. Testing Set Kamus 45% Gambar 4.3. Training Set Kamus 50% Gambar 4.4. Testing Set Kamus 50%... 19
5 BAB I PENDAHULUAN 1.1 Latar Belakang Klasifikasi teks merupakan proses untuk membangun atau menempatkan label kategori yang telah ditetapkan untuk dokumen baru berdasarkan klasifikasi pembelajaran dari data traning set. Klasifikasi teks secara mudah dapat dilakukan dengan melakukan pembelajaran secara manual, tetapi itu hanya dapat dilakukan dalam jumlah yang terbatas atau relatif sedikit dan membutuhkan waktu yang lama. Dengan pesatnya pertumbuhan informasi dari berbagai penjuru pada dunia internet dengan jumlah yang sangat banyak dan bertambah setiap detiknya. Tentunya salah satu mengenali suatu teks dokumen tergolong dalam suatu kategori, salah satu cara pengorganisasian jumlah teks dokumen dalam jumlah besar dengan mengelompokkan mereka kedalam taksonomi deskriptif atau topikal dari teks dokumen itu sendiri. Minat membaca pengguna sehari-hari dalam kebutuhannya guna mendapatkan informasi semakin banyak. Buku menjadi salah satu faktor utama minat pembaca semakin berkurang sehingga sulit untuk mendapatkan informasi dikarenakan beberapa faktor seperti kurang praktis, susah untuk mendapatkannya dan membutuhkan biaya yang mahal untuk mendapatkannya tetapi dalam buku tersebut tidak mendapatkan informasi yang cukup sesuai keinginan pengguna. Oleh sebab itu semakin berkembang teks dokumen yang memuat informasi sesuai kebutuhan pengguna dan lebih menarik minat membaca karena lebih praktis dan murah. Sering kali, dalam suatu teks dokumen tidak terdapat informasi mengenai topik utama dari teks dokumen tersebut, sehingga pengguna tidak melakukan kajian tentang informasi yang dimuat dalam teks dokumen tersebut, padahal dalam teks dokumen tersebut mungkin merupakan kebutuhan yang di inginkan pengguna. Oleh karena itu perlu dilakukan pengkajian teks web dokumen secara otomatis guna mempermudah dalam menentukan topik yang dibahas dalam suatu teks dokumen tersebut. Salah satu contoh yang telah dilakukan sebelumnya dengan menggunakan SVM berbasis metode pembelajaran adaptif untuk klasifikasi teks ( Tao Peng, 2007).
6 1.2 Rumusan Masalah Dalam kasus penelitian ini membahas tentang pengkajian atau klasifikasi teks dokumen dalam kategori otomotif. 1.3 Tujuan Penelitian Mengklasifikasikan sebuah teks dokumen untuk menentukan apakah sebuah teks dokumen tersebut membahas tentang otomotif ataupun bukan. 1.4 Manfaat Penelitian Mengetahui topik yang dimuat dalam suatu teks dokumen guna memberikan informasi kepada pengguna dan memberikan pemahaman lebih lanjut kepada penulis dalam tahapan ataupun proses pembangunan fitur dan model dalam klasifikasi.
7 BAB II TINJAUAN PUSTAKA 2.1 Data Mining Secara sederhana data mining adalah suatu proses untuk menemukan interesting knowledge dari sejumlah data yang disimpan dalam basis data atau media penyimpanan data lainnya. Dengan melakukan data mining terhadap sekumpulan data, akan didapatkan suatu interesting pattern yang dapat disimpan sebagai knowledge baru. Pattern yang didapat akan digunakan untuk melakukan evaluasi terhadap data-data tersebut untuk selanjutnya akan didapatkan informasi. Tehnik dalam Data Mining datang dari Basis Data, Machine Learning, dan Statistik. Elemen-elemen kunci untuk Data Mining ini telah dibuat dalam beberapa tahun terakhir. Secara umum tugas dari Data Mining dapat dibagi ke dalam dua tipe, yaitu Predictive Data Mining dan Knowledge Discovery / Description Data Mining. Predictive Data Mining adalah tipe data mining untuk memprediksi nilai suatu variabel di masa yang akan datang atau nilai variabel lain berdasarkan beberapa variabel yang saat ini telah diketahui nilainya. Yang termasuk dalam tipe ini antara lain: klasifikasi, regresi, dan deteksi deviasi. Knowledge Discovery / Description Data Mining yang juga sering disebut sebagai pencarian pola (pattern discovery) adalah tipe data mining yang digunakan untuk mendapatkan pola yang tersembunyi dalam data dan bisa dipahami oleh manusia, biasanya ditampilkan dalam bentuk kalimat yang mudah dimengerti, misalnya Jika seseorang membeli produk A maka juga membeli produk B. Meskipun pola ini bisa ditemukan oleh manusia tanpa bantuan komputer khususnya jika jumlah variabel dan datanya kecil namun jika jumlah variabel puluhan bahkan ratusan dan jumlah data ribuan bahkan jutaan maka diperlukan waktu bertahun-tahun untuk mendapatkan pola-pola tersebut. Disinilah peran teknologi informasi dengan dukungan sistem data mining membantu dalam penyelesaian permasalahan ini. Yang termasuk tipe ini adalah: klusterisasi, aturan asosiasi, dan penemuan pola sekuensial.
8 Dengan data mining perusahaan bisa mendapatkan informasi penting dan profitable tentang klien atau pelanggan yang pada akhirnya bisa meningkatkan keuntungan perusahaan atau mengurangi kerugian. Kegunaan informasi pada data mining seperti diatas sering disebut sebagai Market Basket Analysis. Dalam jangka panjang, data mining dapat membuat sebuah perusahaan lebih kompetitif. Ada beberapa model data mining berdasarkan tugas atau tujuan yang harus dihasilkan. Model-model tersebut antara lain: klasifikasi, klusterisasi, assosiasi, pencarian sequence, regresi, dan deteksi deviasi. 2.2 Data Warehouse Pengertian Data Warehouse dapat bermacam-macam namun mempunyai inti yang sama, seperti pendapat beberapa ahli berikut ini : Menurut W.H. Inmon dan Richard D.H., data warehouse adalah koleksi data yang mempunyai sifat berorientasi subjek,terintegrasi,time-variant, dan bersifat tetap dari koleksi data dalam mendukung proses pengambilan keputusan management. Menurut Vidette Poe, data warehouse merupakan database yang bersifat analisis dan read only yang digunakan sebagai fondasi dari sistem penunjang keputusan. Menurut Paul Lane, data warehouse merupakan database relasional yang didesain lebih kepada query dan analisa dari pada proses transaksi, biasanya mengandung history data dari proses transaksi dan bisa juga data dari sumber lainnya. Data warehouse memisahkan beban kerja analisis dari beban kerja transaksi dan memungkinkan organisasi menggabung/konsolidasi data dari berbagai macam sumber. Jadi, data warehouse merupakan metode dalam perancangan database, yang menunjang DSS (Decission Support System) dan EIS (Executive Information System). Secara fisik data warehouse adalah database, tapi perancangan data warehouse dan
9 database sangat berbeda. Dalam perancangan database tradisional menggunakan normalisasi, sedangkan pada data warehouse normalisasi bukanlah cara yang terbaik. Dari definisi-definisi yang dijelaskan tadi, dapat disimpulkan data warehouse adalah database yang saling bereaksi yang dapat digunakan untuk query dan analisisis, bersifat orientasi subjek, terintegrasi, time-variant,tidak berubah yang digunakan untuk membantu para pengambil keputusan Kegunaan Data Warehouse Berdasarkan pengertian data warehouse diatas, data warehouse diperlukan bagi para pengambil keputusan manajemen dari suatu organisasi/perusahaan. Dengan adanya data warehouse, akan mempermudah pembuatan aplikasi-aplikasi DSS (Decision Support System) dan EIS (Executive Information System) karena kegunaan dari data warehouse adalah khusus untuk membuat suatu database yang dapat digunakan untuk mendukung proses analisa (OLAP), mengambil keputusan, pembuatan laporan, penggalian informasi baru (Data Mining) dari banyak data dan proses executive informasi Konsep Dasar Data Warehouse Data warehouse adalah kumpulan macam-macam data yang subject oriented, integrated, time variant, dan nonvolatile dalam mendukung proses pembuatan keputusan (Inmon and Hackathorn, 1994). Data warehouse sering diintegrasikan dengan berbagai sistem aplikasi untuk mendukung proses laporan dan analisis data dengan menyediakan data histori, yang menyediakan infrastruktur bagi EIS dan DSS. a. Subject Oriented Data warehouse diorganisasikan pada subjek-subjek utama, seperti pelanggan, barang/ produk, dan penjualan. Berfokus pada model dan analisis pada data untuk membuat keputusan, jadi bukan pada setiap proses transaksi atau
10 bukan pada OLTP. Menghindari data yang tidak berguna dalam mengambil suatu keputusan. b. Integrated Dibangun dengan menggabungkan/menyatukan data yang berbeda. relational database, flat file, dan on-line transaction record. Menjamin konsistensi dalam penamaan, struktur pengkodean, dan struktur atribut diantara data satu sama lain. c. Data warehouse time variant Data disimpan untuk menyediakan informasi dari perspektif historical, data yang tahun-tahun lalu/ 4-5 thn. Waktu adalah elemen kunci dari suatu data warehouse/ pada saat pengcapture-an. d. Non Volatile Setiap kali proses perubahan, data akan di tampung dalam tiap-tiap waktu. Jadi tidak di perbaharui terus menerus. Data warehouse tidak memerlukan pemrosesan transaksi dan recovery. Hanya ada dua operasi initial loading of data dan access of data. Data warehouse bukan hanya tempat penyimpanan data, Data warehouse adalah Business Intelligence tools, tools to extract, merubah (transform) dan menerima data (load) ke penyimpanan (repository) serta mengelola dan menerima metadata. 2.3 Metode KNN (K-Nearest Neighbor) Prinsip kerja K-Nearest Neighbor (KNN) adalah mencari jarak terdekat antara data yang akan dievaluasi dengan K tetangga (neighbor) terdekatnya dalam data pelatihan. Teknik ini termasuk dalam kelompok klasifikasi nonparametric. Di sini kita tidak memperhatikan distribusi dari data yang ingin kita kelompokkan. Teknik ini
11 sangat sederhana dan mudah diimplementasikan. Mirip dengan teknik klastering, kita mengelompokkan suatu data baru berdasarkan jarak data baru itu ke beberapa data/tetangga (neighbor) terdekat. Tujuan algoritma KNN adalah mengklasifikasikan obyek baru berdasarkan atribut dan training sample. Clasifier tidak menggunakan model apapun untuk dicocokkan dan hanya berdasarkan pada memori. Diberikan titik query, akan ditemukan sejumlah k obyek atau (titik training) yang paling dekat dengan titik query. Klasifikasi menggunakan voting terbanyak diantara klasifikasi dari k obyek. Algoritma KNN menggunakan klasifikasi ketetanggaan sebagai nilai prediksi dari query instance yang baru. Algoritma metode KNN sangatlah sederhana, bekerja berdasarkan jarak terpendek dari query instance ke training sample untuk menentukan KNN-nya. Nilai k yang terbaik untuk algoritma ini tergantung pada data. Secara umum, nilai k yang tinggi akan mengurangi efek noise pada klsifikasi, tetapi membuat batasan antara setiap klasifikasi menjadi semakin kabur. Nilai k yang bagus dapat dipilih dengan optimasi parameter, misalnya dengan menggunakan cross-validation. Kasus khusus dimana klasifikasi diprekdisikan berdasarkan training data yang paling dekat (dengan kata lain, k=1) disebut algoritma Nearest Neighbor. Kelebihan KNN (K-Nearest Neighbor): 1. Tangguh terhadap training data yang memiliki banyak noise. 2. Efektif apabila training datanya besar. Kelemahan KNN (K-Nearest Neighbor): 1. KNN perlu menentukan nilai dari parameter k (jumlah dari tetangga terdekat). 2. Training berdasarkan jarak tidak jelas mengenai jenis jarak apa yang harus digunakan. 3. Atribut mana yang harus digunakan untuk mendapatkan hasil terbaik. 4. Biaya komputasi cukup tinggi karena diperlukan perhitungan jarak dari tiap query instance pada keseluruhan training sample.
12 d Algoritma KNN 1. Tentukan parameter K 2. Hitung jarak antara data yang akan dievaluasi dengan semua pelatihan 3. Urutkan jarak yang terbentuk (urut naik) 4. Tentukan jarak terdekat sampai urutan K 5. Pasangkan kelas yang bersesuaian 6. Cari jumlah kelas dari tetangga yang terdekat dan tetapkan kelas tersebut sebagai kelas data yang akan dievaluasi Rumus KNN: i = p ( x i x1 i ) i= (1) Keterangan: x 1 = Sampel Data x 2 = Data Uji / Testing i = Variabel Data d = Jarak p = Dimensi Data
13 Di bawah ini merupakan flowchart dari metode KNN: Start KNN Input data testing Tetapkan nilai K = 5 Data Sampel Hitung Jarak Euclidian d = i p 2 ( x2i x1 i ) i= 1 Urutkan hasil perhitungan jarak Pilih alternatif terbanyak Hasil keputusan penentuan jurusan berdasarkan nilai raport End Gambar 2.1 Flowchart dari Metode KNN Metode SMART (Simple Multi Attribute Rating Technique) SMART merupakan metode pengambilan keputusan yang multiatribut. Teknik pembuatan keputusan multiatribut ini digunakan untuk membantu stakeholder dalam memilih antara beberapa alternatif. Setiap alternatif terdiri dari sekumpulan atribut dan setiap atribut mempunyai nilai-nilai, nilai ini diratarata dengan skala tertentu. Setiap atribut mempunyai bobot yang menggambarkan seberapa penting ia dibandingkan dengan atribut lain.
14 Dengan SMART pembobotan atribut dilakukan dengan dua langkah yaitu: 1. Mengurutkan kepentingan suatu atribut dari level terburuk ke level terbaik. 2. Membuat perbandingan rasio kepentingan setiap atribut dengan atribut lain dibawahnya. SMART lebih banyak digunakan karena kesederhanaanya dalam merespon kebutuhan pembuat keputusan dan caranya menganalisa respon. Analisa yang terlibat adalah transparan sehingga metode ini memberikan pemahaman masalah yang tinggi dan dapat diterima oleh pembuat keputusan. Pembobotan pada SMART menggunakan skala antara 0 sampai 1, sehingga mempermudah perhitungan dan perbandingan nilai pada masing-masing alternatif. Model yang digunakan dalam SMART: m u ( ai ) = w jui ( ai ), i = 1,2,... m J = 1 (2) Keterangan: w j = nilai pembobotan kriteria ke-j dan k kriteria u(a i ) = nilai utility kriteria ke-i untuk kriteria ke-i Pemilihan keputusan adalah mengidentifikasi mana dari n alternatif yang mempunyai nilai fungsi terbesar Teknik SMART 1. Langkah 1: menentukan jumlah kriteria 2. Langkah 2: sistem secara default memberikan skala berdasarkan prioritas yang telah diinputkan kemudian dilakukan normalisasi. w j Normalisasi = (3) w j
15 Keterangan : w j : bobot suatu kriteria w : total bobot semua kriteria j 3. Langkah 3: memberikan nilai kriteria untuk setiap alternatif. 4. Langkah 4: hitung nilai utility untuk setiap kriteria masing-masing. ( C ui ( ai ) = 100 ( C max max C C out i min ) % ) (4) Keterangan : u i (a i ) : nilai utility kriteria ke-1 untuk kriteria ke-i C max : nilai kriteria maksimal C min : nilai kriteria minimal C out i : nilai kriteria ke-i 5. Langkah 5: hitung nilai akhir masing-masing. u( a ) = i m J = 1 w u ( a ), j i i
16 Di bawah ini merupakan flowchart dari metode SMART Start SMART Input jumlah kriteria dan bobotnya Normalisasi bobot Input nilai kriteria untuk setiap alternatif Hitung nilai utility untuk setiap kriteria ( Cmax Cout ) i ui ( ai ) = 100 % ( C C ) max min Hitung nilai akhir u( a ) = i m J = 1 w u ( a ) j i i Hasil keputusan penentuan jurusan End Gambar 2.2 Flowchart dari Metode SMART
17 BAB III METODE KERJA Dalam prosedur penelitian dari tahapan melakukan klasifkasi dataset menggunakan SMV Light tampak pada chart berikut: Web crawling Dataset cleaning Dataset Positif Dataset Negatif Testing Set (+) Training Set (+) Training Set (-) Testing Set (-) Kamus (+) Kamus (-) Fitur SVM Learn SVM Classify SVM Classify Model Hasil Gambar 3.1 Flowchart Tahapan Kerja
18 3.1 Pengambilan Data Sample Pengambilan data sample masing-masing data untuk melakukan fitur baik dataset positif maupun dataset negatif dilakukan dengan mengcrawling data teks dokumen menggunakan Swish-E. Dari metode crawling data menggunakan Swish-e perlu dilakukan beberapa tahapan seperti melakukan installasi pada linux dan kemudian membangun beberapa program untuk melakukan eksekusi perintah, didalam program ini dapat diberikan berupa alamat url yang dituju juga memfilter jenis data yang ingin di crawled. Proses crawling dengan menggunakan metode ini membutuhkan waktu yang sangat lama tergantung banyaknya permintaan crawling data maupun kecepatan koneksi. Setelah dilakukan crawling data dari berbagai situs yang membahas topik untuk data positif dan data negatif masing-masing sebanyak 12 ribu untuk data teks dokumen positif dan 10 ribu untuk data teks dokumen kemudian dipisahkan masing-masing direktori positif dan direktori negatif. 3.2 Membersihkan Data Teks Dokumen Setelah seluruh file yang diinginkan selesai di crawling, tahap selajutnya yaitu melakukan cleaning data. Data yang telah di-clean dalam program tersebut dimasukkan dalam sebuah folder yang berisikan semua file yang telah dibersihkan untuk masing-masing data cleaned dari dataset positif dan negatif. Dari seluruh data yang terdapat dalam file tersebut hanya mengambil title dan isi dari content saja. 3.3 Membagi Dataset Menjadi Data Training dan Testing Dari hasil cleaned untuk masing-masing dataset positif dan negatif tersebut, barulah dipisahkan menjadi data trainingset sebanyak 75% ( ± 10 ribu file) dan selebihnya dimasukkan ke data testingset sebanyak 25% dari ± 12 ribu file dataset positif dan juga untuk dataset negatif sebanyak ± 10 ribu file dipisahkan menjadi data trainingset sebanyak 75% ( ± 7500 file) dan selebihnya dimasukkan ke data testingset sebanyak 25%.
19 3.4 Membangun Kamus Bigrams dan Threshold Setelah seluruh data selesai di bersihkan dan dipisahkan menjadi data trainingset dan data testingset untuk masing-masing dataset positif dan negatif, barulah dilakukan proses penggabungan seluruh file data trainingset untuk masingmasing dataset positif dan negatif menjadi kedalam satu file. Setelah dilakukan penggabungan masing-masing dataset, barulah dilakukan proses pembangunan kamus untuk data trainingset positif dan negatif. Dalam proses ini dibangun kamus yang sering muncul dengan frekuensi tertentu dan tidak termasuk stopword yang merupakan kata-kata pendukung yang tidak dapat dipakai untuk membangun kamus. Stopword ini berfungsi memfilter kata-kata yang sering muncul dalam conten dan tidak ikut dimasukkan kedalam kamus menggunakan program perl one-grams.pl, two-grams.pl dan tree-grams.pl. Setelah pembangunan kamus yang memiliki jumlah banyak kata yang muncul dari masing-masing kelompok kamus bigrams, kemudian dilakukan perhitungan nilai frekuensi tiap-tiap kamus dimana frekuensi didapatkan dari jumlah kata dibagi dengan jumlah kata yang paling banyak muncul. Dari ini dapat diperoleh data dengan nilai antara 0 sampai 1 untuk tiap frekuensinya. Dari nilai frekkuensi masing-masing kamus bigrams positif dan negatif dilakukan normalisasi dengan membandingkan dan melakukan eliminasi observasi untuk rasio. Banyaknya rasio dengan threshold dilakukan dengan dua jenis sebagai perbandingan yaitu sebesar 45% dan 50%. Untuk melakukan hal tersebut, data trainingset kamus negatif dibutuhkan sebagai pembanding untuk data trainingset pada kamus positif. Untuk melakukan normalisasi, tahapan untuk diteliti menggunakan dua metode yaitu melakukan eliminasi observasi langsung dari kelompok bigrams (satu kata, dua kata dan tiga kata) untuk masing-masing kamus positif dan kamus negatif. Metode kedua yaitu dengan melakukan penggabungan kamus masing-masing kelompok bigrams (satu kata, dua kata dan tiga kata) sehingga terbentuk masingmasing kamus positif dan negatif yang sudah digabungkan untuk masing-masing rasio 45% dan 50%.
20 3.5 Membangun Fitur, Model dan Pengujian Untuk tahapan pembangunan fitur, diperlukan kamus akhir positif dan negatif dari masing-masing kamus yang telah dinormalisasi dan diperlukan juga data trainingset positif juga data trainingset negatif. Bagian yang diambil dalam proses pembangunan fitur yaitu bagian judul, bagian atas dari isi konten, bagian tengah dari isi konten dan bagian akhir dari isi konten. Sehingga proses pembangunan fitur dapat dirumuskan dengan formula berikut:, Dari formula tersebut, jumlah fitur atribut berjumlah 4 bagian, 3 jenis gram dan 2 kategori, sehingga total dari jumlah atribut adalah 24 jenis fitur. Fitur untuk bagian judul dari kategori p (C p ), disimbol F title,p, adalah jumlah kata pada bagian judul yang ditemukan dalam kamus kategori p atau Dic(C p ), dibagi dengan jumlah kata pada bagian judul (tidak termasuk stopword). Dimana n adalah jumlah kata dalam bagian yang dipertimbangkan (tidak termasuk stopword), misalnya bagian judul, bagian atas, tengah dan bawah konten, dan k adalah jumlah halaman web berkategori C p. Setiap bagian diberi bobot yang berbeda dengan asumsi bagian atas konten web lebih penting dari bagian tengah, dan bagian tengah konten lebih penting dari pada bagian bawah web. Setelah proses pembangunan selesai, maka dengan menggunakan SVM Learning dan dengan fitur yang telah dibangun, dapat dilakukan pembangunan model dari fitur tersebut. Setelah model telah dibangun, tahapan selanjutnya dengan mengklasifikasi data testingset dari dataset positif dan dataset negatif dengan menggunakan SVM Classify sehingga menghasilkan output dugaan dari model yang telah dibangun.
21 BAB IV HASIL DAN PEMBAHASAN 4.1 Data Hasil Pengamatan Dari hasil yang telah diperoleh dari pembangunan fitur dataset positif dan negatif menggunakan kamus dengan threshold sebanyak 45% terdapat pada gambar berikut: Gambar 4.1 Training Set Kamus 45% Gambar tersebut menunjukkan dari proses pembangunan model dengan menggunakan kamus yang dinormalisasikan dengan rasio 45% menghasilkan error prediction 0.92%, dengan nilai recall 99,27% dan precision dengan nilai 99,26%. Setelah model dibangun, selanjutnya melakukan pengujian dataset dari model tersebut dengan data testingset positif dan negatif yang menghasilkan output seperti pada gambar berikut:
22 Gambar 4.2 Testing Set Kamus 45% Dari hasil pengujian menggunakan model yang telah dibangun dengan menggunakan SVM Classify dan mengklasifikasi dari data testing menghasilkan akurasi sebesar 98,59% dengan 6072 dugaan yang benar dan 87 dugaan yang salah dari 6159 dataset keseluruhan. Nilai dari precision dan recall dari hasil pengujian yaitu 97,43%. Begitu juga dari hasil yang telah diperoleh dari pembangunan fitur dataset positif dan negatif menggunakan kamus dengan threshold sebanyak 50% terdapat pada gambar berikut:
23 Gambar 4.3 Training Set Kamus 50% Gambar tersebut menunjukkan dari proses pembangunan model dengan menggunakan kamus yang dinormalisasikan dengan rasio 50% menghasilkan error prediction 0.91%, dengan nilai recall 99,27% dan precision dengan nilai 99,27%. Sama seperti tahapan sebelumnya, setelah model dibangun, selanjutnya melakukan pengujian dataset dari model tersebut dengan data testingset positif dan negatif yang menghasilkan output seperti pada gambar berikut:
24 Gambar 4.4 Testing Set Kamus 50% Dari hasil pengujian menggunakan model yang telah dibangun dengan menggunakan SVM Classify dan mengklasifikasi dari data testing menghasilkan akurasi sebesar 98,73% dengan 6081 dugaan yang benar dan 78 dugaan yang salah dari 6159 dataset keseluruhan. Nilai dari precision dan recall dari hasil pengujian yaitu 97,69%. 4.2 Pembahasan Setelah melakukan pengujian sampel menggunakan SVM Light Classify dari model yang telah dibangun untuk tiap masing-masing kamus menghasilkan perbedaan akurasi. Tahap pengujian dengan kamus rasio 45% memiliki nilai akurasi lebih sedikit dibandingkan pengujian dengan menggunakan kamus berasio 50% sebagai dugaan dari sample yang memiliki tingkat akurasi sedikit lebih baik dengan nilai 98,73% berbanding dengan 98,59%.
25 Dari perhitungan tersebut dapat dihitung dengan nilai precision dan recall semua class maka yang diduga sehingga mendapatkan nilai F-Measure dan nilai rata-rata F-Measure dari setiap class yang ada. Begitu juga dengan Precision dan Recall untuk masing-masing class. Cara perhitungan dari hasil dari tiap-tiap class tersebut dapat dilakukan dengan menggunakan rumus sebagai berikut: Precision = TP Recall = TP F-Measure = 2 (P x R) TP + FP TP + FN P + R Dimana, P : Precision R : Recall TP : True Positif, merupakan nilai yang diduga benar (akurat) FP : False Positif, merupakan nilai yang diduga salah tetapi positif FN : False Negatife, merupakan benar nilai tersebut diduga salah (akurat)
26 BAB V PENUTUP 5.1 Kesimpulan Dari hasil pengujian dataset menggunakan kamus dengan rasio 45% dalam normalisasinya menghasilkan akurasi sebesar 98,59% dimana 6072 dugaan yang benar dan 87 dugaan yang salah dari 6159 dataset keseluruhan. Sedangkan hasil pengujian dataset menggunakan kamus dengan rasio 50% dalam normalisasinya menghasilkan akurasi sebesar 98,73% dimana 6081 dugaan yang benar dan 78 dugaan yang salah dari 6159 dataset keseluruhan. Dari perbandingan terhadap dua pengujian tersebut, pembangunan model dengan menggunakan kamus dengan rasio 50% dalam proses normalisasinya sedikit lebih baik dibandingkan dengan menggunakan model dari kamus dengan rasio 45%. 5.2 Saran Dari proses yang telah dilakukan untuk pembangunan kamus hingga model, terdapat sedikit error dalam prosesnya, itu terjadi karena kamus yang dibangun terdapat karakter yang tidak dikenali dari kamus yang dibangun. Oleh karena itu disarankan agar membangun kamus yang terbebas dari karakter-karakter yang tidak diketahui dengan memprosesnya lebih bersih, sehingga dapat menjadikan proses pembangunan model dengan baik.
27 DAFTAR PUSTAKA Berry, M.W., & Kogan, J. (2010).Text Mining: Application and Theory. Chichester: JohnWiley & Sons, Ltd.Feldman, R., & Sanger, J. (2007).The Text Mining Handbook: Advanced Approaches in Analyzing Unstructured Data. New York: Cambridge University Press.Gresnews. Tao Peng, Wanli Zuo, Fengling He SVM based adaptive learning method for text classification from positive and unlabeled documents. China, Springer-Verlag London. Xiangju Qin, Yang Zhang, Chen Li, Xue Li Learning from data streams with only positive and unlabeled data. New York, Springer Science- Business Media New York.
Langkah Kerja Klasifikasi Data Otomotif Menggunakan SVM Light
DATA MINING LANJUT Langkah Kerja Klasifikasi Data Otomotif Menggunakan SVM Light Proyek Disusun Oleh: FITRA RIYANDA 1208107010079 JURUSAN INFORMATIKA FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM UNIVERSITAS
Lebih terperinciDATA WAREHOUSE PERTEMUAN I S1 TEKNIK INFORMATIKA TITUS KRISTANTO, S.KOM
DATA WAREHOUSE PERTEMUAN I 22032013 S1 TEKNIK INFORMATIKA TITUS KRISTANTO, S.KOM METODE PEMBELAJARAN Kuliah Diskusi Presentasi Latihan Tugas Quiz UTS UAS BUKU ACUAN Apress Building A Data Warehouse With
Lebih terperinciBAB II LANDASAN TEORI
BAB II LANDASAN TEORI 2.1 Data Mining Data Mining adalah proses yang mempekerjakan satu atau lebih teknik pembelajaran komputer (machine learning) untuk menganalisis dan mengekstraksi pengetahuan (knowledge)
Lebih terperinciBAB II KONSEP DATA WAREHOUSING
BAB II KONSEP DATA WAREHOUSING Komptensi yang diharapkan: Peserta pembelajaran memahami konsep-konsep, berbagai istilah, karakteristik, manfaat, tujuan, tugas-tugas data warehouseing. A. Pengertian Beberapa
Lebih terperinciBAB III METODE PENELITIAN
BAB III METODE PENELITIAN 3.1. Metode Pengumpulan Data Data yang digunakan pada penelitian ini merupakan data sentimen dari pengguna aplikasi android yang memberikan komentarnya pada fasilitas user review
Lebih terperinci6/26/2011. Menurut W.H. Inmon dan Richard D.H. Menurut Vidette Poe
Menurut W.H. Inmon dan Richard D.H. koleksi data yang mempunyai sifat berorientasi subjek,terintegrasi,time-variant, dan bersifat tetap dari koleksi data dalam mendukung proses pengambilan keputusan management
Lebih terperinciMetode Klasifikasi (SVM Light dan K-NNK. NN) Dr. Taufik Fuadi Abidin, S.Si., M.Tech. Jurusan Informatika FMIPA Universitas Syiah Kuala
Metode Klasifikasi (SVM Light dan K-NNK NN) Dr. Taufik Fuadi Abidin, S.Si., M.Tech Jurusan Informatika FMIPA Universitas Syiah Kuala www.informatika.unsyiah.ac.id/tfa Alur dan Proses Cleaning Process Dokumen
Lebih terperincihttp://www.brigidaarie.com Apa itu database? tempat penyimpanan data yang saling berhubungan secara logika Untuk apa database itu?? untuk mendapatkan suatu informasi yang diperlukan oleh suatu organisasi
Lebih terperinciUniversitas Putra Indonesia YPTK Padang Fakulas Ilmu Komputer Program Studi Teknik Informatika. Knowledge Discovery in Databases (KDD)
Universitas Putra Indonesia YPTK Padang Fakulas Ilmu Komputer Program Studi Teknik Informatika Knowledge Discovery in Databases (KDD) Knowledge Discovery in Databases (KDD) Definisi Knowledge Discovery
Lebih terperinciBAB II LANDASAN TEORI
BAB II LANDASAN TEORI II.1 Text Mining Text Mining merupakan penerapan konsep dan teknik data mining untuk mencari pola dalam teks, proses penganalisaan teks guna menemukan informasi yang bermanfaat untuk
Lebih terperinciPERTEMUAN 14 DATA WAREHOUSE
PERTEMUAN 14 DATA WAREHOUSE Data Warehouse Definisi : Data Warehouse adalah Pusat repositori informasi yang mampu memberikan database berorientasi subyek untuk informasi yang bersifat historis yang mendukung
Lebih terperinciBasis Data Oracle - Business Intelligence System. Ramos Somya, M.Cs.
Basis Data Oracle - Business Intelligence System Ramos Somya, M.Cs. Menurut W.H. Inmon dan Richard D.H., data warehousing adalah koleksi data yang mempunyai sifat berorientasi subjek, terintegrasi, time-variant,
Lebih terperinciBAB II LANDASAN TEORI
BAB II LANDASAN TEORI 2.1. Data Data adalah sebuah rekaman dari fakta-fakta, konsep-konsep, atau instruksiinstruksi pada media penyimpanan untuk komunikasi perolehan, dan pemrosesan dengan cara otomatis
Lebih terperinciBAB II TINJAUAN PUSTAKA. yang akan dibuat adalah sebagai berikut : Sistem Monitoring Pertumbuhan Balita Berbasis Web. Wahyuningsih
BAB II TINJAUAN PUSTAKA A. Telaah Penelitian Penelitian sebelumnya yang berhubungan dengan sistem informasi yang akan dibuat adalah sebagai berikut : Wahyuningsih (2011) telah melakukan penelitian yang
Lebih terperinciTINJAUAN PUSTAKA. Definisi Data Mining
TINJAUAN PUSTAKA Definisi Data Mining Sistem Manajemen Basis Data tingkat lanjut dan teknologi data warehousing mampu untuk mengumpulkan banjir data dan untuk mentransformasikannya ke dalam basis data
Lebih terperinciAbidah Elcholiqi, Beta Noranita, Indra Waspada
Abidah Elcholiqi, Beta Noranita, Indra Waspada PENENTUAN BESAR PINJAMAN DI KOPERASI SIMPAN PINJAM DENGAN ALGORITMA K-NEAREST NEIGHBOR (Studi Kasus di Koperasi Simpan Pinjam BMT Bina Insani Pringapus) Abidah
Lebih terperinciPERANCANGAN DATA WAREHOUSE CALON MAHASISWA BARU POLITEKNIK NEGERI LHOKSEUMAWE
PERANCANGAN DATA WAREHOUSE CALON MAHASISWA BARU POLITEKNIK NEGERI LHOKSEUMAWE Nanang Prihatin 1 1 Dosen Politeknik Negeri Lhokseumawe ABSTRAK Bagi sebuah perguruan tinggi, penerimaan calon mahasiswa merupakan
Lebih terperinciKARAKTERISTIK DATA WAREHOUSE
KARAKTERISTIK DATA WAREHOUSE Karakteristik data warehouse menurut Inmon, yaitu : 1. Subject Oriented (Berorientasi subject) Data warehouse berorientasi subject artinya data warehouse didesain untuk menganalisa
Lebih terperinci[Data Warehouse] [6/C2 & 6/D2]
[Data Warehouse] [6/C2 & 6/D2] [ Chapter 2] Jenis dan Karakteristik Data Warehouse Dedy Alamsyah, S.Kom, M.Kom [NIDN : 0410047807] Jenis Data Warehouse 1. Functional Data Warehouse (Data Warehouse Fungsional)
Lebih terperinciBAB III METODELOGI PENELITIAN
BAB III METODELOGI PENELITIAN 3.1 Metode Penelitian Metode penelitian yang digunakan yaitu metode eksperimental dimana metode ini bekerja dengan memanipulasi dan melakukan kontrol pada objek penelitian
Lebih terperinciBAB I PENDAHULUAN 1.1 Latar Belakang Masalah
BAB I PENDAHULUAN 1.1 Latar Belakang Masalah Perkembangan teknologi informasi selalu dituntut untuk dapat memenuhi berbagai kebutuhan di segala bidang kehidupan yang semakin lama semakin meningkat dan
Lebih terperinciAdapun karakteristik umum yang dimiliki datawarehouse adalah :
1 Data Warehouse Data Warehouse adalah database yang didesain khusus untuk mengerjakan proses query, membuat laporan dan analisa. Data yang di simpan adalah data business history dari sebuah organisasi
Lebih terperinciBAB II LANDASAN TEORI
BAB II LANDASAN TEORI 1.1 Data Mining Data mining adalah proses yang menggunakan teknik statistik, matematika, kecerdasan buatan, dan machine learning untuk mengekstrasi dan mengidentifikasi informasi
Lebih terperinciBAB IV METODOLOGI PENELITIAN. Penelitian ini dilakukan dengan melalui empat tahap utama, dimana
BAB IV METODOLOGI PENELITIAN Penelitian ini dilakukan dengan melalui empat tahap utama, dimana tahap pertama adalah proses pengumpulan dokumen teks yang akan digunakan data training dan data testing. Kemudian
Lebih terperinciIMPLEMENTASI K NEAREST NEIGHBOR (KNN) PADA KLASIFIKASI ARTIKEL WIKIPEDIA INDONESIA
IMPLEMENTASI K NEAREST NEIGHBOR (KNN) PADA KLASIFIKASI ARTIKEL WIKIPEDIA INDONESIA Erik Hardiyanto 1, Faisal Rahutomo 2, Dwi Puspitasari 3 Jurusan Teknologi Informasi, Program Studi Teknik Informatika,
Lebih terperinciBAB II LANDASAN TEORI
6 BAB II LANDASAN TEORI 2 2.1 Tinjauan Pustaka Aplikasi sistem pendukung keputusan untuk menentukan penjurusan pada tingkat SMA sudah beberapa kali dilakukan dengan menggunakan metode yang bermacam-macam.
Lebih terperinciPengantar Datawarehouse Muhammad Subhan subhan@binusian.org m@tsubhan.com subhan_0072001@live.com http://subhan.blog.binusian.org http://geeks.netindonesia.net/blogs/muhammadsubhan Lisensi Dokumen: Copyright
Lebih terperinciBAB III LANDASAN TEORI
BAB III LANDASAN TEORI Dalam bab ini akan dijelaskan tentang beberapa konsep tentang supra desa, business intelligence, data warehouse, staging area, ETL, OLAP, ROLAP, Pentaho Data Integration, dan PHP.
Lebih terperinciANALISIS DAN PERANCANGAN DATA WAREHOUSE PERPUSTAKAAN (STUDI KASUS: PERPUSTAKAAN UNIVERSITAS BINADARMA PALEMBANG)
ANALISIS DAN PERANCANGAN DATA WAREHOUSE PERPUSTAKAAN (STUDI KASUS: PERPUSTAKAAN UNIVERSITAS BINADARMA PALEMBANG) Andri 1), Baibul Tujni 2) 1,2) Program Studi Sistem Informasi Universitas Binadarma Jalan
Lebih terperinciPENERAPAN ALGORITMA C5.0 DALAM PENGKLASIFIKASIAN DATA MAHASISWA UNIVERSITAS NEGERI GORONTALO
PENERAPAN ALGORITMA C5.0 DALAM PENGKLASIFIKASIAN DATA MAHASISWA UNIVERSITAS NEGERI GORONTALO Wandira Irene, Mukhlisulfatih Latief, Lillyan Hadjaratie Program Studi S1 Sistem Informasi / Teknik Informatika
Lebih terperinciOleh: Astrid Darmawan Pembimbing: Selvia Lorena Br. Ginting, M.T Wendi Zarman, M.Si
PEMBUATAN APLIKASI DATA MINING UNTUK MEMPREDIKSI MASA STUDI MAHASISWA MENGGUNAKAN ALGORITMA K-NEAREST NEIGHBORHOOD (Studi Kasus Data Akademik Jurusan Teknik Komputer-S1 Universitas Komputer Indonesia)
Lebih terperinciBAB 2 TINJAUAN PUSTAKA
BAB 2 TINJAUAN PUSTAKA Pada tinjauan pustaka ini membahas tentang landasan teori yang medukung pembahasan yang berhubungan dengan sistem yang akan dibuat. 2.1 Data Mining Data mining adalah kegiatan menemukan
Lebih terperinciPENERAPAN TEKNIK DATA MINING UNTUK MENENTUKAN HASIL SELEKSI MASUK SMAN 1 GIBEBER UNTUK SISWA BARU MENGGUNAKAN DECISION TREE
PENERAPAN TEKNIK DATA MINING UNTUK MENENTUKAN HASIL SELEKSI MASUK SMAN 1 GIBEBER UNTUK SISWA BARU MENGGUNAKAN DECISION TREE Castaka Agus Sugianto Program Studi Teknik lnformatika Politeknik TEDC Bandung
Lebih terperinciBAB I PENDAHULUAN Latar Belakang
BAB I PENDAHULUAN 1.1. Latar Belakang Pertukaran informasi di zaman modern ini telah sampai pada era digital. Hal ini ditandai dengan semakin dibutuhkannya teknologi berupa komputer dan jaringan internet
Lebih terperinciDATA WAREHOUSING AND ONLINE ANALYTICAL PROCESSING (OLAP)
DATA WAREHOUSING AND ONLINE ANALYTICAL PROCESSING (OLAP) Overview Data Warehouse dan OLAP merupakan elemen penting yang mendukung decision support. Terutama bagi perusahaan perusahaan besar dengan database
Lebih terperinciPERKEMBANGAN BASIS DATA SAAT INI
PERKEMBANGAN BASIS DATA SAAT INI Sejak tahun 1960-an penggunaan basis data sudah digunakan untuk bidang komersial, dimana pemrosesan file-nya masih berbasis manajemen file tradisional. Perkembangan komputer
Lebih terperinciText dan Web Mining. Budi Susanto Teknik Informatika UKDW Yogyakarta
Text dan Web Mining Budi Susanto Teknik Informatika UKDW Yogyakarta Deskripsi Matakuliah ini secara prinsip menekankan tentang teknik-teknik yang perlu diketahui mahasiswa dalam mengelola kumpulan dokumen
Lebih terperinciBAB II TINJAUAN PUSTAKA
BAB II TINJAUAN PUSTAKA 2.1 Penelitian terkait Penelitian ini sebelumnya dilakukan studi kepustakaan dari penelitian terdahulu sebagai dasar atau acuan untuk menyelesaikan tugas akhir. Dari studi kepustakaan
Lebih terperinciMateri 1 DATA MINING 3 SKS Semester 6 S1 Sistem Informasi UNIKOM 2015 Nizar Rabbi Radliya
Materi 1 DATA MINING 3 SKS Semester 6 S1 Sistem Informasi UNIKOM 2015 Nizar Rabbi Radliya nizar.radliya@yahoo.com Nama Mahasiswa NIM Kelas 1. Memahami cakupan materi dan sistem perkuliahan Data Mining.
Lebih terperinciBAB II DASAR TEORI. untuk memenuhi berbagai kebutuhan. Kumpulan file/table/arsip yang saling berhubungan yang disimpan dalam
BAB II DASAR TEORI 2.1. Database Database (basis data) dapat didefinisikan dalam sejumlah sudut pandang seperti (Fathansyah, 1999): Himpunan kelompok data (arsip) yang saling berhubungan yang diorganisasi
Lebih terperinciBAB II TINJAUAN PUSTAKA
BAB II TINJAUAN PUSTAKA 2.1. Penelitian Terkait 2.1.1. Implementasi Opinion Mining Pernah dilakukan penelitian tentang opinion mining membahas tentang ekstraksi data opini publik pada perguruan tinggi.
Lebih terperinciBAB III ANALISA DAN PERANCANGAN SISTEM
3.1 Persiapan Data BAB III ANALISA DAN PERANCANGAN SISTEM Dalam pengerjaan tugas akhir ini data yang digunakan adalah kalimat tanya Berbahasa Indonesia, dimana kalimat tanya tersebut diambil dari soal-soal
Lebih terperinciBAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI
BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI 2.1 Tinjauan Studi Sebelum melakukan penelitian penulis terlebih dahulu melakukan tinjauan pustaka dari penelitian lain dan penelitian tentang prediksi penjurusan
Lebih terperinciPenghitungan k-nn pada Adaptive Synthetic-Nominal (ADASYN-N) dan Adaptive Synthetic-kNN (ADASYN-kNN) untuk Data Nominal- Multi Kategori
Penghitungan k-nn pada Adaptive Synthetic-Nominal (ADASYN-N) dan Adaptive Synthetic-kNN (ADASYN-kNN) untuk Data Nominal- Multi Kategori Abstrak 1 Sri Rahayu, 2 Teguh Bharata Adji & 3 Noor Akhmad Setiawan
Lebih terperinciDr. Taufik Fuadi Abidin, S.Si., M.Tech
Dr. Taufik Fuadi Abidin, S.Si., M.Tech Ketua Program Studi Informatika FMIPA Universitas Syiah Kuala tfa@informatika.unsyiah.ac.id www.informatika.unsyiah.ac.id/tfa Disampaikan pada Seminar Nasional Teknologi
Lebih terperinciSTUDI AWAL KLASIFIKASI ARTIKEL WIKIPEDIA BAHASA INDONESIA DENGAN MENGGUNAKAN METODA K NEAREST NEIGHBOR
STUDI AWAL KLASIFIKASI ARTIKEL WIKIPEDIA BAHASA INDONESIA DENGAN MENGGUNAKAN METODA K NEAREST NEIGHBOR Erik Hardiyanto 1), Faisal Rahutomo 1) 1 Jurusan Teknologi Informasi, Program Studi Teknik Informatika,
Lebih terperinciAPLIKASI DATA MINING UNTUK MENGETAHUI HUBUNGAN PROSES MASUK DENGAN TINGKAT KELULUSAN MAHASISWA (Studi Kasus: STMIK AMIKOM YOGYAKARTA) JUDUL
APLIKASI DATA MINING UNTUK MENGETAHUI HUBUNGAN PROSES MASUK DENGAN TINGKAT KELULUSAN MAHASISWA (Studi Kasus: STMIK AMIKOM YOGYAKARTA) JUDUL NASKAH PUBLIKASI diajukan oleh Faundry Amrul Ma ruf 09.11.2997
Lebih terperinciBAB 1 PENDAHULUAN. 1.1 Latar Belakang
BAB 1 PENDAHULUAN Bab ini membahas tentang hal-hal yang menjadi latar belakang pembuatan tugas akhir, rumusan masalah, tujuan, batasan masalah, manfaat, metodologi penelitian serta sistematika penulisan
Lebih terperinciBAB I PENDAHULUAN. 1.1 Latar Belakang
BAB I PENDAHULUAN 1. 1.1 Latar Belakang Perkembangan dunia telekomunikasi meningkat secara signifikan dalam kurun waktu satu dekade terahir. Tidak hanya dari segi jumlah pengguna, jenis layanan yang ditawarkanpun
Lebih terperinciINDEXING AND RETRIEVAL ENGINE UNTUK DOKUMEN BERBAHASA INDONESIA DENGAN MENGGUNAKAN INVERTED INDEX
INDEXING AND RETRIEVAL ENGINE UNTUK DOKUMEN BERBAHASA INDONESIA DENGAN MENGGUNAKAN INVERTED INDEX Wahyu Hidayat 1 1 Departemen Teknologi Informasi, Fakultas Ilmu Terapan, Telkom University 1 wahyuhidayat@telkomuniversity.ac.id
Lebih terperinciTEKNIK DATA MINING UNTUK MEMPREDIKSI MASA STUDI MAHASISWA MENGGUNAKAN ALGORITMA K-NEAREST NEIGHBORHOOD
Jurnal Teknik Komputer Unikom Komputika Volume 3, No.2-2014 TEKNIK DATA MINING UNTUK MEMPREDIKSI MASA STUDI MAHASISWA MENGGUNAKAN ALGORITMA K-NEAREST NEIGHBORHOOD Selvia Lorena Br Ginting 1), Wendi Zarman
Lebih terperinciBAB I PENDAHULUAN 1.1 Latar Belakang
BAB I PENDAHULUAN 1.1 Latar Belakang Analisis sentimen merupakan proses dalam mengolah, memahami, dan mengekstrak data dalam bentuk teks terhadap suatu topik, kejadian ataupun individu untuk mendapatkan
Lebih terperinciApa itu is K-Nearest Neighbor (KNN) Algorithm?
K-Nearest Neighbor Pendahuluan K-Nearest Neighbour atau KNN adalah salah dari algoritma instance based learning atau case-based reasoning. Definisi case based reasoning: KNN digunakan dalam banyak aplikasi
Lebih terperinciBAB I PENDAHULUAN. Berkembangnya teknologi dan informasi saat ini telah menghasilkan kumpulan
1 BAB I PENDAHULUAN 1.1 Latar Belakang Berkembangnya teknologi dan informasi saat ini telah menghasilkan kumpulan data diberbagai bidang ilmu pengetahuan, bisnis ataupun pemerintahan. Pada proses penyediaan
Lebih terperinciUKDW. 1.1 Latar Belakang BAB 1 PENDAHULUAN
BAB 1 PENDAHULUAN 1.1 Latar Belakang Perkembangan teknologi komputer yang pesat pada masa kini menjadi perhatian utama bagi manusia. Kemajuan teknologi komputer yang pesat ini menimbulkan bermacam-macam
Lebih terperinciBAB 1 PENDAHULUAN. 1.1 Latar Belakang
BAB 1 PENDAHULUAN 1.1 Latar Belakang Peminatan siswa SMA Negeri 8 Bandung dilakukan di kelas X SMA setelah tahap daftar ulang. Hal tersebut berdasarkan aturan kurikulum 2013 [11]. Peminatan merupakan hal
Lebih terperinciBAB III METODOLOGI PENELITIAN. Dataset
BAB III METODOLOGI PENELITIAN Metodologi penelitian diuraikan dalam skema tahap penelitian untuk memberikan petunjuk atau gambaran yang jelas, teratur, dan sistematis seperti yang ditunjukkan pada Gambar
Lebih terperinciStemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi
Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi Stemming in Indonesian Language Twit Preprocessing Implementing Phonetic
Lebih terperinciPERBANDINGAN K-NEAREST NEIGHBOR DAN NAIVE BAYES UNTUK KLASIFIKASI TANAH LAYAK TANAM POHON JATI
Techno.COM, Vol. 15, No. 3, Agustus 2016: 241-245 PERBANDINGAN K-NEAREST NEIGHBOR DAN NAIVE BAYES UNTUK KLASIFIKASI TANAH LAYAK TANAM POHON JATI Didik Srianto 1, Edy Mulyanto 2 1,2 Teknik Informatika,
Lebih terperinciBAB I PENDAHULUAN 1.1 Latar Belakang
BAB I PENDAHULUAN 1.1 Latar Belakang Perkembangan teknologi saat ini telah mengalami perubahan yang pesat. Teknologi telah menjadi bagian dari kehidupan manusia. Hampir setiap kegiatan yang dilakukan manusia
Lebih terperinciPRESENTASI TUGAS AKHIR KI PERANCANGAN DAN PEMBANGUNAN MODUL REKOMENDASI SECTION PADA OPEN JOURNAL SYSTEM (OJS)
PRESENTASI TUGAS AKHIR KI091391 PERANCANGAN DAN PEMBANGUNAN MODUL REKOMENDASI SECTION PADA OPEN JOURNAL SYSTEM (OJS) (Kata kunci: Jurnal, K-Nearest Neighbor, Karya Ilmiah, Klasifikasi Penyusun Tugas Akhir
Lebih terperinciPENGKLASIFIKASIAN TINGKAT DANGEROUS DRIVING BEHAVIOR MENGGUNAKAN DATA ELEKTROENSEFALOGRAFI (EEG) DENGAN PENDEKATAN MACHINE LEARNING
PENGKLASIFIKASIAN TINGKAT DANGEROUS DRIVING BEHAVIOR MENGGUNAKAN DATA ELEKTROENSEFALOGRAFI (EEG) DENGAN PENDEKATAN MACHINE LEARNING Nama : Alisca Damayanti NPM : 50412648 Jurusan : Teknik Informatika Fakultas
Lebih terperinciBAB II LANDASAN TEORI
2.1 Studi Literatur BAB II LANDASAN TEORI Penelitian yang berkaitan dengan klasifikasi kalimat tanya berdasarkan Taksonomi Bloom telah dilakukan oleh Selvia Ferdiana Kusuma dengan menggunakan algoritma
Lebih terperinciBAB I PENDAHULUAN. Sistem penglihatan manusia memiliki akurasi yang besar dalam mengenali
BAB I PENDAHULUAN 1.1. Latar Belakang Sistem penglihatan manusia memiliki akurasi yang besar dalam mengenali objek 3 dimensi. Sistem penglihatan manusia dapat membedakan berbagai macam objek 3 dimensi
Lebih terperinciBAB II LANDASAN TEORI. Teori teori yang digunakan sebagai landasan dalam desain dan. implementasi dari sistem ini adalah sebagai berikut :
BAB II LANDASAN TEORI Teori teori yang digunakan sebagai landasan dalam desain dan implementasi dari sistem ini adalah sebagai berikut : 2.1. Sistem Informasi Manajemen Sistem Informasi Manajemen adalah
Lebih terperinciBAB I PENDAHULUAN 1.1 Latar Belakang
BAB I PENDAHULUAN 1.1 Latar Belakang Education data mining merupakan penelitian didasarkan data di dunia pendidikan untuk menggali dan memperoleh informasi tersembunyi dari data yang ada. Pemanfaatan education
Lebih terperinciKLASIFIKASI NASABAH ASURANSI JIWA MENGGUNAKAN ALGORITMA NAIVE BAYES BERBASIS BACKWARD ELIMINATION
KLASIFIKASI NASABAH ASURANSI JIWA MENGGUNAKAN ALGORITMA NAIVE BAYES BERBASIS BACKWARD ELIMINATION Betrisandi betris.sin@gmail.com Universitas Ichsan Gorontalo Abstrak Pendapatan untuk perusahaan asuransi
Lebih terperinciBAB I PENDAHULUAN 1.1 Latar Belakang
BAB I PENDAHULUAN 1.1 Latar Belakang Internet saat ini merupakan kebutuhan pokok yang tidak bisa dipisahkan dari segenap sendi kehidupan. Berbagai pekerjaan ataupun kebutuhan dapat dilakukan melalui media
Lebih terperinciUKDW BAB 1 PENDAHULUAN. 1.1 Latar Belakang
BAB 1 PENDAHULUAN 1.1 Latar Belakang Tinjauan atau review seseorang yang ditujukan kepada suatu objek atau produk sangat berpengaruh terhadap penilaian publik atas produk tersebut (Sahoo, 2013). Review
Lebih terperinciMEMBANGUN DATA WAREHOUSE
MEMBANGUN DATA WAREHOUSE A. Menentukan Bentuk Data Warehouse Data warehouse memiliki berbagai macam bentuk yang sering digunakan. Jadi sebelum membangun suatu data warehouse kita harus memutuskan bentuk
Lebih terperinciTugas Ujian Tengah Semester (UTS) Data Mining Lanjut ABSTRAK
PERBANDINGAN KLASIFIKASI KNN DAN NAIVE BAYESIAN SERTA PERBANDINGAN CLUSTERING SIMPLE K-MEANS YANG MENGGUNAKAN DISTANCE FUNCTION MANHATTAN DISTANCE DAN EUCLIDIAN DISTANCE PADA DATASET Dresses_Attribute_Sales
Lebih terperinciModel Aplikasi Penentuan Jenis Beasiswa Berbasis Algoritma K-NN Termodifikasi
ISSN: 2089-3787 1181 Model Aplikasi Penentuan Jenis Beasiswa Berbasis Algoritma K-NN Termodifikasi Soegiarto 1, Bahar 2 Program Studi Teknik Informatika, STMIK Banjarbaru Jl. A. Yani Km. 33,3 Banjarbaru
Lebih terperinciBAB II TINJAUAN PUSTAKA Indeks Prestasi Kumulatif dan Lama Studi. menggunakan dokumen/format resmi hasil penilaian studi mahasiswa yang sudah
BAB II TINJAUAN PUSTAKA 2.1 Landasan Teori 2.1.1 Indeks Prestasi Kumulatif dan Lama Studi Mahasiswa yang telah menyelesaikan keseluruhan beban program studi yang telah ditetapkan dapat dipertimbangkan
Lebih terperinciBAB I PENDAHULUAN 1.1 Latar Belakang
BAB I PENDAHULUAN 1.1 Latar Belakang Meningkatnya perkembangan teknologi juga diikuti dengan berkembangnya penggunaan berbagai situs jejaring sosial. Salah satu jejaring sosial yang sangat marak digunakan
Lebih terperinci3.6 Data Mining Klasifikasi Algoritma k-nn (k-nearest Neighbor) Similaritas atribut numerik
DAFTAR ISI PERNYATAAN... iii PRAKATA... vi DAFTAR ISI... viii DAFTAR GAMBAR... xi DAFTAR TABEL... xiv DAFTAR PERSAMAAN... xv DAFTAR ALGORITMA... xvi DAFTAR LAMPIRAN... xvii INTISARI... xviii ABSTRACT...
Lebih terperinciBAB III METODOLOGI PENELITIAN
BAB III METODOLOGI PENELITIAN Metodologi penelitian merupakan rangkaian dari langkah-langkah yang diterapkan dalam penelitian, secara umum dan khusus langkah-langkah tersebut tertera pada Gambar flowchart
Lebih terperinciPerancangan Sistem Pembagian Kelas Kuliah Mahasiswa dengan Kombinasi Metode K-Means dan K-Nearest Neighbors
Konferensi Nasional Sistem & Informatika 2017 STMIK STIKOM Bali, 10 Agustus 2017 Perancangan Sistem Pembagian Kelas Kuliah Mahasiswa dengan Kombinasi Metode K-Means dan K-Nearest Neighbors Gede Aditra
Lebih terperinciUKDW BAB I PENDAHULUAN
BAB I PENDAHULUAN 1.1 Latar Belakang Dalam dunia bisnis pada jaman sekarang, para pelaku bisnis senantiasa selalu berusaha mengembangkan cara-cara untuk dapat mengembangkan usaha mereka dan memperhatikan
Lebih terperinciBAB I PENDAHULUAN. Informasi yang terdapat dalam Laporan Hasil Pemeriksaan (LHP) BPK RI
BAB I PENDAHULUAN I.1 Latar Belakang Informasi yang terdapat dalam Laporan Hasil Pemeriksaan (LHP) BPK RI saat ini belum di-manaje dengan baik secara digital. Informasi yang terdapat dalam LHP yang terdapat
Lebih terperinciBusiness Intelligence. Data Warehousing, Data Acquisition, Data Mining, Business Analytics, and Visualization
Business Intelligence Data Warehousing, Data Acquisition, Data Mining, Business Analytics, and Visualization DEFINISI DATA WAREHOUSE Data warehouse adalah database yang saling bereaksi yang dapat digunakan
Lebih terperinciKLASIFIKASI PADA TEXT MINING
Text dan Web Mining - FTI UKDW - BUDI SUSANTO 1 KLASIFIKASI PADA TEXT MINING Budi Susanto Text dan Web Mining - FTI UKDW - BUDI SUSANTO 2 Tujuan Memahami konsep dasar sistem klasifikasi Memahami beberapa
Lebih terperinciImplementasi Rocchio s Classification dalam Mengkategorikan Renungan Harian Kristen
Implementasi Rocchio s Classification dalam Mengkategorikan Renungan Harian Kristen Elisabeth Adelia Widjojo, Antonius Rachmat C, R. Gunawan Santosa Program Studi Teknik Informatika, Fakultas Teknologi
Lebih terperinciPENERAPAN DATA MINING UNTUK EVALUASI KINERJA AKADEMIK MAHASISWA MENGGUNAKAN ALGORITMA NAÏVE BAYES CLASSIFIER
PENERAPAN DATA MINING UNTUK EVALUASI KINERJA AKADEMIK MAHASISWA MENGGUNAKAN ALGORITMA NAÏVE BAYES CLASSIFIER I. PENDAHULUAN Mahasiswa merupakan salah satu aspek penting dalam evaluasi keberhasilan penyelenggaraan
Lebih terperinciBAB 2 LANDASAN TEORI
BAB 2 LANDASAN TEORI 2.1 Penambangan Data (Data Mining) Pengertian data mining, berdasarkan beberapa orang: 1. Data mining (penambangan data) adalah suatu proses untuk menemukan suatu pengetahuan atau
Lebih terperinciK NEAREST NEIGHBOR INFORMATION RETRIEVAL (SISTEM TEMU KEMBALI INFORMASI)
K NEAREST NEIGHBOR INFORMATION RETRIEVAL (SISTEM TEMU KEMBALI INFORMASI) Disusun Oleh : Alfian Sukma 081116007 Dian Ramadhan 081211631003 Bagus Puji Santoso 081211631061 Tiara Ratna Sari 081211632014 Ni
Lebih terperinciPREDIKSI HERREGISTRASI CALON MAHASISWA BARU MENGGUNAKAN ALGORITMA NAÏVE BAYES
PREDIKSI HERREGISTRASI CALON MAHASISWA BARU MENGGUNAKAN ALGORITMA NAÏVE BAYES Selvy Megira 1), Kusrini 2), Emha Taufiq Luthfi 3) 1), 2), 3) Teknik Universitas AMIKOM Yogyakarta Jl Ring road Utara, Condongcatur,
Lebih terperinciPERBANDINGAN KLASIFIKASI DOKUMEN TEKS MENGGUNAKAN METODE NAÏVE BAYES DENGAN K-NEAREST NEIGHBOR. Abstrak
ISSN 1858 4667 JURNAL LINK Vol 13/No.1/Januari 2010 PERBANDINGAN KLASIFIKASI DOKUMEN TEKS MENGGUNAKAN METODE NAÏVE BAYES DENGAN K-NEAREST NEIGHBOR Cahyo Darujati Fakultas Ilmu Komputer, Universitas Narotama
Lebih terperinciAPLIKASI ALGORITMA CLASSIFY-BY-SEQUENCE UNTUK PENILAIAN KREDIT PADA BANK Y. Mohammad Iqbal 1. Abstrak
APLIKASI ALGORITMA CLASSIFY-BY-SEQUENCE UNTUK PENILAIAN KREDIT PADA BANK Y Mohammad Iqbal Jurusan Matematika, FMIPA-Institut Teknologi Sepuluh Nopember iqbalmohammad.math@gmail.com Abstrak Dalam penilaian,
Lebih terperinciBAB II TINJAUAN PUSTAKA
BAB II TINJAUAN PUSTAKA 2.1. Data Mining Dengan perkembangan pesat teknologi informasi termasuk diantaranya teknologi pengelolaan data, penyimpanan data, pengambilan data disertai kebutuhan pengambilan
Lebih terperinciJurnal Ilmiah Sains, Teknologi, Ekonomi, Sosial dan Budaya Vol. 1 No. 4 Desember 2017
TEXT MINING DALAM PENENTUAN KLASIFIKASI DOKUMEN SKRIPSI DI PRODI TEKNIK INFORMATIKA FAKULTAS ILMU KOMPUTER BERBASIS WEB Teuku Muhammad Johan dan Riyadhul Fajri Program Studi Teknik Informatika Fakultas
Lebih terperinciBAB II TINJAUAN PUSTAKA. penelitian yang penting (Baharudin, Lee and Khan, 2010). Beberapa peneliti telah
BAB II TINJAUAN PUSTAKA Beberapa peneliti yang melakukan penelitian menganggap text mining menjadi sangat penting karena kemudahan untuk mendapatkan data elektronik dari berbagai macam sumber, karena itu
Lebih terperinciOptimasi Teknik Klasifikasi Modified k Nearest Neighbor Menggunakan Algoritma Genetika
Optimasi Teknik Klasifikasi Modified k Nearest Neighbor Menggunakan Algoritma Genetika Siti Mutrofin 1, Arrie Kurniawardhani 2, Abidatul Izzah 3, Mukhamad Masrur 4 Universitas Pesantren Tinggi Darul Ulum
Lebih terperinciBAB I PENDAHULUAN 1.1 Latar Belakang
BAB I PENDAHULUAN 1.1 Latar Belakang Saat ini, microblogging menjadi sangat popular untuk alat komunikasi antara pengguna internet. Setiap hari jutaan pesan muncul di website penyedia microblogging diantaranya
Lebih terperinciBAB I. Pendahuluan. 1. Latar Belakang Masalah
BAB I Pendahuluan 1. Latar Belakang Masalah Semakin canggihnya teknologi di bidang komputasi dan telekomunikasi pada masa kini, membuat informasi dapat dengan mudah didapatkan oleh banyak orang. Kemudahan
Lebih terperinciIMPLEMENTASI DATA MINING DENGAN NAIVE BAYES CLASSIFIER UNTUK MENDUKUNG STRATEGI PEMASARAN DI BAGIAN HUMAS STMIK AMIKOM YOGYAKARTA
IMPLEMENTASI DATA MINING DENGAN NAIVE BAYES CLASSIFIER UNTUK MENDUKUNG STRATEGI PEMASARAN DI BAGIAN HUMAS STMIK AMIKOM YOGYAKARTA Erik Hadi Saputra 1), Burhan Alfironi Muktamar 2) 1), 2) Teknik Informatika
Lebih terperinciIMPLEMENTASI TEKNIK DATA MINING UNTUK MEMPREDIKSI TINGKAT KELULUSAN MAHASISWA PADA UNIVERSITAS BINA DARMA PALEMBANG
IMPLEMENTASI TEKNIK DATA MINING UNTUK MEMPREDIKSI TINGKAT KELULUSAN MAHASISWA PADA UNIVERSITAS BINA DARMA PALEMBANG Andri 1), Yesi Novaria Kunang 2), Sri Murniati 3) 1,2,3) Jurusan Sistem Informasi Universitas
Lebih terperinciDAFTAR ISI Transformasi data... 47
DAFTAR ISI HALAMAN JUDUL... i HALAMAN PENGESAHAN... ii HALAMAN PERNYATAAN... iii PRAKATA... iv DAFTAR ISI... vi DAFTAR TABEL... ix DAFTAR GAMBAR... xi INTISARI... xiii ABSTRACT... xiv BAB I PENDAHULUAN...
Lebih terperinciJURNAL TEKNOLOGI INFORMASI & PENDIDIKAN ISSN : VOL. 2 NO. 1 SEPTEMBER 2010
PERBANDINGAN METODE K-NEAREST NEIGHBOR (KNN) dan METODE NEAREST CLUSTER CLASSIFIER (NCC) DALAM PENGKLASIFIKASIAN KUALITAS BATIK TULIS Nesi Syafitri 1 ABSTRACT Various problem that are related to classification
Lebih terperinciBAB II LANDASAN TEORI
1 BAB II LANDASAN TEORI 2.1. Teori Umum Adapun teori ataupun istilah istilah umum dalam data warehouse dan business Intelligence 2.1.1. Data dan Informasi Menurut McLeod (2007, 11), data terdiri dari fakta-fakta
Lebih terperinciBAB 2 LANDASAN TEORI
BAB 2 LANDASAN TEORI 2.1. Data Mining Data mining adalah bagian dari knowledge discovery di database yang menganalisa database berukuran besar untuk menemukan pola yang berguna pada data (Silberschatz,
Lebih terperinci