BAB III ANALISA DAN PERANCANGAN SISTEM

dokumen-dokumen yang mirip
BAB III ANALISA DAN PERANCANGAN SISTEM

BAB II LANDASAN TEORI

BAB III METODELOGI PENELITIAN

BAB III ANALISA DAN PERANCANGAN SISTEM

Bab 1 PENDAHULUAN. 1.1 Latar Belakang Masalah

Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi

BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah 1.2 Hipotesis

BAB I PENDAHULUAN. penunjang Al-Quran untuk memudahkan untuk mempelajarinya, yang bisa

KLASIFIKASI DATA PENGADUAN MASYARAKAT PADA LAMAN PESDUK CIMAHI MENGGUNAKAN ROCCHIO

BAB III METODOLOGI PENELITIAN

DAFTAR ISI PHP... 15

BAB II TINJAUAN PUSTAKA

BAB III ANALISIS DAN PERANCANGAN SISTEM

UKDW. 1.1 Latar Belakang BAB 1 PENDAHULUAN

KLASIFIKASI TEKS BERBASIS ONTOLOGI UNTUK DOKUMEN TUGAS AKHIR BERBAHASA INDONESIA TUGAS AKHIR

BAB 1 PENDAHULUAN UKDW

BAB IV METODOLOGI PENELITIAN. Penelitian ini dilakukan dengan melalui empat tahap utama, dimana

BAB 1 PENDAHULUAN. Universitas Sumatera Utara

BAB I PENDAHULUAN 1.1 Latar Belakang Masalah

Implementasi Algoritma Term Frequency Inverse Document Frequency dan Vector Space Model untuk Klasifikasi Dokumen Naskah Dinas

PERSYARATAN PRODUK. 1.1 Pendahuluan Latar Belakang Tujuan

commit to user 5 BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori Text mining

EKSTRAKSI FITUR SITUS BERITA ONLINE UNTUK KALEIDOSKOP BERITA TAHUNAN

SISTEM REKOMENDASI DOSEN PEMBIMBING TUGAS AKHIR BERDASARKAN PREFERENSI DAN KEAHLIAN DOSEN MENGGUNAKAN EUCLIDIEN DISTANCE TUGAS AKHIR

BAB 1 PENDAHULUAN UKDW

BAB II LANDASDAN TEORI

BAB III METODOLOGI. Support Vector Machines (SVM) merupakan salah satu metode machine

BAB I PENDAHULUAN 1.1 Latar Belakang

IMPLEMENTASI K NEAREST NEIGHBOR (KNN) PADA KLASIFIKASI ARTIKEL WIKIPEDIA INDONESIA

BAB I PENDAHULUAN. ilmu tertentu dengan menggunakan kaidah-kaidah yang berlaku dalam bidang

BAB IV HASIL DAN PEMBAHASAN

ANALISIS SENTIMEN DATA KRITIK DAN SARAN PELATIHAN APLIKASI TEKNOLOGI INFORMASI (PATI) MENGGUNAKAN ALGORITMA SUPPORT VECTOR MACHINE

BAB 1 PENDAHULUAN. dengan proses pengolahan citra digital (digital image processing), dimana data berupa

BAB III METODOLOGI PENELITIAN

UKDW 1. BAB 1 PENDAHULUAN Latar Belakang Masalah

BAB I PENDAHULUAN 1.1. Latar Belakang

SATUAN ACARA PERKULIAHAN PERANCANGAN DAN ANALISIS ALGORITMA ** (S1/TEKNIK INFORMATIKA) PTA 2010/2011

IMPLEMENTASI METODE TERM FREQUENCY INVERSED DOCUMENT FREQUENCE (TF-IDF) DAN VECTOR SPACE MODEL PADA APLIKASI PEMBERKASAN SKRIPSI BERBASIS WEB

Oleh: ARIF DARMAWAN NIM

3.6 Data Mining Klasifikasi Algoritma k-nn (k-nearest Neighbor) Similaritas atribut numerik

Sistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF)

BAB V IMPLEMENTASI DAN PENGUJIAN SISTEM

BAB I PENDAHULUAN. penyimpanan dan cepat. Tuntutan dari gerakan anti global warming juga

BAB III METODE PENELITIAN

BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah

Analisis Sentimen Pada Data Twitter dengan Menggunakan Text Mining terhadap Suatu Produk

BAB III METODOLOGI PENELITIAN

STUDI AWAL KLASIFIKASI ARTIKEL WIKIPEDIA BAHASA INDONESIA DENGAN MENGGUNAKAN METODA K NEAREST NEIGHBOR

BAB II LANDASAN TEORI

ANALISA KECENDERUNGAN KARAKTER BERDASARKAN KEYWORD DALAM SHORT MESSAGE SERVICE BERBASIS PROTOTYPE ANDROID SOFTWARE APPLICATION

ANALISIS KLASTERING LIRIK LAGU INDONESIA

IMPLEMENTASI ALGORITMA NAÏVE BAYES UNTUK KLASIFIKASI OPINI PADA DATA TWITTER DENGAN EKSPASI QUERY MENGGUNAKAN PENDEKATAN SINONIM

PERANCANGAN DAN IMPLEMENTASI SISTEM REKOMENDASI PENCARIAN BUKU PERPUSTAKAAN MENGGUNAKAN METODE VECTOR SPACE MODEL

BAB IV HASIL DAN PEMBAHASAN. jenis dokumen, yaitu dokumen training dan dokumen uji. Kemudian dua

BAB 1 PENDAHULUAN Latar Belakang

BAB II LANDASAN TEORI

BAB I PENDAHULUAN. pendidikan, perbankan, perencanaan dan sebagainya. Dengan adanya teknologi komputer

UKDW BAB 1 PENDAHULUAN. 1.1 Latar Belakang Masalah

BAB 3 ANALISIS DAN PERANCANGAN SISTEM

BAB 1 PENDAHULUAN 1.1. Latar Belakang

KLASIFIKASI PADA TEXT MINING

Analisis dan Implementasi Graph Clustering pada Berita Digital Menggunakan Algoritma Star Clustering

IMPLEMENTASI ALGORITMA NEURAL NETWORK DENGAN METODE PRUNE UNTUK KLASIFIKASI PENENTUAN DOSEN PEMBIMBING TUGAS AKHIR TUGAS AKHIR

DETEKSI KESESUAIAN BIDANG MINAT TERHADAP PROPOSAL TUGAS AKHIR MAHASISWA STUDI KASUS : MAHASISWA SI UKDW

BAB I PENDAHULUAN 1.1 Latar Belakang Masalah

BAB I PENDAHULUAN I.1. Latar Belakang Masalah

Pengujian Kerelevanan Sistem Temu Kembali Informasi

Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem Temu Kembali Informasi

KLASIFIKASI PADA TEXT MINING

PENDAHULUAN. 1.1 Latar Belakang

KATA PENGANTAR. menyelesaikan penyusunan laporan tugas akhir APLIKASI KLASIFIKASI ARTIKEL TEKNOLOGI INFORMASI PADA MAJALAH CHIP

BAB I PENDAHULUAN. memberikan dampak yang luas dalam bagaimana manusia menjalani hidupnya.

@UKDW BAB 1 PENDAHULUAN Latar Belakang

BAB III ANALISIS DAN PERANCANGAN

ABSTRAK. Kata kunci: Spam, Android, Pesan, Java, Webservice. Universitas Kristen Maranatha

UKDW BAB 1 PENDAHULUAN. 1.1 Latar Belakang

ABSTRAK. Universitas Kristen Maranatha

BAB II TINJAUAN PUSTAKA

BAB 1 PENDAHULUAN. 1.1 Latar Belakang Permasalahan

BAB I. Pendahuluan. 1. Latar Belakang Masalah

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB III METODOLOGI PENELITIAN

ABSTRAK. Keywords : Data Mining, Filter, Data Pre-Processing, Association, Classification, Deskriptif, Prediktif, Data Mahasiswa.

Analisis dan Strategi Algoritma

JURNAL PENGELOMPOKAN SKRIPSI MENGGUNAKAN SELF ORGANIZING MAPS CLUSTERING (STUDI KASUS : PRODI TEKNIK INFORMATIKA UNIVERSITAS NUSANTARA PGRI KEDIRI)

ANALISIS PERFORMANSI ALGORITMA C5.0 DALAM PENGKLASIFIKASIAN SPAM TUGAS AKHIR

UKDW BAB 1 PENDAHULUAN. 1.1 Latar Belakang Masalah

Bandung, Indonesia Bandung, Indonesia

BAB I PENDAHULUAN 1.1. Latar Belakang

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

KLASIFIKASI DOKUMEN NASKAH DINAS MENGGUNAKAN ALGORITMA TERM FREQUENCY INVERSED DOCUMENT FREQUENCY DAN VECTOR SPACE MODEL

BAB II TINJAUAN PUSTAKA DAN DASAR TEORI. Dalam tinjauan pustaka dibawah ini terdapat 6 referensi sebagai berikut : - Algoritma Naïve Bayes Classifier

PENCARIAN DOKUMEN MENGGUNAKAN METODE SINGLE PASS CLUSTERING (STUDI KASUS : ABSTRAKSI TA TEKNIK INFORMATIKA UNIV. MUHAMMADIYAH MALANG) TUGAS AKHIR

Bab III METODOLOGI PENELITIAN. Pada penelitian ini menggunakan ala penelitian berupa perangkat keras

BAB 3. METODOLOGI PENELITIAN

BAB I PENDAHULUAN 1.1 Latar Belakang

UNIVERSITAS GUNADARMA

BAB II TINJAUAN PUSTAKA

SISTEM KLASIFIKASI PENYEBARAN PENYAKIT MATA DI JAWA BARAT DENGAN ALGORITMA ITERATIVE DICHOTOMISER 3 DAN NAÏVE BAYES CLASSIFIER

BAB II TINJAUAN PUSTAKA

Transkripsi:

BAB III ANALISA DAN PERANCANGAN SISTEM 3.1 Analisa Masalah Pemilihan dosen pembimbing Tugas Akhir pada jurusan Teknik Informatika Universitas Muhammadiyah Malang dilakukan mahasiswa secara mandiri, hal ini menyebabkan kurang optimalnya pengambilan keputusan pemilihan dosen pembimbing. Mahasiswa memilih dosen pembimbing hanya berdasarkan dosen yang mereka ketahui. Tidak adanya data preferensi dan dosen sebagai acuan mahasiswa untuk menentukan pilihan dosen pembimbing dapat menimbulkan berbagai masalah diantaranya mahasiswa ragu dalam memilih dosen perekomendasi Tugas Akhir, ide mahasiswa sulit untuk dikembangkan, serta tingkat resiko tinggi pemilihan dosen pembimbing yang spesifikasinya kurang tepat terhadap ide maupun judul Tugas Akhir yang diajukan oleh Mahasiswa. 3.2 Analisa Sistem 3.2.1 Usecase Aktor pada usecase dalam ini adalah Mahasiswa. Terdiri dari 2 usecase. Usecase pertama yaitu meminta rekomendasi dan yang kedua yaitu cetak hasil rekomendasi. Berikut usecase pada yang ditunjukkan pada Gambar 3.1. Gambar 3.1 Usecase diagram rekomendasi Mahasiswa sebagai aktor tunggal di dalam melakukan permintaan rekomendasi dosen pembimbing dengan cara menginputkan ide tugas akhir. Penjelasan lebih detail untuk usecase diatas akan dijabarkan pada flowchart. 13

3.2.2 Flowchart Gambar 3.2 Flowchart secara keseluruhan pada Tugas Akhir ini ditunjukan pada Gambar 3.2 Flowchart Alur Sistem Berikut penjelasan flowchart di atas : a. User menginputkan ide Tugas Akhir atau abstrak beserta kata kunci b. Proses selanjutnya data inputan user memasuki tahapan preprocessing untuk diserap kata kata penting dari data. Preprocessing yang dilakukan akan menghasilkan data uji baru. c. Pada data uji baru dilakukan pencocokan kata kunci dengan data matriks dan preferensi dan dosen. Setiap kata kunci yang terdeteksi kecocokan akan bernilai 1. Pencarian kata kunci akan dicari kecocokannya pada setiap data dosen. Proses ini menghasilkan data uji yang memiliki kecocokan dengan data matriks preferensi dan dosen. d. Tahapan berikutnya memasuki proses perhitungan jarak terdekat menggunakan rumus euclidien distance terhadap data uji yang memiliki kecocokan. Data dosen dengan jarak terdekat dengan data uji akan menjadi hasil rekomendasi. e. Tahapan selanjutnya yaitu mendapatkan hasil rekomendasi dari. f. Tahapan akhir user dapat mencetak hasil rekomendasi. Pada rancangan di atas terdapat data uji baru sebagai hasil dari preprocessing terhadap data inputan user. Data uji akan mengevaluasi seluruh data 14

matriks preferensi dan setiap dosen, dimana data matriks tersebut digunakan sebagai data acuan. Proses ini dilakukan dengan menghitung jarak diantara kedua data dengan menggunakan rumus Euclidean Distance. Untuk data dosen di dalam data matriks preferesi dan dosen yang terdekat akan muncul sebagai hasil rekomendasi. 3.3 Data Penelitian Data yang digunakan di dalam penelitian bersumber dari Data Kurikulum Jurusan Teknik Informatika Universitas Muhammadiyah Malang tahun ajaran 2017. Data Kurikulum ini mengacu pada kurikulum Association for Computing Machinery (ACM) IEEE Computer Society serta sumber lain yang menunjang pencapaian kompetensi lulusan. Sebanyak 152 data tersusun menjadi sebuah data yang nantinya akan dikemas dalam bentuk data matriks. Pada penelitian ini, peneliti merancang data preferensi dan dosen yang dikemas dalam bentuk matriks dari hasil ekstraksi data kurikulum yang telah dikumpulkan. Terdapat dua tujuan dalam perancangan data matriks ini, yaitu untuk membentuk data acuan yang dipergunakan untuk memenuhi kebutuhan dan kedua untuk mengetahui setiap dosen Jurusan Teknik Informatika Universitas Muhammadiyah Malang. 3.3.1 Data Matriks Preferensi Dan Keahlian Dosen Pembentukan data Matriks Preferensi dan Keahlian Dosen dilakukan dengan proses meng-estrak bahan kajian yang terdapat di dalam Data Kurikulum. Ekstraksi data dilakukan secara manual. Setelah data preferensi dan dosen telah tersusun, selanjutnya akan dilakukan pengumpulan data dengan cara pengisian kuisioner yang akan dilakukan oleh setiap dosen. Pengisian kuisioner ini dilakukan untuk mengumpulkan data dosen untuk setiap bidangnya. Data matriks terdiri dari beberapa atribut, dimana setiap atribut akan mengacu pada preferensi dan dosen pada bidangnya. Setiap atribut akan diberikan range 1 sampai 5. Nilai 1 sangat tidak mendekati dan nilai 5 untuk sangat mendekati dengan atribut. Semakin besar nilai yang di berikan oleh setiap dosen, maka dosen sangat tinggi pada suatu atribut tersebut. Dilakukan penyebaran isian kuisioner dalam membentuk data mariks preferensi dan dosen. Setiap dosen akan mengisi seluruh kuisioner yang berisi dosen. 15

Perancangan data matriks digunakan sebagai acuan untuk menentukan rekomendasi. Terdapat empat bidang minat pada Program Studi Teknik Informatika diantaranya Rekayasa Perangkat Lunak, Jaringan, Data Science, dan Game Cerdas. Data matriks preferensi dan dosen digunakan sebagai acuan untuk mengukur kedekatan dengan data uji yang nantinya akan digunakan sebagai hasil rekomendasi. Data Matriks Preferensi dan Keahlian Dosen terlampir. Bahan kajian dalam data kurikulum Tabel 3.1 Sample Data Kurikulum AL2 Algorithmic Strategies [Core-Tier1] Brute-force algorithms Greedy algorithms Divide-and-conquer (crossreference SDF/Algorithms and Design/Problem-solving strategies) Recursive backtracking Dynamic Programming [Core-Tier2] Branch-and-bound Heuristics Pengekstraksian data kurikulum dilakukan secara manual, pada data kurikulum sudah terdapat keterangan bidang minat. Data dosen hasil ekstraksi data kurikulum : Tabel 3.2 Sample Data Keahlian Dosen No. Keahlian Keterangan Keywords Bidang 1 AL2 Algoritma Strategi Algoritma Strategi, Brute-force, greedy, dynamic programming, binary search tree, graph, adjency list, adjency matrix, algoritman Dijkstra, algoritma Floyd, worst case, Finite-state machines DS 3.3.2 Data Uji Data uji yang digunakan untuk menguji menggunakan data abstrak Tugas Akhir Jurusan Teknik Informatika Universitas Muhammadiyah Malang Tahun ajaran 2014-2016. Data abstrak berbentuk paragraf sehingga sebelum data diolah akan dilakukan preprocessing terlebih dahulu. 16

3.4 Perancangan Fitur Perancangan fitur dilakukan untuk melakukan perancangan awal, bagaimana mengolah data sampai siap untuk digunakan serta hingga bagaimana memberikan hasil yang diharapkan. Berikut beberapa rekayasa Fitur yang dilakukan : 3.4.1 Preprocessing Data Preprocessing data dilakukan pada data uji. Data Uji merupakan data baru yang berasal dari inputan mahasiswa berupa abstrak atau ide tugas akhir dan kata kunci yang berkaitan. Data berbentuk paragraf sehingga diperlukan preprocessing sebelum data siap diolah. Tahapan Preprocessing data yang dilakukan yaitu stemming. - Proses Stemming Pemecahan isi paragraf menjadi kata per kata kemudian dijadikan sebagai kata dasar, serta untuk menghilangkan simbol, karakter, dan tanda baca dilakukan dengan proses stemming. Dengan menggunakan library sastrawi proses stemming dilakukan sebagai berikut : Tabel 3.3 Proses Stemming Paragraf awal : Aplikasi pengklasifikasian email berfungsi untuk mengklasifikasikan pesan email spam dan email non spam. Aplikasi ini berjalan secara offline dengan menggunakan bantuan library WEKA dalam menjalankan algoritma TF-IDF dan C5.0. Aplikasi ini berguna untuk mengukur tingkat performansi dari algoritma C5.0 meliputi precision, recall, dan accuracy. Algoritma TF-IDF digunakan untuk memberikan bobot terhadap kata yang muncul dalam sebuah dokumen email sedangkan algoritma C5.0 digunakan untuk mengklasifikasikan pesan email berdasarkan data olahan algoritma TF-IDF. Berdasarkan pengujian yang telah dilakukan terhadap aplikasi dalam mengklasifikasikan file email menggunakan algoritma TF-IDF dan C5.0, menunjukan bahwa besar kecilnya penggunaan email untuk dijadikan sebagai data training sangat berpengaruh terhadap hasil pengklasifikasian dan tingkat performansi. Tingkat persentase tertinggi dimiliki oleh penggunaan total email sebanyak 500 file dengan nilai presentase masing-masing sebesar 76% untuk precision ham, 96% untuk precision spam, 94.12% untuk recall ham, 79.78% untuk recall spam dan 80.67% untuk accuracy. Hasil stemming : aplikasi klasifikasi email fungsi untuk klasifikasi pesan email spam dan email non spam 17

aplikasi ini jalan cara offline dengan guna bantu library weka dalam jalan algoritma tf-idf dan c5 0 aplikasi ini guna untuk ukur tingkat performansi dari algoritma c5 0 liput precision recall dan accuracy algoritma tf-idf guna untuk beri bobot hadap kata yang muncul dalam buah dokumen email sedang algoritma c5 0 guna untuk klasifikasi pesan email dasar data olah algoritma tf-idf dasar uji yang telah laku hadap aplikasi dalam klasifikasi file email guna algoritma tf-idf dan c5 0 tunjuk bahwa besar kecil guna email untuk jadi bagai data training sangat pengaruh hadap hasil klasifikasi dan tingkat performansi tingkat persentase tinggi milik oleh guna total email banyak 500 file dengan nilai presentase masing-masing besar 76 untuk precision ham 96 untuk precision spam 94 12 untuk recall ham 79 78 untuk recall spam dan 80 67 untuk accuracy Dari proses stemming yang dilakukan pada abstrak, dihasilkan paragraf yang pada awalnya terdapat simbol, karakter, dan tanda baca menjadi bentuk paragraf yang terdiri dari kumpulan kata dasar yang tidak memiliki simbol, karakter, dan tidak memiliki tanda baca. 3.4.2 Pencarian Kata Kunci Setelah dilakukan preprocessing terhadap data uji, dilakukan pencarian kata kunci terhadap data uji. Alur proses pencarian kata kunci ditunjukkan pada Gambar 3.3. Kata kunci yang terdeteksi pada data uji akan dilakukan pencocokan dengan data yang terdapat pada. Pencarian kata kunci dilakukan seperti membaca menggunakan teknik scanning. Scanning seringkali disebut sebagai membaca memindai berarti mencari informasi spesifik secara cepat dan akurat. Membaca dengan teknik memindai artinya menyapu halaman buku untuk menemukan sesuatu yang diperlukan. Pada penelitian ini proses scanning dilakukan untuk mencari kata-kata penting mkoyang dianggap sama dengan beberapa kata kunci yang telah dibuat. Proses ini dilakukan dengan searching kata kunci atau keyword pada sebuah paragraf. Kata kunci yang cocok dengan data pada akan ditampilkan pada halaman hasil rekomendasi. Ditunjukkan pada Gambar 3.3 bagaimana melakukan pencarian dan pencockan kata kunci terhadap data inputan mahasiswa. 18

Gambar 3.3 Pencarian dan Pencocokan Kata Kunci Dengan menggunakan metode Regular Expression dilakukan pencarian suatu pola dalam sebuah string. Reguler Expression sering disingkat dengan regex. Metode regex sendiri merupakan sebuah string, karakter di dalam string diterjemahkan sebagai pola dan aturan tertentu. Setiap kata kunci atau keyword yang terdapat pada data akan dilakukan pencarian dan pencocokan pada data baru yang diinputkan oleh pengguna. Pencarian keyword dilakukan untuk setiap kelompok kata atau biasa disebut dengan frasa yang menjadi satu keyword. Setiap item yang terdeteksi dan memiliki kecocokan keyword pada setiap item yang terdapat di data maka item tersebut bernilai 1. Sebagai penanda beberapa item yang terdeteksi memiliki kecocokan dengan data baru maka akan ditampilkan pada. Kelompok kata : data mining 1 keyword pencarian Tabel 3.4 Daftar Kata Kunci (Data Keahlian) Keahlian Keterangan Keywords IM10 data mining data mining, naïve bayes, knn, c45, k-means, support vector machines, apriori, ANN, neural network, klasifikasi, clustering, market basket analysis, data cleaning, data visualisation IM11 IM12 information information, dokumen, analisis morfologi, stemming, frase, phrases, stop lists, tf-idf, term frequency distributions, fuzziness, weighting, pembobotan, vector space, probabilitas, informasi, thesauri, ontologi, klasifikasi, pengkategorian, metadata, routing, searching, pencarian, informasi bibliografi, bibliometrics, pemodelan pengguna, perpustakaan digital, library digital, penyimpulan informasi, katalogisasi, pencarian, skema klasifikasi,, audio, grafik, video, media editor, authoring, capture, space, rendering, interface, video conferencing, video on demand dst.. dst dst 19

Hasil Pencarian : Tabel 3.5 paragraf gabungan Paragraf gabungan aplikasi pengklasifikasian email berfungsi untuk mengklasifikasikan pesan email spam dan email non spam aplikasi ini berjalan secara offline dengan menggunakan bantuan library weka dalam menjalankan algoritma tf-idf dan c5 0 aplikasi ini berguna untuk mengukur tingkat performansi dari algoritma c5 0 meliputi precision recall dan accuracy algoritma tf-idf digunakan untuk memberikan bobot terhadap kata yang muncul dalam sebuah dokumen email sedangkan algoritma c5 0 digunakan untuk mengklasifikasikan pesan email berdasarkan data olahan algoritma tf-idf berdasarkan pengujian yang telah dilakukan terhadap aplikasi dalam mengklasifikasikan file email menggunakan algoritma tf-idf dan c5 0 menunjukan bahwa besar kecilnya penggunaan email untuk dijadikan sebagai data training sangat berpengaruh terhadap hasil pengklasifikasian dan tingkat performansi tingkat persentase tertinggi dimiliki oleh penggunaan total email sebanyak 500 file dengan nilai presentase masing-masing sebesar 76 untuk precision ham 96 untuk precision spam 94 12 untuk recall ham 79 78 untuk recall spam dan 80 67 untuk accuracy - aplikasi klasifikasi email fungsi untuk klasifikasi pesan email spam dan email non spam aplikasi ini jalan cara offline dengan guna bantu library weka dalam jalan algoritma tf-idf dan c5 0 aplikasi ini guna untuk ukur tingkat performansi dari algoritma c5 0 liput precision recall dan accuracy algoritma tf-idf guna untuk beri bobot hadap kata yang muncul dalam buah dokumen email sedang algoritma c5 0 guna untuk klasifikasi pesan email dasar data olah algoritma tf-idf dasar uji yang telah laku hadap aplikasi dalam klasifikasi file email guna algoritma tf-idf dan c5 0 tunjuk bahwa besar kecil guna email untuk jadi bagai data training sangat pengaruh hadap hasil klasifikasi dan tingkat performansi tingkat persentase tinggi milik oleh guna total email banyak 500 file dengan nilai presentase masing-masing besar 76 untuk precision ham 96 untuk precision spam 94 12 untuk recall ham 79 78 untuk recall spam dan 80 67 untuk accuracy. Pencarian dilakukan pada penggabungan dari 2 buah paragraf yang terdiri dari paragraf asli dan paragraf hasil stemming. Hal ini dilakukan agar pencarian kata kunci semakin luas dan banyak kata kunci yang terdeteksi pada abstrak ataupun ide tugas akhir yang diinputkan pengguna. Hasil pencocokan : Keahlian IM10 IM11 Keterangan data mining information 20

Pada akan ditampilkan beberapa yang terdeteksi memiliki kecocokan dengan data inputan mahasiswa. 3.4.3 Perhitungan jarak dengan Euclidien Distance Setelah melalui proses ektraksi data sampai menjadi data acuan, kemudian dilakukan preprocessing data pada data uji, serta telah dilakukan pencarian kata kunci pada data uji dan dicari kecocokannya dengan data acuan tahapan selanjutnya adalah mengukur jarak di antara kedua data tersebut. Setiap kata kunci yang terdeteksi dan cocok dengan data acuan akan default bernilai 1 dan setiap item pada data acuan yang tidak terdeteksi maka default bernilai 0. Proses perhitungan jarak terdekat ditunjukan pada Gambar 3.4. Pada data dosen (data matriks) terjadi proses pembalikan nilai, hal ini terjadi karena dalam logika perhitungan euclidiean distance setiap hasil terkecil merupakan jarak terdekat. Dimana keterangan nilai menjadi sebagai berikut : 5 menjadi 1 : Sangat Mengguasai 4 menjadi 2 : Baik Menguasai 3 menjadi 3 : Cukup Menguai 2 menjadi 4 : Kurang Menguasai 1 menjadi 5 : Tidak Menguasai Gambar 3.4 Proses perhitungan Euclidien Distance Pembalikan nilai dilakukan melalui dengan perhitungan sebagai berikut : 21

6 Keterangan : Keahlian baru : nilai pembalikan Keahlian awal : nilai sebelum pembalikan. Angka 6 digunakan sebagai pembalik nilai dan dikurangkan pada nilai awal. Keahlian awal : Nilai Keahlian 4 5 1 2 3 Dst.. Perhitungan : Keahlian baru = 6-4 = 2 Dilakukan pada semua data dosen Keahlian baru setelah proses pembalikan nilai : Nilai Keahlian 2 1 5 4 3 Dst.. Setelah dilakuan pembalikan pada nilai dosen, proses selanjutnya yaitu dilakukan perhitungan jarak antara data uji (data inputan pengguna) dengan setiap data dosen. Keahlian terdeteksi : IM10 data mining 1 22

IM11 information 1 Daftar nilai beberapa dosen : Dosen A Tabel 3.6 Sampel data dosen Dosen B IM10 data mining 2 IM10 Data mining 1 IM11 IM12 information 1 IM11 information 5 IM12 BD1 Big data 4 BD1 Big data 4 IS1 3 IS1 5 intelegen intelegen Dosen C Dosen D IM10 data mining 5 IM10 Data mining 4 IM11 IM12 information 4 IM11 information 4 IM12 BD1 Big data 2 BD1 Big data 3 IS1 intelegen 1 IS1 intelegen 3 3 5 3 1 Studi Kasus : Terdapat 4 data dosen dengan masing-masing nilai yang terdapat pada Tabel 3.6. Pengguna menginginkan dua rekomendasi dosen pembimbing Tugas Akhir berdasarkan ide tugas akhir yang diusulkan. Penyelesaian : Perhitungan jarak dengan yang terdeteksi pada data uji user : - Jarak antara data baru dengan dosen A Dosen A IM10 data mining 1 da 2 1 2 + 1 1 2 + 0 + 0 + 0 1 23

IM11 information 1 IM12 0 BD1 Big data 0 IS1 intelegen 0 - Jarak antara data baru dengan dosen B Dosen B IM10 data mining 1 IM11 information 1 IM12 0 BD1 Big data 0 IS1 intelegen 0 db 1 1 2 + 3 1 2 + 0 + 0 + 0 2 - Jarak antara data baru dengan dosen C Dosen C IM10 data mining 1 IM11 information 1 IM12 0 BD1 Big data 0 IS1 intelegen 0 dc 5 1 2 + 5 1 2 + 0 + 0 + 0 5,76 - Jarak antara data baru dengan dosen D Dosen D IM10 data mining 1 IM11 IM12 information 1 0 dd 4 1 2 + 5 1 2 + 0 + 0 + 0 5 24

BD1 Big data 0 IS1 intelegen Mengurutkan dosen berdasakan jarak yang telah dihitung : No. Nama Dosen Jarak 1 Dosen A 1 2 Dosen B 2 3 Dosen D 5 4 Dosen C 5,76 Hasil : Pengguna mendapatkan rekomendasi dosen pembimbing Tugas Akhir Dosen A dan Dosen B. 0 25