HASIL DAN PEMBAHASAN. menggunakan formula (4) dan (5) untuk setiap kelasnya berdasarkan tabel confusion matrix.

Ukuran: px
Mulai penontonan dengan halaman:

Download "HASIL DAN PEMBAHASAN. menggunakan formula (4) dan (5) untuk setiap kelasnya berdasarkan tabel confusion matrix."

Transkripsi

1 yang tidak berarti sebagai pembeda antar dokumen. c. Pembobotan indeks yaitu pembobotan secara lokal dan global. Pembobotan lokal dilakukan dengan cara menghitung frekuensi kemunculan kata dan total seluruh kata pada kelas dari dokumen. Pembobotan global akan menghasilkan total kata dan jumlah total kata unik yang ada pada dokumen latih. Naïve Bayes Classifier () dengan Background Smoothing Proses pengklasifikasian dokumen pada penelitian ini menggunakan algoritme klasifikasi yang merupakan multinomial model. Agar mudah dalam implementasinya maka digunakan teknik background smoothing sebagai pengontrol dari penghitungan maximum likelihood estimator melalui pendekatan simple language model agar hasil klasifikasinya lebih akurat. Pada tahap ini diawali dengan penghitungan peluang setiap kata dalam dokumen latih menggunakan Maximum Likelihood Estimation (MLE) berdasarkan kata pada dokumen uji. Proses penghitungan tersebut dimulai dengan pendugaan parameter peluang kata pada dokumen kelas c i sesuai dengan formula (2). Selanjutnya melakukan kombinasi linier pada unigram class model menggunakan collection background model dengan parameter pengontrol λ sesuai dengan formula (3) pada dokumen latih. Setelah didapatkan peluang tiap kata dari dokumen uji berdasarkan dokumen latih, proses akhir adalah penghitungan peluang dari masing-masing kelas terhadap dokumen uji dengan formula (1). Evaluasi Hasil Klasifikasi Evaluasi hasil klasifikasi dokumen dilakukan untuk menganalisis tingkat keakurasian klasifikasi dokumen dengan metode background smoothing pada parameter pengontrol λ yang berbeda. Hal ini dimaksudkan untuk menentukan nilai ideal dari parameter pengontrol λ yang sesuai dengan data training. Setelah diperoleh nilai koefisien λ yang terbaik untuk short dan long query, evaluasi dilanjutkan pada perbandingan klasifikasi dokumen antara dengan + Background Smoothing. Pengukuran kesamaan dokumen yang digunakan adalah tingkat akurasi, recall, precision, dan F-1 menggunakan formula (4) dan (5) untuk setiap kelasnya berdasarkan tabel confusion matrix. HASIL DAN PEMBAHASAN Dokumen yang digunakan sebagai dokumen latih dan uji perlu dikompilasi karena hasil klasifikasi bergantung pada koleksi dokumen yang akan dijadikan dokumen latih. Hasil kompilasi menghasilkan 249 dokumen. Isi dari koleksi dokumen tersebut merupakan judul penelitian, kata kunci dan abstrak dari 3 (tiga) kelas, yaitu: a) Kelas Ekofisiologi dan Agronomi b) Kelas Pemuliaan dan Teknologi Benih c) Kelas Proteksi (Hama dan Penyakit) Masing-masing kelas terdiri atas 83 dokumen. Dokumen tersebut dibagi lagi untuk dijadikan sebagai data latih dan data uji. Data latih untuk setiap kelas terdiri atas 58 dokumen, sedangkan untuk data uji terdiri atas 25 dokumen. Pembagian tersebut sesuai dengan proporsi dokumen pada Bab Metodologi Penelitian, yaitu 70 % untuk data latih dan 30 % untuk data uji. Setelah melalui proses indexing, diperoleh pembobotan indeks yang diperlukan dalam proses klasifikasi dokumen. Bagian penting dari tahap ini adalah penentuan stoplist atau kata yang akan dibuang sebagai stopword. Penghilangan stopword disesuaikan dengan kebutuhan penelitian, yaitu kata yang sering muncul dalam koleksi dokumen dan tidak memunyai arti dan dilanjutkan dengan menghilangkan kata-kata yang tidak berarti dalam membedakan dokumen. Hasil dari penghilangan stopword dan pembobotan indeks kata, diperoleh total jumlah kata sebanyak dan jumlah kata unik sebanyak 2949 untuk pembobotan global. Uji Coba Klasifikasi Dokumen Uji coba dilakukan dengan dua kombinasi perlakuan, yaitu: 1. +Background Smoothing dengan parameter pengontrol λ= 0.1 sampai dengan 0.9, agar diperoleh nilai koefisien λ terbaik pada short dan long query. 2. Setelah diperoleh parameter pengontrol koefisien λ yang terbaik, selanjutnya dilakukan perbandingan klasifikasi dokumen dengan +Background Smoothing. Tujuannya adalah untuk mengetahui apakah akurasi klasifikasi dokumen menggunakan 6

2 Background Smoothing lebih baik daripada. +Background Smoothing Tingkat keakurasian yang paling baik untuk short query diperoleh pada parameter pengontrol koefisien λ=0.3, seperti yang terlihat pada Gambar 5. Rata-rata nilai recall, precision dan F-measure untuk semua kelas atau micro average pada koefisien λ=0.3 adalah 84 % dan akurasi yang didapat adalah 89.3 %. Hasil penghitungan pada micro average untuk semua nilai koefisien λ dapat dilihat pada Tabel 1. Hasil klasifikasi dokumen untuk semua koefisien λ pada short query dalam bentuk confusion matrix ada pada Lampiran 1. Tabel 1 Micro Average untuk Short Query parameter pengontrol koefisien λ rec 82,7 81,3 84,0 82,7 82,7 82,7 82,7 82,7 83,1 pre 82,7 81,3 84,0 82,7 82,7 82,7 82,7 82,7 74,7 F-1 82,7 81,3 84,0 82,7 82,7 82,7 82,7 82,7 78,7 acc 88,4 87,6 89,3 88,4 88,4 88,4 88,4 88,4 85,8 rec=recall (%); pre=precision (%); F-1= F-measure (%); acc= Accuracy (%) Pada Gambar 5 terlihat bahwa parameter pengontrol koefisien λ=0.1, 0.4, 0.5, 0.6, 0.7, dan 0.8 memiliki nilai akurasi yang sama, yaitu sebesar 88.4 %. Walaupun nilai yang diperoleh adalah sama, namun untuk nilai macro average berbeda. Nilai macro average yang berbeda adalah pada koefisien λ=0.1. Sedangkan untuk koefisien λ= 0.4, 0.5, 0.6, 0.7 dan 0.8 nilainya sama. Hasil pengukuran macro dan micro average untuk semua koefisien pada short query dapat dilihat di Lampiran 2. Perbedaan tersebut nampak pada kelas b (Pemuliaan dan Teknologi Benih) dan kelas c (Proteksi). Sedangkan untuk kelas a (Fisiologi dan Agronomi) nilai yang diperoleh adalah sama. Pada Koefisien λ=0.1, nilai pada kelas c lebih tinggi dan pada kelas b nilainya lebih rendah. Hal ini disebabkan karena pada kelas c dokumen yang dikenali dengan benar lebih tinggi daripada koefisien λ= 0.4, 0.5, 0.6, 0.7, dan 0.8. Demikian pula sebaliknya yang terjadi pada kelas b, dokumen yang dikenali dengan benar lebih rendah dibandingkan dengan λ= 0.1. Pada Tabel 2 terlihat bahwa total pengujian untuk tiga kelas a, b, dan c yang diklasifikasikan benar adalah 555, dan yang diklasifikasi salah adalah sebanyak 120. Sedangkan untuk dokumen yang diklasifikasikan dari total tiga kelas dengan banyaknya koefisien λ yang diujikan, diperoleh nilai sebanyak Nilai tersebut diperoleh dengan penghitungan sebagai berikut: ((75 x 3)*9) - ( ) = = 1230 Nilai 75 adalah total dokumen uji dan nilai 3 merupakan jumlah kelas atau kategori. Nilai 555 adalah total dokumen yang diklasifikasikan benar di tiga kelas pada semua koefisien λ, dan 120 adalah total dokumen yang diklasifikasikan salah di tiga kelas pada semua koefisien λ. Tabel 2 Confusion Matrix Short Query TRUE FALSE TRUE FALSE Tingkat Akurasi 98 % 96 % 94 % 92 % 88 % 86 % 84 % 82 % 78 % 76 % 74 % 72 % 700 % Tingkat Akurasi Parameter Pengontrol Koefisien λ pada Short Query Koefisien λ Gambar 5 Tingkat Akurasi Koefisien λ pada Short Query 7

3 Pada long query, tingkat keakurasian terbaik diperoleh pada parameter pengontrol koefisien λ=0.7 dan λ=0.8. Nilai micro average untuk recall, precision dan F-measure adalah 89.3 %. Sedangkan akurasi yang didapat adalah 92.8 %. Hasil penghitungan micro average tersebut dapat pada tabel dibawah ini. Tabel 3 Micro Average untuk Long Query parameter pengontrol koefisien λ rec 88,0 88,0 88,0 88,0 88,0 88,0 89,3 89,3 85,3 pre 88,0 88,0 88,0 88,0 88,0 88,0 89,3 89,3 85,3 F-1 88,0 88,0 88,0 88,0 88,0 88,0 89,3 89,3 85,3 acc 92,0 92,0 92,0 92,0 92,0 92,0 92,9 92,9 90,2 rec = recall (%); pre=precision (%); F-1= F1 (%); acc= Accuracy (%) Hasil klasifikasi dokumen untuk semua koefisien λ pada long query dalam bentuk confusion matrix dapat dilihat pada Lampiran 3 dan hasil pengukuran untuk semua koefisien λ pada long query ada di Lampiran 4. Dari Gambar 6 terlihat bahwa parameter pengontrol koefisien λ=0.1 sampai dengan 0.6 memiliki nilai akurasi yang sama, sebesar 92 %. Demikian juga untuk recall, precision dan F- measure pada micro average adalah sama, yaitu 88 %. Perbedaan yang tampak pada koefisien λ=0.1 sampai dengan 0.3, dan koefisien λ=0.4 sampai 0.6. Perbedaan tersebut tidak terlalu berarti, hanya pada koefisien λ=0.1 sampai 0.3, kelas a dikenali salah ke dalam kelas b sebanyak satu dokumen uji dan kelas c sebanyak dua dokumen uji. Sebaliknya pada koefisien λ=0.4 sampai 0.6, kelas a salah dikenali ke dalam kelas b sebanyak 2 (dua) dokumen uji dan kelas c sebanyak satu dokumen uji. Nilai Micro Average untuk total seluruh nilai parameter pengontrol koefisien λ mulai dari 0.1 sampai dengan 0.9, dapat dilihat pada tabel 4. Tabel 4 Confusion Matrix Long Query TRUE FALSE Pada Tabel 4 terlihat bahwa total pengujian untuk kelas a, b, dan c yang diklasifikasikan benar adalah 594, dan yang diklasifikasikan salah adalah sebanyak 81. Dari total kelas dengan banyaknya koefisien λ yang diujikan sebanyak dan +Background Smoothing Perbedaan antara klasifikasi dokumen dengan +Background Smoothing adalah Maximum Likelihood Estimation (MLE). Penghitungan MLE pada seperti pada formula (2), menggunakan jumlah seluruh kata unik dokumen latih di semua kelas, sedangkan pada Background Smoothing tidak menambahkan jumlah seluruh kata unik dalam dokumen uji untuk penghitungannya. Hasil pengukuran ini dilakukan pada nilai parameter pengontrol koefisien λ yang terbaik untuk background smoothing. Dari hasil pengukuran sebelumnya telah diperoleh nilai koefisien terbaik untuk short query adalah λ=0.3 dan long query pada λ=0.7. Tingkat Akurasi Parameter Pengontrol Koefisien λ pada Long Query Tingkat Akurasi 98 % 96 % 94 % 92 % 88 % 86 % 84 % 82 % 78 % 76 % 74 % 72 % 70 0 % Koefisien λ Gambar 6 Tingkat Akurasi Koefisien λ pada Long Query 8

4 Hasil klasifikasi dokumen untuk short query terlihat pada Tabel 5 dan Gambar 7 bahwa tingkat akurasi +Background Smoothing dengan koefisien λ=0.3 lebih baik dibandingkan dengan. Hasil pengukuran selengkapnya dapat dilihat pada Lampiran 6 dimana nilai F- measure pada tabel macro average untuk kelas a dan kelas b, lebih tinggi dibandingkan dengan F-measure pada. Hanya kelas c dokumen uji diklasifikasikan dengan baik terhadap kelas a dan b oleh. Tingkat Kinerja Tabel 5 Micro Average dan + Background Smoothing λ= % 60 % 50 % 40 % 30 % 20 % 10 % Tingkat Kinerja dan + Background Smoothing pada Short Query 0 % Pengukuran Micro Average (%) recall precision 82,67 82,67 +BgS 84,00 84,00 F-1 Akurasi 82,67 88,44 84,00 89,33 +BgS Gambar 7 Perbandingan Tingkat Akurasi pada Short Query Berdasarkan Tabel 6 pengujian dokumen untuk tiga kelas a, b, dan c pada yang diklasifikasikan dengan benar adalah 62, dan yang diklasifikasikan salah yaitu 13 dokumen uji dari total 75 dokumen yang diujikan. Sedangkan dokumen uji yang diklasifikasikan dari total dokumen pada tiga kelas sebanyak 137. Sedangkan pada +Background Smoothing mengklasifikasikan dokumen dengan benar sebanyak 63 dokumen uji. Hal inilah yang membuat tingkat akurasi +Background Smoothing lebih baik daripada,, walaupun tidak terlalu berbeda. Hasil klasifikasi dokumen pada tiap kelas, selengkapnya dapat dilihat pada Lampiran 5. Tabel 6 Confusion Matrix dan + Background Smoothing (Short Query) TRUE FALSE Background Background Smoothing TRUE FALSE Hasil klasifikasi untuk long query dapat dilihat pada Tabel 7 dan Gambar 8. Terlihat bahwa tingkat akurasi klasifikasi dokumen +Background Smoothing dengan koefisien λ=0.7 lebih baik dibandingkan dengan. Dimana nilai micro average untuk recall, precision, dan F-measure pada + Background Smoothing dengan koefisien λ=0.7 adalah sebesar 89.3 %, sedangkan pada diperoleh sebesar 86.6 %. Tingkat akurasi +Background Smoothing mencapai 92.9 %, sedangkan menghasilkan tingkat akurasi sebesar 91.1 %. Hasil pengukuran macro dan micro average untuk long query dapat dilihat pada Lampiran 6. Pada tabel macro average terlihat bahwa nilai F-measure pada kelas a dan kelas b lebih tinggi dibandingkan dengan F-measure pada. Namun sebaliknya pada kelas c terlihat bahwa nilai F-measure yang diperoleh lebih tinggi dibandingkan dengan +Background Smoothing.. Hal inilah yang menyebabkan hasil klasifikasi dokumen menggunakan + Background Smoothing tidak terlalu berbeda dengan karena pada tabel macro average (Lampiran 6) terlihat bahwa nilai recall untuk kelas c lebih tinggi dibandingkan dengan +Background Smoothing. Tabel 7 Micro Average dan + Background Smoothing λ=0.7 Pengukuran Micro Average (%) recall precision F-1 Akurasi 86,67 86,67 86,67 91,11 +BgS 89,33 89,33 89,33 92,89 9

5 Tingkat Kinerja Tingkat Kinerja dan + Background Smoothing pada Long Query 70 % 60 % 50 % 40 % 30 % 20 % 10 % 0 % + BgS yang disesuaikan dengan data training, sehingga hasilnya lebih baik dibandingkan dengan kendati tidak terlalu berbeda. Sedangkan nilai λ terbaik pada short dan long query,, terkait dengan domain klasifikasi dokumen yang digunakan sebagai collection background model.. Pada penelitian ini menggunakan domain tanaman hortikultura pada penelitian tentang pertanian. Bisa saja nilai koefisien λ untuk domain selain hortikultura, misalnya untuk domain tanaman pangan nilai koefisien λ pada short query bukan di λ=0.3, dan sebaliknya untuk long query tidak pada λ=0.7. KESIMPULAN DAN SARAN Gambar 8 Perbandingan Tingkat Akurasi pada Long Query Selain dari hasil pengukuran pada macro average, terlihat juga pada Tabel 8 confusion matrix, bahwa tingkat akurasi + Background Smoothing lebih baik daripada, walaupun hasil yang diperoleh tidak terlalu berbeda seperti halnya pada short query. Dimana total pengujian dokumen untuk tiga kelas a, b, dan c pada yang diklasifikasikan dengan benar sebanyak 65, dan yang diklasifikasikan salah ah yaitu 10 dokumen dari total 75 dokumen yang diujikan. Sedangkan +Background Smoothing mengklasifikasikan dokumen dengan benar sebanyak 67 dokumen. Tabel 8 Confusion Matrix dan + Background Smoothing (Long Query) TRUE FALSE Background Smoothing TRUE 67 8 FALSE Dari hasil penelitian ini menunjukkan bahwa hasil klasifikasi menggunakan background smoothing tidak bergantung pada panjang atau pendeknya query karena hasil yang hampir sama dicapai pula oleh, baik untuk short maupun long query.. Hal yang mempengaruhi hasil klasifikasi dengan background smoothing adalah adanya nilai parameter pengontrol λ Kesimpulan Background smoothing merupakan teknik smoothing dengan pendekatan languange model.. Pada penelitian ini, background smoothing memodelkan seluruh dokumen latih sebagai collection background model. Dari hasil klasifikasi terlihat bahwa tingkat akurasi + Background Smoothing tidak banyak pengaruhnya dibandingkan dengan. Peningkatan akurasi tersebut hanya sebesar 1.78% dari hasil yang diperoleh pada. Untuk dapat menambah tingkat keakurasian perlu melibatkan keterkaitan antar kata atau semantic. Hasil klasifikasi dengan background smoothing dipengaruhi oleh nilai parameter pengontrol λ yang disesuaikan dengan data training. Nilai λ terbaik yang diperoleh pada short dan long query bergantung ng pada domain klasifikasi dokumen yang digunakan sebagai collection background model.. Hasil pengukuran klasifikasi pada dokumen bidang kajian pertanian untuk domain hortikultura menunjukkan bahwa nilai parameter koefisien λ yang terbaik pada short query adalah pada λ=0.3 dengan akurasi sebesar 89.3 % dan pada long query diperoleh pada λ=0.7 dengan akurasi 92.8 %. Oleh karena itu, nilai λ yang kecil sebaiknya digunakan pada data training yang kecil untuk klasifikasi short query. Sebaliknya untuk long query dibutuhkan nilai λ yang lebih besar. Saran Pada penelitian selanjutnya metode Background Smoothing perlu diujikan pada koleksi dokumen selain domain pertanian 10

KLASIFIKASI DOKUMEN MENGGUNAKAN BACKGROUND SMOOTHING ANDY PRAMURJADI

KLASIFIKASI DOKUMEN MENGGUNAKAN BACKGROUND SMOOTHING ANDY PRAMURJADI KLASIFIKASI DOKUMEN MENGGUNAKAN BACKGROUND SMOOTHING ANDY PRAMURJADI DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2010 KLASIFIKASI DOKUMEN MENGGUNAKAN

Lebih terperinci

MEN BAHASA INDONESIA MENGGUNAKAN SE EMANTIC SMOOTHING

MEN BAHASA INDONESIA MENGGUNAKAN SE EMANTIC SMOOTHING KLASIFIKASII DOKUMEN BAHASA INDONESIA MENGGUNAKAN SEMANTIC SMOOTHING DENGAN EKSTRAKSI CIRI CHI-SQUARE NOFEL SAPUTRA DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMA ATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIANN

Lebih terperinci

BAB III METODOLOGI PENELITIAN. Dataset

BAB III METODOLOGI PENELITIAN. Dataset BAB III METODOLOGI PENELITIAN Metodologi penelitian diuraikan dalam skema tahap penelitian untuk memberikan petunjuk atau gambaran yang jelas, teratur, dan sistematis seperti yang ditunjukkan pada Gambar

Lebih terperinci

BAB IV HASIL DAN PEMBAHASAN

BAB IV HASIL DAN PEMBAHASAN BAB IV HASIL DAN PEMBAHASAN 4.1 Hasil Penelitian 4.1.1 Support Vector Machines (SVM) Setelah melalui proses training dan testing dengan metode Support Vector Machines (SVM), diperoleh hasil yang tertera

Lebih terperinci

PENDAHULUAN. Latar belakang

PENDAHULUAN. Latar belakang Latar belakang PENDAHULUAN Indonesia merupakan negara megabiodiversity yang memiliki kekayaan tumbuhan obat. Indonesia memiliki lebih dari 38.000 spesies tanaman (Bappenas 2003). Sampai tahun 2001 Laboratorium

Lebih terperinci

KLASIFIKASI DOKUMEN BAHASA INDONESIA MENGGUNAKAN ADAPTIVE CLASSIFIER COMBINATION (ACC) MUTHIA AZIZA

KLASIFIKASI DOKUMEN BAHASA INDONESIA MENGGUNAKAN ADAPTIVE CLASSIFIER COMBINATION (ACC) MUTHIA AZIZA KLASIFIKASI DOKUMEN BAHASA INDONESIA MENGGUNAKAN ADAPTIVE CLASSIFIER COMBINATION (ACC) MUTHIA AZIZA DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR

Lebih terperinci

BAB IV HASIL DAN PEMBAHASAN. jenis dokumen, yaitu dokumen training dan dokumen uji. Kemudian dua

BAB IV HASIL DAN PEMBAHASAN. jenis dokumen, yaitu dokumen training dan dokumen uji. Kemudian dua BAB IV HASIL DAN PEMBAHASAN 4.1. Dokumen yang digunakan Pada penelitian yang dilakukan oleh penulis ini menggunakan dua jenis dokumen, yaitu dokumen training dan dokumen uji. Kemudian dua jenis dokumen

Lebih terperinci

HASIL DAN PEMBAHASAN. 4. Menghitung fungsi objektif pada iterasi ke-t, 5. Meng-update derajat keanggotaan. 6. Mengecek kondisi berhenti:

HASIL DAN PEMBAHASAN. 4. Menghitung fungsi objektif pada iterasi ke-t, 5. Meng-update derajat keanggotaan. 6. Mengecek kondisi berhenti: 2. v kj merupakan centroid term ke-j terhadap cluster ke-k 3. μ ik merupakan derajat keanggotaan dokumen ke-i terhadap cluster ke-k 4. i adalah indeks dokumen 5. j adalah indeks term 6. k adalah indeks

Lebih terperinci

BAB III METODE PENELITIAN

BAB III METODE PENELITIAN BAB III METODE PENELITIAN 3.1. Metode Pengumpulan Data Data yang digunakan pada penelitian ini merupakan data sentimen dari pengguna aplikasi android yang memberikan komentarnya pada fasilitas user review

Lebih terperinci

KLASIFIKASI PADA TEXT MINING

KLASIFIKASI PADA TEXT MINING Text dan Web Mining - FTI UKDW - BUDI SUSANTO 1 KLASIFIKASI PADA TEXT MINING Budi Susanto Text dan Web Mining - FTI UKDW - BUDI SUSANTO 2 Tujuan Memahami konsep dasar sistem klasifikasi Memahami beberapa

Lebih terperinci

KLASIFIKASI PADA TEXT MINING

KLASIFIKASI PADA TEXT MINING Budi Susanto KLASIFIKASI PADA TEXT MINING Text dan Web Mining - FTI UKDW - BUDI SUSANTO 1 Tujuan Memahami konsep dasar sistem klasifikasi Memahami beberapa algoritma klasifikasi: KNN Naïve Bayes Decision

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Data Mining Data Mining adalah proses yang mempekerjakan satu atau lebih teknik pembelajaran komputer (machine learning) untuk menganalisis dan mengekstraksi pengetahuan (knowledge)

Lebih terperinci

Gambar 1.1 Proses Text Mining [7]

Gambar 1.1 Proses Text Mining [7] 1. BAB II LANDASAN TEORI 2.1 Text Mining Text mining memiliki definisi menambang data yang berupa teks dimana sumber data biasanya didapatkan dari dokumen, dan tujuannya adalah mencari kata-kata yang dapat

Lebih terperinci

Sistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF)

Sistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF) Sistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF) 1 Dhony Syafe i Harjanto, 2 Sukmawati Nur Endah, dan 2 Nurdin Bahtiar 1 Jurusan Matematika,

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA 2.1. Penelitian Terkait 2.1.1. Implementasi Opinion Mining Pernah dilakukan penelitian tentang opinion mining membahas tentang ekstraksi data opini publik pada perguruan tinggi.

Lebih terperinci

BAB I PENDAHULUAN. penyimpanan dan cepat. Tuntutan dari gerakan anti global warming juga

BAB I PENDAHULUAN. penyimpanan dan cepat. Tuntutan dari gerakan anti global warming juga 1 BAB I PENDAHULUAN A. Latar Belakang Dalam era teknologi informasi seperti saat ini, informasi berupa teks sudah tidak lagi selalu tersimpan dalam media cetak seperti kertas. Orang sudah mulai cenderung

Lebih terperinci

PENGGUNAAN METODE MULTINOMIAL NAÏVE BAYES PADA KLASIFIKASI SPAM ABSTRAK

PENGGUNAAN METODE MULTINOMIAL NAÏVE BAYES PADA KLASIFIKASI SPAM  ABSTRAK J~ICON, Vol. 3 No. 2, Oktober 2015, pp. 106 ~ 112 106 PENGGUNAAN METODE MULTINOMIAL NAÏVE BAYES PADA KLASIFIKASI SPAM E-MAIL Tince Etlin Tallo 1, Bertha S. Djahi 2, Yulianto T. Polly 3 1,2,3 Jurusan Ilmu

Lebih terperinci

KLASIFIKASI NASABAH ASURANSI JIWA MENGGUNAKAN ALGORITMA NAIVE BAYES BERBASIS BACKWARD ELIMINATION

KLASIFIKASI NASABAH ASURANSI JIWA MENGGUNAKAN ALGORITMA NAIVE BAYES BERBASIS BACKWARD ELIMINATION KLASIFIKASI NASABAH ASURANSI JIWA MENGGUNAKAN ALGORITMA NAIVE BAYES BERBASIS BACKWARD ELIMINATION Betrisandi betris.sin@gmail.com Universitas Ichsan Gorontalo Abstrak Pendapatan untuk perusahaan asuransi

Lebih terperinci

BAB I PENDAHULUAN. Pada sekarang ini ketersediaan informasi berbentuk dokumen teks. sebagian besar sudah berbentuk elektronik (softcopy).

BAB I PENDAHULUAN. Pada sekarang ini ketersediaan informasi berbentuk dokumen teks. sebagian besar sudah berbentuk elektronik (softcopy). BAB I PENDAHULUAN 1.1 Latar Belakang Masalah Pada sekarang ini ketersediaan informasi berbentuk dokumen teks sebagian besar sudah berbentuk elektronik (softcopy). Kemungkinan penyimpanan media teks ke

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang Masalah

BAB I PENDAHULUAN 1.1 Latar Belakang Masalah BAB I PENDAHULUAN 1.1 Latar Belakang Masalah Statistika adalah salah satu cabang ilmu matematika yang memperhitungkan probabilitas dari suatu data sampel dengan tujuan mendapatkan kesimpulan mendekati

Lebih terperinci

HASIL DAN PEMBAHASAN. sim(, )=

HASIL DAN PEMBAHASAN. sim(, )= 4 untuk dianggap relevan dengan istilah-istilah kueri tertentu dibandingkan dokumendokumen yang lebih pendek. Sehinggavektor dokumen perlu dinormalisasi. Ukuran kesamaan antara kueri Q dan dokumen D i

Lebih terperinci

BAB IV HASIL DAN PEMBAHASAN

BAB IV HASIL DAN PEMBAHASAN BAB IV HASIL DAN PEMBAHASAN 4.1 Data E-mail Pada bagian ini akan disajikan detail jumlah keseluruhan dataset yang digunakan untuk penelitian. Dataset diambil CSDMC21 yang disediakan oleh http://www.csmining.org/

Lebih terperinci

HASIL DAN PEMBAHASAN. Praproses

HASIL DAN PEMBAHASAN. Praproses 5 4 MySQL sebagai database. 5 Mozilla Firefox sebagai web browser. 6 Microsoft Excel untuk perhitungan hasil penelitian dan pembuatan grafik. Perangkat keras: 1 Prosesor Intel Core i3. 2 RAM 2 GB. 3 Harddisk

Lebih terperinci

UKDW BAB I PENDAHULUAN

UKDW BAB I PENDAHULUAN BAB I PENDAHULUAN 1.1 Latar Belakang Teknologi merupakan salah satu sarana yang mengalami perkembangan pesat dari waktu ke waktu. Contoh dari perkembangan tersebut adalah semakin meningkatnya aktifitas

Lebih terperinci

BAB I. Pendahuluan. 1. Latar Belakang Masalah

BAB I. Pendahuluan. 1. Latar Belakang Masalah BAB I Pendahuluan 1. Latar Belakang Masalah Semakin canggihnya teknologi di bidang komputasi dan telekomunikasi pada masa kini, membuat informasi dapat dengan mudah didapatkan oleh banyak orang. Kemudahan

Lebih terperinci

BAB 3 PERANCANGAN 3.1 GAMBARAN UMUM PROSES SEGMENTASI DOKUMEN

BAB 3 PERANCANGAN 3.1 GAMBARAN UMUM PROSES SEGMENTASI DOKUMEN 28 BAB 3 PERANCANGAN Pada bab ini akan dijelaskan mengenai rancangan percobaan pada penelitian segmentasi dokumen ini. Pembahasan akan dimulai dengan penjelasan mengenai gambaran umum proses segmentasi

Lebih terperinci

BAB III METODELOGI PENELITIAN

BAB III METODELOGI PENELITIAN BAB III METODELOGI PENELITIAN 3.1 Metode Penelitian Metode penelitian yang digunakan yaitu metode eksperimental dimana metode ini bekerja dengan memanipulasi dan melakukan kontrol pada objek penelitian

Lebih terperinci

UKDW 1. BAB 1 PENDAHULUAN Latar Belakang Masalah

UKDW 1. BAB 1 PENDAHULUAN Latar Belakang Masalah 1. BAB 1 PENDAHULUAN 1.1. Latar Belakang Masalah Universitas yang baik dan terpercaya selalu memperhatikan perkembangan dan kondisi yang terjadi di universitas tersebut, salah satunya dengan memantau kinerja

Lebih terperinci

BAB I PENDAHULUAN Latar Belakang

BAB I PENDAHULUAN Latar Belakang BAB I PENDAHULUAN 1.1. Latar Belakang Pertukaran informasi di zaman modern ini telah sampai pada era digital. Hal ini ditandai dengan semakin dibutuhkannya teknologi berupa komputer dan jaringan internet

Lebih terperinci

PENDAHULUAN TINJAUAN PUSTAKA

PENDAHULUAN TINJAUAN PUSTAKA Latar Belakang PENDAHULUAN Indonesia merupakan negara tropis yang memiliki + 30.000 spesies tumbuh-tumbuhan ([Depkes] 2007). Tumbuh-tumbuhan tersebut banyak yang dibudidayakan sebagai tanaman hias. Seiring

Lebih terperinci

BAB 3 METODE PENELITIAN. pengelolaan dokumen yang efektif agar kita dapat me-retrieve informasi yang

BAB 3 METODE PENELITIAN. pengelolaan dokumen yang efektif agar kita dapat me-retrieve informasi yang 58 BAB 3 METODE PENELITIAN 3.1 Analisis Masalah Seiring dengan perkembangan zaman, jumlah informasi yang disimpan dalam betuk digital semakin bertambah, sehingga dibutuhkan cara pengorganisasian dan pengelolaan

Lebih terperinci

BAB III ANALISA DAN PERANCANGAN SISTEM

BAB III ANALISA DAN PERANCANGAN SISTEM 3.1 Persiapan Data BAB III ANALISA DAN PERANCANGAN SISTEM Dalam pengerjaan tugas akhir ini data yang digunakan adalah kalimat tanya Berbahasa Indonesia, dimana kalimat tanya tersebut diambil dari soal-soal

Lebih terperinci

BAB 1 PENDAHULUAN. Universitas Indonesia. Klasifikasi topik menggunakan..., Dyta Anggraeni

BAB 1 PENDAHULUAN. Universitas Indonesia. Klasifikasi topik menggunakan..., Dyta Anggraeni BAB 1 PENDAHULUAN Pada bab ini dijelaskan latar belakang dari penelitian yang memberikan gambaran awal mengenai klasifikasi topik dan perannya dalam perkembangan teknologi informasi. Tujuan dan ruang lingkup

Lebih terperinci

BAB 1 PENDAHULUAN. seluruh dunia menjadi sebuah fenomena yang sangat mengejutkan dalam satu abad

BAB 1 PENDAHULUAN. seluruh dunia menjadi sebuah fenomena yang sangat mengejutkan dalam satu abad 1 BAB 1 PENDAHULUAN 1.1 Latar Belakang Perkembangan komputer di dalam lingkungan kehidupan masyarakat di seluruh dunia menjadi sebuah fenomena yang sangat mengejutkan dalam satu abad terakhir ini. Hal

Lebih terperinci

JULIO ADISANTOSO - ILKOM IPB 1

JULIO ADISANTOSO - ILKOM IPB 1 KOM341 Temu Kembali Informasi KULIAH #8 Text Classification (Manning, Ch.13, p.288/253) Ad Hoc Retrieval vs Standing Query User mencari informasi dengan memberikan satu atau lebih query terhadap koleksi

Lebih terperinci

BAB IV HASIL DAN ANALISIS

BAB IV HASIL DAN ANALISIS BAB IV HASIL DAN ANALISIS 4.1 Hasil Segmentasi Dari beberapa kombinasi scale parameter yang digunakan untuk mendapatkan segmentasi terbaik, untuk mengklasifikasikan citra pada penelitian ini hanya mengambil

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Saat ini, microblogging menjadi sangat popular untuk alat komunikasi antara pengguna internet. Setiap hari jutaan pesan muncul di website penyedia microblogging diantaranya

Lebih terperinci

Penerapan Data Mining Classification Untuk Prediksi Perilaku Pola Pembelian Terhadap Waktu Transaksi Menggunakan Metode Naïve Bayes

Penerapan Data Mining Classification Untuk Prediksi Perilaku Pola Pembelian Terhadap Waktu Transaksi Menggunakan Metode Naïve Bayes Konferensi Nasional Sistem & Informatika 2015 STMIK STIKOM Bali, 9 10 Oktober 2015 Penerapan Data Mining Classification Untuk Prediksi Perilaku Pola Pembelian Terhadap Waktu Transaksi Menggunakan Metode

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Ketersediaan informasi yang semakin banyak menjadikan ringkasan sebagai kebutuhan yang sangat penting (Mulyana, 2010). Menurut (Hovy, 2001) Ringkasan merupakan teks

Lebih terperinci

BAB I PENDAHULUAN. lebih variabel independen. Dalam analisis regresi dibedakan dua jenis variabel

BAB I PENDAHULUAN. lebih variabel independen. Dalam analisis regresi dibedakan dua jenis variabel BAB I PENDAHULUAN A. Latar Belakang Analisis regresi linier merupakan teknik dalam statistika yang digunakan untuk membentuk model hubungan antara variabel dependen dengan satu atau lebih variabel independen.

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI Pada bab ini berisi tentang data dan informasi yang berkaitan dengan pokok permasalahan yang akan diuji, yaitu dengan mendalami tentang klasifikasi teks. Selain itu juga membahas

Lebih terperinci

LANDASAN TEORI. Universitas Indonesia. Klasifikasi topik menggunakan..., Dyta Anggraeni

LANDASAN TEORI. Universitas Indonesia. Klasifikasi topik menggunakan..., Dyta Anggraeni BAB 2 LANDASAN TEORI Pada bab ini dijelaskan landasan teori dari pekerjaan dan metode yang digunakan dalam tugas akhir untuk melakukan klasifiksi topik. Pembahasan ini dimulai dengan penjelasan klasifikasi

Lebih terperinci

BAB IV METODOLOGI PENELITIAN. Penelitian ini dilakukan dengan melalui empat tahap utama, dimana

BAB IV METODOLOGI PENELITIAN. Penelitian ini dilakukan dengan melalui empat tahap utama, dimana BAB IV METODOLOGI PENELITIAN Penelitian ini dilakukan dengan melalui empat tahap utama, dimana tahap pertama adalah proses pengumpulan dokumen teks yang akan digunakan data training dan data testing. Kemudian

Lebih terperinci

Indexing dan Bahasa Penelusuran

Indexing dan Bahasa Penelusuran LOGO Indexing dan Bahasa Penelusuran Sugeng Priyanto Indexing Definisi : sebuah proses untuk melakukan pengindeksan terhadap kumpulan dokumen yang akan disediakan sebagai informasi kepada pemakai. Proses

Lebih terperinci

ISSN : e-proceeding of Engineering : Vol.4, No.3 Desember 2017 Page 5014

ISSN : e-proceeding of Engineering : Vol.4, No.3 Desember 2017 Page 5014 ISSN : 2355-9365 e-proceeding of Engineering : Vol.4, No.3 Desember 2017 Page 5014 Klasifikasi Informasi, Anjuran dan Larangan pada Hadits Shahih Bukhari menggunakan Metode Support Vector Machine. Andina

Lebih terperinci

BAB I PENDAHULUAN.

BAB I PENDAHULUAN. BAB I PENDAHULUAN 1.1. Latar Belakang Saat ini smartphone telah berevolusi menjadi komputer pribadi kecil dan portabel yang memungkinkan pengguna untuk melakukan penjelajahan internet, mengirim e-mail

Lebih terperinci

BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah 1.2 Hipotesis

BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah 1.2 Hipotesis BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah Setiap matakuliah memiliki silabus perkuliahan yang berisi materi-materi mengenai matakuliah tersebut. Silabus disusun berdasarkan buku-buku referensi utama

Lebih terperinci

1. Pendahuluan 1.1 Latar belakang 1.2 Perumusan masalah

1. Pendahuluan 1.1 Latar belakang 1.2 Perumusan masalah 1. Pendahuluan 1.1 Latar belakang Informasi telah menjadi kebutuhan primer pada kehidupan saat ini. Informasi seakan-akan menjadi mata uang baru yang membuat akurasi menjadi sangat penting ketika mencari

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang Masalah

BAB I PENDAHULUAN 1.1 Latar Belakang Masalah BAB I PENDAHULUAN 1.1 Latar Belakang Masalah Bagi perusahaan yang bergerak dalam industri manufaktur, sistem informasi produksi yang efektif merupakan suatu keharusan dan tidak lepas dari persoalan persediaan

Lebih terperinci

PENERAPAN ALGORITMA NAÏVE BAYES UNTUK DETEKSI BAKTERI E-COLI

PENERAPAN ALGORITMA NAÏVE BAYES UNTUK DETEKSI BAKTERI E-COLI PENERAPAN ALGORITMA NAÏVE BAYES UNTUK DETEKSI BAKTERI E-COLI Laily Hermawanti Program Studi Teknik informatika Fakultas Teknik Universitas Sultan Fatah (UNISFAT) Jl. Diponegoro 1B Jogoloyo Demak Telpon

Lebih terperinci

BAB I PENDAHULUAN. penunjang Al-Quran untuk memudahkan untuk mempelajarinya, yang bisa

BAB I PENDAHULUAN. penunjang Al-Quran untuk memudahkan untuk mempelajarinya, yang bisa BAB I PENDAHULUAN 1.1 Latar Belakang Masalah Dengan kemajuan teknologi yang sangat pesat ini sudah banyak aplikasi penunjang Al-Quran untuk memudahkan untuk mempelajarinya, yang bisa disebut atau di artikan

Lebih terperinci

BAB III LANDASAN TEORI. Deteksi emosi termasuk salah satu persoalan utama dalam affective computing

BAB III LANDASAN TEORI. Deteksi emosi termasuk salah satu persoalan utama dalam affective computing BAB III LANDASAN TEORI Permasalahan yang diselesaikan dalam tesis ini adalah deteksi emosi. Deteksi emosi termasuk salah satu persoalan utama dalam affective computing (Calvo & D'Mello, 2010). Bidang penelitian

Lebih terperinci

BAB II TINJAUAN PUSTAKA DAN DASAR TEORI. Dalam tinjauan pustaka dibawah ini terdapat 6 referensi sebagai berikut : - Algoritma Naïve Bayes Classifier

BAB II TINJAUAN PUSTAKA DAN DASAR TEORI. Dalam tinjauan pustaka dibawah ini terdapat 6 referensi sebagai berikut : - Algoritma Naïve Bayes Classifier BAB II TINJAUAN PUSTAKA DAN DASAR TEORI 2.1 Tinjauan Pustaka Dalam tinjauan pustaka dibawah ini terdapat 6 referensi sebagai berikut : Tabel 2.1 Penelitian sebelumnya Parameter Penulis Objek Metode Hasil

Lebih terperinci

3.6 Data Mining Klasifikasi Algoritma k-nn (k-nearest Neighbor) Similaritas atribut numerik

3.6 Data Mining Klasifikasi Algoritma k-nn (k-nearest Neighbor) Similaritas atribut numerik DAFTAR ISI PERNYATAAN... iii PRAKATA... vi DAFTAR ISI... viii DAFTAR GAMBAR... xi DAFTAR TABEL... xiv DAFTAR PERSAMAAN... xv DAFTAR ALGORITMA... xvi DAFTAR LAMPIRAN... xvii INTISARI... xviii ABSTRACT...

Lebih terperinci

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

BAB 1 PENDAHULUAN. 1.1 Latar Belakang BAB 1 PENDAHULUAN 1.1 Latar Belakang Analisis Regresi adalah analisis statistik yang mempelajari bagaimana memodelkan sebuah model fungsional dari data untuk dapat menjelaskan ataupun meramalkan suatu

Lebih terperinci

Implementasi Rocchio s Classification dalam Mengkategorikan Renungan Harian Kristen

Implementasi Rocchio s Classification dalam Mengkategorikan Renungan Harian Kristen Implementasi Rocchio s Classification dalam Mengkategorikan Renungan Harian Kristen Elisabeth Adelia Widjojo, Antonius Rachmat C, R. Gunawan Santosa Program Studi Teknik Informatika, Fakultas Teknologi

Lebih terperinci

ANALISIS PERBANDINGAN ALGORITMA DECISION TREE J48 DAN NAÏVE BAYES DALAM MENGKLASIFIKASIKAN POLA PENYAKIT SKRIPSI. Oleh :

ANALISIS PERBANDINGAN ALGORITMA DECISION TREE J48 DAN NAÏVE BAYES DALAM MENGKLASIFIKASIKAN POLA PENYAKIT SKRIPSI. Oleh : ANALISIS PERBANDINGAN ALGORITMA DECISION TREE J48 DAN NAÏVE BAYES DALAM MENGKLASIFIKASIKAN POLA PENYAKIT SKRIPSI Oleh : Frista Yulianora 1401128832 Muchammad Hasbi Latif 1401136065 Rika Jubel Febriana

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN BAB III METODOLOGI PENELITIAN Metodologi penelitian merupakan sistematika tahap-tahap yang dilaksanakan dalam pembuatan tugas akhir. Adapun tahapan yang dilalui dalam pelaksanaan penelitian ini adalah

Lebih terperinci

BAB 4 HASIL DAN PEMBAHASAN. untuk pengenalan ekspresi wajah diantara metode Non Negative Matrix

BAB 4 HASIL DAN PEMBAHASAN. untuk pengenalan ekspresi wajah diantara metode Non Negative Matrix BAB 4 HASIL DAN PEMBAHASAN 4.1. Hasil Penelitian Penelitian akan dilakukan untuk mencari hasil yang paling optimal untuk pengenalan ekspresi wajah diantara metode Non Negative Matrix Factorization (NMF),

Lebih terperinci

BAB 1 PENDAHULUAN. 1.1 Latar Belakang Masalah

BAB 1 PENDAHULUAN. 1.1 Latar Belakang Masalah BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah Sekarang ini, ketersediaan sumber informasi dalam bentuk dokumen teks sebagaian besar telah disajikan ke dalam bentuk elektronik. Kemungkinan penyimapan media

Lebih terperinci

BAB I PENDAHULUAN. untuk membentuk model hubungan antara variabel dependen dengan satu atau

BAB I PENDAHULUAN. untuk membentuk model hubungan antara variabel dependen dengan satu atau BAB I PENDAHULUAN A. Latar Belakang Analisis regresi linier merupakan teknik dalam statistika yang digunakan untuk membentuk model hubungan antara variabel dependen dengan satu atau lebih variabel independen.

Lebih terperinci

UKDW BAB I PENDAHULUAN. 1.1 Latar Belakang

UKDW BAB I PENDAHULUAN. 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Perkembangan pengetahuan dan kehidupan manusia sungguh dipercepat dengan kemudahan akses terhadap begitu banyak informasi. Pada beberapa waktu yang lalu akses terhadap

Lebih terperinci

Jurnal String Vol. 1 No. 1 Tahun 2016 ISSN:

Jurnal String Vol. 1 No. 1 Tahun 2016 ISSN: KAJIAN KOMPARASI ALGORITMA C4.5, NAÏVE BAYES DAN NEURAL NETWORK DALAM PEMILIHAN PENERIMA BEASISWA (Studi Kasus pada SMA Muhammadiyah 4 Jakarta ) Ulfa Pauziah Program Studi Teknik Informatika, Universitas

Lebih terperinci

INDEXING AND RETRIEVAL ENGINE UNTUK DOKUMEN BERBAHASA INDONESIA DENGAN MENGGUNAKAN INVERTED INDEX

INDEXING AND RETRIEVAL ENGINE UNTUK DOKUMEN BERBAHASA INDONESIA DENGAN MENGGUNAKAN INVERTED INDEX INDEXING AND RETRIEVAL ENGINE UNTUK DOKUMEN BERBAHASA INDONESIA DENGAN MENGGUNAKAN INVERTED INDEX Wahyu Hidayat 1 1 Departemen Teknologi Informasi, Fakultas Ilmu Terapan, Telkom University 1 wahyuhidayat@telkomuniversity.ac.id

Lebih terperinci

BAB 1 PENDAHULUAN. 1.1 Latar Belakang Masalah

BAB 1 PENDAHULUAN. 1.1 Latar Belakang Masalah BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah Sumber opini teks saat ini tersedia berlimpah di internet akan tetapi belum sepenuhnya dimanfaatkan karena masih kurangnya tool yang ada, sedangkan perkembangan

Lebih terperinci

BAB I PENDAHULUAN. Statistika adalah salah satu cabang ilmu yang mempelajari prosedur-prosedur

BAB I PENDAHULUAN. Statistika adalah salah satu cabang ilmu yang mempelajari prosedur-prosedur BAB I PENDAHULUAN 1.1 Latar Belakang Statistika adalah salah satu cabang ilmu yang mempelajari prosedur-prosedur yang digunakan dalam pengumpulan, penyajian, analisis dan interpretasi data. Statistika

Lebih terperinci

Analisis Sentimen Tentang Opini Pilkada Dki 2017 Pada Dokumen Twitter Berbahasa Indonesia Menggunakan Näive Bayes dan Pembobotan Emoji

Analisis Sentimen Tentang Opini Pilkada Dki 2017 Pada Dokumen Twitter Berbahasa Indonesia Menggunakan Näive Bayes dan Pembobotan Emoji Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer e-issn: 2548-964X Vol. 1, No. 12, Desember 2017, hlm. 1718-1724 http://j-ptiik.ub.ac.id Analisis Sentimen Tentang Opini Pilkada Dki 2017 Pada Dokumen

Lebih terperinci

PENERAPAN DATA MINING UNTUK REKOMENDASI BEASISWA PADA SMA MUHAMMADIYAH GUBUG MENGGUNAKAN ALGORITMA C4.5

PENERAPAN DATA MINING UNTUK REKOMENDASI BEASISWA PADA SMA MUHAMMADIYAH GUBUG MENGGUNAKAN ALGORITMA C4.5 1 PENERAPAN DATA MINING UNTUK REKOMENDASI BEASISWA PADA SMA MUHAMMADIYAH GUBUG MENGGUNAKAN ALGORITMA C4.5 Dina Maurina, Ahmad Zainul Fanani S.Si, M.Kom Jurusan Teknik Informatika FIK UDINUS, Jl. Nakula

Lebih terperinci

PENGARUH DUMMY VARIABLE PADA METODE NAÏVE BAYES DALAM KASUS KLASIFIKASI PENYAKIT KANDUNGAN

PENGARUH DUMMY VARIABLE PADA METODE NAÏVE BAYES DALAM KASUS KLASIFIKASI PENYAKIT KANDUNGAN PENGARUH DUMMY VARIABLE PADA METODE NAÏVE BAYES DALAM KASUS KLASIFIKASI PENYAKIT KANDUNGAN SKRIPSI Diajukan untuk Memenuhi Salah Satu Syarat Mencapai Gelar Strata Satu Prodi Informatika HALAMAN JUDUL Disusun

Lebih terperinci

BAB III PERANCANGAN. Fitur. Reduksi & Pengelompokan. Gambar 3.1. Alur Pengelompokan Dokumen

BAB III PERANCANGAN. Fitur. Reduksi & Pengelompokan. Gambar 3.1. Alur Pengelompokan Dokumen BAB III PERANCANGAN Pada bab ini akan delaskan tahapan yang dilalui dalam melakukan perancangan penelitian yang akan dilakukan dalam tugas akhir ini. Tahapan tersebut meliputi perancangan implementasi

Lebih terperinci

BAB I PENDAHULUAN. yang perlu diketahui, yang disebut sebagai variabel. Variabel adalah sebuah

BAB I PENDAHULUAN. yang perlu diketahui, yang disebut sebagai variabel. Variabel adalah sebuah BAB I PENDAHULUAN 1.1. Latar Belakang Dalam melakukan inferensi terhadap populasi, tidak semua ciri populasi harus diketahui, hanya satu atau beberapa karakteristik populasi yang perlu diketahui, yang

Lebih terperinci

BAB III METODE PENELITIAN

BAB III METODE PENELITIAN BAB III BAB 3 METODE PENELITIAN 3.1. Tahap pengumpulan data Data awal dalam penelitian ini adalah dokumen berupa artikel teks berita online dalam bahasa Indonesia yang dikumpulkan secara acak dari portal

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI II.1 Text Mining Text Mining merupakan penerapan konsep dan teknik data mining untuk mencari pola dalam teks, proses penganalisaan teks guna menemukan informasi yang bermanfaat untuk

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Analisis sentimen merupakan proses dalam mengolah, memahami, dan mengekstrak data dalam bentuk teks terhadap suatu topik, kejadian ataupun individu untuk mendapatkan

Lebih terperinci

BAB IV HASIL DAN PEMBAHASAN

BAB IV HASIL DAN PEMBAHASAN 32 BAB IV HASIL DAN PEMBAHASAN 4.1 Hasil Pengukuran Precision Pada penelitian ini, eksperimen dilakukan terhadap 160 gambar ZuBuD yang terdiri dari 40 kategori gambar (setiap kategori terdiri atas 4 gambar).

Lebih terperinci

BAB 2 LANDASAN TEORI

BAB 2 LANDASAN TEORI BAB 2 LANDASAN TEORI Pada bab ini dijelaskan landasan teori dan metode yang digunakan pada tugas akhir ini dalam pengklasifikasian dokumen teks. Pembahasan dimulai dengan penjelasan mengenai klasifikasi

Lebih terperinci

beberapa tag-tag lain yang lebih spesifik di dalamnya.

beberapa tag-tag lain yang lebih spesifik di dalamnya. metode mana yang lebih baik digunakan untuk memilih istilah ekspansi yang akan ditambahkan pada kueri awal. Lingkungan Implementasi Perangkat lunak yang digunakan untuk penelitian yaitu:. Windows Vista

Lebih terperinci

ALGORITMA C4.5 UNTUK PEMODELAN DAERAH RAWAN BANJIR STUDI KASUS KABUPATEN KARAWANG JAWA BARAT

ALGORITMA C4.5 UNTUK PEMODELAN DAERAH RAWAN BANJIR STUDI KASUS KABUPATEN KARAWANG JAWA BARAT ALGORITMA C4.5 UNTUK PEMODELAN DAERAH RAWAN BANJIR STUDI KASUS KABUPATEN KARAWANG JAWA BARAT Ahmad Khusaeri 1, Septian Ilham 2, Desi Nurhasanah 3, Derrenz Delpidat 4, Anggri 5, Aji Primajaya 6, Betha Nurina

Lebih terperinci

KLASIFIKASI DOKUMEN TEKS MENGGUNAKAN METODE SUPPORT VECTOR MACHINE DENGAN PEMILIHAN FITUR CHI-SQUARE ARINI DARIBTI PUTRI

KLASIFIKASI DOKUMEN TEKS MENGGUNAKAN METODE SUPPORT VECTOR MACHINE DENGAN PEMILIHAN FITUR CHI-SQUARE ARINI DARIBTI PUTRI KLASIFIKASI DOKUMEN TEKS MENGGUNAKAN METODE SUPPORT VECTOR MACHINE DENGAN PEMILIHAN FITUR CHI-SQUARE ARINI DARIBTI PUTRI DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN BAB III METODOLOGI PENELITIAN Metodologi penelitian merupakan rangkaian dari langkah-langkah yang diterapkan dalam penelitian, secara umum dan khusus langkah-langkah tersebut tertera pada Gambar flowchart

Lebih terperinci

SKRIPSI. Disusun Oleh: MARTA WIDYASTUTI

SKRIPSI. Disusun Oleh: MARTA WIDYASTUTI ANALISIS PENGARUH INFLASI, KURS, DAN SUKU BUNGA SERTIFIKAT BANK INDONESIA TERHADAP INDEKS HARGA SAHAM GABUNGAN MENGGUNAKAN REGRESI LINIER BERGANDA BAYES SKRIPSI Disusun Oleh: MARTA WIDYASTUTI 24010211130068

Lebih terperinci

JULIO ADISANTOSO - ILKOM IPB 1

JULIO ADISANTOSO - ILKOM IPB 1 KOM34 Temu Kembali Informasi KULIAH #7 Text Classifiation Ad Ho Retrieval User menari informasi dengan memberikan satu atau lebih query terhadap koleksi terkini. : menari multiore omputer hips terbaru.

Lebih terperinci

BAB 2. Landasan Teori

BAB 2. Landasan Teori BAB 2 Landasan Teori 2.1 Pengertian Data Mining Menurut Han dan Kamber (2011:6) menjelaskan bahwa Data Mining merupakan pemilihan atau menggali pengetahuan dari jumlah data yang banyak. Berbeda dengan

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Meningkatnya perkembangan teknologi juga diikuti dengan berkembangnya penggunaan berbagai situs jejaring sosial. Salah satu jejaring sosial yang sangat marak digunakan

Lebih terperinci

IDENTIFIKASI MAHASISWA YANG MEMPUNYAI KECENDERUNGAN LULUS TIDAK TEPAT WAKTU PADA PROGRAM STUDI MMT-ITS DENGAN MENGGUNAKAN ALGORITMA C4.

IDENTIFIKASI MAHASISWA YANG MEMPUNYAI KECENDERUNGAN LULUS TIDAK TEPAT WAKTU PADA PROGRAM STUDI MMT-ITS DENGAN MENGGUNAKAN ALGORITMA C4. IDENTIFIKASI MAHASISWA YANG MEMPUNYAI KECENDERUNGAN LULUS TIDAK TEPAT WAKTU PADA PROGRAM STUDI MMT-ITS DENGAN MENGGUNAKAN ALGORITMA C4.5 Amelia Halim 1) dan Joko Lianto Buliali 2) 1) Program Studi Magister

Lebih terperinci

Text & Web Mining - Budi Susanto - TI UKDW 1 RETRIEVAL STRATEGIES. Budi Susanto

Text & Web Mining - Budi Susanto - TI UKDW 1 RETRIEVAL STRATEGIES. Budi Susanto Text & Web Mining - Budi Susanto - TI UKDW 1 RETRIEVAL STRATEGIES Budi Susanto Text & Web Mining - Budi Susanto - TI UKDW 2 Tujuan Memahami model probabilitistic retrieval dengan metode Simple Term Weights.

Lebih terperinci

PENENTUAN KUALITAS IKAN BANDENG MENGGUNAKAN ALGORITMA NAIVE BAYES BERDASARKAN TEKSTUR PADA CITRA ABSTRAK

PENENTUAN KUALITAS IKAN BANDENG MENGGUNAKAN ALGORITMA NAIVE BAYES BERDASARKAN TEKSTUR PADA CITRA ABSTRAK PENENTUAN KUALITAS IKAN BANDENG MENGGUNAKAN ALGORITMA NAIVE BAYES BERDASARKAN TEKSTUR PADA CITRA Rahmanika Ratna Sari 1, Hanny Haryanto 2 1,2 Teknik Informatika, Fakultas Ilmu Komputer, Universitas Dian

Lebih terperinci

Perbandingan 5 Algoritma Data Mining untuk Klasifikasi Data Peserta Didik

Perbandingan 5 Algoritma Data Mining untuk Klasifikasi Data Peserta Didik Perbandingan 5 Algoritma Data Mining untuk Klasifikasi Data Peserta Didik Imam Sutoyo AMIK BSI JAKARTA e-mail: imam.ity@bsi.ac.id Abstrak - Klasifikasi peserta didik merupakan kegiatan yang sangat penting

Lebih terperinci

BAB 3 ANALISIS MASALAH DAN PERANCANGAN

BAB 3 ANALISIS MASALAH DAN PERANCANGAN BAB 3 ANALISIS MASALAH DAN PERANCANGAN 3.1 State of the Art Pada penelitian sebelumnya sudah ada yang menggunakan metode Stemming untuk preprocessing text dalam mengolah data pelatihan dan data uji untuk

Lebih terperinci

1. Pendahuluan. 1.1 Latar belakang

1. Pendahuluan. 1.1 Latar belakang 1. Pendahuluan 1.1 Latar belakang Pada saat ini, kebutuhan setiap individu terhadap Internet semakin meningkat. Hal ini terlihat dari semakin banyaknya fasilitas yang ditawarkan dari dunia Internet itu

Lebih terperinci

BAB V EKSPERIMEN TEXT CLASSIFICATION

BAB V EKSPERIMEN TEXT CLASSIFICATION BAB V EKSPERIMEN TEXT CLASSIFICATION Pada bab ini akan dibahas eksperimen untuk membandingkan akurasi hasil text classification dengan menggunakan algoritma Naïve Bayes dan SVM dengan berbagai pendekatan

Lebih terperinci

Latent Semantic Analysis dan. Similarity untuk Pencarian. oleh : Umi Sa adah

Latent Semantic Analysis dan. Similarity untuk Pencarian. oleh : Umi Sa adah Metode Latent Semantic Analysis dan Algoritma Weighted Tree Similarity untuk Pencarian berbasis b Semantik oleh : Umi Sa adah 5109201030 Pembimbing : Prof. Drs.Ec. Ir. Riyanarto Sarno, M.Sc, Ph.D Umi Laili

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1. Tinjauan Penelitian Terdahulu Penelitian sebelumnya dilakukan oleh Rahmatulloh (2016). Penelitian yang berjudul Rancang Bangun Sistem Informasi Pencarian Benda Hilang Lost &

Lebih terperinci

BAB III METODOLOGI. Support Vector Machines (SVM) merupakan salah satu metode machine

BAB III METODOLOGI. Support Vector Machines (SVM) merupakan salah satu metode machine BAB III METODOLOGI 3.1 Hipotesis Support Vector Machines (SVM) merupakan salah satu metode machine learning yang dapat melakukan klasifikasi data dengan sangat baik. Metode ini bertujuan untuk mendapatkan

Lebih terperinci

UKDW BAB 1 PENDAHULUAN. 1.1 Latar Belakang

UKDW BAB 1 PENDAHULUAN. 1.1 Latar Belakang BAB 1 PENDAHULUAN 1.1 Latar Belakang Tinjauan atau review seseorang yang ditujukan kepada suatu objek atau produk sangat berpengaruh terhadap penilaian publik atas produk tersebut (Sahoo, 2013). Review

Lebih terperinci

Online News Classification Using Multinomial Naive Bayes

Online News Classification Using Multinomial Naive Bayes Online News Classification Using Multinomial Naive Bayes Amelia Rahman Informatika, Fakultas MIPA Universitas Sebelas Maret Jalan Ir. Sutami 36A Surakarta amelia.rahman@student.uns.ac.id Wiranto Informatika,

Lebih terperinci

TINJAUAN PUSTAKA. Definisi Data Mining

TINJAUAN PUSTAKA. Definisi Data Mining TINJAUAN PUSTAKA Definisi Data Mining Sistem Manajemen Basis Data tingkat lanjut dan teknologi data warehousing mampu untuk mengumpulkan banjir data dan untuk mentransformasikannya ke dalam basis data

Lebih terperinci

CLUSTERING DOKUMEN BERBAHASA INDONESIA MENGGUNAKAN FUZZY C-MEANS ISNA MARIAM

CLUSTERING DOKUMEN BERBAHASA INDONESIA MENGGUNAKAN FUZZY C-MEANS ISNA MARIAM CLUSTERING DOKUMEN BERBAHASA INDONESIA MENGGUNAKAN FUZZY C-MEANS ISNA MARIAM DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2011 CLUSTERING DOKUMEN

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Analisis statistika pada dasarnya merupakan suatu analisis terhadap sampel yang kemudian hasilnya akan digeneralisasi untuk menggambarkan suatu karakteristik populasi.

Lebih terperinci

PERBANDINGAN DECISION TREE

PERBANDINGAN DECISION TREE 84 2015 Jurnal Krea-TIF Vol: 03 No: 02 PERBANDINGAN DECISION TREE PADA ALGORITMA C 4.5 DAN ID3 DALAM PENGKLASIFIKASIAN INDEKS PRESTASI MAHASISWA (Studi Kasus: Fasilkom Universitas Singaperbangsa Karawang)

Lebih terperinci