IMPLEMENTASI MODIFIKASI ENHANCED CONFIX STRIPPING STEMMER UNTUK BAHASA INDONESIA DENGAN METODE CORPUS BASED STEMMING

Ukuran: px
Mulai penontonan dengan halaman:

Download "IMPLEMENTASI MODIFIKASI ENHANCED CONFIX STRIPPING STEMMER UNTUK BAHASA INDONESIA DENGAN METODE CORPUS BASED STEMMING"

Transkripsi

1 IMPLEMENTASI MODIFIKASI ENHANCED CONFIX STRIPPING STEMMER UNTUK BAHASA INDONESIA DENGAN METODE CORPUS BASED STEMMING DOSEN PEMBIMBING Diana Purwitasarti, S.Kom., M.Sc. MAHASISWA Andita Dwiyoga T ( )) Seminar Tugas Akhir Juli 2010

2 Latar Belakang (1) Enhanced Confix Stripping (ECS) Stemmer, yang merupakan perbaikan dari Confix Stripping (CS) Stemmer, masih melakukan kesalahan stemming : NO TIPE KESALAHAN AWAL CONTOH KASUS HASIL STEMMING SEHARUSNYA 1 KESALAHAN ATURAN 18 menyatakan menyatakan nyata 2 KESALAHAN ATURAN 31 penyanyi penyanyi nyanyi 3 SISIPAN temaram temaram taram 4 AKHIRAN SERAPAN BAHASA ASING relawan relawan rela 5 KATA GABUNGAN diberitahukan diberitahukan beritahu 6 NAMA ORANG Gumai Guma Gumai 7 OVERSTEMING penyidikan sidi sidik 8 UNDERSTEMMING mengalami alami alam

3 Latar Belakang (2) Dalam evaluasi performa sistem pencarian dokumen, pembentukan relevan set secara manual membutuhkan banyak waktu. QUERY SET : Query A Query B Query C KOLEKSI DOKUMEN : Dokumen 1 Dokumen 2 Dokumen 3 Dokumen 4 Dokumen 5 Dokumen 6 Dokumen 7 Dokumen 8 Query A : Dokumen 1 Dokumen 2 Dokumen 4 Query B : Dokumen 1 Dokumen 3 Dokumen 5 RELEVAN SET : Query C : Dokumen 2 Dokumen 5 Dokumen 6

4 Permasalahan Bagaimana cara memperbaiki kesalahan stemming yang dilakukan oleh ECS Stemmer? Bagaimana cara mengevaluasi performa sistem temu kembali informasi tanpa melakukan penilaian relevansi dokumen secara manual? Bagaimana performa sistem pencarian dokumen yang menggunakan ECS Stemmer sebelum dan sesudah perbaikan?

5 Tujuan Melakukan modifikasi terhadap algoritma ECS Stemmer dengan menerapkan metode corpus based stemmer untuk mengatasi problem overstemming dan understemming. Menerapkan teknik data fusion menggunakan metode Condorcet untuk proses pembentukan relevansi set secara otomatis.

6 Batasan Masalah Teknik stemming dilakukan untuk kata-kata dalam Bahasa Indonesia Modul ECS Stemmer, kamus kata dasar, dan list stopwords serupa dengan yang digunakan oleh I Putu Adhi Kerta dalam Tugas Akhirnya. Koleksi dokumen yang digunakan dalam uji coba diambil dari detikfinance.com mulai dari tanggal 1 November 2009 sampai dengan 31 Desember 2009 dengan jumlah total 1427 dokumen berita.

7 DASAR TEORI

8 FLOWCHART SISTEM IR

9 Sejarah singkat perkembangan ECS Stemmer Nazief-Adriani Stemmer (1996) Pembentukan kamus kata dasar sebagai acuan hasil pemenggalan Pembentukan tabel aturan pemenggalan awalan dan akhiran Jelita Asian - CS Stemmer (2007) Penambahan aturan pemenggalan untuk kata ulang (plural) Penggunaan rule precedence di dalam algoritma stemmer Penambahan dan revisi aturan dalam tabel aturan pemenggalan Putu Adhi Kerta - ECS Stemmer (2008) Revisi aturan dalam tabel aturan pemenggalan Penggunaan looppengembalianakhiran di dalam algoritma stemmer

10 Perbaikan terhadap ECS Stemmer Revisi aturan nomor 18 dan 31 serta penambahan aturan untuk pemenggalan sisipan pada tabel aturan pemenggalan imbuhan. Penambahan algoritma pada ECS Stemmer untuk melakukan cek keberadaan kata gabungan, contoh diberitahukan menjadi beritahu. Penggunaan Corpus Based Stemming untuk mengatasi permasalahan kata-kata yang memiliki potensi overstemming dan understemming (memiliki hasil stemming lebih dari satu).

11 Corpus Based Stemming Dikembangkan oleh Jinxi Xu - Bruce Croft dengan latarbelakang adanya proses stemming yang memiliki kemungkianan hasil stemming 2 buah kata atau lebih. Contoh : mengakui : meng + akui meng + aku + i mengawali : meng + awal + i meng + kawal + i

12 Corpus Based Stemming (2) Partisi terhadap kelas stem awal menjadi 4 kelas baru : Term Hasil Stem ECS Stemmer Kata Dasar Seharusnya diawal awal awal diawali awal awal awal-awal awal awal mengawal awal awal / kawal pengawalan awal awal / kawal mengawali awal awal / kawal Corpus Based Stemmer diawali awal-awal mengawali 1 diawal mengawal pengawalan 2 3 4

13 Corpus Based Stemming (3) Corpus based stemming dimulai dengan melakukan penghitungan nilai em : em( a, b) Keterangan : max( n ab n a En( a, b) n b,0) En( a, b) knanb k n ab nan b n a dan n b : jumlah frekuensi kata a dan b pada koleksi dokumen n ab : frekuensi kedua kata tersebut muncul secara bersamaan (co-occurence) di dalam jendela teks yang sama. En(a,b) : nilai ekspektasi munculnya kata a dan b secara bersama-sama, dengan asumsi awal bahwa kedua kata tersebut tidak saling mempengaruhi (statictically independent) k : faktor konstan dari estimasi dengan sample berukuran besar yang dipilih secara random atau acak dari pasangan kata yang terdapat pada corpus yang digunakan.

14 Corpus Based Stemming : Algoritma Connected Component Algoritma Connected Component : Hubungkan pasangan term dengan em > 0.01

15 Corpus Based Stemming : Algoritma Connected Component (2) Kekurangan algoritma connected component : Jumlah kelas stem yang terbentuk sangat ditentukan jumlah graf yang terbentuk. Saat terbentuk 2 kelas stem oleh algoritma ECS Stemmer, dan salah satu term dari salah satu kelas tersebut salah di-stem oleh ECS Stemmer, algoritma connected component tidak dapat memindahkan term tersebut ke kelas yang lain. Kelas stem : awal Diawali Awal-awal mengawal Kelas stem : kawal Kelas stem : awal Diawali Awal-awal Kelas stem : kawal Kelas stem awal Diawali Awal-awal mengawal Kelas stem kawal Kelas stem 1 Diawali Awal-awal Kelas stem 2 mengawal Dikawal kawal mengawal Dikawal kawal Dikawal kawal Kelas stem 3 Dikawal kawal

16 Corpus Based Stemming : Algoritma Nilai Em Terbesar Algoritma : Pemilihan Hasil Stemming dengan nilai Em terbesar Kelas stem : awal diawali awal-awal mengawal Kelas stem : kawal mengawal dikawal kawal Dapatkan nilai em tertinggi dari tiap kelas stem. Kelas Stem Term 1 Term 2 em awal mengawal diawali 0,05 awal-awal 0,03 kawal mengawal dikawal 0,11 kawal 0 Max (em) 0,03 0,11

17 Corpus Based Stemming : Algoritma Nilai Em Terbesar (2) Algoritma : Pemilihan Hasil Stemming dengan nilai Em terbesar Kelas stem yang memiliki nilai em tertinggi akan ditetapkan sebagai kelas stem untuk term tersebut. Kelas stem : awal diawali Awal-awal Kelas stem : kawal mengawal dikawal kawal

18 Penghitungan similaritas dokumen terhadap query Proses penghitungan similaritas diawali dengan penghitungan bobot tf-idf : Nilai similaritas suatu dokumen terhadap query dihitung menggunakan rumus cosinus similarity :

19 Pembentukan relevance set Pembentukan relevan set secara otomatis = pseudo relevance set (pseudorels)

20 Condorcet Method (1) SISTEM A Rank Similarity Dokumen a b c SISTEM B Rank Similarity Dokumen a c 3 99 b SISTEM C Rank Similarity Dokumen a b c a > b > c a > c > b a > b = c SISTEM D Rank Similarity Dokumen b a b > a SISTEM E Rank Similarity Dokumen c 2 90 a c > a

21 Condorcet Method (2) elemen matrix (i,j) : nilai menang, kalah, dan seri dokumen i terhadap dokumen j pada tiap sistem yang ada. a b c a - 4,1,0 4,1,0 b 1,4,0-2,2,1 c 1,4,0 2,2,1 - Setiap dokumen dibandingkan nilai menang dan kalahnya terhadap dokumen lainnya. Win Lose Tie a b c Penentuan ranking dokumen ditentukan berdasarkan nilai menang dan kalahnya. Dari contoh di atas, maka urutan akhir dokumen adalah a > b = c.

22 UJI COBA

23 Hasil Perbaikan ECS Stemmer : 1. Aturan Nomor 18 TERM ECS IECS menyala sala nyala menyanyikan menyanyikan nyanyi menyatakannya menyatakannya nyata 2. Aturan Nomor 31 term ecs iecs penyanyi sanyi nyanyi penyawaan sawa nyawa 3. Sisipan TERM ECS IECS melamah melamah mamah jelambar jelambar jambar lemigas lemigas ligas rerata rerata rata

24 Hasil Perbaikan ECS Stemmer (2) : 4. Akhiran serapan bahasa asing ('-is', '-isasi', '-isme', '-wan', '-wati') TERM ECS IECS relawan relawan rela riawan riawan ria salawati salawat sala belesis belesis beles eksis eksis eks finalis finalis final menepis tepis tep minimalis minimalis minimal brokerisasi brokerisasi broker difinalisasi difinalisasi final finalisasi finalisasi final maksimalisasi maksimalisasi maksimal memfinalisasi memfinalisasi final standarisasi standarisasi standar terealisasi realisasi real

25 Hasil Perbaikan ECS Stemmer (3) : 5. Kata Gabungan TERM ECS IECS bekerjasama bekerjasama kerjasama berkerjasama berkerjasama kerjasama beritahukan beritahukan beritahu diberitahu diberitahu beritahu diberitahukan diberitahukan beritahu dibertanggungjawabkan dibertanggungjawabkan tanggungjawab dipertanggungjawabkan dipertanggungjawabkan tanggungjawab ditandatangani ditandatangani tandatangan ditandatanganinya ditandatanganinya tandatangan ditindaklanjut ditindaklanjut tindaklanjut ditindaklanjuti ditindaklanjuti tindaklanjut diujicoba diujicoba ujicoba diujicobakan diujicobakan ujicoba keanekaragaman keanekaragaman anekaragam

26 Hasil Perbaikan ECS Stemmer (4) : 5. Perbaikan Hasil Stemming Menggunakan Analisis Nilai Em term ECS Stemmer List Bentuk Dasar analisis nilai em penjajakan jaja [jaja, jajak, jajakan, penjaja, penjajak] jajak penyelidikan lidi [lidi, lidikan, selidik] selidik penyidikan sidi [nyidi, nyidik, nyikan, sidi, sidik, sidikan, sikan] sidik perancang ancang [ancang, pancang, perancang, rancang] rancang perancangan ancang [ancang, perancang, rancang] rancang perbankan perban [bank, perban, perbank, perbankan] bank pergerakan gera [gera, gerak, gerakan, pergera, pergerak] gerak perombakan ombak [ombak, perombak, rombak] rombak

27 Perbandingan Nilai Efektifitas : Pool Depth Measure Percentage merged documents = 30 Tanpa Stemming ECS Stemmer Perbaikan ECS Stemmer Recall 0,955 1,000 1,000 Recall(10) 0,862 0,890 0,787 Recall(20) 0,879 0,941 0,863 Precision 0,073 0,055 0,038 Precision(10) 0,069 0,052 0,030 Precision(20) 0,072 0,054 0,036 MAP 0,758 0,802 0,663 Recall 0,941 1,000 1,000 Recall(10) 0,733 0,780 0,640 Recall(20) 0,829 0,907 0,835 Precision 0,143 0,106 0,070 Precision(10) 0,121 0,088 0,044 Precision(20) 0,136 0,103 0,064 MAP 0,750 0,811 0,681 Recall 0,890 0,992 1,000 Recall(10) 0,548 0,558 0,483 Recall(20) 0,761 0,877 0,861 Precision 0,198 0,148 0,103 Precision(10) 0,139 0,094 0,049 Precision(20) 0,184 0,141 0,094 MAP 0,685 0,790 0,705

28 Perbandingan Nilai Efektifitas (2) : Percentage merged documents = 40 Pool Depth Measure Tanpa Stemming ECS Stemmer Perbaikan ECS Stemmer Recall 0,956 1,000 1,000 Recall(10) 0,825 0,853 0,765 Recall(20) 0,850 0,916 0,865 Precision 0,106 0,078 0,053 Precision(10) 0,096 0,072 0,040 Precision(20) 0,102 0,076 0,049 MAP 0,799 0,846 0,702 Recall 0,928 0,992 1,000 Recall(10) 0,681 0,695 0,583 Recall(20) 0,818 0,883 0,832 Precision 0,182 0,136 0,095 Precision(10) 0,146 0,102 0,052 Precision(20) 0,172 0,132 0,086 MAP 0,790 0,864 0,726 Recall 0,889 0,981 1,000 Recall(10) 0,501 0,471 0,412 Recall(20) 0,752 0,808 0,791 Precision 0,248 0,189 0,139 Precision(10) 0,161 0,103 0,055 Precision(20) 0,230 0,171 0,118 MAP 0,775 0,854 0,768

29 Perbandingan Nilai Efektifitas (3) : Pool Dept h Measure Percentage merged documents = 50 Tanpa Stemming ECS Stemmer Perbaikan ECS Stemmer Recall 0,959 1,000 1,000 Recall(10) 0,800 0,828 0,698 Recall(20) 0,831 0,908 0,843 Precision 0,134 0,098 0,068 Precision(10) 0,117 0,087 0,045 Precision(20) 0,125 0,095 0,062 MAP 0,805 0,864 0,720 Recall 0,912 0,983 1,000 Recall(10) 0,587 0,563 0,480 Recall(20) 0,786 0,845 0,816 Precision 0,220 0,167 0,121 Precision(10) 0,160 0,103 0,054 Precision(20) 0,205 0,156 0,105 MAP 0,788 0,858 0,750 Recall 0,876 0,978 0,997 Recall(10) 0,403 0,380 0,334 Recall(20) 0,721 0,746 0,683 Precision 0,297 0,236 0,176 Precision(10) 0,164 0,106 0,056 Precision(20) 0,266 0,202 0,126 MAP 0,770 0,853 0,776

30 Simpulan Perbaikan berhasil dilakukan terhadap seluruh kesalahan stemming yang dilakukan oleh algoritma ECS Stemmer Penggunaan metode corpus based stemming digunakan untuk menyelesaikan permasalahan overstemming dan understemming Penggunaan data fusion dan metode condorcet dapat mempersingkat waktu yang dibutuhkan untuk melakukan pembentukan relevan set.

31 Saran Penggunaan koleksi dokumen yang berbeda untuk mengetahui pengaruh dari metode corpus based stemming terhadap hasil dari proses stemming yang dilakukan. Percobaan terhadap parameter data fusion dan metode Condorcet yang berbeda untuk mengetahui konsistensi hasil efektifitas sistem temu kembali informasi.

32 SEKIAN DAN TERIMA KASIH

33 Tabel Aturan Pemenggalan Imbuhan (1) Tabel Aturan Pemenggalan Imbuhan oleh Algoritma Nazief-Adriani : Aturan FORMAT KATA Pemenggalan 1 berv... ber-v... be-rv... 2 bercap... ber-cap... dimana C!= r & P!= er 3 bercaerv... ber-caerv... dimana C!= r 4 belajar bel-ajar 5 bec1erc2... be-c1erc2... dimana C1!={ r l } 6 terv... ter-v... te-rv... 7 tercerv... ter-cerv... dimana C!= r 8 tercp... ter-cp... dimana C!= r dan P!= er 9 tec 1 erc 2... te-c 1 erc 2... dimana C 1!= r 10 me{l r w y}v... me-{l r w y}v... Keterangan simbol huruf : C : huruf konsonan A : huruf vokal atau konsonan V : huruf vokal P : partikel atau fragmen dari suatu kata, misalnya er << Kembali >>

34 Tabel Aturan Pemenggalan Imbuhan (2) Tabel Aturan Pemenggalan Imbuhan oleh Algoritma Nazief-Adriani : Aturan FORMAT KATA Pemenggalan 11 mem{b f v}... mem-{b f v} mempe{r l}... mem-pe mem{rv V}... me-m{rv V}... me-p{rv V} men{c d j z}... men-{c d j z} menv... me-nv... me-tv 16 meng{g h q}... meng-{g h q} mengv... meng-v... meng-kv menyv... meny-sv 19 mempv... mem-pv... dimana V!= e 20 pe{w y}v... pe-{w y}v... Keterangan simbol huruf : C : huruf konsonan A : huruf vokal atau konsonan V : huruf vokal P : partikel atau fragmen dari suatu kata, misalnya er << Kembali >>

35 Tabel Aturan Pemenggalan Imbuhan (3) Tabel Aturan Pemenggalan Imbuhan oleh Algoritma Nazief-Adriani : Aturan FORMAT KATA Pemenggalan 21 perv... per-v... pe-rv percap per-cap... dimana C!= r dan P!= er 24 percaerv... per-caerv... dimana C!= r 25 pem{b f V}... pem-{b f V} pem{rv V}... pe-m{rv V}... pe-p{rv V} pen{c d j z}... pen-{c d j z} penv... pe-nv... pe-tv peng{g h q}... peng-{g h q} pengv... peng-v... peng-kv... Keterangan simbol huruf : C : huruf konsonan A : huruf vokal atau konsonan V : huruf vokal P : partikel atau fragmen dari suatu kata, misalnya er << Kembali >>

36 Tabel Aturan Pemenggalan Imbuhan (4) Tabel Aturan Pemenggalan Imbuhan oleh Algoritma Nazief-Adriani : Aturan FORMAT KATA Pemenggalan 31 penyv... peny-sv 32 pelv... pe-lv... kecuali pelajar yang menghasilkan ajar 33 pecerv... per-erv... dimana C!={r w y l m n} 34 pecp... pe-cp... dimana C!={r w y l m n} dan P!= er Keterangan simbol huruf : C : huruf konsonan A : huruf vokal atau konsonan V : huruf vokal P : partikel atau fragmen dari suatu kata, misalnya er << Kembali >>

37 REVISI DAN TAMBAHAN ATURAN OLEH CS STEMMER Sebelum : Aturan FORMAT KATA Pemenggalan 12 mempe{r l}... mem-pe meng{g h q}... meng-{g h q}... Sesudah : Aturan FORMAT KATA Pemenggalan Aturan FORMAT KATA Pemenggalan 12 mempe... mem-pe meng{g h q k}... meng-{g h q k} terc 1 erc 2... ter-c 1 erc 2... dimana C 1!= r 36 pec 1 erc 2... pe-c 1 erc 2... dimana C 1!={r w y l m n} 12 mempe... mem-pe... << Kembali >>

38 REVISI DAN TAMBAHAN ATURAN OLEH ECS STEMMER Sebelum : Aturan FORMAT KATA Pemenggalan 14 men{c d j z}... men-{c d j z} mengv... meng-v... meng-kv mempv... mem-pv... dimana V!= e 29 peng{g h q}... peng-{g h q} pengv... peng-v... peng-kv... Sesudah : Aturan FORMAT KATA Pemenggalan Aturan FORMAT KATA Pemenggalan 14 men{c d j s z}... men-{c d j s z} mengv... meng-v... meng-kv... (mengv-... jika V= e ) 19 mempa... mem-pa... dengan A!= e 29 pengc... peng-c pengv... peng-v... peng-kv... (pengv-... jika V= e ) << Kembali >>

39 REVISI DAN TAMBAHAN ATURAN : Sebelum : Aturan FORMAT KATA Pemenggalan 18 menyv... meny-sv 31 penyv... peny-sv Sesudah : Aturan FORMAT KATA Pemenggalan Aturan FORMAT KATA Pemenggalan 18 menyv me-nyv meny-sv 31 penyv pe-nyv peny-sv 37 CerV CerV CV 38 CelV CelV CV 39 CemV CemV CV 40 CinV CinV CV << Kembali >>

IMPLEMENTASI MODIFIKASI ENHANCED CONFIX STRIPPING STEMMER UNTUK BAHASA INDONESIA DENGAN METODE CORPUS BASED STEMMING

IMPLEMENTASI MODIFIKASI ENHANCED CONFIX STRIPPING STEMMER UNTUK BAHASA INDONESIA DENGAN METODE CORPUS BASED STEMMING 1 IMPLEMENTASI MODIFIKASI ENHANCED CONFIX STRIPPING STEMMER UNTUK BAHASA INDONESIA DENGAN METODE CORPUS BASED STEMMING Andita Dwiyoga Tahitoe - Diana Purwitasari Jurusan Teknik Informatika, Fakultas Teknologi

Lebih terperinci

IMPLEMENTASI METODE SUPPORT VECTOR MACHINES UNTUK PENCARIAN INFORMASI BUKU RIKI HIDAYAT

IMPLEMENTASI METODE SUPPORT VECTOR MACHINES UNTUK PENCARIAN INFORMASI BUKU RIKI HIDAYAT IMPLEMENTASI METODE SUPPORT VECTOR MACHINES UNTUK PENCARIAN INFORMASI BUKU RIKI HIDAYAT 10108371 Latar Belakang Masalah 1. Jumlah buku yang semakin banyak. 2. Belum adanya sistem pencarian informasi buku

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Plagiarisme Menurut Peraturan Menteri Pendidikan RI Nomor 17 Tahun 2010 dikatakan: "Plagiat adalah perbuatan sengaja atau tidak sengaja dalam memperoleh atau mencoba memperoleh

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1. Peringkas Teks Otomatis Berikut ini akan dibahas mengenai teori-teori peringkas teks otomatis dalam beberapa subbab, yaitu sebagai berikut: 2.1.1 Definisi Peringkas Teks Otomatis

Lebih terperinci

BAB 2 TINJAUAN PUSTAKA

BAB 2 TINJAUAN PUSTAKA BAB 2 TINJAUAN PUSTAKA Pada bab ini, akan dibahas landasan teori, penelitian terdahulu, dan kerangka pikir yang mendasari penyelesaian permasalahan stemming dengan menggunakan algoritma enhanced confix

Lebih terperinci

Jurnal Ilmiah Komputer dan Informatika (KOMPUTA) 1 Edisi.1 Volume. 1 Bulan AGUSTUS ISSN :

Jurnal Ilmiah Komputer dan Informatika (KOMPUTA) 1 Edisi.1 Volume. 1 Bulan AGUSTUS ISSN : Jurnal Ilmiah Komputer dan Informatika (KOMPUTA) 1 IMPLEMENTASI METODE VECTOR SPACE MODEL (VSM) UNTUK REKOMENDASI NILAI TERHADAP JAWABAN ESSAY Harry Septianto Teknik Informatika Universitas Komputer Indonesia

Lebih terperinci

Self Organizing Map-Neural Network untuk Pengelompokan Abstrak

Self Organizing Map-Neural Network untuk Pengelompokan Abstrak 160 ISSN: 2354-5771 Self Organizing Map-Neural Network untuk Pengelompokan Abstrak Self Organizing Map - Neural Network for Abstract Clustering Fajar Rohman Hariri* 1, Danar Putra Pamungkas 2 1,2 Universitas

Lebih terperinci

BAB 2 LANDASAN TEORI. 2.1 Text mining

BAB 2 LANDASAN TEORI. 2.1 Text mining BAB 2 LANDASAN TEORI Bab ini akan membahas landasan teori, penelitian terdahulu, kerangka pikir, dan hipotesis yang mendasari penyelesaian permasalahan dalam pengklasifikasian novel menggunakan TF-IDF.

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA 2.1. Dasar Teori 2.1.1. Kuis Online Kuis, sebagaimana didefinisikan oleh WordWeb Online (2005) adalah "sebuah ujian yang berisi pertanyaan singkat". QuestionMark & League (2004)

Lebih terperinci

BAB 2 LANDASAN TEORI

BAB 2 LANDASAN TEORI BAB 2 LANDASAN TEORI 2.1. Text Mining Text mining merupakan teknik yang digunakan untuk menangani masalah klasifikasi, clustering, information extraction, dan information retrieval (Berry & Kogan, 2010).

Lebih terperinci

BAB 2 TINJAUAN PUSTAKA

BAB 2 TINJAUAN PUSTAKA BAB 2 TINJAUAN PUSTAKA 2.1. Plagiarisme 2.1.1. Pengertian plagiarisme Maxim Mozgovoy (2007) mengemukakan bahwa komputer jika dan hanya jika dapat mendeteksi plagiarisme apabila sejumlah dokumen dianggap

Lebih terperinci

BAB 3 ANALISIS DAN PERANCANGAN SISTEM

BAB 3 ANALISIS DAN PERANCANGAN SISTEM BAB 3 ANALISIS DAN PERANCANGAN SISTEM 3.1 Analisis Sistem 3.1.1 Analisis Masalah Dilihat dari sistem yang sedang berjalan saat ini sistem pencarian yang berlaku masih manual, dimana pengunjung perpustakaan

Lebih terperinci

APLIKASI PENDETEKSI KEMIRIPAN PADA DOKUMEN TEKS MENGGUNAKAN ALGORITMA NAZIEF & ADRIANI DAN METODE COSINE SIMILARITY

APLIKASI PENDETEKSI KEMIRIPAN PADA DOKUMEN TEKS MENGGUNAKAN ALGORITMA NAZIEF & ADRIANI DAN METODE COSINE SIMILARITY APLIKASI PENDETEKSI KEMIRIPAN PADA DOKUMEN TEKS MENGGUNAKAN ALGORITMA NAZIEF & ADRIANI DAN METODE COSINE SIMILARITY Azhar Firdaus, Ernawati, dan Arie Vatresia Program Studi Teknik Informatika, Fakultas

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Peringkas Teks Otomatis 2.1.1 Pengertian Konsep sederhana ringkasan adalah mengambil bagian penting dari keseluruhan isi dari artikel. Ringkasan adalah mengambil isi yang paling

Lebih terperinci

IMPLEMENTASI ALGORITMA MULTINOMIAL NAIVE BAYES CLASSIFIER PADA SISTEM KLASIFIKASI SURAT KELUAR (Studi Kasus : DISKOMINFO Kabupaten Tangerang)

IMPLEMENTASI ALGORITMA MULTINOMIAL NAIVE BAYES CLASSIFIER PADA SISTEM KLASIFIKASI SURAT KELUAR (Studi Kasus : DISKOMINFO Kabupaten Tangerang) JURNAL TEKNIK INFORMATIKA VOL.10 NO.2, 2017 109 IMPLEMENTASI ALGORITMA MULTINOMIAL NAIVE BAYES CLASSIFIER PADA SISTEM KLASIFIKASI SURAT KELUAR (Studi Kasus : DISKOMINFO Kabupaten Tangerang) Dea Herwinda

Lebih terperinci

BAB II KAJIAN TEORI. kumpulan kalimat penting dari suatu teks yang menggambarkan inti teks tersebut

BAB II KAJIAN TEORI. kumpulan kalimat penting dari suatu teks yang menggambarkan inti teks tersebut A. Peringkasan Teks Otomatis BAB II KAJIAN TEORI Peringkasan teks merupakan proses untuk mendapatkan ringkasan teks secara otomatis dengan menggunakan bantuan komputer. Ringkasan teks adalah kumpulan kalimat

Lebih terperinci

TELEMATIKA, Vol. 12, No. 02, JULI, 2015, Pp ISSN X PENILAIAN UJIAN BERTIPE ESSAY MENGGUNAKAN METODE TEXT SIMILARITY

TELEMATIKA, Vol. 12, No. 02, JULI, 2015, Pp ISSN X PENILAIAN UJIAN BERTIPE ESSAY MENGGUNAKAN METODE TEXT SIMILARITY TELEMATIKA, Vol. 12, No. 02, JULI, 2015, Pp. 146 158 ISSN 1829-667X PENILAIAN UJIAN BERTIPE ESSAY MENGGUNAKAN METODE TEXT SIMILARITY Meiyanto Eko Sulistyo 1, Ristu Saptono 2, Adam Asshidiq 3 Jurusan Informatika

Lebih terperinci

BAB 2 LANDASAN TEORI

BAB 2 LANDASAN TEORI BAB 2 LANDASAN TEORI Bab ini membahas tentang teori penunjang dan penelitian sebelumnya yang berhubungan dengan rekomendasi tag serta metode TF-IDF dan Collaborative tagging. 2.1 Rekomendasi Tag Rekomendasi

Lebih terperinci

Learning Vector Quantization untuk Klasifikasi Abstrak Tesis

Learning Vector Quantization untuk Klasifikasi Abstrak Tesis 128 ISSN: 2354-5771 Learning Vector Quantization untuk Klasifikasi Abstrak Tesis Fajar Rohman Hariri* 1, Ema Utami 2, Armadyah Amborowati 3 1,2,3 Magister Teknik Informatika STMIK AMIKOM Yogyakarta E-mail:

Lebih terperinci

Fakultas Ilmu Komputer dan Teknologi Informasi Universitas Sumatera Utara

Fakultas Ilmu Komputer dan Teknologi Informasi Universitas Sumatera Utara Pendeteksian Kesamaan pada Dokumen Teks Kombinasi Algoritma Enhanced Confix Stripping dan Algoritma Winnowing 1 Ade Chania Sion Sagala, 2 Maya Silvi Lydia, 3 Romi Fadillah Rahmat 1,3 Program Studi S1 Teknologi

Lebih terperinci

BAB I PENDAHULUAN. informasi pada ruang lingkup besar (biasanya disimpan di komputer). Di era

BAB I PENDAHULUAN. informasi pada ruang lingkup besar (biasanya disimpan di komputer). Di era BAB I PENDAHULUAN 1.1 Latar Belakang Information retrieval atau disingkat dengan IR adalah menemukan bahan (dokumen) dari dokumen terstruktur (biasanya teks) yang memenuhi kebutuhan informasi pada ruang

Lebih terperinci

Klasifikasi Konten Berita Dengan Metode Text Mining

Klasifikasi Konten Berita Dengan Metode Text Mining JURNAL DUNIA TEKNOLOGI INFORMASI Vol. 1, No. 1, (2012) 14-19 14 Klasifikasi Konten Berita Dengan Metode Text Mining 1 Bambang Kurniawan, 1 Shril Effendi, 1 Opim Salim Sitompul 1 Program Studi S1 Teknologi

Lebih terperinci

Tabel 3 Situs berita dan jumlah RSS yang diunduh Situs Berita

Tabel 3 Situs berita dan jumlah RSS yang diunduh Situs Berita 6 besar dibandingkan dengan istilah yang berada pada description. Lingkup Implemental Lingkungan implementasi yang akan digunakan adalah sebagai berikut: Perangkat Lunak : Sistem operasi Windows XP Professional

Lebih terperinci

APLIKASI PENERJEMAH DARI BAHASA INDONESIA KE BAHASA MADURA DENGAN MENGGUNAKAN METODE RULE BASED

APLIKASI PENERJEMAH DARI BAHASA INDONESIA KE BAHASA MADURA DENGAN MENGGUNAKAN METODE RULE BASED APLIKASI PENERJEMAH DARI BAHASA INDONESIA KE BAHASA MADURA DENGAN MENGGUNAKAN METODE RULE BASED (Studi Kasus : Teknik Informatika Universitas Trunojoyo Madura) * Khotijah, **, Fika Hastarita Rachman ***

Lebih terperinci

Klasifikasi Iklan pada Online Shop dengan Metode Naive Bayes

Klasifikasi Iklan pada Online Shop dengan Metode Naive Bayes Klasifikasi Iklan pada Online Shop dengan Metode Naive Bayes Danny Septiawan 1,Dwi Aries Suprayogi 1,Abdul Malik Mukhtar 1,Wahyudi Hatiyanto 1 1 Teknik Informatika, Program Teknologi Informasi dan Ilmu

Lebih terperinci

SISTEM TEMU BALIK INFORMASI

SISTEM TEMU BALIK INFORMASI SISTEM TEMU BALIK INFORMASI Algoritma Nazief dan Adriani Disusun Oleh: Dyan Keke Rian Chikita Agus Dwi Prayogo 11/323494/PA/14356 11/323813/PA/14362 11/323856/PA/14367 PRODI S1 ILMU KOMPUTER JURUSAN ILMU

Lebih terperinci

JULIO ADISANTOSO - ILKOM IPB 1

JULIO ADISANTOSO - ILKOM IPB 1 KOM341 Temu Kembali Informasi KULIAH #3 Inverted Index Inverted index construction Kumpulan dokumen Token Modifikasi token Tokenizer Linguistic modules perkebunan, pertanian, dan kehutanan perkebunan pertanian

Lebih terperinci

INFORMATION RETRIEVAL SYSTEM PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS DENGAN METODE VECTOR SPACE MODEL DAN ALGORITMA ECS STEMMER

INFORMATION RETRIEVAL SYSTEM PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS DENGAN METODE VECTOR SPACE MODEL DAN ALGORITMA ECS STEMMER INFORMATION RETRIEVAL SSTEM PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS DENGAN METODE VECTOR SPACE MODEL DAN ALGORITMA ECS STEMMER Muhammad asirzain 1), Suswati 2) 1,2 Teknik Informatika, Fakultas Teknik,

Lebih terperinci

BAB 3 METODOLOGI 3.1 Analisis Kebutuhan dan Masalah Analisis Kebutuhan Analisis Masalah

BAB 3 METODOLOGI 3.1 Analisis Kebutuhan dan Masalah Analisis Kebutuhan Analisis Masalah BAB 3 METODOLOGI 3.1 Analisis Kebutuhan dan Masalah 3.1.1 Analisis Kebutuhan Ada banyak hal yang berhubungan dengan sastra atau ilmu bahasa yang dapat diterapkan di dalam teknologi, seperti penerjemahan

Lebih terperinci

IMPLEMENTASI METODE MAXIMUM MARGINAL RELEVANCE PADA PERINGKASAN TEKS OTOMATIS ARTIKEL BERITA

IMPLEMENTASI METODE MAXIMUM MARGINAL RELEVANCE PADA PERINGKASAN TEKS OTOMATIS ARTIKEL BERITA IMPLEMENTASI METODE MAXIMUM MARGINAL RELEVANCE PADA PERINGKASAN TEKS OTOMATIS ARTIKEL BERITA SKRIPSI diajukan sebagai salah satu persyaratan untuk memperoleh gelar Sarjana Pendidikan Program Studi Pendidikan

Lebih terperinci

Jurnal Ilmiah Komputer dan Informatika (KOMPUTA) 1 Edisi. 1Volume. 1 Bulan AGUSTUS ISSN :

Jurnal Ilmiah Komputer dan Informatika (KOMPUTA) 1 Edisi. 1Volume. 1 Bulan AGUSTUS ISSN : Jurnal Ilmiah Komputer dan Informatika (KOMPUTA) 1 IMPLEMENTATION OF VECTOR SPACE MODEL (VSM) FOR ESSAY ANSWER SCORING RECOMMENDATION Harry Septianto Teknik Informatika Universitas Komputer Indonesia Jl.

Lebih terperinci

Implementasi Stemmer Tala pada Aplikasi Berbasis Web

Implementasi Stemmer Tala pada Aplikasi Berbasis Web Mardi Siswo Utomo Program Studi Teknik Informatika, Universitas Stikubank email : mardiutomo@gmail.com Abstrak Stemming adalah proses untuk mencari kata dasar pada suatu kata. Pada analisa temu kembali

Lebih terperinci

DAFTAR KODE SUMBER. xxxvii

DAFTAR KODE SUMBER. xxxvii DAFTAR KODE SUMBER Kode Sumber 2-1 Contoh dokumen RSS... 9 Kode Sumber 2-2 Contoh dokumen XML... 11 Kode Sumber 3-1 Pseudocode penguraian RSS... 34 Kode Sumber 4-1 Fungsi untuk mengurai konten rss... 120

Lebih terperinci

PERBANDINGAN ALGORITMA STEMMING PORTER DENGAN ALGORITMA NAZIEF & ADRIANI UNTUK STEMMING DOKUMEN TEKS BAHASA INDONESIA

PERBANDINGAN ALGORITMA STEMMING PORTER DENGAN ALGORITMA NAZIEF & ADRIANI UNTUK STEMMING DOKUMEN TEKS BAHASA INDONESIA PERBANDINGAN ALGORITMA STEMMING PORTER DENGAN ALGORITMA NAZIEF & ADRIANI UNTUK STEMMING DOKUMEN TEKS BAHASA INDONESIA Ledy Agusta Fakultas Teknologi Informasi Universitas Kristen Satya Wacana ledyagusta@gmail.com

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Information Retrieval System Sistem temu kembali informasi ( information retrieval system) merupakan sistem yang dapat digunakan untuk menemukan informasi yang relevan dengan

Lebih terperinci

BAB I PENDAHULUAN. Temu kembali informasi (information retrieval) adalah sebuah proses

BAB I PENDAHULUAN. Temu kembali informasi (information retrieval) adalah sebuah proses BAB I PENDAHULUAN 1.1 Latar Belakang Temu kembali informasi (information retrieval) adalah sebuah proses menemukan kembali dokumen-dokumen relevan untuk memenuhi kebutuhan informasi para pengguna (Manning,

Lebih terperinci

Analisa dan Evaluasi Afiks Stemming untuk Bahasa Indonesia

Analisa dan Evaluasi Afiks Stemming untuk Bahasa Indonesia ISSN : 088-9984 Seminar Nasional dan ExpoTeknik Elektro 0 Analisa dan Evaluasi Afiks Stemming untuk Bahasa Indonesia Jiwa Malem Marsya ) dan Taufik Fuadi Abidin ) ) Data Mining and IR Research Group FMIPA

Lebih terperinci

BAB I PENDAHULUAN 1.1. Latar Belakang

BAB I PENDAHULUAN 1.1. Latar Belakang BAB I PENDAHULUAN 1.1. Latar Belakang Kebutuhan akan informasi yang sangat luas dan tidak terbatas seiring dengan sumber informasi yang banyak merupakan suatu bukti konkret bahwa informasi sangat dibutuhkan

Lebih terperinci

Peningkatan Kinerja Pencarian Dokumen Tugas Akhir menggunakan Porter Stemmer Bahasa Indonesia dan Fungsi Peringkat Okapi BM25

Peningkatan Kinerja Pencarian Dokumen Tugas Akhir menggunakan Porter Stemmer Bahasa Indonesia dan Fungsi Peringkat Okapi BM25 54 Widiasri, M., dkk.: Peningkatan Kinerja Pencarian Dokumen Tugas Akhir Menggunakan Peningkatan Kinerja Pencarian Dokumen Tugas Akhir menggunakan Porter Stemmer Bahasa Indonesia dan Fungsi Peringkat Okapi

Lebih terperinci

ALGORITMA STEMMING UNTUK KATA SERAPAN BAHASA INDONESIA

ALGORITMA STEMMING UNTUK KATA SERAPAN BAHASA INDONESIA ALGORITMA STEMMING UNTUK KATA SERAPAN BAHASA INDONESIA Nurul Hilal Ayyidar, Abdul Syukur, Hendro Subagyo Pascasarjana Teknik Informatika Universitas Dian Nuswantoro ABSTRACT Stemming algorithm is indispensable

Lebih terperinci

Jurnal String Vol.1 No.2 Tahun 2016 ISSN :

Jurnal String Vol.1 No.2 Tahun 2016 ISSN : PERBANDINGAN ALGORITMA STEMMING PORTER DENGANARIFIN SETIONO UNTUK MENENTUKAN TINGKAT KETEPATAN KATA DASAR Dian Novitasari Program Studi Teknik Informatika, Universitas Indraprasta PGRI Emai : diannovita.unindra@gmail.com

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN BAB III METODOLOGI PENELITIAN Metodologi penelitian merupakan sistematika tahap-tahap yang dilaksanakan dalam pembuatan tugas akhir. Adapun tahapan yang dilalui dalam pelaksanaan penelitian ini adalah

Lebih terperinci

SKRIPSI APLIKASI PENDETEKSI KEMIRIPAN ISI TEKS DOKUMEN MENGGUNAKAN METODE LEVENSHTEIN DISTANCE

SKRIPSI APLIKASI PENDETEKSI KEMIRIPAN ISI TEKS DOKUMEN MENGGUNAKAN METODE LEVENSHTEIN DISTANCE SKRIPSI APLIKASI PENDETEKSI KEMIRIPAN ISI TEKS DOKUMEN MENGGUNAKAN METODE LEVENSHTEIN DISTANCE Diajukan Untuk Memenuhi Salah Satu Syarat Memperoleh Gelar Sarjana Teknik NA FIRUL HASNA ARIYANI E1E1 0 JURUSAN

Lebih terperinci

APLIKASI PENERJEMAH KALIMAT TUNGGAL BAHASA INDONESIA KE DALAM BAHASA JAWA DENGAN ATURAN ANALISIS KONTRASTIF AFIKSASI VERBA SKRIPSI.

APLIKASI PENERJEMAH KALIMAT TUNGGAL BAHASA INDONESIA KE DALAM BAHASA JAWA DENGAN ATURAN ANALISIS KONTRASTIF AFIKSASI VERBA SKRIPSI. APLIKASI PENERJEMAH KALIMAT TUNGGAL BAHASA INDONESIA KE DALAM BAHASA JAWA DENGAN ATURAN ANALISIS KONTRASTIF AFIKSASI VERBA SKRIPSI Oleh : RIZKY IZATUL L.R NIM. 10650028 JURUSAN TEKNIK INFORMATIKA FAKULTAS

Lebih terperinci

IMPLEMENTASI DAN ANALISIS ALGORITMA STEMMING NAZIEF & ADRIANI DAN PORTER PADA DOKUMEN BERBAHASA INDONESIA

IMPLEMENTASI DAN ANALISIS ALGORITMA STEMMING NAZIEF & ADRIANI DAN PORTER PADA DOKUMEN BERBAHASA INDONESIA ISSN (Print) : 1693-1173 ISSN (Online) : 2548-4028 IMPLEMENTASI DAN ANALISIS ALGORITMA STEMMING NAZIEF & ADRIANI DAN PORTER PADA DOKUMEN BERBAHASA INDONESIA Dwi Wahyudi 1), Teguh Susyanto 2), Didik Nugroho

Lebih terperinci

PENGARUH TEXT PREPROCESSING PADA CLUSTERING DOKUMEN TEKS BERBAHASA INDONESIA

PENGARUH TEXT PREPROCESSING PADA CLUSTERING DOKUMEN TEKS BERBAHASA INDONESIA PENGARUH TEXT PREPROCESSING PADA CLUSTERING DOKUMEN TEKS BERBAHASA INDONESIA Milatina, Abdul Syukur, Catur Supriyanto Pascasarjana Teknik Informatika Universitas Dian Nuswantoro ABSTRACT Document clustering

Lebih terperinci

ANALISIS SENTIMEN PADA TWITTER MENGGUNAKAN PENDEKATAN AGGLOMERATIVE HIERARCHICAL CLUSTERING SKRIPSI

ANALISIS SENTIMEN PADA TWITTER MENGGUNAKAN PENDEKATAN AGGLOMERATIVE HIERARCHICAL CLUSTERING SKRIPSI ANALISIS SENTIMEN PADA TWITTER MENGGUNAKAN PENDEKATAN AGGLOMERATIVE HIERARCHICAL CLUSTERING SKRIPSI Diajukan Untuk Memenuhi Salah Satu Syarat Memperoleh Gelar Sarjana Komputer Program Studi Teknik Informatika

Lebih terperinci

Sistem Temu Kembali Informasi Menggunakan Model Ruang Vektor dan Inverted Index

Sistem Temu Kembali Informasi Menggunakan Model Ruang Vektor dan Inverted Index Vol 2, No 3 Juni 2012 ISSN 2088-2130 Sistem Temu Kembali Informasi Menggunakan Model Ruang Vektor dan Inverted Index Fika Hastarita Rachman Jurusan Teknik Informatika, Fakultas Teknik, Universitas Trunojoyo

Lebih terperinci

ANALISIS SENTIMEN PADA TWITTER MENGGUNAKAN TEXT MINING SKRIPSI. Boy Utomo Manalu

ANALISIS SENTIMEN PADA TWITTER MENGGUNAKAN TEXT MINING SKRIPSI. Boy Utomo Manalu ANALISIS SENTIMEN PADA TWITTER MENGGUNAKAN TEXT MINING SKRIPSI Boy Utomo Manalu 071402007 PROGRAM STUDI TEKNOLOGI INFORMASI FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI UNIVERSITAS SUMATERA UTARA MEDAN

Lebih terperinci

PENGEMBANGAN APLIKASI WEB BASED DOCUMENTS SIMILARITY MEASURE MENGGUNAKAN MODEL RUANG VEKTOR PADA DOKUMEN BERBAHASA INDONESIA. Oleh

PENGEMBANGAN APLIKASI WEB BASED DOCUMENTS SIMILARITY MEASURE MENGGUNAKAN MODEL RUANG VEKTOR PADA DOKUMEN BERBAHASA INDONESIA. Oleh PENGEMBANGAN APLIKASI WEB BASED DOCUMENTS SIMILARITY MEASURE MENGGUNAKAN MODEL RUANG VEKTOR PADA DOKUMEN BERBAHASA INDONESIA Oleh Made Satria Wibawa, 0815051003 Jurusan Pendidikan Teknik Informatika Fakultas

Lebih terperinci

BAB 2 LANDASAN TEORI

BAB 2 LANDASAN TEORI 6 BAB 2 LANDASAN TEORI 2.1 Sinonim kata 2.1.1. Definisi Sinonim Menurut Chaer (2009), Relasi makna adalah hubungan kemaknaan atau relasi semantik antara sebuah kata atau satuan bahasa lainnya dengan akta

Lebih terperinci

BAB 1 PENDAHULUAN UKDW

BAB 1 PENDAHULUAN UKDW BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah Perkembangan ilmu pengetahuan yang pesat dewasa ini telah mendorong permintaan akan kebutuhan informasi ilmu pengetahuan itu sendiri. Cara pemenuhan kebutuhan

Lebih terperinci

Pemanfaatan Aljabar Vektor Pada Mesin Pencari

Pemanfaatan Aljabar Vektor Pada Mesin Pencari Pemanfaatan Aljabar Vektor Pada Mesin Pencari Anwar Ramadha 13514013 Program Studi Informatika Sekolah Teknik Elektro dan Informatika Institut Teknologi Bandung, Jl. Ganesha 10 Bandung 40132, Indonesia

Lebih terperinci

BAB III METODELOGI PENELITIAN

BAB III METODELOGI PENELITIAN BAB III METODELOGI PENELITIAN 3.1 Metode Penelitian Metode penelitian yang digunakan yaitu metode eksperimental dimana metode ini bekerja dengan memanipulasi dan melakukan kontrol pada objek penelitian

Lebih terperinci

BAB 2 LANDASAN TEORI

BAB 2 LANDASAN TEORI BAB 2 LANDASAN TEORI 2.1 Pengertian Stemming Stemming merupakan suatu proses atau cara dalam menemukan kata dasar dari suatu kata. Stemming sendiri berfungsi untuk menghilangkan variasi-variasi morfologi

Lebih terperinci

BAB IV METODOLOGI PENELITIAN. Penelitian ini dilakukan dengan melalui empat tahap utama, dimana

BAB IV METODOLOGI PENELITIAN. Penelitian ini dilakukan dengan melalui empat tahap utama, dimana BAB IV METODOLOGI PENELITIAN Penelitian ini dilakukan dengan melalui empat tahap utama, dimana tahap pertama adalah proses pengumpulan dokumen teks yang akan digunakan data training dan data testing. Kemudian

Lebih terperinci

Gambar 1.1 Proses Text Mining [7]

Gambar 1.1 Proses Text Mining [7] 1. BAB II LANDASAN TEORI 2.1 Text Mining Text mining memiliki definisi menambang data yang berupa teks dimana sumber data biasanya didapatkan dari dokumen, dan tujuannya adalah mencari kata-kata yang dapat

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN BAB III METODOLOGI PENELITIAN Metodologi penelitian merupakan rangkaian dari langkah-langkah yang diterapkan dalam penelitian, secara umum dan khusus langkah-langkah tersebut tertera pada Gambar flowchart

Lebih terperinci

BAB I PENDAHULUAN Latar Belakang

BAB I PENDAHULUAN Latar Belakang BAB I PENDAHULUAN 1.1. Latar Belakang Semakin canggihnya teknologi di bidang komputasi dan telekomunikasi pada masa kini, membuat informasi dapat dengan mudah didapatkan oleh banyak orang. Kemudahan ini

Lebih terperinci

MODIFIKASI ALGORITMA PORTER UNTUK STEMMING PADA KATA BAHASA INDONESIA

MODIFIKASI ALGORITMA PORTER UNTUK STEMMING PADA KATA BAHASA INDONESIA MODIFIKASI ALGORITMA PORTER UNTUK STEMMING PADA KATA BAHASA INDONESIA Badrus Zaman Program Studi Sistem Informasi, Fakultas Sains dan Teknologi, Universitas Airlangga Jl. Dr. Ir. Soekarno MERR Surabaya

Lebih terperinci

Jurnal Ilmiah Komputer dan Informatika (KOMPUTA) Edisi...Volume..., Bulan 20..ISSN :

Jurnal Ilmiah Komputer dan Informatika (KOMPUTA) Edisi...Volume..., Bulan 20..ISSN : ANALISIS SENTIMEN TERHADAP TELKOM INDIHOME BERDASARKAN OPINI PUBLIK MENGGUNAKAN METODE IMPROVED K-NEAREST NEIGHBOR Herdiawan 1 1 Teknik Informatika Universitas Komputer Indonesia Jalan Dipati Ukur No.

Lebih terperinci

Sistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF)

Sistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF) Sistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF) 1 Dhony Syafe i Harjanto, 2 Sukmawati Nur Endah, dan 2 Nurdin Bahtiar 1 Jurusan Matematika,

Lebih terperinci

Team project 2017 Dony Pratidana S. Hum Bima Agus Setyawan S. IIP

Team project 2017 Dony Pratidana S. Hum Bima Agus Setyawan S. IIP Hak cipta dan penggunaan kembali: Lisensi ini mengizinkan setiap orang untuk menggubah, memperbaiki, dan membuat ciptaan turunan bukan untuk kepentingan komersial, selama anda mencantumkan nama penulis

Lebih terperinci

EKSTRAKSI TREN TOPIK PORTAL BERITA ONLINE MENGGUNAKAN NON-NEGATIVE MATRIX FACTORIZATION SKRIPSI CLARA SRI MENDA BANGUN

EKSTRAKSI TREN TOPIK PORTAL BERITA ONLINE MENGGUNAKAN NON-NEGATIVE MATRIX FACTORIZATION SKRIPSI CLARA SRI MENDA BANGUN EKSTRAKSI TREN TOPIK PORTAL BERITA ONLINE MENGGUNAKAN NON-NEGATIVE MATRIX FACTORIZATION SKRIPSI CLARA SRI MENDA BANGUN 121402099 PROGRAM STUDI S1 TEKNOLOGI INFORMASI FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI

Lebih terperinci

BAB I. Pendahuluan. 1. Latar Belakang Masalah

BAB I. Pendahuluan. 1. Latar Belakang Masalah BAB I Pendahuluan 1. Latar Belakang Masalah Semakin canggihnya teknologi di bidang komputasi dan telekomunikasi pada masa kini, membuat informasi dapat dengan mudah didapatkan oleh banyak orang. Kemudahan

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI II.1 Text Mining Text Mining merupakan penerapan konsep dan teknik data mining untuk mencari pola dalam teks, proses penganalisaan teks guna menemukan informasi yang bermanfaat untuk

Lebih terperinci

STEMMING KATA KERJA BAHASA INDONESIA PADA FILE TEKS MENGGUNAKAN ALGORITMA LOVINS DAN ALGORITMA PAICE/HUSK. Proposal Tugas Akhir. Logo kampus.

STEMMING KATA KERJA BAHASA INDONESIA PADA FILE TEKS MENGGUNAKAN ALGORITMA LOVINS DAN ALGORITMA PAICE/HUSK. Proposal Tugas Akhir. Logo kampus. Disiapkan Oleh: Sunaryo, S.Kom Email: sunaryo.online@gmail.com STEMMING KATA KERJA BAHASA INDONESIA PADA FILE TEKS MENGGUNAKAN ALGORITMA LOVINS DAN ALGORITMA PAICE/HUSK Proposal Tugas Akhir Logo kampus

Lebih terperinci

Seminar Nasional Aplikasi Teknologi Informasi 2004 Yogyakarta, 19 Juni 2004

Seminar Nasional Aplikasi Teknologi Informasi 2004 Yogyakarta, 19 Juni 2004 Seminar Nasional Aplikasi Teknologi Informasi 2004 Yogyakarta, 19 Juni 2004 Sistem Stemming Otomatis untuk Kata dalam Bahasa Indonesia Rila Mandala, Erry Koryanti, Rinaldi Munir, Harlili Laboratorium Ilmu

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Kata Pengertian kata secara sederhana adalah sekumpulan huruf yang mempunyai arti. Dalam kamus besar bahasa indonesia (KBBI) pengertian kata adalah unsur bahasa yang diucapkan

Lebih terperinci

ANALISIS KLASTERING LIRIK LAGU INDONESIA

ANALISIS KLASTERING LIRIK LAGU INDONESIA ANALISIS KLASTERING LIRIK LAGU INDONESIA Afdilah Marjuki 1, Herny Februariyanti 2 1,2 Program Studi Sistem Informasi, Fakultas Teknologi Informasi, Universitas Stikubank e-mail: 1 bodongben@gmail.com,

Lebih terperinci

BAB I PENDAHULUAN I-1

BAB I PENDAHULUAN I-1 BAB I PENDAHULUAN 1.1 Latar Belakang Kebutuhan akan informasi yang sangat luas dan tidak terbatas merupakan sebuah bukti nyata bahwa informasi sangat diperlukan bagi pencari informasi [16]. Dengan munculnya

Lebih terperinci

SKRIPSI. Diajukan untuk memenuhi sebagai persyaratan mendapatkan gelar Strata Satu Program Studi Informatika

SKRIPSI. Diajukan untuk memenuhi sebagai persyaratan mendapatkan gelar Strata Satu Program Studi Informatika HALAMAN JUDU L PENGUKURAN TINGKAT KEMIRIPAN DOKUMEN MENGGUNAKAN ALGORITMA JARO-WINKLER DAN ENHANCED CONFIX STRIPPING STEMMER SKRIPSI Diajukan untuk memenuhi sebagai persyaratan mendapatkan gelar Strata

Lebih terperinci

PENGEMBANGAN APLIKASI PENERJEMAH BAHASA INDONESIA- BAHASA JAWA PADA PLATFORM BERBASIS ANDROID TUGAS AKHIR SKRIPSI HALAMAN SAMPUL

PENGEMBANGAN APLIKASI PENERJEMAH BAHASA INDONESIA- BAHASA JAWA PADA PLATFORM BERBASIS ANDROID TUGAS AKHIR SKRIPSI HALAMAN SAMPUL PENGEMBANGAN APLIKASI PENERJEMAH BAHASA INDONESIA- BAHASA JAWA PADA PLATFORM BERBASIS ANDROID TUGAS AKHIR SKRIPSI HALAMAN SAMPUL Diajukan kepada Fakultas Teknik Universitas Negeri Yogyakarta untuk Memenuhi

Lebih terperinci

commit to user BAB II TINJAUAN PUSTAKA

commit to user BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori 2.1.1 Cosine Similarity Secara umum, fungsi similarity adalah fungsi yang menerima dua buah objek dan mengembalikan nilai kemiripan (similarity) antara kedua objek

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1. Tinjauan Penelitian Terdahulu Penelitian sebelumnya dilakukan oleh Rahmatulloh (2016). Penelitian yang berjudul Rancang Bangun Sistem Informasi Pencarian Benda Hilang Lost &

Lebih terperinci

HERU SUSANTO Dosen Pembimbing : 1. Dr. Surya Sumpeno, ST., M.Sc. 2. Reza Fuad Rachmadi, ST., MT.

HERU SUSANTO Dosen Pembimbing : 1. Dr. Surya Sumpeno, ST., M.Sc. 2. Reza Fuad Rachmadi, ST., MT. HERU SUSANTO 2209 105 030 Dosen Pembimbing : 1. Dr. Surya Sumpeno, ST., M.Sc. 2. Reza Fuad Rachmadi, ST., MT. LATAR BELAKANG Peran media jejaring sosial pada perkembangan teknologi komunikasi dan informasi;

Lebih terperinci

Peningkatan Algoritma Porter Stemmer

Peningkatan Algoritma Porter Stemmer JNTETI, Vol. 2, No. 2, Mei 2013 1 Peningkatan Algoritma Porter Stemmer Bahasa Indonesia berdasarkan Metode Morfologi dengan Mengaplikasikan 2 Tingkat Morfologi dan Aturan Kombinasi Awalan dan Akhiran Putu

Lebih terperinci

BAB I PENDAHULUAN Latar Belakang Masalah

BAB I PENDAHULUAN Latar Belakang Masalah BAB I PENDAHULUAN 1.1. Latar Belakang Masalah Seiring dengan perkembangan informasi, banyak pihak menyadari bahwa masalah utama telah bergeser dari cara mengakses atau bagaimana mencari informasi, namun

Lebih terperinci

PRESENTASI TUGAS AKHIR KI PERANCANGAN DAN PEMBANGUNAN MODUL REKOMENDASI SECTION PADA OPEN JOURNAL SYSTEM (OJS)

PRESENTASI TUGAS AKHIR KI PERANCANGAN DAN PEMBANGUNAN MODUL REKOMENDASI SECTION PADA OPEN JOURNAL SYSTEM (OJS) PRESENTASI TUGAS AKHIR KI091391 PERANCANGAN DAN PEMBANGUNAN MODUL REKOMENDASI SECTION PADA OPEN JOURNAL SYSTEM (OJS) (Kata kunci: Jurnal, K-Nearest Neighbor, Karya Ilmiah, Klasifikasi Penyusun Tugas Akhir

Lebih terperinci

BAB III ANALISIS DAN PERANCANGAN

BAB III ANALISIS DAN PERANCANGAN BAB III ANALISIS DAN PERANCANGAN Analisis dan perancangan berfungsi untuk mempermudah, memahami dan menyusun perancangan pada bab selanjutnya. Selain itu juga berfungsi untuk memberikan gambaran dan solusi

Lebih terperinci

PENCARIAN FULL TEXT PADA KOLEKSI SKRIPSI FAKULTAS TEKNIK UHAMKA MENGGUNAKAN METODE VECTOR SPACEMODEL

PENCARIAN FULL TEXT PADA KOLEKSI SKRIPSI FAKULTAS TEKNIK UHAMKA MENGGUNAKAN METODE VECTOR SPACEMODEL Vol. 2, 2017 PENCARIAN FULL TEXT PADA KOLEKSI SKRIPSI FAKULTAS TEKNIK UHAMKA MENGGUNAKAN METODE VECTOR SPACEMODEL Miftahul Ari Kusuma 1*, Mia Kamayani 2, Arry Avorizano 3 Program Studi Teknik Informatika,

Lebih terperinci

KLASIFIKASI ARTIKEL BERITA BERBAHASA INDONESIA BERBASIS NAÏVE BAYES CLASSIFIER MENGGUNAKAN CONFIX-STRIPPING STEMMER

KLASIFIKASI ARTIKEL BERITA BERBAHASA INDONESIA BERBASIS NAÏVE BAYES CLASSIFIER MENGGUNAKAN CONFIX-STRIPPING STEMMER 1 KLASIFIKASI ARTIKEL BERITA BERBAHASA INDONESIA BERBASIS NAÏVE BAYES CLASSIFIER MENGGUNAKAN CONFIX-STRIPPING STEMMER Amalia Anjani A. 1, Arif Djunaidy 2, Renny P. Kusumawardani 3 Jurusan Sistem Informasi,

Lebih terperinci

Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem Temu Kembali Informasi

Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem Temu Kembali Informasi Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem emu Kembali Informasi Ari Wibowo Program Studi eknik Multimedia dan Jaringan, Politeknik Negeri Batam E-mail : wibowo@polibatam.ac.id Abstrak

Lebih terperinci

BAB 1 PENDAHULUAN UKDW

BAB 1 PENDAHULUAN UKDW BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah Pada era ini perkembangan teknologi informasi sangat pesat. Hal ini ditandai dengan semakin populernya penggunaan internet dan perangkat lunak komputer sebagai

Lebih terperinci

BAB 3 METODE PENELITIAN

BAB 3 METODE PENELITIAN 19 BAB 3 METODE PENELITIAN 3.1. Tahap Pembentukan Knowledge Graph Sekumpulan kata-kata dalam suatu dokumen tidak akan terepresentasi sepenuhnya ke dalam graf. Bagian inti dokumen yang akan menyebabkan

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Buku merupakan media informasi yang memiliki peran penting dalam perkembangan ilmu pengetahuan, karena dengan buku kita dapat memperoleh banyak informasi, pengetahuan

Lebih terperinci

BAB 1 PENDAHULUAN Latar Belakang

BAB 1 PENDAHULUAN Latar Belakang BAB 1 PENDAHULUAN 1.1. Latar Belakang Kebutuhan informasi dan perkembangan teknologi yang semakin tinggi meningkatkan jumlah artikel atau berita yang terpublikasikan, terutama pada media online. Untuk

Lebih terperinci

BAB III ANALISIS DAN PERANCANGAN

BAB III ANALISIS DAN PERANCANGAN BAB III ANALISIS DAN PERANCANGAN Dalam bab ini akan dijabarkan analisa, yang meliputi analisa masalah dan gambaran umum masalah yang sedang dibahas, perancangan sistem serta desain antarmuka (user interface)

Lebih terperinci

APLIKASI PENCARIAN KATA DASAR BAHASA INDONESIA MENGGUNAKAN ALGORITMA STEMMING PORTER DAN ECS (ENHANCED CONFIX STRIPPING) BERBASIS ANDROID

APLIKASI PENCARIAN KATA DASAR BAHASA INDONESIA MENGGUNAKAN ALGORITMA STEMMING PORTER DAN ECS (ENHANCED CONFIX STRIPPING) BERBASIS ANDROID APLIKASI PENCARIAN KATA DASAR BAHASA INDONESIA MENGGUNAKAN ALGORITMA STEMMING PORTER DAN ECS (ENHANCED CONFIX STRIPPING) BERBASIS ANDROID Dina Anjani 53412161 Pembimbing : Dr. Ravi Ahmad Salim Latar Belakang

Lebih terperinci

TEMU BALIK INFORMASI PADA DOKUMEN TEKS BERBAHASA INDONESIA DENGAN METODE VECTOR SPACE RETRIEVAL MODEL

TEMU BALIK INFORMASI PADA DOKUMEN TEKS BERBAHASA INDONESIA DENGAN METODE VECTOR SPACE RETRIEVAL MODEL TEMU BALIK INFORMASI PADA DOKUMEN TEKS BERBAHASA INDONESIA DENGAN METODE VECTOR SPACE RETRIEVAL MODEL Giat Karyono 1, Fandy Setyo Utomo 2 1 Program Studi Teknik Informatika, STMIK AMIKOM Purwokerto E-mail

Lebih terperinci

IMPLEMENTASI ALGORITMA ENHANCED CONFIX STRIPPING STEMMER PADA KAMUS SISTEM BAHASA ISYARAT INDONESIA SKRIPSI ANNIFA IQRAMITHA

IMPLEMENTASI ALGORITMA ENHANCED CONFIX STRIPPING STEMMER PADA KAMUS SISTEM BAHASA ISYARAT INDONESIA SKRIPSI ANNIFA IQRAMITHA IMPLEMENTASI ALGORITMA ENHANCED CONFIX STRIPPING STEMMER PADA KAMUS SISTEM BAHASA ISYARAT INDONESIA SKRIPSI ANNIFA IQRAMITHA 091402028 PROGRAM STUDI S1 TEKNOLOGI INFORMASI FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Ketersediaan informasi yang semakin banyak menjadikan ringkasan sebagai kebutuhan yang sangat penting (Mulyana, 2010). Menurut (Hovy, 2001) Ringkasan merupakan teks

Lebih terperinci

PEMANFAATAN ASSOCIATION RULE MINING DALAM MEMBANTU PENCARIAN DOKUMEN-DOKUMEN BERITA YANG SALING BERKAITAN

PEMANFAATAN ASSOCIATION RULE MINING DALAM MEMBANTU PENCARIAN DOKUMEN-DOKUMEN BERITA YANG SALING BERKAITAN PEMANFAATAN ASSOCIATION RULE MINING DALAM MEMBANTU PENCARIAN DOKUMEN-DOKUMEN BERITA YANG SALING BERKAITAN Hermawan Andika Institut Informatika Indonesia andika@iii.ac.id Suhatati Tjandra Sekolah Tinggi

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA 2.1 Sistem Rekomendasi Sistem rekomendasi adalah sebuah sistem yang dibangun untuk mengusulkan informasi dan menyediakan fasilitas yang diinginkan pengguna dalam membuat suatu keputusan

Lebih terperinci

APLIKASI MESIN PENCARI DOKUMEN CROSS LANGUAGE BAHASA INGGRIS BAHASA INDONESIA MENGGUNAKAN VECTOR SPACE MODEL

APLIKASI MESIN PENCARI DOKUMEN CROSS LANGUAGE BAHASA INGGRIS BAHASA INDONESIA MENGGUNAKAN VECTOR SPACE MODEL APLIKASI MESIN PENCARI DOKUMEN CROSS LANGUAGE BAHASA INGGRIS BAHASA INDONESIA MENGGUNAKAN VECTOR SPACE MODEL SKRIPSI Disusun Sebagai Salah Satu Syarat untuk Memperoleh Gelar Sarjana Komputer pada Jurusan

Lebih terperinci

BAB I PERSYARATAN PRODUK

BAB I PERSYARATAN PRODUK BAB I PERSYARATAN PRODUK 1.1 PENDAHULUAN Pada saat kita melakukan pencarian melalui search engine (google.com, yahoo, dsb), kita bisa mendapatkan beberapa hasil, yang berupa dokumen - dokumen yang sama

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Kemajuan yang pesat di bidang teknologi informasi terutama internet, telah menimbulkan lonjakan informasi yang hebat. Hal ini terjadi karena internet memungkinkan banyak

Lebih terperinci

PRESENTASI TUGAS AKHIR KI091391

PRESENTASI TUGAS AKHIR KI091391 PRESENTASI TUGAS AKHIR KI091391 IMPLEMENTASI KD-TREE K-MEANS CLUSTERING PADA KLASTERISASI DOKUMEN (Kata kunci: KD-Tree K-Means Clustering, Klasterisasi Dokumen, K- Dimensional Tree, K-Means Clustering)

Lebih terperinci

PENILAIAN UJIAN BERTIPE URAIAN (ESSAY) MENGGUNAKAN METODE KEMIRIPAN TEKS (TEXT SIMILARITY) SKRIPSI

PENILAIAN UJIAN BERTIPE URAIAN (ESSAY) MENGGUNAKAN METODE KEMIRIPAN TEKS (TEXT SIMILARITY) SKRIPSI PENILAIAN UJIAN BERTIPE URAIAN (ESSAY) MENGGUNAKAN METODE KEMIRIPAN TEKS (TEXT SIMILARITY) SKRIPSI Disusun Oleh : ADAM ASSHIDIQ M0509001 JURUSAN INFORMATIKA FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1. Information Retrieval Perkembangan teknologi internet yang sangat pesat membuat pengguna harus dapat menyaring informasi yang dibutuhkannya. Information retrieval atau sistem

Lebih terperinci