Identifikasi Kesalahan Penulisan Kata (Typographical Error) pada Dokumen Berbahasa Indonesia Menggunakan Metode N-gram dan Levenshtein Distance

Ukuran: px
Mulai penontonan dengan halaman:

Download "Identifikasi Kesalahan Penulisan Kata (Typographical Error) pada Dokumen Berbahasa Indonesia Menggunakan Metode N-gram dan Levenshtein Distance"

Transkripsi

1 Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer e-issn: X Vol. 2, No., Januari 208, hlm Identifikasi Kesalahan Penulisan Kata (Typographical Error) pada Dokumen Berbahasa Indonesia Menggunakan Metode N-gram dan Levenshtein Distance Arina Indana Fahma, Imam Cholissodin 2, Rizal Setya Perdana 3 Program Studi Teknik Informatika, arinafahmaa@gmail.com, 2 imamcs@ub.ac.id, 3 rizalespe@ub.ac.id Abstrak Teks merupakan salah satu media komunikasi dan sumber informasi dalam kehidupan manusia. Hal yang menjadi krusial dalam pembuatan teks adalah kesalahan dalam penulisan kata yang disebut typographical error. Kesalahan tersebut terjadi saat menggunakan keyboard pada komputer atau pada smartphone. Typographical error pada teks dapat mengakibatkan sesuatu yang tidak diinginkan oleh pihak tertentu. Berdasarkan hal tersebut, diperlukan suatu sistem untuk melakukan identifikasi typographical error pada teks dan melakukan proses koreksi terhadap typographical error. Metode N- gram dan Levenshtein Distance dapat digunakan untuk melakukan koreksi typographical error di dalam dokumen. Penelitian ini berfokus pada data dokumen skripsi mahasiswa Fakultas Ilmu Komputer Universitas Brawijaya. Metode Levenshtein Distance digunakan untuk mendeteksi banyaknya kandidat kata sesuai dengan typographical error yang sudah teridentifikasi. Dikarenakan kandidat kata hasil dari Levenshtein Distance masih belum terurut, metode N-gram digunakan untuk mengurutkan kandidat kata berdasarkan nilai cosine similarity. Di dalam penelitian ini, nilai N pada N-gram yang digunakan adalah 2 sehingga pada prosesnya, N-gram melakukan pemisahan setiap dua karakter pada kata yang teridentifikasi sebagai typographical error beserta kandidat katanya. Setelah karakter dipisah, perhitungan tf-idf digunakan untuk mendapatkan nilai cosine similarity. Dari hasil pengujian sistem, didapatkan nilai presisi terbaik sebesar 0.97 pada uji coba typographical error jenis insertion dan untuk nilai recall terbaik sebesar yang didapatkan dari hasil uji coba typographical error jenis substitution. Kata kunci: typographical error, levenshtein distance, n-gram, cosine similarity Abstract Text is one of communication and information media in human life. The crucial thing in text writing is a mistake in word writing called typographical error. The error occurs while using the keyboard on computer or on smartphone. Typographical error on a text can lead to something unpredictable for some people. Based on that reason, a system is needed to identify typographical error in a text and also make the correction of the error word. N-gram and Levenshtein Distance method can be used for correcting typographical error in the text. For detecting how many word candidates of typographical error, Levenshtein Distance can be implemented. Because the word candidates are unsorted, N-gram method is using to sort those word candidates based on the value of cosine similarity. In this research, the reason N-gram method using N=2 is to separated each two characters of identified typographical error and its word candidates.the value of cosine similarity calculated by tf-idf when the process of N-gram was done. The result of test scenario, the best value of precision is 0.97 from insertion type and the best value of recall is from substitution type. Keywords: typographical error, levenshtein distance, n-gram, cosine similarity. PENDAHULUAN Teks merupakan salah satu komponen dalam kehidupan manusia yang terdiri dari wacana (berarti lisan) yang dijadikan dalam bentuk tulisan. Teks atau dokumen memiliki peranan sangat penting dalam dunia pendidikan terutama di bidang penelitian. Bahasa Indonesia merupakan bahasa nasional negara Indonesia yang digunakan oleh lebih dari 222 juta orang Fakultas Ilmu Komputer Universitas Brawijaya 53

2 Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer 54 untuk berkomunikasi di sekolah, kantor, kehidupan sehari-hari dan sebagainya. Pentingnya penggunaan bahasa Indonesia tidak selaras dengan ketersediaan language tool untuk penelitian yang berkaitan dengan bahasa Indonesia, karena jumlah tool yang sudah ada masih terbatas (Wicaksono dan Purwarianti, 200). Salah satu hal krusial dalam pembuatan dokumen maupun teks adalah kesalahan penulisan atau yang disebut dengan typographical error. Pada pembuatan dokumen dalam penelitian terutama skripsi atau tugas akhir, typographical error terjadi karena belum pahamnya mahasiswa dalam pembuatan dokumen dengan bahasa Indonesia yang baku dan sesuai dengan kaidah EYD. Faktor lain dalam terjadinya typographical error adalah pada saat proses pemilihan kata karena kata yang digunakan harus tepat dan menggunakan bahasa yang baku sehingga dapat dimengerti oleh pembaca. Selain itu, mengutip bacaan sekaligus menyatukan dengan ide dari mahasiswa itu sendiri bukan hal yang mudah. Terdapat beberapa jenis typographical error yaitu insertion, deletion serta substitution. Dalam mendeteksi typographical error pada teks dibutuhkan suatu aplikasi disebut spelling checker. Spelling checker melakukan proses pengecekan terhadap pengejaan kata-kata untuk mendeteksi adanya kata yang mengalami kesalahan ejaan dan juga memberikan suggestion berupa kata-kata kandidat (Soleh dan Purwarianti, 20). Berbagai macam metode yang ada sesuai untuk membangun suatu sistem identifikasi typographical error pada teks seperti N-gram, Hidden Markov Model (HMM), Forward- Reversed Dictionary, Morphologically Analyzer, Bayes, Maximum Likelihood Estimation, Minimum Edit Distance, Similarity Key, Rule Based, Probabilistic dan Neural Network. Penelitian untuk pembuatan spelling correction tool menggunakan metode N-gram dengan beberapa macam pendekatan menghasilkan akurasi yang bagus. Hasil yang lebih unggul didapatkan dari nilai N sebesar 2, yang disebut dengan bigram, daripada dengan penggunaan N sebesar 3 (trigram). Penggunaan data uji berupa dataset bahasa Inggris menghasilkan akurasi sebesar 84% untuk bigram dan 73% untuk trigram (Ahmed, Luca dan Nürnberger, 2009). Selain itu terdapat penelitian menggunakan metode Levenshtein Distance dengan pendekatan yang lebih baik yaitu penambahan metode Dictionary Lookup (Haldar dan Mukhopadhyay, 20). Penggunaan dua metode pada data numerik tulisan tangan dengan sistem OCR ini menghasilkan fakta bahwa OCR yang tersedia tidak mampu mengenali 93 dari 500 data uji setelah proses pengolahan data melalui SVM. Selain itu, metode Levenshtein Distance akan mengurangi jumlah kata yang tidak dikenali oleh sistem OCR. Dengan beberapa alasan di atas, maka dibuat sebuah sistem untuk identifikasi typographical error untuk teks berbahasa Indonesia menggunakan metode Levenshtein Distance. Metode Levenshtein Distance digunakan untuk menentukan kandidat kata untuk setiap typographical error yang teridentifikasi oleh sistem. Pada penelitian ini dikembangkan dengan penggunaan metode N- gram yang digunakan untuk menghitung nilai cosine similarity dalam menentukan ranking kandidat kata sebagai hasil keluaran dari sistem. Diharapkan sistem ini dapat membantu memberikan gambaran yang cukup baik terhadap koreksi error pada dokumen teks berbahasa Indonesia berdasarkan hasil pada sistem tersebut. 2. DASAR TEORI 2. Teks Dalam teori bahasa, apa yang dinamakan teks tidak lebih dari himpunan huruf yang membentuk kata dan kalimat, dirangkai dengan sistem tanda yang disepakati oleh masyarakat sehingga sebuah teks ketika dibaca bisa mengungkapkan makna yang dikandungnya (Riadi, 205). Menurut Loreta Auvil dan Duane Searsmith (Susanto, 2009), beberapa karakteristik dokumen teks adalah sebagai berikut:. Database teks berukuran besar 2. Memiliki dimensi yang tinggi yaitu satu kata merepresentasikan satu dimensi 3. Banyak mengandung kata atau arti yang bias (mengandung ambiguitas) 4. Mengandung kumpulan kata yang saling terkait (frase) dan antara kumpulan kata satu dengan yang lain dapat memiliki arti yang berbeda 5. Dokumen merupakan dokumen yang tidak memiliki struktur bahasa yang baku karena di dalamnya terkadang muncul

3 Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer 55 istilah slang seperti r u there?, helllooo bosss, whatzzzzzzz up?, dan sebagainya. Hal diatas terkait dengan objek penelitian ini yang membutuhkan dokumen dengan struktur bahasa yang baku. Dokumen skripsi merupakan salah satu dokumen teks yang memiliki struktur bahasa yang baku dan dapat digunakan dalam penelitian ini. Penggunaan dokumen skripsi sebagai data penelitian berpengaruh terhadap hasil output pada sistem. 2.2 Typographical Error Typographical error merupakan kesalahan yang terjadi pada saat proses mengetik teks dan dapat mengubah arti dari suatu kata bahkan arti dari suatu kalimat. Istilah ini mencakup kesalahan karena kegagalan mekanis atau slip tangan atau jari, dan juga timbul akibat ketidaktahuan penulis seperti kesalahan ejaan. Typographical error dapat disebabkan oleh, misalnya, jari menekan dua tombol keyboard yang berdekatan secara bersamaan. Typographical error ini bervariasi mulai dari kesalahan ketik biasa sampai kesalahan dalam tatanan bahasa yang digunakan atau bahkan pengertian dari kata tersebut. Kesalahan-kesalahan tersebut dikategorikan ke dalam 2 jenis yaitu non-word error dan realword error. Non-word error adalah error yang tidak terdapat makna didalamnya sedangkan pada real-word error, kata yang tertulis bernilai benar atau bisa disebut mempunyai arti dalam kamus namun tidak dimaksudkan dalam kalimat tersebut maupun mempunyai arti yang berbeda dan bahkan kalimat tersebut memiliki tata bahasa yang salah (Naradhipa et al., 20). 2.3 Text Mining Text Mining atau sering disebut Pemrosesan Teks merupakan salah satu bidang pengetahuan pada Artificial Intelligence yang menerapkan konsep dan teknik data mining untuk mencari pola dalam teks dengan proses ekstraksi pola yang berupa informasi dan pengetahuan berguna dari sejumlah besar sumber data yang tidak terstruktur. Dalam text mining dilakukan penambangan data yang berupa teks dimana sumber data biasanya didapatkan dari dokumen, dan tujuannya adalah mencari kata-kata yang memberikan penjelasan isi dari dokumen sehingga dapat dilakukan analisa keterkaitan antar dokumen (Baskoro, 206). Berdasarkan ketidakteraturan struktur data teks, maka proses text mining memerlukan beberapa tahap awal yang pada intinya adalah mempersiapkan agar teks dapat diubah menjadi lebih terstruktur. Menurut ketidakaturan struktur data dalam teks, maka proses text mining membutuhkan tahapan-tahapan awal agar teks berubah menjadi data yang lebih terstruktur. Salah satu tahapan tersebut adalah preprocessing yang meliputi case folding, tokenizing, filtering dan stemming. Pada tahapan ini, sistem melakukan seleksi data yang diproses pada setiap dokumen yang ada. Penggunaan huruf kapital pada dokumen tidak selalu konsisten, maka diperlukan proses case folding. Proses ini akan mengubah seluruh teks pada dokumen menjadi bentuk standar yaitu huruf kecil atau lowercase. Karakter selain huruf a hingga z dianggap sebagai delimiter sehingga karakter tersebut dihilangkan. Setelah dilakukan proses case folding, dilakukan proses tokenizing/tokenisasi atau parsing. Pada proses ini, dilakukan pemotongan string input berdasarkan tiap kata penyusun dari dokumen. Hasil dari preprocessing teks adalah daftar kata yang terdapat dalam dokumen uji, dengan penghapusan tanda baca, karakter dan kata-kata dalam istilah asing. 2.4 Information Retrieval Information Retrieval (IR) merupakan pencarian material (berupa dokumen) yang bersifat tidak terstruktur (biasanya berupa teks) dimana memenuhi kebutuhan informasi user dalam koleksi data yang besar dan disimpan dalam beberapa komputer. IR adalah bidang pada persimpangan ilmu informasi dan ilmu komputer yang dikaitkan dengan aktivitas dimana beberapa pekerjaan yang berhubungan dengan teks seperti customer service, reference libraries, paralegal dan searcher profesional, namun seiring berjalannya waktu berjuta-juta manusia memanfaatkan IR setiap hari ketika mengakses website search engine atau mencari . IR juga dapat mengatasi permasalahan data dan informasi serta berkutat dengan pengindeksan dan pengambilan informasi dari sumber informasi heterogen dan tekstual (Manning, Raghavan dan Schütze, 2009). Dalam prinsipnya, penyimpanan informasi dan sistem temu kembali informasi (Information Retrieval/IR) merupakan hal yang sederhana. Sebagai contoh, terdapat tempat penyimpanan banyak dokumen dan user yang

4 Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer 56 merumuskan suatu request atau query yang memiliki jawaban yaitu himpunan dokumen yang memuat informasi mengenai ekspresi yang diperlukan melalui pertanyaan user. User bisa mendapatkan dokumen yang diperlukan dengan membaca semua dokumen dalam tempat penyimpanan, menyimpan dokumendokumen yang berkaitan dan membuang dokumen yang tidak diperlukan. 2.5 Spelling Checker Deteksi error dalam kata dapat dilakukan dengan aplikasi berbasis komputer yang digunakan untuk mendeteksi dan menangani error dalam kata yang disebut spelling checker. Spelling checker mencari segala jenis error yang terdapat dalam dokumen yang kemudian memberi peringatan penulis dokumen tentang kesalahan yang dilakukan dan memberi beberapa suggestion untuk memperbaiki kesalahan tersebut. Terdapat dua metode utama yang digunakan untuk membangun aplikasi spelling checker yaitu identifikasi (error detection) dan koreksi (error correction). Selain itu, spelling checker dibagi menjadi dua tipe yaitu non-word error spell checker dan real-word spell checker. Non-word error spell checker menangani kata-kata salah ejaan yang terbentuk karena kesalahan ketik, sedangkan real-word error spell checker mengutamakan menangani kata-kata pengganti kata yang error pada kalimat (Soleh dan Purwarianti, 20). Dalam membuat spelling checker, terdapat beberapa tantangan yaitu dalam menemukan kata yang merupakan error dan memberikan suggestion berupa kata yang benar untuk menggantikan kata error tersebut. Pada error yang bersifat non-word, proses pengecekan huruf yang berlebih dan pengejaan kata akan berulang terus akan membuat infinite list untuk dicek satu persatu. Sedangkan pada error yang bersifat real-word, permasalahan terjadi pada proses pengenalan grammar atau tata bahasa pada setiap kalimat. Termasuk ambiguitas dan kata yang tidak terdapat pada dictionary atau yang biasa disebut Out of Vocabulary (OOV). Dan lagi, dalam dunia ini kamus bahasa akan terus berkembang dan bertambah seiring berjalannya waktu dan akan membuat OOV akan terus terjadi secara statis (Naradhipa et al., 20). 2.6 Metode N-gram Ide penggunaan N-gram telah diterapkan untuk berbagai masalah seperti prediksi kata, koreksi ejaan, pengenalan suara, koreksi kata terjemahan dan pencarian string. Salah satu keuntungan dari metode N-gram ini adalah bahwa bahasa bersifat independen. Dalam koreksi ejaan, N-gram merupakan urutan sebanyak N huruf dalam sebuah kata atau string. N-gram dapat digunakan untuk menghitung kesamaan antara dua string dengan cara menghitung jumlah N-gram yang sama. Semakin banyak jumlah N-gram yang sama antara 2 kalimat yang ada maka semakin mirip (Ahmed, Luca dan Nürnberger, 2009). 2.7 Term Frequency-Inverse Document Frequency (tf-idf) Metode pembobotan atau pemberian ranking yang digunakan dalam penelitian ini adalah Term Frequency-Inverse Document Frequency (tf-idf). Perhitungan tf-idf merupakan suatu cara yang digunakan untuk memberikan bobot terhadap relevansi antara suatu kata terhadap dokumen dengan menggabungkan dua konsep dalam perhitungan bobot yaitu frekuensi munculnya kata dalam dokumen serta inverse frekuensi dokumen yang mengandung kata tersebut (Lahitani, Permanasari dan Setiawan, 206). Adapun rumus tf-idf seperti pada Persamaan, Persamaan 2 dan Persamaan 3 sebagai berikut: W W ij ij tf idf () ij N tfij log (2) n N Wij tfij log (3) n Keterangan: W ij = bobot kata/term terhadap dokumen tf ij = jumlah kemunculan kata idf = jumlah dokumen dimana term muncul N n = jumlah semua dokumen yang dibandingkan = jumlah dokumen yang mengandung term 2.8 Cosine Similarity Perhitungan kesamaan atau similarity merupakan fungsi yang digunakan untuk mengukur derajat kesamaan antara dua buah vektor. Dalam teks, fungsi ini digunakan

5 Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer 57 sebagai pengukur kesamaan antara query dengan setiap dokumen yang ada pada database. Dari perhitungan ini, dihasilkan tingkat kesamaan pada dokumen yang sesuai dengan query yang diinputkan. Cosine similarity merupakan rumus yang digunakan untuk menghitung kesamaan atau similarity dengan menentukan sudut antara vektor dokumen dengan vektor query dalam dimensi V pada bidang Euclidean. Hasil dari cosine similarity memiliki nilai antara 0 sampai dengan. Nilai 0 merupakan nilai yang didapat apabila dokumen tidak berhubungan dengan query, sedangan nilai berarti dokumen memiliki keterhubungan tinggi dengan query (Lahitani, Permanasari dan Setiawan, 206). Berikut rumus cosine similarity seperti pada Persamaan 4 berikut: cos(θ ij ) = Keterangan: (d ik d jk ) k ( d ik 2 k d jk 2 k ) d ik = nilai query i pada indeks k d jk = nilai query j pada indeks k 2.9 Metode Levenshtein Distance (4) Pada teori informasi dan ilmu komputer, Levenshtein Distance merupakan matriks untuk mengukur nilai jumlah perbedaan antara 2 string yaitu string sumber (s) dan string target (t). Nilai Levenshtein Distance antara dua kata merupakan nilai minimum dari pengeditan single-character (yaitu insertion, deletion maupun substitution) membutuhkan perubahan pada salah satu kata. Levenshtein Distance antara dua string ditentukan berdasarkan jumlah minimum pengeditan yang diperlukan untuk melakukan transformasi dari satu bentuk string ke bentuk string yang lain. Notasi yang digunakan untuk Levenshtein Distance adalah LD(s, t) dengan s yaitu sumber dan t adalah target. Misalnya, jika source string (s) adalah tihun dan target string (t) dalah tahun maka nilai Levenshtein Distance adalah, dalam hal ini berarti dibutuhkan sebuah operasi yaitu substitution untuk mengubah source string (s) menjadi sama dengan target string (t). Operasi dilakukan dengan cara menukar posisi karakter yang berdekatan dan menemukan kata yang sama dalam dictionary (Naradhipa et al., 20). Secara matematis, Levenshtein Distance antara dua string, misal string sumber a dan string target b (panjang dan ) dengan lev a, b a, b pada indeks i dan j dimana telah dijelaskan pada Persamaan 5 berikut: a lev a, b b max( i, j) leva, b ( i, j) ( i, j) min leva, b ( i, j ) leva, b ( i, j ) ( 2.0 Presisi dan Recall a i b j ) min( i, j) 0, lainnya. (5) Kinerja sistem information retrieval dievaluasi dari metode standar yaitu presisi, recall dan F-measure (kombinasi presisi dan recall). Recall menghitung jumlah informasi relevan yang diekstraksi pada sistem. Sedangkan presisi, menghitung jumlah informasi bernilai benar/akurat yang dikembalikan oleh sistem (Mishra dan Vishwakarma, 206). Nilai pada recall dan presisi saling bertolakbelakang satu sama lain, pada saat presisi bernilai tinggi, recall bernilai rendah (Butt, 203). Nilai recall tertinggi dan optimal adalah, yang artinya seluruh teks dalam sistem berhasil ditemukan pada dokumen. Pada saat nilai pada presisi, berarti seluruh teks yang ditemukan bersifat relevan. Formula untuk perhitungan presisi dan recall dijabarkan pada Persamaan 6 dan Persamaan 7: Recall = Presisi = Jumlah jawaban relevan sistem Total jawaban relevan dalam teks Jumlah jawaban relevan sistem Total jawaban pada sistem 3. ALUR PENYELESAIAN MASALAH (6) (7) Sistem memiliki alur untuk proses identifikasi dan koreksi typographical error. Alur proses identifikasi dan koreksi menjelaskan gambaran sekumpulan langkah dalam proses identifikasi typographical error serta memberikan daftar kandidat kata yang sesuai dengan kata typographical error berdasarkan ranking kandidat kata. Proses dilakukan menggunakan metode pendekatan Dictionary Lookup, metode Levenshtein Distance dan metode N-gram berbasis perhitungan cosine similarity. Gambar menjelaskan tentang alur identifikasi dan koreksi typographical error:

6 Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer 58 Levenshtein Distance. Perhitungan nilai edit distance dilakukan dalam mencari nilai yang paling minimum untuk mendapatkan daftar kandidat kata pada kamus sesuai dengan kata typographical error. Penentuan ranking kandidat kata dilakukan menggunakan metode N-gram berbasis perhitungan cosine similarity. Hasil ranking kandidat kata menjadi hasil output pada sistem. 4. PENGUJIAN DAN ANALISIS 4. Pengujian Seluruh Jenis Typographical Error Berdasarkan Jumlah Dokumen Jenis typographical error yang digunakan dalam pengujian adalah insertion (penambahan huruf), deletion (penghilangan huruf) dan substitution (penggantian huruf). Dokumen skripsi yang menjadi data uji pada sistem ini berjumlah 5 dokumen dengan jumlah kata typographical error dan jenis kata typographical error yang berbeda. Presisi dan recall digunakan di dalam pengujian ini. Hasil pengujian presisi dan recall untuk proses koreksi sesuai dengan seluruh jenis typographical error berdasarkan jumlah dokumen ditunjukkan pada Gambar 2. 0,8 0,6 0,4 0,82 0,44 0,2 Gambar. Alur Identifikasi dan Koreksi Typographical Error Dok Dok 2 Dok 3 Presisi Dok 4 Recall Dok 5 Berdasarkan Gambar, proses pertama dalam sistem adalah pemberian data input berupa dokumen skripsi dalam format.txt. Dalam memproses sebuah data yang tidak terstruktur, dibutuhkan tahapan preprocessing untuk mengubah data menjadi terstruktur. Preprocessing dalam sistem ini terdiri dari tokenisasi, case folding dan filtering. Setelah preprocessing selesai, typographical error diidentifikasi dengan menggunakan metode Dictionary Lookup. Kata yang teridentifikasi sebagai typographical error kemudian dilakukan proses koreksi menggunakan metode Gambar 2. Grafik Pengujian Seluruh Jenis Typographical Error Berdasarkan Jumlah Dokumen Berdasarkan Gambar 2, dapat disimpulkan bahwa pengujian untuk recall terhadap 5 dokumen bernilai konsisten pada nilai. Nilai recall dapat mencapai nilai optimal karena semua kata typographical error memiliki kandidat kata yang benar sehingga dapat diketahui bahwa semua kata typographical error memiliki nilai aktual. Sedangkan untuk nilai presisi menurun pada dokumen 2 dan pada dokumen 3 namun kembali meningkat pada

7 5 kata typo 0 kata typo 5 kata typo 20 kata typo 25 kata typo 30 kata typo 35 kata typo 40 kata typo 45 kata typo 50 kata typo 5 kata typo 0 kata typo 5 kata typo 20 kata typo 25 kata typo 30 kata typo 35 kata typo 40 kata typo 45 kata typo 50 kata typo Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer 59 dokumen 4. Hal ini terjadi karena jumlah kata typographical error bervariasi pada setiap dokumen. Kata typographical error yang teridentifikasi pada dokumen, 4 dan 5 berjumlah lebih sedikit daripada jumlah kata typographical error pada dokumen 2 dan 3. Dokumen memiliki kata yang teridentifikasi sebagai kata typographical error sejumlah 2 kata, dokumen 2 memiliki 5 kata typographical error, dokumen 3 berjumlah 4 kata typographical error, dokumen 4 berjumlah 2 kata typographical error dan dokumen 5 berjumlah kata typographical error. Dari keberagaman jumlah kata typographical error, dapat diketahui alasan nilai presisi mengalami penurunan dan kenaikan. 4.2 Pengujian Seluruh Jenis Typographical Error Berdasarkan Jumlah Kata Typographical Error dalam Satu Dokumen Pengujian ini dilakukan sebanyak 0 kali percobaan dengan jumlah kata typographical error yang dijumlahkan sebanyak 5 kata pada setiap percobaan. Dokumen mengandung jenis kata typographical error yang berbeda untuk setiap percobaan. Perhitungan nilai Hasil pengujian presisi dan recall untuk seluruh jenis typographical error berdasarkan jumlah kata typographical error dalam satu dokumen ditunjukkan pada Gambar 3. 0,95 0,9 0,85 0,8 0,75 0,7 0,87 0,82 0,790,8 0,78 0,8 0,8 0,79 0,79 0,78 cenderung stabil. Nilai recall konsisten dan optimal pada setiap percobaan, sedangkan berbeda hal dengan nilai presisi yang mengalami penurunan dan kenaikan. Hasil kandidat kata memiliki pengaruh besar terhadap nilai presisi sistem, karena perhitungan nilai presisi membutuhkan jumlah kandidat kata pada hasil output sistem. Seperti halnya pengujian sebelumnya, hasil kandidat kata pada sistem tidak hanya didapatkan sesuai nilai aktual tapi didapatkan juga kandidat kata lain dari kamus dengan nilai edit distance yang paling minimum. 4.3 Pengujian Jenis Typographical Error Insertion Berdasarkan Jumlah Kata Typographical Error dalam Satu Dokumen Pengujian berdasarkan perhitungan presisi dan recall dilakukan untuk mengetahui pengaruh typographical error dengan jenis insertion pada kata terhadap nilai presisi dan recall sistem. Jenis kata typographical error insertion merupakan jenis kata typographical error dimana kata mengalami penambahan huruf sehingga menjadi kata yang tidak dikenali dalam kamus yang digunakan. Pengujian jenis typographical error insertion berdasarkan jumlah kata typographical error dalam satu dokumen ditunjukkan pada Gambar 4. 0,98 0,96 0,94 0,92 0,9 0,97 0,98 0,98 0,95 0,97 0,97 0,98 0,98 0,98 0,94 0,95 0,96 0,93 Presisi Recall Gambar 3. Grafik Pengujian Seluruh Jenis Typographical Error Berdasarkan Jumlah Kata Typographical Error dalam Satu Dokumen Dari Gambar 3, dapat diambil kesimpulan pengujian dengan jenis typographical error berbeda pada satu dokumen menghasilkan nilai recall yang baik yaitu serta nilai presisi yang Presisi Recall Gambar 4. Grafik Pengujian Jenis Typographical Error Insertion Berdasarkan Jumlah Kata Typographical Error dalam Satu Dokumen Dari grafik pengujian pada Gambar 4, dapat diketahui bahwa jenis kata typographical error insertion pada setiap percobaan menghasilkan nilai presisi dan recall yang cenderung stabil pada beberapa percobaan. Nilai presisi dan

8 5 kata typo 0 kata typo 5 kata typo 20 kata typo 25 kata typo 30 kata typo 35 kata typo 40 kata typo 45 kata typo 50 kata typo 5 kata typo 0 kata typo 5 kata typo 20 kata typo 25 kata typo 30 kata typo 35 kata typo 40 kata typo 45 kata typo 50 kata typo Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer 60 recall mengalami penurunan dan kenaikan dipengaruhi oleh tidak adanya kandidat kata yang dihasilkan sistem terhadap kata yang teridentifikasi kata typographical error. Selain itu, nilai presisi juga dipengaruhi jumlah kandidat kata yang dihasilkan pada hasil output sistem pada masing-masing kata typographical error. Pengujian ini dapat diambil kesimpulan bahwa sistem dapat mengidentifikasi dengan baik dan memberikan hasil output sistem berupa kandidat kata terhadap kata typographical error jenis insertion. 4.4 Pengujian Jenis Typographical Error Deletion Berdasarkan Jumlah Kata Typographical Error dalam Satu Dokumen Pengujian presisi dan recall dilakukan untuk mengetahui pengaruh typographical error dengan jenis deletion pada kata terhadap nilai presisi dan recall sistem. Jenis kata typographical error deletion merupakan jenis kata typographical error dimana kata mengalami penghilangan huruf sehingga menjadi kata yang tidak dikenali dalam kamus. Pengujian jenis typographical error deletion berdasarkan jumlah kata typographical error dalam satu dokumen ditunjukkan pada Gambar 5. typographical error. Begitu halnya dengan nilai presisi yang mengalami kenaikan konsisten setelah awal percobaan. Nilai presisi dan recall pada awal percobaan rendah dikarenakan terdapat kata typographical error tidak memiliki kandidat kata sehingga presisi dan recall bernilai 0. Selain itu, beberapa kata typographical error merupakan kata yang ada dalam kamus namun bukan kata yang dimaksud oleh user sehingga sistem tidak menampilkan kandidat kata. Untuk mengidentifikasi jenis typographical error deletion, sistem memiliki nilai presisi dan recall yang rendah pada sistem. 4.5 Pengujian Jenis Typographical Error Substitution Berdasarkan Jumlah Kata Typographical Error dalam Satu Dokumen Jenis kata typographical error substitution merupakan jenis kata typographical error dimana kata mengalami pergantian huruf dari kata yang sebenarnya sehingga menjadi kata yang tidak dikenali dalam kamus. Pengujian presisi dan recall dilakukan untuk mengetahui pengaruh typographical error dengan jenis substitution pada kata terhadap nilai presisi dan recall sistem. Pengujian berdasarkan jumlah kata typographical error dalam satu dokumen ditunjukkan pada Gambar 6. 0,8 0,6 0,4 0,8 0,87 0,9 0,92 0,93 0,94 0,9 0,9 0,92 0,67 0,4 0,47 0,52 0,55 0,55 0,62 0,65 0,58 0,59 0,6 0,95 0,9 0,85 0,8 0,75 0,7 0,9 0,85 0,83 0,72 0,72 0,77 0,73 0,74 0,73 0,7 Presisi Recall Gambar 5. Grafik Pengujian Jenis Typographical Error Deletion Berdasarkan Jumlah Kata Typographical Error dalam Satu Dokumen Dari Gambar 5, dapat diambil kesimpulan bahwa jenis kata typographical error deletion pada satu dokumen setiap percobaan menghasilkan nilai recall yang rendah pada awal percobaan namun meningkat dan cenderung stabil hingga percobaan 50 kata Presisi Recall Gambar 6. Grafik Pengujian Jenis Typographical Error Substitution Berdasarkan Jumlah Kata Typographical Error dalam Satu Dokumen Dari Gambar 6, dapat diambil kesimpulan bahwa jenis kata typographical error substitution pada satu dokumen menghasilkan nilai recall yang optimal yaitu namun untuk nilai presisi mengalami penurunan dan kenaikan. Hal tersebut dikarenakan hasil

9 Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer 6 kandidat kata pada sistem tidak hanya didapatkan sesuai nilai aktual, tapi didapatkan juga kandidat kata lain dari kamus dengan nilai edit distance yang paling minimum. Kandidat kata yang ditampilkan sistem berjumlah banyak sehingga mempengaruhi perhitungan nilai presisi. Untuk mengidentifikasi jenis typographical error substitution, sistem memiliki nilai recall yang optimal dan konsisten pada setiap percobaan serta nilai presisi yang cenderung stabil pada sistem. 5. KESIMPULAN Berdasarkan hasil pengujian dan analisis pada identifikasi typographical error pada dokumen bahasa Indonesia menggunakan metode N-gram dan Levenshtein Distance dapat diambil kesimpulan bahwa metode pendekatan Dictionary Lookup pada proses identifikasi typographical error pada dokumen bahasa Indonesia dapat diterapkan dengan baik untuk mencari kata typographical error dalam dokumen data input. Untuk menentukan kandidat kata, metode Levenshtein Distance dapat menghasilkan kandidat kata yang sesuai dengan nilai aktual yang diharapkan user. Namun untuk kata typographical error tertentu, jumlah kandidat kata yang ditampilkan dalam sistem terlalu banyak. Hasil presisi dan recall pada penelitian ini memiliki nilai yang beragam pada setiap skenario pengujian. Nilai presisi terbaik yang dihasilkan sistem sebesar 0.97 pada skenario pengujian typographical error jenis insertion. Sementara itu, nilai recall terbaik yang dihasilkan sistem sebesar pada skenario pengujian typographical error jenis substitution. Untuk penelitian serupa selanjutnya, sistem dapat dikembangkan pada proses identifikasi typographical error menggunakan kamus Bahasa Indonesia yang lebih lengkap dan terdapat istilah-istilah dalam dunia pendidikan, terutama metode-metode yang digunakan dalam penelitian. Nilai N pada metode N-gram dapat dikembangkan dengan nilai N bersifat dinamis sesuai dengan kebutuhan user untuk mendapatkan penentuan ranking yang lebih baik. Sistem dapat dikembangkan dengan metode yang digunakan untuk dapat mendeteksi istilah lain selain katakata dalam kamus seperti nama orang, nama tempat, nama metode serta istilah-istilah lain. Keterkaitan kata dalam satu kalimat dapat juga diperhatikan dalam penelitian selanjutnya, karena dalam penelitian ini hanya berupa identifikasi kata berdasarkan kata-kata dalam kamus atau dapat disebut dengan non-word error. Selain itu, sebaiknya dilakukan pengujian terhadap urutan/ranking pada kandidat kata yang diperoleh dari proses perhitungan cosine similarity pada metode N-gram. Pengujian dilakukan dengan pengukuran nilai evaluasi menggunakan Korelasi Ranking Spearman yang dimodifikasi sehingga bisa menghitung nilai korelasi yang salah satu anggota himpunannya hanya berisi satu anggota. 6. DAFTAR PUSTAKA Ahmed, F., Luca, E.W. De dan Nürnberger, A., Revised N-Gram based Automatic Spelling Correction Tool to Improve Retrieval Effectiveness. Research J. on Computer, [online] (40), hal Tersedia di: < 40/40_06.pdf\nhttp://polibits.gelbukh.co m/2009_40/40_06.pdf>. Baskoro, S.Y., 206. Pencarian Pasal pada Kitab Undang-Undang Hukum Pidana (KUHP) Berdasarkan Kasus Menggunakan Metode Cosine Similarity dan Latent Semantic Indexing (LSI). Malang, Indonesia. Butt, M., 203. Precision and Recall. [online] Tersedia di: < al/precision-recall.pdf>. Haldar, R. dan Mukhopadhyay, D., 20. Levenshtein Distance Technique in Dictionary Lookup Methods : An Improved Approach. Web Intelligence & Distributed Computing Research Lab, (Ld), hal. 5. Lahitani, A.R., Permanasari, A.E. dan Setiawan, N.A., 206. Cosine similarity to determine similarity measure: Study case in online essay assessment. Proceedings of 206 4th International Conference on Cyber and IT Service Management, CITSM 206. Manning, C.D., Raghavan, P. dan Schütze, H., An Introduction to Information Retrieval. Online ed. [online] Tersedia di: < Mishra, A. dan Vishwakarma, S., 206. Analysis of TF-IDF Model and its Variant for Document Retrieval.

10 Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer 62 Proceedings International Conference on Computational Intelligence and Communication Networks, CICN 205, hal Naradhipa, A.R., Kamayani, M., Reinanda, R., Simbolon, S., Soleh, M.Y. dan Purwarianti, A., 20. Application of Document Spelling Checker for Bahasa Indonesia. ICACSIS, hal Riadi, M., 205. Pengertian dan Kriteria Teks. [online] Tersedia di: < pengertian-dan-kriteria-teks.html> [Diakses 5 Nov. 206]. Soleh, M.Y. dan Purwarianti, A., 20. A Non Word Error Spell Checker for Indonesian using Morphologically Analyzer and HMM. Dalam: International Conference on Electrical Engineering and Informatics. Bandung, Indonesia. Susanto, B., Text Mining. Dalam: Text dan Web Mining. [online] Yogyakarta. Tersedia di: < xtwebmining/textmining_kuliah.pdf>. Wicaksono, A.F. dan Purwarianti, A., 200. HMM Based Part-of-Speech Tagger for Bahasa Indonesia. Dalam: 4th International MALINDO (Malay and Indonesian Language) Workshop.

PENDAHULUAN. Latar belakang

PENDAHULUAN. Latar belakang Latar belakang PEDAHULUA Kata kunci atau yang biasa disebut dengan query pada pencarian informasi dari sebuah search engine digunakan sebagai kriteria pencarian yang tepat dan sesuai dengan kebutuhan.

Lebih terperinci

PERANCANGAN DAN PEMBUATAN APLIKASI PENCARIAN INFORMASI BEASISWA DENGAN MENGGUNAKAN COSINE SIMILARITY

PERANCANGAN DAN PEMBUATAN APLIKASI PENCARIAN INFORMASI BEASISWA DENGAN MENGGUNAKAN COSINE SIMILARITY Vol. 4, No. 2 Desember 2014 ISSN 2088-2130 PERANCANGAN DAN PEMBUATAN APLIKASI PENCARIAN INFORMASI BEASISWA DENGAN MENGGUNAKAN COSINE SIMILARITY Andry Kurniawan, Firdaus Solihin, Fika Hastarita Prodi Teknik

Lebih terperinci

Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer e-issn: X

Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer e-issn: X Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer e-issn: 2548-964X Vol. 1, No. 6, Juni 2017, hlm. 498-506 http://j-ptiik.ub.ac.id Deteksi Kesalahan Ejaan dan Penentuan Rekomendasi Koreksi Kata

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1. Tinjauan Penelitian Terdahulu Penelitian sebelumnya dilakukan oleh Rahmatulloh (2016). Penelitian yang berjudul Rancang Bangun Sistem Informasi Pencarian Benda Hilang Lost &

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN BAB III METODOLOGI PENELITIAN Metodologi penelitian merupakan rangkaian dari langkah-langkah yang diterapkan dalam penelitian, secara umum dan khusus langkah-langkah tersebut tertera pada Gambar flowchart

Lebih terperinci

KOREKSI EJAAN QUERY BAHASA INDONESIA MENGGUNAKAN ALGORITME DAMERAU LEVENSHTEIN

KOREKSI EJAAN QUERY BAHASA INDONESIA MENGGUNAKAN ALGORITME DAMERAU LEVENSHTEIN KOREKSI EJAAN QUERY BAHASA INDONESIA MENGGUNAKAN ALGORITME DAMERAU LEVENSHTEIN Utis Sutisna 1), Julio Adisantoso 2) 1,2 Departemen Ilmu Komputer, Institut Pertanian Bogor Kampus Darmaga, Wing 20 Level

Lebih terperinci

TEKNIK VECTOR SPACE MODEL (VSM) DALAM PENENTUAN PENANGANAN DAMPAK GAME ONLINE PADA ANAK

TEKNIK VECTOR SPACE MODEL (VSM) DALAM PENENTUAN PENANGANAN DAMPAK GAME ONLINE PADA ANAK F.13 TEKNIK VECTOR SPACE MODEL (VSM) DALAM PENENTUAN PENANGANAN DAMPAK GAME ONLINE PADA ANAK Bania Amburika 1*,Yulison Herry Chrisnanto 1, Wisnu Uriawan 2 1 Jurusan Informatika, Fakultas MIPA, Universitas

Lebih terperinci

BAB II DASAR TEORI Crawler Definisi Focused Crawler dengan Algoritma Genetik [2]

BAB II DASAR TEORI Crawler Definisi Focused Crawler dengan Algoritma Genetik [2] BAB II DASAR TEORI Pada bab ini dibahas teori mengenai focused crawler dengan algoritma genetik, text mining, vector space model, dan generalized vector space model. 2.1. Focused Crawler 2.1.1. Definisi

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA 2.1 Sistem Rekomendasi Sistem rekomendasi adalah sebuah sistem yang dibangun untuk mengusulkan informasi dan menyediakan fasilitas yang diinginkan pengguna dalam membuat suatu keputusan

Lebih terperinci

BAB 3 LANDASAN TEORI

BAB 3 LANDASAN TEORI BAB 3 LANDASAN TEORI 3.1 Twitter API Application Programming Interface (API) merupakan fungsi-fungsi/perintah-perintah untuk menggantikan bahasa yang digunakan dalam system calls dengan bahasa yang lebih

Lebih terperinci

BAB I PENDAHULUAN Latar Belakang

BAB I PENDAHULUAN Latar Belakang BAB I PENDAHULUAN 1.1. Latar Belakang Semakin canggihnya teknologi di bidang komputasi dan telekomunikasi pada masa kini, membuat informasi dapat dengan mudah didapatkan oleh banyak orang. Kemudahan ini

Lebih terperinci

BAB I PENDAHULUAN. penunjang Al-Quran untuk memudahkan untuk mempelajarinya, yang bisa

BAB I PENDAHULUAN. penunjang Al-Quran untuk memudahkan untuk mempelajarinya, yang bisa BAB I PENDAHULUAN 1.1 Latar Belakang Masalah Dengan kemajuan teknologi yang sangat pesat ini sudah banyak aplikasi penunjang Al-Quran untuk memudahkan untuk mempelajarinya, yang bisa disebut atau di artikan

Lebih terperinci

Implementasi Algoritma Term Frequency Inverse Document Frequency dan Vector Space Model untuk Klasifikasi Dokumen Naskah Dinas

Implementasi Algoritma Term Frequency Inverse Document Frequency dan Vector Space Model untuk Klasifikasi Dokumen Naskah Dinas Implementasi Algoritma Term Frequency Inverse Document Frequency dan Vector Space Model untuk Klasifikasi Dokumen Naskah Dinas A. Achmad 1, A. A. Ilham 2, Herman 3 1 Program Studi Teknik Elektro, Jurusan

Lebih terperinci

PEMANFAATAN ASSOCIATION RULE MINING DALAM MEMBANTU PENCARIAN DOKUMEN-DOKUMEN BERITA YANG SALING BERKAITAN

PEMANFAATAN ASSOCIATION RULE MINING DALAM MEMBANTU PENCARIAN DOKUMEN-DOKUMEN BERITA YANG SALING BERKAITAN PEMANFAATAN ASSOCIATION RULE MINING DALAM MEMBANTU PENCARIAN DOKUMEN-DOKUMEN BERITA YANG SALING BERKAITAN Hermawan Andika Institut Informatika Indonesia andika@iii.ac.id Suhatati Tjandra Sekolah Tinggi

Lebih terperinci

RANCANG BANGUN SISTEM TEMU KEMBALI INFORMASI ABSTRAK TUGAS AKHIR MAHASISWA PRODI TEKNIK INFORMATIKA UNSOED Oleh : Lasmedi Afuan

RANCANG BANGUN SISTEM TEMU KEMBALI INFORMASI ABSTRAK TUGAS AKHIR MAHASISWA PRODI TEKNIK INFORMATIKA UNSOED Oleh : Lasmedi Afuan RANCANG BANGUN SISTEM TEMU KEMBALI INFORMASI ABSTRAK TUGAS AKHIR MAHASISWA PRODI TEKNIK INFORMATIKA UNSOED Oleh : Lasmedi Afuan Prodi Teknik Informatika, Fakultas Sains dan Teknik, Universitas Jenderal

Lebih terperinci

Text Mining. Budi Susanto. Text dan Web Mining. Teknik Informatika UKDW Yogyakarta

Text Mining. Budi Susanto. Text dan Web Mining. Teknik Informatika UKDW Yogyakarta Text Mining Budi Susanto Materi Pengertian Text Mining Pemrosesan Text Tokenisasi Lemmatization Vector Document Pengertian Text Mining Text mining merupakan penerapan konsep dan teknik data mining untuk

Lebih terperinci

Pemanfaatan Metode Vector Space Model dan Metode Cosine Similarity pada Fitur Deteksi Hama dan Penyakit Tanaman Padi

Pemanfaatan Metode Vector Space Model dan Metode Cosine Similarity pada Fitur Deteksi Hama dan Penyakit Tanaman Padi Pemanfaatan Metode Vector Space Model dan Metode Cosine Similarity pada Fitur Deteksi Hama dan Penyakit Tanaman Padi Ana Triana Informatika, Fakultas MIPA, Universitas Sebelas Maret Surakarta Jl. Ir. Sutami

Lebih terperinci

INFORMATION RETRIEVAL SYSTEM PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS DENGAN METODE VECTOR SPACE MODEL DAN ALGORITMA ECS STEMMER

INFORMATION RETRIEVAL SYSTEM PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS DENGAN METODE VECTOR SPACE MODEL DAN ALGORITMA ECS STEMMER INFORMATION RETRIEVAL SSTEM PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS DENGAN METODE VECTOR SPACE MODEL DAN ALGORITMA ECS STEMMER Muhammad asirzain 1), Suswati 2) 1,2 Teknik Informatika, Fakultas Teknik,

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN BAB III METODOLOGI PENELITIAN Metodologi penelitian merupakan sistematika tahap-tahap yang dilaksanakan dalam pembuatan tugas akhir. Adapun tahapan yang dilalui dalam pelaksanaan penelitian ini adalah

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA 2.1. Penelitian Terkait 2.1.1. Implementasi Opinion Mining Pernah dilakukan penelitian tentang opinion mining membahas tentang ekstraksi data opini publik pada perguruan tinggi.

Lebih terperinci

Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem Temu Kembali Informasi

Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem Temu Kembali Informasi Jurnal Integrasi, vol. 6, no. 1, 2014, 21-25 ISSN: 2085-3858 (print version) Article History Received 10 February 2014 Accepted 11 March 2014 Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem

Lebih terperinci

Perbaikan Ejaan Kata pada Dokumen Bahasa Indonesia dengan Metode Cosine Similarity

Perbaikan Ejaan Kata pada Dokumen Bahasa Indonesia dengan Metode Cosine Similarity Perbaikan Ejaan pada Bahasa Indonesia dengan Metode Cosine Similarity Muhammad Fachrurrozi 1, Anne Agustina Manik 2 1,2 Jurusan Teknik Informatika Universitas Sriwijaya Kampus Unsri Indralaya Ogan Ilir

Lebih terperinci

Pengujian Kerelevanan Sistem Temu Kembali Informasi

Pengujian Kerelevanan Sistem Temu Kembali Informasi Pengujian Kerelevanan Sistem Temu Kembali Informasi Ari Wibowo / 23509063 Jurusan Teknik Informatika, Politeknik Negeri Batam Jl. Parkway No 1 Batam Center, Batam wibowo@polibatam.ac.id Abstrak Sistem

Lebih terperinci

Sistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF)

Sistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF) Sistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF) 1 Dhony Syafe i Harjanto, 2 Sukmawati Nur Endah, dan 2 Nurdin Bahtiar 1 Jurusan Matematika,

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Buku merupakan media informasi yang memiliki peran penting dalam perkembangan ilmu pengetahuan, karena dengan buku kita dapat memperoleh banyak informasi, pengetahuan

Lebih terperinci

Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi

Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi Stemming in Indonesian Language Twit Preprocessing Implementing Phonetic

Lebih terperinci

EKSTRAKSI FITUR SITUS BERITA ONLINE UNTUK KALEIDOSKOP BERITA TAHUNAN

EKSTRAKSI FITUR SITUS BERITA ONLINE UNTUK KALEIDOSKOP BERITA TAHUNAN EKSTRAKSI FITUR SITUS BERITA ONLINE UNTUK KALEIDOSKOP BERITA TAHUNAN Afri Yosela Putri 1, Faisal Rahutomo 2, Ridwan Rismanto 3 1, 2, 3 Jurusan Teknologi Informasi, Program Studi Teknik Informatika, Politeknik

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI II.1 Text Mining Text Mining merupakan penerapan konsep dan teknik data mining untuk mencari pola dalam teks, proses penganalisaan teks guna menemukan informasi yang bermanfaat untuk

Lebih terperinci

BAB 3 PERANCANGAN 3.1 GAMBARAN UMUM PROSES SEGMENTASI DOKUMEN

BAB 3 PERANCANGAN 3.1 GAMBARAN UMUM PROSES SEGMENTASI DOKUMEN 28 BAB 3 PERANCANGAN Pada bab ini akan dijelaskan mengenai rancangan percobaan pada penelitian segmentasi dokumen ini. Pembahasan akan dimulai dengan penjelasan mengenai gambaran umum proses segmentasi

Lebih terperinci

Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem Temu Kembali Informasi

Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem Temu Kembali Informasi Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem emu Kembali Informasi Ari Wibowo Program Studi eknik Multimedia dan Jaringan, Politeknik Negeri Batam E-mail : wibowo@polibatam.ac.id Abstrak

Lebih terperinci

BAB 3 LANDASAN TEORI

BAB 3 LANDASAN TEORI BAB 3 LANDASAN TEORI 3.1 Text Mining Text mining merupakan suatu teknologi untuk menemukan suatu pengetahuan yang berguna dalam suatu koleksi dokumen teks sehingga diperoleh tren, pola, atau kemiripan

Lebih terperinci

APLIKASI SEGMENTASI TEKS DALAM BAHASA MANDARIN DENGAN METODE RULE-BASED DAN STATISTICAL

APLIKASI SEGMENTASI TEKS DALAM BAHASA MANDARIN DENGAN METODE RULE-BASED DAN STATISTICAL APLIKASI SEGMENTASI TEKS DALAM BAHASA MANDARIN DENGAN METODE RULE-BASED DAN STATISTICAL Rudy Adipranata 1), Meliana Ongkowinoto 2), Rolly Intan 3) Jurusan Teknik Informatika, Fakultas Teknologi Industri,

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA digilib.uns.ac.id BAB II TINJAUAN PUSTAKA 2.1. Landasan Teori 2.1.1. Twitter API Twitter API terdiri dari dua komponen yang berbeda, REST dan SEARCH API. REST API memungkinkan pengembang/developer Twitter

Lebih terperinci

SISTEM PENCARIAN PASAL-PASAL PADA KITAB UNDANG-UNDANG HUKUM PIDANA DENGAN MENGGUNAKAN METODE TF-IDF. Abstrak

SISTEM PENCARIAN PASAL-PASAL PADA KITAB UNDANG-UNDANG HUKUM PIDANA DENGAN MENGGUNAKAN METODE TF-IDF. Abstrak SISTEM PENCARIAN PASAL-PASAL PADA KITAB UNDANG-UNDANG HUKUM PIDANA DENGAN MENGGUNAKAN METODE TF-IDF Muh. Alfarisi Ali¹, Moh. Hidayat Koniyo², Abd. Aziz Bouty³ ¹Mahasiswa Teknik Informatika Universitas

Lebih terperinci

Inera Firdestawati¹, Yanuar Firdaus A.w.², Kiki Maulana³. ¹Teknik Informatika, Fakultas Teknik Informatika, Universitas Telkom

Inera Firdestawati¹, Yanuar Firdaus A.w.², Kiki Maulana³. ¹Teknik Informatika, Fakultas Teknik Informatika, Universitas Telkom IMPLEMENTASI MODEL RUANG VEKTOR SEBAGAI PENERJEMAH QUERY PADA CROSS-LANGUAGE INFORMATION RETRIEVAL SISTEM IMPLEMENTATION OF VECTOR SPACE MODEL AS QUERY TRANSLATION FOR CROSS-LANGUAGE INFORMATION RETRIEVAL

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Ketersediaan informasi yang semakin banyak menjadikan ringkasan sebagai kebutuhan yang sangat penting (Mulyana, 2010). Menurut (Hovy, 2001) Ringkasan merupakan teks

Lebih terperinci

PENDAHULUAN. 1.1 Latar Belakang

PENDAHULUAN. 1.1 Latar Belakang DAFTAR TABEL Tabel 3-1 Dokumen Term 1... 17 Tabel 3-2 Representasi... 18 Tabel 3-3 Centroid pada pengulangan ke-0... 19 Tabel 3-4 Hasil Perhitungan Jarak... 19 Tabel 3-5 Hasil Perhitungan Jarak dan Pengelompokkan

Lebih terperinci

Aplikasi Aljabar Vektor pada Sistem Temu-balik Informasi (Information Retrieval System)

Aplikasi Aljabar Vektor pada Sistem Temu-balik Informasi (Information Retrieval System) Aplikasi Aljabar Vektor pada Sistem Temu-balik Informasi (Information Retrieval System) IF3 Aljabar Geometri Oleh: Rinaldi Munir Program Studi Informatika, STEI-ITB Rinaldi Munir - IF3 Aljabar Geometri

Lebih terperinci

PENCARIAN FULL TEXT PADA KOLEKSI SKRIPSI FAKULTAS TEKNIK UHAMKA MENGGUNAKAN METODE VECTOR SPACEMODEL

PENCARIAN FULL TEXT PADA KOLEKSI SKRIPSI FAKULTAS TEKNIK UHAMKA MENGGUNAKAN METODE VECTOR SPACEMODEL Vol. 2, 2017 PENCARIAN FULL TEXT PADA KOLEKSI SKRIPSI FAKULTAS TEKNIK UHAMKA MENGGUNAKAN METODE VECTOR SPACEMODEL Miftahul Ari Kusuma 1*, Mia Kamayani 2, Arry Avorizano 3 Program Studi Teknik Informatika,

Lebih terperinci

INDEXING AND RETRIEVAL ENGINE UNTUK DOKUMEN BERBAHASA INDONESIA DENGAN MENGGUNAKAN INVERTED INDEX

INDEXING AND RETRIEVAL ENGINE UNTUK DOKUMEN BERBAHASA INDONESIA DENGAN MENGGUNAKAN INVERTED INDEX INDEXING AND RETRIEVAL ENGINE UNTUK DOKUMEN BERBAHASA INDONESIA DENGAN MENGGUNAKAN INVERTED INDEX Wahyu Hidayat 1 1 Departemen Teknologi Informasi, Fakultas Ilmu Terapan, Telkom University 1 wahyuhidayat@telkomuniversity.ac.id

Lebih terperinci

BAB III ANALISIS DAN PERANCANGAN

BAB III ANALISIS DAN PERANCANGAN BAB III ANALISIS DAN PERANCANGAN Dalam bab ini akan dijabarkan analisa, yang meliputi analisa masalah dan gambaran umum masalah yang sedang dibahas, perancangan sistem serta desain antarmuka (user interface)

Lebih terperinci

IMPLEMENTASI K NEAREST NEIGHBOR (KNN) PADA KLASIFIKASI ARTIKEL WIKIPEDIA INDONESIA

IMPLEMENTASI K NEAREST NEIGHBOR (KNN) PADA KLASIFIKASI ARTIKEL WIKIPEDIA INDONESIA IMPLEMENTASI K NEAREST NEIGHBOR (KNN) PADA KLASIFIKASI ARTIKEL WIKIPEDIA INDONESIA Erik Hardiyanto 1, Faisal Rahutomo 2, Dwi Puspitasari 3 Jurusan Teknologi Informasi, Program Studi Teknik Informatika,

Lebih terperinci

BAB III METODELOGI PENELITIAN

BAB III METODELOGI PENELITIAN BAB III METODELOGI PENELITIAN 3.1 Metode Penelitian Metode penelitian yang digunakan yaitu metode eksperimental dimana metode ini bekerja dengan memanipulasi dan melakukan kontrol pada objek penelitian

Lebih terperinci

Pemodelan Penilaian Essay Otomatis Secara Realtime Menggunakan Kombinasi Text Stemming Dan Cosine Similarity

Pemodelan Penilaian Essay Otomatis Secara Realtime Menggunakan Kombinasi Text Stemming Dan Cosine Similarity Konferensi Nasional Sistem & Informatika 2017 STMIK STIKOM Bali, 10 Agustus 2017 Pemodelan Penilaian Essay Otomatis Secara Realtime Menggunakan Kombinasi Text Stemming Dan Cosine Similarity Komang Rinartha

Lebih terperinci

1. Pendahuluan 1.1 Latar belakang 1.2 Perumusan masalah

1. Pendahuluan 1.1 Latar belakang 1.2 Perumusan masalah 1. Pendahuluan 1.1 Latar belakang Informasi telah menjadi kebutuhan primer pada kehidupan saat ini. Informasi seakan-akan menjadi mata uang baru yang membuat akurasi menjadi sangat penting ketika mencari

Lebih terperinci

commit to user BAB II TINJAUAN PUSTAKA

commit to user BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori 2.1.1 Cosine Similarity Secara umum, fungsi similarity adalah fungsi yang menerima dua buah objek dan mengembalikan nilai kemiripan (similarity) antara kedua objek

Lebih terperinci

BAB IV HASIL DAN PEMBAHASAN. jenis dokumen, yaitu dokumen training dan dokumen uji. Kemudian dua

BAB IV HASIL DAN PEMBAHASAN. jenis dokumen, yaitu dokumen training dan dokumen uji. Kemudian dua BAB IV HASIL DAN PEMBAHASAN 4.1. Dokumen yang digunakan Pada penelitian yang dilakukan oleh penulis ini menggunakan dua jenis dokumen, yaitu dokumen training dan dokumen uji. Kemudian dua jenis dokumen

Lebih terperinci

BAB I PENDAHULUAN. karya tulis. Berbagai aplikasi seperti Ms. Word, Notepad, maupun Open Office

BAB I PENDAHULUAN. karya tulis. Berbagai aplikasi seperti Ms. Word, Notepad, maupun Open Office BAB I PENDAHULUAN 1.1 Latar Belakang Seiring dengan perkembangan teknologi, maka kegunaan komputer dirasa makin besar. Komputer berperan penting dalam mempermudah pekerjaan sehari hari. Salah satu manfaat

Lebih terperinci

commit to user 5 BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori Text mining

commit to user 5 BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori Text mining BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori 2.1.1 Text mining Text mining adalah proses menemukan hal baru, yang sebelumnya tidak diketahui, mengenai informasi yang berpotensi untuk diambil manfaatnya dari

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang Masalah

BAB I PENDAHULUAN 1.1 Latar Belakang Masalah BAB I PENDAHULUAN 1.1 Latar Belakang Masalah Teks naratif menurut kamus besar bahasa Indonesia adalah teks yang berisikan deretan sejarah, peristiwa atau kejadian dan sebagainya. Kata naratif sendiri berasal

Lebih terperinci

APLIKASI MESIN PENCARI DOKUMEN CROSS LANGUAGE BAHASA INGGRIS BAHASA INDONESIA MENGGUNAKAN VECTOR SPACE MODEL

APLIKASI MESIN PENCARI DOKUMEN CROSS LANGUAGE BAHASA INGGRIS BAHASA INDONESIA MENGGUNAKAN VECTOR SPACE MODEL APLIKASI MESIN PENCARI DOKUMEN CROSS LANGUAGE BAHASA INGGRIS BAHASA INDONESIA MENGGUNAKAN VECTOR SPACE MODEL SKRIPSI Disusun Sebagai Salah Satu Syarat untuk Memperoleh Gelar Sarjana Komputer pada Jurusan

Lebih terperinci

IMPLEMENTASI VECTOR SPACE MODEL DAN BEBERAPA NOTASI METODE TERM FREQUENCY INVERSE DOCUMENT FREQUENCY (TF-IDF) PADA SISTEM TEMU KEMBALI INFORMASI

IMPLEMENTASI VECTOR SPACE MODEL DAN BEBERAPA NOTASI METODE TERM FREQUENCY INVERSE DOCUMENT FREQUENCY (TF-IDF) PADA SISTEM TEMU KEMBALI INFORMASI IMPLEMENTASI VECTOR SPACE MODEL DAN BEBERAPA NOTASI METODE TERM FREQUENCY INVERSE DOCUMENT FREQUENCY (TF-IDF) PADA SISTEM TEMU KEMBALI INFORMASI Oka Karmayasa dan Ida Bagus Mahendra Program Studi Teknik

Lebih terperinci

BAB IV ANALISA DAN PERANCANGAN

BAB IV ANALISA DAN PERANCANGAN BAB IV ANALISA DAN PERANCANGAN 4.1 Analisa Sistem Lama Pada sistem peringkasan dokumen sebelumnya sistem sudah bisa dijalankan namun masih adanya kekurangan pada sistem tersebut yaitu penginputan dokumen

Lebih terperinci

IMPLEMENTASI METODE TERM FREQUENCY INVERSED DOCUMENT FREQUENCE (TF-IDF) DAN VECTOR SPACE MODEL PADA APLIKASI PEMBERKASAN SKRIPSI BERBASIS WEB

IMPLEMENTASI METODE TERM FREQUENCY INVERSED DOCUMENT FREQUENCE (TF-IDF) DAN VECTOR SPACE MODEL PADA APLIKASI PEMBERKASAN SKRIPSI BERBASIS WEB IMPLEMENTASI METODE TERM FREQUENCY INVERSED DOCUMENT FREQUENCE (TF-IDF) DAN VECTOR SPACE MODEL PADA APLIKASI PEMBERKASAN SKRIPSI BERBASIS WEB Abdul Rokhim 1), Achmad ainul yaqin 2) 1) Program Studi/Prodi

Lebih terperinci

Tugas Makalah. Sistem Temu Kembali Informasi (STKI) TI Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System

Tugas Makalah. Sistem Temu Kembali Informasi (STKI) TI Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System Tugas Makalah Sistem Temu Kembali Informasi (STKI) TI029306 Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System Oleh : I PUTU ANDREAS WARANU 1204505042 Dosen : I Putu Agus

Lebih terperinci

Jurnal Aksara Komputer Terapan Politeknik Caltex Riau Vol. 1, No. 2, Tahun

Jurnal Aksara Komputer Terapan Politeknik Caltex Riau Vol. 1, No. 2, Tahun Vol. 1, No. 2, Tahun 2012 15 Jurnal Aksara Komputer Terapan Politeknik Caltex Riau Website : http://jurnal.pcr.ac.id/index.php/jakt/about/index Email : pustaka@pcr.ac.id Aplikasi Pendeteksi Plagiat dengan

Lebih terperinci

BAB 3 ANALISIS MASALAH DAN PERANCANGAN

BAB 3 ANALISIS MASALAH DAN PERANCANGAN BAB 3 ANALISIS MASALAH DAN PERANCANGAN 3.1 State of the Art Pada penelitian sebelumnya sudah ada yang menggunakan metode Stemming untuk preprocessing text dalam mengolah data pelatihan dan data uji untuk

Lebih terperinci

INTEGRASI PERINGKAS DOKUMEN OTOMATIS SEBAGAI FEATURE REDUCTION PADA CLUSTERING DOKUMEN

INTEGRASI PERINGKAS DOKUMEN OTOMATIS SEBAGAI FEATURE REDUCTION PADA CLUSTERING DOKUMEN INTEGRASI PERINGKAS DOKUMEN OTOMATIS SEBAGAI FEATURE REDUCTION PADA CLUSTERING DOKUMEN Abu Salam 1, Catur Supriyanto 2, Amiq Fahmi 3 1,2 Magister Teknik Informatika, Univ. Dian Nuswantoro Email: masaboe@yahoo.com

Lebih terperinci

BAB IV METODOLOGI PENELITIAN. Penelitian ini dilakukan dengan melalui empat tahap utama, dimana

BAB IV METODOLOGI PENELITIAN. Penelitian ini dilakukan dengan melalui empat tahap utama, dimana BAB IV METODOLOGI PENELITIAN Penelitian ini dilakukan dengan melalui empat tahap utama, dimana tahap pertama adalah proses pengumpulan dokumen teks yang akan digunakan data training dan data testing. Kemudian

Lebih terperinci

BAB 1 PENDAHULUAN UKDW

BAB 1 PENDAHULUAN UKDW BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah Perkembangan ilmu pengetahuan yang pesat dewasa ini telah mendorong permintaan akan kebutuhan informasi ilmu pengetahuan itu sendiri. Cara pemenuhan kebutuhan

Lebih terperinci

MAXIMUM MARGINAL RELEVANCE UNTUK PERINGKASAN TEKS OTOMATIS SINOPSIS BUKU BERBAHASA INDONESIA

MAXIMUM MARGINAL RELEVANCE UNTUK PERINGKASAN TEKS OTOMATIS SINOPSIS BUKU BERBAHASA INDONESIA MAXIMUM MARGINAL RELEVANCE UNTUK PERINGKASAN TEKS OTOMATIS SINOPSIS BUKU BERBAHASA INDONESIA Aida Indriani ) ) Teknik Informatika STMIK PPKIA Tarakanita Rahmawati Tarakan Jl Yos Sudarso 8, Tarakan 77 Email

Lebih terperinci

PEMANFAATAN TEKNIK STEMMING UNTUK APLIKASI TEXT PROCESSING BAHASA INDONESIA SKRIPSI. Oleh : SEPTIAN BAGUS WAHYONO NPM :

PEMANFAATAN TEKNIK STEMMING UNTUK APLIKASI TEXT PROCESSING BAHASA INDONESIA SKRIPSI. Oleh : SEPTIAN BAGUS WAHYONO NPM : PEMANFAATAN TEKNIK STEMMING UNTUK APLIKASI TEXT PROCESSING BAHASA INDONESIA SKRIPSI Oleh : SEPTIAN BAGUS WAHYONO NPM : 0734010126 PROGRAM STUDI TEKNIK INFORMATIKA FAKULTAS TEKNOLOGI INDUSTRI UNIVERSITAS

Lebih terperinci

beberapa tag-tag lain yang lebih spesifik di dalamnya.

beberapa tag-tag lain yang lebih spesifik di dalamnya. metode mana yang lebih baik digunakan untuk memilih istilah ekspansi yang akan ditambahkan pada kueri awal. Lingkungan Implementasi Perangkat lunak yang digunakan untuk penelitian yaitu:. Windows Vista

Lebih terperinci

Tugas Makalah. Sistem Temu Kembali Informasi (STKI) TI Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System

Tugas Makalah. Sistem Temu Kembali Informasi (STKI) TI Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System Tugas Makalah Sistem Temu Kembali Informasi (STKI) TI029306 Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System Oleh : I PUTU ANDREAS WARANU 1204505042 Dosen : I Putu Agus

Lebih terperinci

ANALISIS PENGGUNAAN ALGORITMA STEMMING VEGA PADA INFORMATION RETRIEVAL SYSTEM

ANALISIS PENGGUNAAN ALGORITMA STEMMING VEGA PADA INFORMATION RETRIEVAL SYSTEM ANALISIS PENGGUNAAN ALGORITMA STEMMING VEGA PADA INFORMATION RETRIEVAL SYSTEM Lusianto Marga Nugraha¹, Arie Ardiyanti Suryani², Warih Maharani³ ¹Teknik Informatika,, Universitas Telkom Abstrak Stemming

Lebih terperinci

Integrasi Peringkas Dokumen Otomatis Dengan Penggabungan Metode Fitur dan Metode Latent Semantic Analysis (LSA) Sebagai Feature Reduction

Integrasi Peringkas Dokumen Otomatis Dengan Penggabungan Metode Fitur dan Metode Latent Semantic Analysis (LSA) Sebagai Feature Reduction Integrasi Peringkas Dokumen Otomatis Dengan Penggabungan Metode Fitur dan Metode Latent Semantic Analysis (LSA) Sebagai Feature Reduction Junta Zeniarja 1, Abu Salam 2, Ardytha Luthfiarta 3, L Budi Handoko

Lebih terperinci

BAB I. Pendahuluan. 1. Latar Belakang Masalah

BAB I. Pendahuluan. 1. Latar Belakang Masalah BAB I Pendahuluan 1. Latar Belakang Masalah Semakin canggihnya teknologi di bidang komputasi dan telekomunikasi pada masa kini, membuat informasi dapat dengan mudah didapatkan oleh banyak orang. Kemudahan

Lebih terperinci

PERBANDINGAN ALGORITMA STEMMING PADATEKS BAHASA INDONESIA

PERBANDINGAN ALGORITMA STEMMING PADATEKS BAHASA INDONESIA PERBANDINGAN ALGORITMA STEMMING PADATEKS BAHASA INDONESIA Sigit Prasetyo Karisma Utomo 1, Ema Utami 2, Andi Sunyoto 3 1,2,3 Magister Teknik Informatika STMIK AmikomYogyakarta e-mail: 1 aku@sigitt.com,

Lebih terperinci

BAB 1 PENDAHULUAN Latar Belakang

BAB 1 PENDAHULUAN Latar Belakang BAB 1 PENDAHULUAN 1.1. Latar Belakang Kebutuhan informasi dan perkembangan teknologi yang semakin tinggi meningkatkan jumlah artikel atau berita yang terpublikasikan, terutama pada media online. Untuk

Lebih terperinci

BAB 2 TINJAUAN PUSTAKA

BAB 2 TINJAUAN PUSTAKA BAB 2 TINJAUAN PUSTAKA 2.1 Tes Secara harfiah kata tes berasal dari kata bahasa prancis kuno: testum yang berarti piring untuk menyisihkan logam-logam mulia, dalam bahasa Indonesia diterjemahkan dengan

Lebih terperinci

DETEKSI SIMILARITAS DOKUMEN ABSTRAK TUGAS AKHIR MENGGUNAKAN METODE LEVENSHTEIN DISTANCE

DETEKSI SIMILARITAS DOKUMEN ABSTRAK TUGAS AKHIR MENGGUNAKAN METODE LEVENSHTEIN DISTANCE DETEKSI SIMILARITAS DOKUMEN ABSTRAK TUGAS AKHIR MENGGUNAKAN METODE LEVENSHTEIN DISTANCE Abdul Najib 1), Karyo Budi Utomo 2) 1), 2) Jurusan Teknologi Informasi, Politeknik Negeri Samarinda Email: abdulnajib@polnes.ac.id

Lebih terperinci

Implementasi Aljabar Vektor pada Sistem Temu Kembali Informasi untuk Customer Information

Implementasi Aljabar Vektor pada Sistem Temu Kembali Informasi untuk Customer Information Implementasi Aljabar Vektor pada Sistem Temu Kembali Informasi untuk Customer Information Ratnadira Widyasari 13514025 Program Studi Informatika Sekolah Teknik Elektro dan Informatika Institut Teknologi

Lebih terperinci

UKDW 1. BAB 1 PENDAHULUAN Latar Belakang Masalah

UKDW 1. BAB 1 PENDAHULUAN Latar Belakang Masalah 1. BAB 1 PENDAHULUAN 1.1. Latar Belakang Masalah Universitas yang baik dan terpercaya selalu memperhatikan perkembangan dan kondisi yang terjadi di universitas tersebut, salah satunya dengan memantau kinerja

Lebih terperinci

SISTEM REKOMENDASI DOSEN PEMBIMBING TUGAS AKHIR BERBASIS TEXT MINING MENGGUNAKAN VECTOR SPACE MODEL

SISTEM REKOMENDASI DOSEN PEMBIMBING TUGAS AKHIR BERBASIS TEXT MINING MENGGUNAKAN VECTOR SPACE MODEL SISTEM REKOMENDASI DOSEN PEMBIMBING TUGAS AKHIR BERBASIS TEXT MINING MENGGUNAKAN VECTOR SPACE MODEL SKRIPSI Disusun Sebagai Salah Satu Syarat untuk Memperoleh Gelar Sarjana Komputer pada Departemen Ilmu

Lebih terperinci

Text Pre-Processing. M. Ali Fauzi

Text Pre-Processing. M. Ali Fauzi Text Pre-Processing M. Ali Fauzi Latar Belakang Latar Belakang Dokumen-dokumen yang ada kebanyakan tidak memiliki struktur yang pasti sehingga informasi di dalamnya tidak bisa diekstrak secara langsung.

Lebih terperinci

Budi Susanto Versi /08/2012. Teknik Informatika UKDW Yogyakarta

Budi Susanto Versi /08/2012. Teknik Informatika UKDW Yogyakarta Budi Susanto Versi 1.0 29/08/2012 1 Memahami pengertian dari text mining dan web mining Memahami latar belakang perlunya pengolahan dokumen teks dan web Memahami arsitektur dasar aplikasi text dan web

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Peringkasan Teks Otomatis (Automatic Text Summarization) Peringkasan Teks Otomatis (Automatic Text Summarization) merupakan pembuatan rangkuman dari sebuah sumber teks secara

Lebih terperinci

SISTEM KOREKSI KESALAHAN PENGETIKAN MENGGUNAKAN LEVENSHTEIN DISTANCE PADA LAYOUT QWERTY

SISTEM KOREKSI KESALAHAN PENGETIKAN MENGGUNAKAN LEVENSHTEIN DISTANCE PADA LAYOUT QWERTY SISTEM KOREKSI KESALAHAN PENGETIKAN MENGGUNAKAN LEVENSHTEIN DISTANCE PADA LAYOUT QWERTY Aloysius Langgeng Adiasto 1, Wina Witanti 2, Rezki Yuniarti 3 Jurusan Informatika, Fakultas Matematika dan Ilmu Pengetahuan

Lebih terperinci

BAB 1 PENDAHULUAN Latar Belakang Masalah

BAB 1 PENDAHULUAN Latar Belakang Masalah BAB 1 PENDAHULUAN 1.1. Latar Belakang Masalah Komputer adalah sebuah alat yang dipakai untuk mengolah informasi menurut prosedur yang telah dirumuskan (Wikipedia, 2007: Komputer). Komputer berkembang mulai

Lebih terperinci

DETEKSI KESESUAIAN BIDANG MINAT TERHADAP PROPOSAL TUGAS AKHIR MAHASISWA STUDI KASUS : MAHASISWA SI UKDW

DETEKSI KESESUAIAN BIDANG MINAT TERHADAP PROPOSAL TUGAS AKHIR MAHASISWA STUDI KASUS : MAHASISWA SI UKDW DETEKSI KESESUAIAN BIDANG MINAT TERHADAP PROPOSAL TUGAS AKHIR MAHASISWA STUDI KASUS : MAHASISWA SI UKDW Nia Meliana Umi Proboyekti, Jong Jek Siang Abstrak Pembuatan tugas akhir mahasiswa diharapkan sesuai

Lebih terperinci

ROCCHIO CLASSIFICATION

ROCCHIO CLASSIFICATION DOSEN PEMBIMBING : Badriz Zaman, S.Si., M.Kom. 081211632016 S-1 SISTEM INFORMASI UNIVERSITAS AIRLANGGA 1 Informastion retieval system merupakan sebuah sistem yang digunakan untuk mengambil kembali informasi

Lebih terperinci

KLASIFIKASI TEKS SURAT KABAR DENGAN MENGGUNAKAN ALGORITMA N-GRAM STEMMERS TUGAS AKHIR

KLASIFIKASI TEKS SURAT KABAR DENGAN MENGGUNAKAN ALGORITMA N-GRAM STEMMERS TUGAS AKHIR KLASIFIKASI TEKS SURAT KABAR DENGAN MENGGUNAKAN ALGORITMA N-GRAM STEMMERS TUGAS AKHIR Sebagai Persyaratan Guna Meraih Gelar Sarjana Strata 1 Teknik Informatika Universitas Muhammadiyah Malang Oleh: KHOZINATUL

Lebih terperinci

BAB II LANDASAN TEORI. karya rekam secara profesional dengan sistem yang baku guna memenuhi

BAB II LANDASAN TEORI. karya rekam secara profesional dengan sistem yang baku guna memenuhi BAB II LANDASAN TEORI 2.1 Perpustakaan Perpustakaan adalah institusi pengelola karya tulis, karya cetak, atau karya rekam secara profesional dengan sistem yang baku guna memenuhi kebutuhan pendidikan,

Lebih terperinci

STUDI AWAL KLASIFIKASI ARTIKEL WIKIPEDIA BAHASA INDONESIA DENGAN MENGGUNAKAN METODA K NEAREST NEIGHBOR

STUDI AWAL KLASIFIKASI ARTIKEL WIKIPEDIA BAHASA INDONESIA DENGAN MENGGUNAKAN METODA K NEAREST NEIGHBOR STUDI AWAL KLASIFIKASI ARTIKEL WIKIPEDIA BAHASA INDONESIA DENGAN MENGGUNAKAN METODA K NEAREST NEIGHBOR Erik Hardiyanto 1), Faisal Rahutomo 1) 1 Jurusan Teknologi Informasi, Program Studi Teknik Informatika,

Lebih terperinci

Nur Indah Pratiwi, Widodo Universitas Negeri Jakarta ABSTRAK

Nur Indah Pratiwi, Widodo Universitas Negeri Jakarta  ABSTRAK Klasifikasi Dokumen Karya Akhir Mahasiswa Menggunakan Naïve Bayes Classifier (NBC) Berdasarkan Abstrak Karya Akhir Di Jurusan Teknik Elektro Universitas Negeri Jakarta Nur Indah Pratiwi, Widodo Universitas

Lebih terperinci

PENYUSUNAN STRONG S CONCORDANCE UNTUK ALKITAB PERJANJIAN BARU BAHASA INDONESIA.

PENYUSUNAN STRONG S CONCORDANCE UNTUK ALKITAB PERJANJIAN BARU BAHASA INDONESIA. PENYUSUNAN STRONG S CONCORDANCE UNTUK ALKITAB PERJANJIAN BARU BAHASA INDONESIA Gunawan 1, Devi Dwi Purwanto, Herman Budianto, dan Indra Maryati 1 Jurusan Teknik Elektro, Fakultas Teknologi Industri, Institut

Lebih terperinci

Peningkatan Kinerja Pencarian Dokumen Tugas Akhir menggunakan Porter Stemmer Bahasa Indonesia dan Fungsi Peringkat Okapi BM25

Peningkatan Kinerja Pencarian Dokumen Tugas Akhir menggunakan Porter Stemmer Bahasa Indonesia dan Fungsi Peringkat Okapi BM25 54 Widiasri, M., dkk.: Peningkatan Kinerja Pencarian Dokumen Tugas Akhir Menggunakan Peningkatan Kinerja Pencarian Dokumen Tugas Akhir menggunakan Porter Stemmer Bahasa Indonesia dan Fungsi Peringkat Okapi

Lebih terperinci

IMPLEMENTASI ALGORITMA K-NEAREST NEIGHBOUR YANG BERDASARKAN ONE PASS CLUSTERING UNTUK KATEGORISASI TEKS

IMPLEMENTASI ALGORITMA K-NEAREST NEIGHBOUR YANG BERDASARKAN ONE PASS CLUSTERING UNTUK KATEGORISASI TEKS IMPLEMENTASI ALGORITMA K-NEAREST NEIGHBOUR YANG BERDASARKAN ONE PASS CLUSTERING UNTUK KATEGORISASI TEKS Andreas Daniel Arifin 1, Isye Arieshanti 2, Agus Zainal Arifin 3 1,2,3 Jurusan Teknik Informatika,

Lebih terperinci

IMPLEMENTASI VECTOR SPACE MODEL UNTUK MENINGKATKAN KUALITAS PADA SISTEM PENCARIAN BUKU PERPUSTAKAAN

IMPLEMENTASI VECTOR SPACE MODEL UNTUK MENINGKATKAN KUALITAS PADA SISTEM PENCARIAN BUKU PERPUSTAKAAN Seminar Nasional Informatika 205 IMPLEMENTASI VECTOR SPACE MODEL UNTUK MENINGKATKAN KUALITAS PADA SISTEM PENCARIAN BUKU PERPUSTAKAAN Dedi Leman, Khusaeri Andesa 2 Teknik Informasi, Magister Komputer, Universitas

Lebih terperinci

PENERAPAN SISTEM TEMU KEMBALI INFORMASI PADA KUMPULAN DOKUMEN SKRIPSI

PENERAPAN SISTEM TEMU KEMBALI INFORMASI PADA KUMPULAN DOKUMEN SKRIPSI 18 PENERAPAN SISTEM TEMU KEMBALI INFORMASI PADA KUMPULAN DOKUMEN SKRIPSI Karter D. Putung, Arie Lumenta, Agustinus Jacobus Teknik Informatika Universitas Sam Ratulangi Manado, Indonesia. karterputung@gmail.com,

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Kata Pengertian kata secara sederhana adalah sekumpulan huruf yang mempunyai arti. Dalam kamus besar bahasa indonesia (KBBI) pengertian kata adalah unsur bahasa yang diucapkan

Lebih terperinci

DAFTAR ISI. SKRIPSI... ii

DAFTAR ISI. SKRIPSI... ii DAFTAR ISI SKRIPSI... i SKRIPSI... ii HALAMAN PENGESAHAN... ii PERNYATAAN... iii HALAMAN MOTO DAN PERSEMBAHAN... iv PRAKATA... v DAFTAR ISI... vii DAFTAR GAMBAR... x DAFTAR TABEL... xiii INTISARI... xiv

Lebih terperinci

Perbandingan Penggunaan Algoritma Cosinus dan Wu Palmer untuk Mencari Kemiripan Kata dalam Plagiarism Checker

Perbandingan Penggunaan Algoritma Cosinus dan Wu Palmer untuk Mencari Kemiripan Kata dalam Plagiarism Checker Perbandingan Penggunaan Algoritma Cosinus dan Wu Palmer untuk Mencari Kemiripan Kata dalam Plagiarism Checker 1 Aslihatul Millah, 2 Siti Nurazizah 1,2 Program Studi Sistem Informasi, Fakultas Sains dan

Lebih terperinci

Bandung, Indonesia Bandung, Indonesia

Bandung, Indonesia Bandung, Indonesia ISSN : 2355-9365 e-proceeding of Engineering : Vol.2, No.2 Agustus 2015 Page 6353 Analisis dan Implementasi Pengklasifikasian Pesan Singkat pada Penyaringan SMS Spam Menggunakan Algoritma Multinomial Naïve

Lebih terperinci

BAB I PENDAHULUAN. Informasi yang terdapat dalam Laporan Hasil Pemeriksaan (LHP) BPK RI

BAB I PENDAHULUAN. Informasi yang terdapat dalam Laporan Hasil Pemeriksaan (LHP) BPK RI BAB I PENDAHULUAN I.1 Latar Belakang Informasi yang terdapat dalam Laporan Hasil Pemeriksaan (LHP) BPK RI saat ini belum di-manaje dengan baik secara digital. Informasi yang terdapat dalam LHP yang terdapat

Lebih terperinci

BAB 3 METODE PENELITIAN. pengelolaan dokumen yang efektif agar kita dapat me-retrieve informasi yang

BAB 3 METODE PENELITIAN. pengelolaan dokumen yang efektif agar kita dapat me-retrieve informasi yang 58 BAB 3 METODE PENELITIAN 3.1 Analisis Masalah Seiring dengan perkembangan zaman, jumlah informasi yang disimpan dalam betuk digital semakin bertambah, sehingga dibutuhkan cara pengorganisasian dan pengelolaan

Lebih terperinci

QUERY EXPANSION DENGAN MENGGABUNGKAN METODE RUANG VEKTOR DAN WORDNET PADA SISTEM INFORMATION RETRIEVAL

QUERY EXPANSION DENGAN MENGGABUNGKAN METODE RUANG VEKTOR DAN WORDNET PADA SISTEM INFORMATION RETRIEVAL QUERY EXPANSION DENGAN MENGGABUNGKAN METODE RUANG VEKTOR DAN WORDNET PADA SISTEM INFORMATION RETRIEVAL Susetyo Adi Nugroho () Abstrak: Salah satu metode yang sering digunakan dalam mengukur relevansi dokumen

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1. Information Retrieval Perkembangan teknologi internet yang sangat pesat membuat pengguna harus dapat menyaring informasi yang dibutuhkannya. Information retrieval atau sistem

Lebih terperinci

SISTEM TEMU KEMBALI INFORMASI

SISTEM TEMU KEMBALI INFORMASI SISTEM TEMU KEMBALI INFORMASI ROCCHIO CLASSIFICATION Badrus Zaman, S.Si., M.Kom Doc. 1..???? Doc. 2..**** Doc. 3. #### Doc. 4..@@@ 081211633014 Emilia Fitria Fahma S1 Sistem Informasi Pengertian Teknik

Lebih terperinci

APLIKASI PENILAIAN UJIAN ESSAY OTOMATIS MENGGUNAKAN METODE COSINE SIMILARITY. Rahimi Fitri 1, Arifin Noor Asyikin 2

APLIKASI PENILAIAN UJIAN ESSAY OTOMATIS MENGGUNAKAN METODE COSINE SIMILARITY. Rahimi Fitri 1, Arifin Noor Asyikin 2 APLIKASI PENILAIAN UJIAN ESSAY OTOMATIS MENGGUNAKAN METODE COSINE SIMILARITY Rahimi Fitri 1, Arifin Noor Asyikin 2 mahaluddin@yahoo.com (1) Staf Pengajar Jurusan Teknik Elektro Politeknik Negeri Banjarmasin

Lebih terperinci