PENDAHULUAN. Latar belakang

dokumen-dokumen yang mirip
KOREKSI EJAAN QUERY BAHASA INDONESIA MENGGUNAKAN ALGORITME DAMERAU LEVENSHTEIN

Rata-rata token unik tiap dokumen

BAB I PENDAHULUAN Latar Belakang

Code shift Asumsi-asumsi Pengaburan Kode Lingkungan Pengembangan HASIL DAN PEMBAHASAN Karakteristik Dokumen Perlakuan ( Treatment

beberapa tag-tag lain yang lebih spesifik di dalamnya.

Sistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF)

II TINJAUAN PUSTAKA. * adalah operasi konvolusi x dan y, adalah fungsi yang merepresentasikan citra output,

BAB I PENDAHULUAN. karya tulis. Berbagai aplikasi seperti Ms. Word, Notepad, maupun Open Office

BAB II TINJAUAN PUSTAKA

1. Pendahuluan 1.1 Latar belakang 1.2 Perumusan masalah

BAB II LANDASAN TEORI

INFORMATION RETRIEVAL SYSTEM PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS DENGAN METODE VECTOR SPACE MODEL DAN ALGORITMA ECS STEMMER

Studi Perbandingan Algoritma Pencarian String dalam Metode Approximate String Matching untuk Identifikasi Kesalahan Pengetikan Teks

PENCARIAN FULL TEXT PADA KOLEKSI SKRIPSI FAKULTAS TEKNIK UHAMKA MENGGUNAKAN METODE VECTOR SPACEMODEL

TEMU KEMBALI INFORMASI

BAB II TINJAUAN PUSTAKA

BAB I PENDAHULUAN 1.1 Latar Belakang

Implementasi Pencocokan String Tidak Eksak dengan Algoritma Program Dinamis

PENDAHULUAN. Latar belakang

BAB II DASAR TEORI Crawler Definisi Focused Crawler dengan Algoritma Genetik [2]

TEMU KEMBALI INFORMASI

BAB 1 PENDAHULUAN. 1.1 Latar Belakang Masalah

BAB III METODELOGI PENELITIAN

BAB 1 PENDAHULUAN UKDW

PERANCANGAN DAN PEMBUATAN APLIKASI PENCARIAN INFORMASI BEASISWA DENGAN MENGGUNAKAN COSINE SIMILARITY

Aplikasi Aljabar Vektor pada Sistem Temu-balik Informasi (Information Retrieval System)

TEMU KEMBALI INFORMASI

BAB III PERANCANGAN. Fitur. Reduksi & Pengelompokan. Gambar 3.1. Alur Pengelompokan Dokumen

Implementasi Aljabar Vektor pada Sistem Temu Kembali Informasi untuk Customer Information

PENERAPAN SISTEM TEMU KEMBALI INFORMASI PADA KUMPULAN DOKUMEN SKRIPSI

BAB 1 PENDAHULUAN UKDW

APLIKASI DETEKSI KEMIRIPAN TUGAS PAPER

BAB II LANDASAN TEORI

Implementasi Vector Space Model dalam Pembangkitan Frequently Asked Questions Otomatis dan Solusi yang Relevan untuk Keluhan Pelanggan

SISTEM PENCARIAN PASAL-PASAL PADA KITAB UNDANG-UNDANG HUKUM PIDANA DENGAN MENGGUNAKAN METODE TF-IDF. Abstrak

Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem Temu Kembali Informasi

Pengujian Kerelevanan Sistem Temu Kembali Informasi

BAB 4 HASIL DAN BAHASAN. dengan melampirkan tabel data precision dan recall serta diagram-diagramnya Precision Recall Interpolasi

SISTEM PENCARIAN AYAT AL-QUR AN BERDASARKAN TERJEMAHAN BAHASA INDONESIA DENGAN PEMODELAN RUANG VEKTOR TUGAS AKHIR

HASIL DAN PEMBAHASAN. sim(, )=

Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem Temu Kembali Informasi

commit to user BAB II TINJAUAN PUSTAKA

PEMANFAATAN ASSOCIATION RULE MINING DALAM MEMBANTU PENCARIAN DOKUMEN-DOKUMEN BERITA YANG SALING BERKAITAN

RANCANG BANGUN SISTEM TEMU KEMBALI INFORMASI ABSTRAK TUGAS AKHIR MAHASISWA PRODI TEKNIK INFORMATIKA UNSOED Oleh : Lasmedi Afuan

EVALUASI PENGGUNAAN SIMILARITY THESAURUS TERHADAP EKSPANSI KUERI DALAM SISTEM TEMU KEMBALI INFORMASI BERBAHASA INDONESIA

Sistem Temu Kembali Informasi/ Information Retrieval

Pemanfaatan Aljabar Vektor Pada Mesin Pencari

Implementasi Algoritma Term Frequency Inverse Document Frequency dan Vector Space Model untuk Klasifikasi Dokumen Naskah Dinas

SISTEM TEMU KEMBALI INFORMASI

BAB 2 LANDASAN TEORI

BAB I PENDAHULUAN. penunjang Al-Quran untuk memudahkan untuk mempelajarinya, yang bisa

BAB II TINJAUAN PUSTAKA

Pemanfaatan Metode Vector Space Model dan Metode Cosine Similarity pada Fitur Deteksi Hama dan Penyakit Tanaman Padi

RETRIEVAL STRATEGIES. Tujuan 4/9/13. Budi Susanto

JURNAL ITSMART Vol 4. No 2. Desember 2015 ISSN :

Tugas Makalah. Sistem Temu Kembali Informasi (STKI) TI Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System

RANCANG BANGUN SISTEM PENYELARASAN KATA BERBAHASA INDONESIA DENGAN MENGGUNAKAN ALGORITMA LEVENSHTEIN DISTANCE

Sistem Informasi Tugas Akhir Menggunakan Model Ruang Vektor (Studi Kasus: Jurusan Sistem Informasi)

Tabel 3 Situs berita dan jumlah RSS yang diunduh Situs Berita

TEKNIK VECTOR SPACE MODEL (VSM) DALAM PENENTUAN PENANGANAN DAMPAK GAME ONLINE PADA ANAK

PROGRAM BANTU PEMILIHAN LAGU PUJIAN BERDASARKAN TEMA KEBAKTIAN DENGAN MENGGUNAKAN METODE COSINUS SIMILARITY Studi Kasus: GKI Ngupasan

BAB III METODOLOGI PENELITIAN

OPTIMASI QUERY UNTUK PENCARIAN DATA MENGGUNAKAN PENGURAIAN KALIMAT DAN ALGORITME LEVENSHTEIN DISTANCE

BAB 2 TINJAUAN PUSTAKA

DAFTAR ISI. SKRIPSI... ii

Identifikasi Kesalahan Penulisan Kata (Typographical Error) pada Dokumen Berbahasa Indonesia Menggunakan Metode N-gram dan Levenshtein Distance

IMPLEMENTASI METODE TERM FREQUENCY INVERSED DOCUMENT FREQUENCE (TF-IDF) DAN VECTOR SPACE MODEL PADA APLIKASI PEMBERKASAN SKRIPSI BERBASIS WEB

BAB 3 PERANCANGAN 3.1 GAMBARAN UMUM PROSES SEGMENTASI DOKUMEN

ROCCHIO CLASSIFICATION

Tugas Makalah. Sistem Temu Kembali Informasi (STKI) TI Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System

Sistem Rekomendasi Hasil Pencarian Artikel Menggunakan Metode Jaccard s Coefficient

IMPLEMENTASI VECTOR SPACE MODEL UNTUK MENINGKATKAN KUALITAS PADA SISTEM PENCARIAN BUKU PERPUSTAKAAN

SISTEM QUR AN RETRIEVAL TERJEMAHAN BAHASA INDONESIA BERBASIS WEB DENGAN REORGANISASI KORPUS

TUNING PARAMETER DALAM FUNGSI OKAPI BM25 PADA MESIN PENCARI TEKS BAHASA INDONESIA TEDY SAPUTRA

BAB II LANDASAN TEORI

INDEXING AND RETRIEVAL ENGINE UNTUK DOKUMEN BERBAHASA INDONESIA DENGAN MENGGUNAKAN INVERTED INDEX

MAXIMUM MARGINAL RELEVANCE UNTUK PERINGKASAN TEKS OTOMATIS SINOPSIS BUKU BERBAHASA INDONESIA

BAB V EKSPERIMEN TEXT CLASSIFICATION

V HASIL DAN PEMBAHASAN

PERANCANGAN DAN IMPLEMENTASI SISTEM REKOMENDASI PENCARIAN BUKU PERPUSTAKAAN MENGGUNAKAN METODE VECTOR SPACE MODEL

Text & Web Mining - Budi Susanto - TI UKDW 1 RETRIEVAL STRATEGIES. Budi Susanto

BAB II LANDASAN TEORI

BAB I PENDAHULUAN 1.1 Latar Belakang

PENGUJIAN ALGORITMA LEVENSHTEIN DISTANCE DAN ALGORITMA TERM FREQUENCY INVERSE DOCUMENT FREQUNECY (TF-IDF) UNTUK PENILAIAN JAWABAN ESAI

Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer e-issn: X

BAB II TINJAUAN PUSTAKA

BAB 3 LANDASAN TEORI

Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi

BAB I PENDAHULUAN. Jiménez-Peris, dkk dalam paper-nya yang berjudul New Technologies in

BAB II LANDASDAN TEORI

BAB II LANDASAN TEORI. karya rekam secara profesional dengan sistem yang baku guna memenuhi

SISTEM INFORMASI PENGELOLAAN ARSIP STATIS PADA BADAN ARSIP DAN PERPUSTAKAAN PROVINSI JAWA TENGAH MENGGUNAKAN VECTOR SPACE MODEL

PENGELOMPOKAN DOKUMEN MENGGUNAKAN ALGORITMA DIG (DOCUMENT INDEX GRAPH)

Algoritme Pencocokan String (String Matching) Menurut Black (2016), string adalah susunan dari karakter-karakter (angka, alfabet, atau karakte

PENDAHULUAN. 1.1 Latar Belakang

DETEKSI SIMILARITAS DOKUMEN ABSTRAK TUGAS AKHIR MENGGUNAKAN METODE LEVENSHTEIN DISTANCE

Integrasi Peringkas Dokumen Otomatis Dengan Penggabungan Metode Fitur dan Metode Latent Semantic Analysis (LSA) Sebagai Feature Reduction

BAB I PERSYARATAN PRODUK

Sistem Deteksi Plagiarisme Dokumen Bahasa Indonesia Menggunakan Metode Vector Space Model

Implementasi Generalized Vector Space Model Menggunakan WordNet

Transkripsi:

Latar belakang PEDAHULUA Kata kunci atau yang biasa disebut dengan query pada pencarian informasi dari sebuah search engine digunakan sebagai kriteria pencarian yang tepat dan sesuai dengan kebutuhan. Ejaan kata kunci yang benar menjadi penting untuk meningkatkan hasil pencarian informasi. Ketika pengguna menulis query sebagai masukan pada sistem pencari, muncul kesalahan ejaan disebabkan posisi tombol papan ketik dan pergerakan jari sehingga hasil pencarian bersifat salah. Oleh karena itu, diperlukan suatu aplikasi yang dapat mengoreksi kesalahan ejaan. Pengoreksian ejaan ini dapat dilakukan dengan memberikan ejaan kata yang benar yaitu dengan memberikan usulan ejaan kata yang mirip berdasarkan kamus. Penelitian tentang pengoreksian ejaan bahasa Indonesia juga pernah dilakukan oleh Primasari (1997), tentang pencarian dan temu kembali nama berdasarkan kesamaan fonetik. Wahyudin (1999) dengan menggunakan algoritme trigram untuk mendapatkan kata-kata perkiraan dari kata yang dinyatakan salah eja. Arumsari (1998) menentukan jarak edit diantara dua string dari operasi yang dilakukan yaitu: (1) operasi penyisipan (insertion), (2) operasi penghapusan (deletion), dan (3) operasi penggantian (subtitution) sebuah huruf yang disebut metode Levenshtein. Pengoreksian ejaan akan dilakukan dengan algoritme Damerau Levenshtein. Algoritme ini menambahkan sebuah operasi yaitu operasi penukaran (transposition) pada metode Levenshtein. Dengan demikian, algoritme Damerau Levenshtein memperhatikan empat operasi dalam menentukan jarak edit, yaitu (1) operasi penyisipan (insertion), (2) operasi penghapusan (deletion), (3) operasi penggantian (subtitution) dan operasi penukaran (transposition) sebuah huruf yang berdekatan. Dengan demikian, perolehan kata ejaan yang benar lebih optimal. Tujuan Tujuan dari penelitian ini adalah meningkatkan kinerja temu kembali informasi dengan mengoreksi kesalahan yang ada pada query berdasarkan pada kamus. Ruang Lingkup Koreksi kesalahan ejaan pada query yang dilakukan pada penelitian ini menggunakan algoritme yang berdasarkan dengan menghitung jumlah minimum operasi yaitu: (1) penyisipan (insertion), (2) penggantian (subtitution), (3) penghapusan (deletion), dan (4) penukaran (transposition) posisi sebuah huruf yang disebut algoritme Damerau Levenshtein. Manfaat Penelitian ini diharapkan membantu pengguna dalam melakukan pencarian informasi pada search engine dengan meningkatkan perbaikan kesalahan kata akibat salah ketik. TIJAUA PUSTAKA Menurut Damerau dalam Wahyudin (1999) menyimpulkan 80% kesalahan ejaan dapat disebabkan karena empat hal, yaitu: 1. Penggantian satu huruf 2. Penyisipan satu huruf 3. Penghilangan satu huruf 4. Penukaran dua huruf berdekatan. Kesalahan ejaan juga dapat disebabkan oleh beberapa hal, diantaranya: 1. Ketidaktahuan penulisan. Kesalahan ini biasanya konsisten dan kemungkinan berhubungan dengan bunyi kata dan penulisan yang seharusnya. 2. Kesalahan dalam pengetikan yang lebih tidak konsisten tapi mungkin berhubungan erat dengan posisi tombol papan ketik dan pergerakan jari. 3. Kesalahan transmisi dan penyimpanan yang berhubungan dengan pengkodean pada jalur mekanisme transmisi data. Kesalahan ejaan dapat dikoreksi menggunakan dua strategi dasar yang berbeda, yaitu mutlak dan relatif (Pullock & Zamora 1984, dalam Wahyudin 1999). Secara mutlak, pengoreksian dilakukan dengan membuat suatu tabel variasi ejaan yang salah dengan ejaan yang benarnya. amun demikian, secara relatif ejaan yang benar dipilih dari kamus yaitu dengan mencari kata dalam kamus yang paling mirip dengan kata yang salah ejaannya. Temu Kembali Informasi Temu Kembali informasi adalah menemukan material (biasanya dokumendokumen) dari yang tidak terstruktur (biasanya teks) yang memenuhi kebutuhan informasi dari koleksi-koleksi yang besar (biasanya disimpan dalam komputer). Temu kembali informasi berkaitan dengan representasi, penyimpanan, dan akses terhadap dokumen representasi 1

dokumen. sistem yang berfungsi untuk menemukan informasi yang relevan dengan kebutuhan pemakai merupakan suatu sistem temu kembali informasi (Manning et al. 2009). Information Retrieval System (IRS) tidak memberi tahu pengguna masalah yang ditanyakannya. Sistem tersebut hanya memberitahukan keberadaan dan keterangan dokumen yang berhubungan dengan permintaan pengguna. Dengan memakai bahasa natural sebagai bahasa query, IRS memberikan kemudahan kepada pengguna dalam merepresentasikan kebutuhan informasinya dalam bentuk query. IRS menerima query dari pengguna, kemudian melakukan perangkingan terhadap dokumen pada koleksi. Hasil perangkingan yang diberikan kepada pengguna merupakan dokumen yang menurut sistem relevan dengan query. Perangkingan dokumen oleh sistem ini dilakukan dengan memberikan pembobotan. Pembobotan dilakukan terhadap token yang berada dalam dokumen koleksi. Sistem temu kembali yang paling sederhana memboboti dengan bobot biner, 1 jika token muncul di dokumen dan 0 jika sebaliknya. Untuk menghasilkan penggabungan bobot untuk setiap token di dalam setiap dokumen, dilakukan pengkombinasian frekuensi token (term frequency) dan inverse document frequency yang dinyatakan sebagai berikut (Manning et al. 2009). W i,j = tf i,j * idf t. Dengan tf i,j merupakan bobot token ke-i pada dokumen ke-j dan idf t, adalah jumlah dokumen dalam koleksi serta n i merupakan jumlah dokumen yang mengandung token ke-i. Vector Space Model (VSM) VSM merupakan pemodelan yang berbasiskan token yang memungkinkan partial matching dan pemeringkatan dokumen. Berikut beberapa prinsip dasar yang digunakan dalam VSM (Manning et al. 2009): 1. D ={d 0, d 1,, d } adalah himpunan dokumen dalam koleksi. d mengacu pada sembarang dokumen d i Є D. Dokumen sebagai vektor token. 2. Q adalah query yang direpresentasikan sebagai sebuah vektor berdimensi m mirip dengan dokumen. 3. T = {t 0, t 1, t m } adalah himpunan m token dalam dokumen. 4. Kesamaan vektor dokumen dan query dihitung berdasarkan kesamaan antar vektor. Dokumen-dokumen yang ditemukembalikan merupakan hasil penemukembalian yang ditampilkan berupa daftar dokumen yang telah terurutkan berdasar tingkat kesamaan dokumen dengan query. Tingkat atau ukuran kesamaan sim(d j, q) antara dokumen d i dengan query Q dihitung dengan menggunakan persamaan kosinus sudut antara d i dan Q sebagai berikut : Evaluasi Temu Kembali Informasi Dasar pengukuran keefektifan temu kembali informasi adalah recall dan precision. Recall adalah fraksi dokumen-dokumen yang relevan yang ditemukembalikan terhadap dokumen yang relevan. Precision adalah fraksi dokumendokumen yang relevan yang ditemukembalikan terhadap dokumen yang ditemukembalikan (Manning et al. 2009). Average precison (AVP) adalah suatu ukuran evaluasi temu kembali yang diperoleh dengan menghitung rata-rata precision pada berbagai tingkat recall yang ditemukembalikan. Tingkat recall standar yang digunakan adalah 11 tingkat recall, yaitu 0.0, 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, dan 1.0. Precision yang diinterpolasi pada standar recall level ke j adalah precision maksimum pada suatu recall level antara level j dan level (j+1) : Algoritme Damerau Levenhstein Metric Damerau Levenshtein Metric adalah sebuah fungsi pada finite string dari sebuah alphabet ke integer. Sebuah matriks jarak yang diberikan strings s1, s2, s3 yang memenuhi kondisi (Bard, 2006): on-negativity: d(s 1, s 2 ) 0 on-degeneracy: d(s 1, s 2 ) = 0 jika dan hanya jika s 1 = s 2 Symmetry: d(s 1, s 2 ) = d(s 2, s 1 ) Triangle Inequality: d(s 1, s 2 ) + d(s 2, s 3 ) d(s 1, s 3 ) Jarak d(s 1, s 2 ) didefinisikan sebagai sebuah kombinasi operasi penjumlahan dari penambahan sebuah huruf, penghilangan sebuah huruf, penggantian sebuah huruf atau penukaran 2

sebuah huruf dari huruf lainnya dalam satu lokasi. Itu memungkinkan beberapa kombinasi pada empat operasi yang dapat menransformasikan string s1 ke s2, tapi panjang terpendek urutan adalah jarak antara dua strings. Metode Damerau Levenshtein Metric melakukan operasi perbandingan kata-kata dengan memerhatikan 4 macam kesalahan pengetikan (misalnya kata DAMERAU), yaitu: 1. Penyisipan sebuah huruf, misalnya DAHMERAU. 2. Penghapusan sebuah huruf, misalnya DAMRAU. 3. Penggantian sebuah huruf dengan huruf lain, misalnya DAERAU. 4. Penukaran sebuah huruf berurutan, misalnya DAMERUA. Salah satu metode pembandingan dalam memeriksa ejaan dengan menggunakan Table Look-up. Metode ini membandingkan kata terhadap kata dalam kamus. Jika tidak ada dikamus maka kata tersebut dianggap salah (Peterson 1980, diacu dalam Wahyudin 1999). Ketidaksesuaian dari strings dapat dibandingkan dengan kata pada kamus yang secara langsung menggunakan penyesuaian karakter demi karakter secara iteratif, dengan menentukan jumlah minimum kesalahan dari masing-masing operasi. Damerau Levenshtein Metric menghitung jumlah minimum kesalahan dari dua kata misalnya terdapat dua buah kata yang dinotasikan sebagai s dan t. Variabel i dan j menyatakan posisi huruf yang dibandingkan pada suatu kata (pfiefer et al. 1994). f(0, 0)= 0 f(i, 0)= i f(0, j)= j f(i, j)= min { f(i-1, j) + 1, // deletion f(i, j-1) + 1, // insertion f(i-1, j-1) + d(s i, t j ) // substitution f(i-2, j-2) + d(s i-1, t j ) + d(s i, t j-1 ) + 1 // transposition } fungsi d merupakan fungsi untuk mengukur jarak untuk huruf. Fungsi f(i, j) menghitung minimum jumlah kesalahan-kesalahan perbandingan i karakter pertama dari kata pertama dengan j karakter pada kata kedua. Jarak antara dua strings adalah f(m,n), dimana m merupakan panjang string pertama dan n merupakan panjang string ke dua. METODOLOGI PEELITIA Penelitian ini dilakukan melalui beberapa tahap, yaitu: 1. Pengumpulan data 2. Pembuatan program pengoreksian ejaan pada sistem temu kembali 3. Penentuan jarak edit 4. Percobaan 5. Evaluasi kinerja program Data penelitian yang digunakan berupa kata yang diambil dari KBBI tahun 2005 dan digunakan sebagai kamus referensi. Kata yang digunakan adalah kata-kata dasar dan kata berimbuhan sebanyak 53064 kata. Tahapan pembuatan model sistem temu kembali dapat dideskripsikan pada Gambar 1. 3

Query Korpus KBBI Ada? Damerau- Levenstein-Metric VSM Similarity Edit distance Kata usulan Sorting Merge Gambar 1 Deskripsi model sistem temu kembali informasi. Proses awal dilakukan pemisahan kata (tokenizer) terhadap query dengan menghilangkan beberapa tanda baca dan karakter sparator (whitespace seperti karakter space). Proses pemisahan kata ini dilakukan menjadi unit paling kecil yang disebut dengan kata atau token. Setiap kata yang diperoleh dari proses tokenizer, satu-persatu dilakukan proses pengecekan terhadap kamus. Jika kata ada dalam kamus maka kata tersebut benar dan akan digunakan sebagai pembobotan query dalam model VSM. amun jika kata tersebut tidak ada dalam kamus, maka kata tersebut merupakan salah eja yang selanjutnya dilakukan proses pencarian kata dalam kamus yang memiliki kemiripan dengan kata yang sedang dikoreksi dengan algoritme Damerau Levenshtein Metric. Pembobotan dokumen dalam sistem temu kembali model VSM adalah dengan memberikan nilai kemunculan suatu kata (term frequency) sebagai bobot, termasuk kata dalam query. Setelah dilakukan pemberian nilai bobot, maka diperoleh vektor-vektor dokumen. Display Vektor-vektor dokumen akan ditentukan nilai kesamaan dengan vektor query. Penentuan nilai kesamaan (similarity) dihitung dengan rumus kosinus. Dokumen-dokumen yang sudah ditentukan nilai kesamaan dengan query kemudian dilakukan pengurutan (perangkingan) yang berdasarkan nilai kesamaannya. Dokumen yang memiliki nilai kesamaan paling besar akan berada paling atas dalam sistem temu kembali. Sebaliknya, dokumen yang memiliki nilai kesamaan paling kecil akan tersimpan berada paling bawah dalam sistem temu kembali. Penentuan jarak edit Penetapan jarak edit pada pengoreksian ejaan sangat menentukan banyaknya kata yang diberikan sebagai kata usulan. Hal ini dikarenakan kata usulan yang diperoleh hanya kata yang memiliki jarak edit yang lebih kecil atau sama dengan k. Umumnya kesalahan yang dilakukan pada penulisan sebuah kata mempunyai jarak edit (k) maksimum sama dengan dua terhadap jarak yang benar ejaannya (Mitton 1987, dalam Arumsari, 1998). 4

Diagram alir pengoreksian ejaan dapat dilihat pada Gambar 2. Query yang dimasukkan pada sistem, dilakukan proses pemisahan kata. Setiap kata yang diperoleh dilakukan proses pemeriksaan pada kamus. Jika kata ada di dalam kamus, maka kata tersebut mempunyai ejaan yang benar. Tetapi jika kata tidak ada dalam kamus, selanjutnya dilakukan pencarian kemiripan kata dalam kamus berdasarkan jarak edit yang telah ditentukan yaitu k, artinya program akan mencari kata dalam kamus yang memiliki ukuran jarak kurang dari atau sama dengan k. Sistem ini akan menentukan kata sebagai kata usulan yang memiliki jarak edit maksimum sama dengan 2 (k = 2). Tetapi, jika ada kata usulan yang memiliki jarak edit sama dengan 1 maka sistem akan memberikan kata usulan yang hanya memiliki jarak edit-nya sama dengan 1. Apabila pada pemeriksaan tersebut tidak diberikan kata usulan untuk menggantikan kata yang salah ejaannya, maka tidak ada yang memenuhi dari semua kata yang ada dalam kamus. Dengan demikian, sistem menganggap kata yang sedang dikoreksi tidak memiliki kemiripan dengan kata apapun dalam kamus. Jika pada pemeriksaan kata diberikan kata yang mirip sesuai untuk menggantikan kata yang salah ejaannya, maka pengguna dapat memilih kata tersebut untuk menggantikan kata yang salah ejaannya. Ketika kata yang diperiksa tidak ada dalam kamus, tetapi kata tersebut memiliki ejaan sesuai ejaan bahasa Indonesia yang benar, maka program akan menawarkan apakah kata tersebut ingin dimasukkan ke dalam kamus atau tidak. Jika kata yang dikoreksi ingin dimasukkan ke dalam kamus, maka program akan menyimpan kata tersebut ke dalam kamus khusus. Mulai Kueri Kamus Ambil satu kata Ada dalam Kamus? Hitung Jarak Kata Jarak kata k? Tampilkan sebagai usulan Kata ada di dalam usulan? Masukan ke Kamus? Simpan ke dalam kamus Selesai Gambar 2 Diagram alir pengoreksian ejaan. 5