PENYUSUNAN STRONG S CONCORDANCE UNTUK ALKITAB PERJANJIAN BARU BAHASA INDONESIA.

dokumen-dokumen yang mirip
PENYUSUNAN STRONG S CONCORDANCE UNTUK ALKITAB PERJANJIAN BARU BAHASA INDONESIA , Indonesia.

BAB I PENDAHULUAN Latar Belakang

BAB II DASAR TEORI Crawler Definisi Focused Crawler dengan Algoritma Genetik [2]

PEMANFAATAN ASSOCIATION RULE MINING DALAM MEMBANTU PENCARIAN DOKUMEN-DOKUMEN BERITA YANG SALING BERKAITAN

BAB II LANDASAN TEORI

Sistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF)

INFORMATION RETRIEVAL SYSTEM PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS DENGAN METODE VECTOR SPACE MODEL DAN ALGORITMA ECS STEMMER

RANCANG BANGUN SISTEM TEMU KEMBALI INFORMASI ABSTRAK TUGAS AKHIR MAHASISWA PRODI TEKNIK INFORMATIKA UNSOED Oleh : Lasmedi Afuan

commit to user BAB II TINJAUAN PUSTAKA

BAB III METODOLOGI PENELITIAN

BAB 1 PENDAHULUAN Latar Belakang

BAB II TINJAUAN PUSTAKA

BAB I PENDAHULUAN 1.1 Tujuan 1.2 Latar Belakang

BAB II LANDASAN TEORI. 2.1 Peringkasan Teks Otomatis (Automatic Text Summarization) Peringkasan Teks Otomatis (Automatic Text Summarization) merupakan

Pemanfaatan Metode Vector Space Model dan Metode Cosine Similarity pada Fitur Deteksi Hama dan Penyakit Tanaman Padi

BAB I. Pendahuluan. 1. Latar Belakang Masalah

PERANCANGAN DAN PEMBUATAN APLIKASI PENCARIAN INFORMASI BEASISWA DENGAN MENGGUNAKAN COSINE SIMILARITY

BAB III METODOLOGI PENELITIAN

BAB I PENDAHULUAN. 1.1 Latar Belakang

TEKNIK VECTOR SPACE MODEL (VSM) DALAM PENENTUAN PENANGANAN DAMPAK GAME ONLINE PADA ANAK

BAB II LANDASAN TEORI

BAB 2 TINJAUAN PUSTAKA

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI

BAB V EKSPERIMEN TEXT CLASSIFICATION

BAB III METODOLOGI PENELITIAN

Jurnal Coding, Sistem Komputer Untan Volume 04, No.1 (2016), hal ISSN : x

PENCARIAN FULL TEXT PADA KOLEKSI SKRIPSI FAKULTAS TEKNIK UHAMKA MENGGUNAKAN METODE VECTOR SPACEMODEL

BAB 2 TINJAUAN PUSTAKA

BAB I PENDAHULUAN. penunjang Al-Quran untuk memudahkan untuk mempelajarinya, yang bisa

APLIKASI PENGKATEGORIAN DOKUMEN DAN PENGUKURAN TINGKAT SIMILARITAS DOKUMEN MENGGUNAKAN KATA KUNCI PADA DOKUMEN PENULISAN ILMIAH UNIVERSITAS GUNADARMA

BAB I PENDAHULUAN 1.1 Latar Belakang dan Permasalahan

BAB 3 LANDASAN TEORI

Tugas Makalah. Sistem Temu Kembali Informasi (STKI) TI Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI

Aplikasi Aljabar Vektor pada Sistem Temu-balik Informasi (Information Retrieval System)

UKDW BAB I PENDAHULUAN Latar Belakang Masalah

IMPLEMENTASI K NEAREST NEIGHBOR (KNN) PADA KLASIFIKASI ARTIKEL WIKIPEDIA INDONESIA

BAB I PENDAHULUAN I.1. Latar Belakang Masalah

Text Pre-Processing. M. Ali Fauzi

commit to user 5 BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori Text mining

Pemanfaatan Aljabar Vektor Pada Mesin Pencari

BAB I PENDAHULUAN 1.1 Latar Belakang

PEMANFAATAN TEKNIK STEMMING UNTUK APLIKASI TEXT PROCESSING BAHASA INDONESIA SKRIPSI. Oleh : SEPTIAN BAGUS WAHYONO NPM :

BAB I PENDAHULUAN. pendidikan, perbankan, perencanaan dan sebagainya. Dengan adanya teknologi komputer

Jurnal Ilmiah Sains, Teknologi, Ekonomi, Sosial dan Budaya Vol. 1 No. 4 Desember 2017

BAB I PENDAHULUAN. Informasi yang terdapat dalam Laporan Hasil Pemeriksaan (LHP) BPK RI

STEMMING DOKUMEN TEKS BAHASA INDONESIA MENGGUNAKAN ALGORITMA PORTER ABSTRAK

Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem Temu Kembali Informasi

Integrasi Peringkas Dokumen Otomatis Dengan Penggabungan Metode Fitur dan Metode Latent Semantic Analysis (LSA) Sebagai Feature Reduction

SISTEM PENCARIAN AYAT AL-QUR AN BERDASARKAN TERJEMAHAN BAHASA INDONESIA DENGAN PEMODELAN RUANG VEKTOR TUGAS AKHIR

BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah

Inera Firdestawati¹, Yanuar Firdaus A.w.², Kiki Maulana³. ¹Teknik Informatika, Fakultas Teknik Informatika, Universitas Telkom

IMPLEMENTASI METODE TERM FREQUENCY INVERSED DOCUMENT FREQUENCE (TF-IDF) DAN VECTOR SPACE MODEL PADA APLIKASI PEMBERKASAN SKRIPSI BERBASIS WEB

Pemodelan Penilaian Essay Otomatis Secara Realtime Menggunakan Kombinasi Text Stemming Dan Cosine Similarity

APLIKASI MESIN PENCARI DOKUMEN CROSS LANGUAGE BAHASA INGGRIS BAHASA INDONESIA MENGGUNAKAN VECTOR SPACE MODEL

BAB 1 PENDAHULUAN. seluruh dunia menjadi sebuah fenomena yang sangat mengejutkan dalam satu abad

Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi

Implementasi Algoritma Term Frequency Inverse Document Frequency dan Vector Space Model untuk Klasifikasi Dokumen Naskah Dinas

IMPLEMENTASI VECTOR SPACE MODEL UNTUK MENINGKATKAN KUALITAS PADA SISTEM PENCARIAN BUKU PERPUSTAKAAN

KLASIFIKASI DATA PENGADUAN MASYARAKAT PADA LAMAN PESDUK CIMAHI MENGGUNAKAN ROCCHIO

Implementasi Aljabar Vektor pada Sistem Temu Kembali Informasi untuk Customer Information

Tugas Makalah. Sistem Temu Kembali Informasi (STKI) TI Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System

BAB 1 PENDAHULUAN UKDW

Pengujian Kerelevanan Sistem Temu Kembali Informasi

BAB III ANALISIS DAN PERANCANGAN SISTEM

BAB IV HASIL DAN PEMBAHASAN. jenis dokumen, yaitu dokumen training dan dokumen uji. Kemudian dua

Fatkhul Amin Dosen Fakultas Teknologi Informasi Universitas Stikubank Semarang

BAB I PENDAHULUAN. Inggris bahasa Madura Enggi Bunten. Madura yang digunakan untuk berkomunikasi dalam kehidupan seharihari.

PENGEMBANGAN APLIKASI WEB BASED DOCUMENTS SIMILARITY MEASURE MENGGUNAKAN MODEL RUANG VEKTOR PADA DOKUMEN BERBAHASA INDONESIA. Oleh

Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem Temu Kembali Informasi

BAB I PERSYARATAN PRODUK

ANALISA KOMPETENSI DOSEN DALAM PENENTUAN MATAKULIAH YANG DIAMPU MENGGUNAKAN METODE CF-IDF A B S T R A K

BAB III METODOLOGI PENELITIAN

UKDW 1. BAB 1 PENDAHULUAN Latar Belakang Masalah

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB 3 ANALISIS MASALAH DAN PERANCANGAN

Mencari dokumen yang dituliskan dalam berbagai bahasa

BAB II TINJAUAN PUSTAKA. penelitian yang penting (Baharudin, Lee and Khan, 2010). Beberapa peneliti telah

PENDAHULUAN. Latar belakang

PENGELOMPOKAN DOKUMEN MENGGUNAKAN ALGORITMA DIG (DOCUMENT INDEX GRAPH)

PENERAPAN VECTOR SPACE MODEL UNTUK PERINGKASAN KOMENTAR ANGKET MAHASISWA

BAB 3 ANALISA DAN PERANCANGAN

Peningkatan Kinerja Pencarian Dokumen Tugas Akhir menggunakan Porter Stemmer Bahasa Indonesia dan Fungsi Peringkat Okapi BM25

BAB 1 PENDAHULUAN. 1.1 Latar Belakang Masalah

SINONIM DAN WORD SENSE DISAMBIGUATION UNTUK MELENGKAPI DETEKTOR PLAGIAT DOKUMEN TUGAS AKHIR. Devi Dwi Purwanto

BAB 1 PENDAHULUAN. 1.1.Latar Belakang

BAB III METODELOGI PENELITIAN

1. Pendahuluan. 1.1 Latar belakang

BAB II LANDASAN TEORI

BAB II TINJAUAN PUSTAKA

BAB I PENDAHULUAN 1.1 Latar Belakang Masalah

JULIO ADISANTOSO - ILKOM IPB 1

SISTEM INFORMATION RETRIEVAL PENCARIAN KESAMAAN AYAT TERJEMAHAN AL QURAN BERBAHASA INDONESIA DENGAN QUERY EXPANSION DARI TAFSIRNYA

1. Pendahuluan 1.1 Latar belakang 1.2 Perumusan masalah

BAB I PENDAHULUAN. memberikan dampak yang luas dalam bagaimana manusia menjalani hidupnya.

BAB III PERANCANGAN. Fitur. Reduksi & Pengelompokan. Gambar 3.1. Alur Pengelompokan Dokumen

PERBANDINGAN ALGORITMA STEMMING PADATEKS BAHASA INDONESIA

Transkripsi:

PENYUSUNAN STRONG S CONCORDANCE UNTUK ALKITAB PERJANJIAN BARU BAHASA INDONESIA Gunawan 1, Devi Dwi Purwanto, Herman Budianto, dan Indra Maryati 1 Jurusan Teknik Elektro, Fakultas Teknologi Industri, Institut Teknologi Sepuluh Nopember, Surabaya 60111 admin@hansmichael.com Jurusan Teknik Informatika, Sekolah Tinggi Teknik Surabaya, Surabaya 6084 devi@stts.edu, herman@stts.edu, indra.maryati@gmail.com Abstrak Strong s Concordance adalah konkordansi yang digunakan sebagai alat bantu untuk menunjuk kata tersebut ke dalam bahasa aslinya sehingga dengan demikian dapat diketahui makna dari firman Tuhan yang hendak disampaikan. Pada penelitian ini dilakukan penyusunan Strong s Concordance tersebut ke dalam Alkitab Perjanjian Baru Bahasa Indonesia yang sampai saat ini belum pernah ditemukan Alkitab Perjanjian Baru Bahasa Indonesia secara online yang dilengkapi dengan Strong s Concordance. Penyusunan Strong s Concordance tersebut dilakukan dengan menggunakan pedoman teori yang ada pada Natural Language Processing (NLP) dan teori Web Mining. Penyusunan nomor strong tersebut dimulai dengan melakukan pendekatan nomor strong berdasarkan kemunculan katanya. Kemudian pada tahap selanjutnya digunakan pendekatan alignment antara kata yang ada pada Alkitab Bahasa Indonesia dengan nomor strong yang terdapat pada Alkitab Bahasa Inggris dengan menggunakan word alignment. Pendekatan ketiga menggunakan pendekatan n-gram dengan perhitungan mutual information untuk mencari arti kata yang terdiri lebih dari satu kata. Pendekatan keempat dilakukan dengan cara melakukan stemming pada corpus Alkitab Perjanjian Baru Bahasa Indonesia yang mana nantinya digunakan sebagai corpus baru untuk melakukan pencarian pada tahap satu sampai dengan tahap tiga. Maksud dari stemming tersebut adalah untuk mendapatkan root dari arti kata tersebut. Selain keempat pendekatan tersebut juga dilakukan pendekatan lain seperti pencarian proper name, pencarian nomor strong yang hanya memiliki satu frekuensi dan pendataan nomor strong yang termasuk dalam conjuction, preposition, dan pronoun. Kata kunci: Concordance, Natural Language Processing, N-Gram, Vector Space Model. 1. Pendahuluan Alkitab adalah kumpulan firman Tuhan yang digunakan sebagai panduan hidup umat Kristen. Alkitab juga merupakan buku yang paling banyak diterjemahkan, yaitu ke dalam 179 dialek dan bahasa [1]. Dari hasil penterjemahan ke dalam berbagai bahasa tersebut, didapati penterjemahan yang kurang tepat. Hal ini disebabkan karena perbedaan vocabulary atau perbedaan antara bahasa yang satu dengan yang lain. Dari sini munculnya ide menggunakan nomor strong. Dengan menggunakan konkordansi, kita dapat melihat di mana dan bagaimana kata tertentu digunakan. Dengan demikian, kita dapat melihat arti dari sebuah kata dengan tepat. Sebagai contoh adalah kata agape (kasih). Orang tertentu mengartikan kata tersebut sebagai kasih Allah yang mulia dan suci. Hal itu benar, tetapi tidak selamanya demikian. Karena Paulus menulis kepada Timotius: "Karena Demas telah mencintai dunia ini dan meninggalkan aku..." (IITim. 4:10). Kata mencintai, dalam bahasa aslinya pada ayat tersebut di atas adalah agape. Apakah ini berarti bahwa Demas mencintai dunia ini dengan kasih agape? Jawabnya tentu tidak. Oleh karena itu pemahaman tentang arti kata tersebut sangatlah penting, agar tidak salah memahami pesan yang tersirat dalam Alkitab. Pada penelitian ini dilakukan pembuatan aplikasi web yang dapat membantu seseorang dalam memahami Alkitab. Aplikasi web ini berfungsi untuk mencari kesamaan ayat dan mengetahui kata asli dari Bahasa Yunani dari nomor strong sebelum diterjemahkan. 70 Jurnal Sistem Informasi MTI UI, Volume 5, Nomor, ISBN 141 8896

Gunawan, Devi Dwi Putranto, Herman Budianto, dan Indra Maryati. Strong s Concordance.1. Pengertian Concordance Konkordansi adalah daftar menurut abjad dari kata utama yang dipakai pada buku/dokumentasi dengan konteks yang telah ditentukan. Karena kesulitan waktu dan biaya yang dibutuhkan dalam menciptakan sebuah konkordansi di era prakomputer, hanya karya-karya penting khusus, seperti Alkitab, Al Qur'an, atau karya-karya Shakespeare yang telah dilakukan konkordansi. Walaupun penomoran strong dilakukan secara terkomputerisasi, hasil dari penomoran konkordansi tersebut diperlukan banyak pekerjaan manual []. Strong's Concordance atau Strong's Exhaustive Konkordansi Alkitab adalah konkordansi Alkitab yang dibangun di bawah arahan Dr James Strong (18-1894) dan pertama kali diterbitkan pada tahun 1890. Tujuan dari konkordansi ini tidak menyediakan konten atau keterangan dari Alkitab, tetapi untuk memberikan indeks Alkitab. Hal ini memungkinkan pembaca untuk menemukan kata-kata untuk melihat ayat dalam Alkitab. Indeks ini juga memungkinkan pembaca untuk mencari sebuah frasa untuk membandingkan bagaimana topik yang sama dibahas dalam bagian yang berbeda dari Alkitab. Penggunaan nomor Strong tidak mempertimbangkan kiasan, metafora, idiom, frasa umum, budaya referensi, referensi peristiwa sejarah, atau makna-makna alternatif yang digunakan oleh orang-orang dalam jangka waktu tertentu untuk mengungkapkan pikiran mereka dalam bahasa mereka sendiri pada saat itu... Keuntungan Concordance Konkordansi biasanya digunakan sebagai alat dalam linguistik yang digunakan dalam teks atau korpus belajar yang didokumentasikan dengan baik. Didokumentasikan dengan baik berarti memiliki struktur yang jelas, yang dapat digunakan untuk menghubungkan dua bahasa yang berbeda korpus. Ada empat keuntungan dari Konkordansi: 1. Membandingkan penggunaan kata-kata yang berbeda dari kata dasar yang sama.. Meneliti kata kunci. 3. Meneliti frekuensi kata-kata yang digunakan dalam dokumentasi. 4. Membuat indeks dan daftar kata yang digunakan dalam Alkitab..3. Keuntungan Strong s Concordance Strong's Concordance digunakan untuk mencari nomor Strong sehingga dapat digunakan untuk memberikan indeks Alkitab. Ada empat keuntungan dari Strong's Concordance: 1. Menemukan dan meneliti frase dan idiom.. Menemukan terjemahan subsentential E.G. terminologi dalam dua bahasa yang berbeda korpus. 3. Membantu untuk mengetahui kebenaran Alkitab dalam bahasa aslinya sehingga tidak ada yang salah paham apa firman Allah. 4. Membantu orang dalam menafsirkan Alkitab. 3. Natural Language Processing Natural Language Processing (NLP) adalah proses transformasi informasi yang diekspresikan dalam bahasa pembicaraan dan tertulis dari masyarakat untuk dimasukkan ke komputer melalui perangkat lunak untuk memperoleh informasi tertentu. Dalam penelitian ini akan menjelaskan mengenai statistical NLP (statistik NLP) dan text retrieval (pengambilan teks). Keduanya akan jelaskan di bawah. 3.1. Statistical NLP Statistik NLP melakukan analisis statistik mengenai korpus yang ada, dengan asumsi bahwa sebagian besar naskah-naskah (korpus) yang bisa menggambarkan sifat bahasa yang digunakan dalam informasi statistik corpus. Ada 3 metode statistik yang digunakan untuk memperoleh informasi statistik mengenai korpus. Word Alignment Word alignment adalah salah satu task dalam NLP yang digunakan untuk mengidentifikasikan hubungan translasi atau terjemahan antara pasangan kata dalam dua korpus yang berbeda bahasa. Word alignment biasanya dilakukan setelah sentence alignment selesai dilakukan. Sentence alignment sendiri adalah proses untuk mengidentifikasikan pasangan kalimat yang mana sebuah kalimat adalah hasil translasi dari kalimat lainnya. Contoh word alignment dapat dilihat pada Gambar 1. Gambar 1. Contoh Word Alignment [3] Contoh tersebut mengambarkan kutipan hasil translasi antara bahasa Inggris dengan bahasa Perancis yang tidak setiap kata pada bahasa Perancis memiliki arti, demikian sebaliknya dengan Bahasa Inggris yang tidak selalu dapat ditranslasikan ke dalam Bahasa Perancis, dan tidak selalu pada kata Jurnal Sistem Informasi MTI UI, Volume 5, Nomor, ISSN 141 8896 71

pertama dalam Bahasa Inggris memiliki arti pada kata pertama pada Bahasa Perancis. Untuk mengidentifikasi hubungan translasi antara dua bahasa tersebut digunakan pendekatan chi-square pada matriks x. Rumus pendekatan tersebut adalah: X N( O11O O1O1) (1) ( O O )( O O )( O O ( O O ) 11 1 11 1 1 word ) 1 word Number O 11 O 1 Number O 1 O Gambar. Matriks x Pada kasus ini n adalah jumlah ayat pada Alkitab. Sedangkan nilai O 11, O 1, O 1, O dapat dilihat pada matriks x pada Gambar. Nilai O 11 tersebut didapatkan dengan cara mencari jumlah frekuensi yang pada ayat tersebut terdapat pasangan kata dan nomor strong yang terdapat pada Alkitab Perjanjian Baru Bahasa Inggris dan kata terdapat pada Alkitab Perjanjian Baru Bahasa Indonesia. Sedangkan O 1 didapatkan dengan mencari jumlah ayat yang memiliki nomor yang sedang dicari pada Alkitab Bahasa Inggris tetapi tidak memiliki kata pada ayat Alkitab Bahasa Indonesia. O 1 didapatkan dengan mencari jumlah ayat yang memiliki kata pada Alkitab Bahasa Indonesia tetapi tidak memiliki nomor yang sedang dicari pada ayat Alkitab Bahasa Inggris. O didapatkan dengan mencari jumlah ayat yang tidak ada hubungannya dengan pasangan ini, yaitu yang tidak memiliki nomor pada ayat Alkitab Bahasa Inggris dan juga tidak memiliki kata pada ayat Alkitab bahasa Indonesia. Dari nilai X yang didapat, nilai yang paling besar yang dicurigai sebagai kandidat kata dalam proses alignment tersebut. Hal tersebut dikarenakan semakin besar nilai alignment tersebut, maka semakin besar pula keterkaitan kata tersebut dengan nomor strong-nya. N-Gram N-Gram adalah sebuah operasi model statik yang berhubungan dengan pemodelan bahasa yang meliputi pemberian nilai pada kata atau kalimat yang pemodelan tersebut didasarkan pada jenis aplikasi yang akan dibuat. Salah satu teori untuk menyusun pemodelan bahasa tersebut adalah Markov Models, yang mana penyusunan pemodelan bahasa tersebut didasarkan pada teori n-gram ini. Tujuan dari penggunaan n-gram dalam penelitian ini adalah dengan mempelajari corpus yang tersedia kita dapat mengetahui kandidat dari tiap nomor strong terhadap kemunculan pasangan katanya, hal ini dikarenakan terdapat berbagai pasangan kata yang membentuk arti kata yang baru. Pengelompokkan pasangan tersebut yang umum digunakan untuk n= yang disebut dengan bigram dan n=3 yang disebut dengan trigram. Mutual Information Dalam penelitian ini pengelompokkan n-gram berdasarkan huruf tidak dapat digunakan sehingga hanya pengelompokkan kata yang dapat dipakai. Kandidat tersebut nantinya akan dilakukan perhitungan dengan menggunakan bantuan mutual information untuk mengetahui kandidat mana yang paling memungkinkan untuk penomoran strong tersebut. 3.. Text Retrieval Text retrieval adalah suatu metode yang digunakan untuk membantu user dalam mencari suatu informasi yang berguna dalam kumpulan besar teks. Dalam text retrieval, pencarian representasi suatu teks pada kamus dikenal dengan indexing. Proses dari indexing meliputi tokenization, stopword removal (eliminasi stopword), stemming, dan term weight. Namun pada penelitian ini hanya digunakan stopword removal dan stemming. Eliminasi Stopword Proses penghilangan tersebut dilakukan dengan cara mencocokkan kata dengan stoplist. Jika kata yang dicocokkan ada pada stoplist, maka kata tersebut tidak diikutkan dalam proses selanjutnya. Contoh kata yang termasuk dalam stopword adalah dan, yang, atau, dan lain sebagainya tergantung dari konteks corpus yang digunakan sebagai bahan. Stemming Stemming adalah proses pemetaan dari penguraian berbagai bentuk kata baik itu prefik, sufik, maupun gabungan antara prefik dan sufik, menjadi bentuk kata dasarnya (stem). Algoritma Stemming yang digunakan adalah Potter Stemmer untuk Bahasa Indonesia. Ilustrasi algoritmanya dapat dilihat pada Gambar 3. Algoritma stemming pada Gambar 3 tersebut dapat mengatasi akhiran yang berupa partikel, akhiran yang menunjukkan kata ganti kepemilikan, prefiks (imbuhan), sufiks (akhiran), dan gabungan antara prefiks dan sufiks. Sebelum melakukan proses penghilangan imbuhan pada Potter Stemmer, dilakukan perhitungan measure. Hal in untuk menanggulangi conflation yang dilakukan pada kata dasar. Algoritma Porter Stemmer ini dipilih karena mempunyai struktur morfologi yang sama dengan 7 Jurnal Sistem Informasi MTI UI, Volume 5, Nomor, ISBN 141 8896

Gunawan, Devi Dwi Putranto, Herman Budianto, dan Indra Maryati Bahasa Indonesia yang tersusun dari kombinasi sufiks dan atau prefiks. Dari perhitungan di atas dapat dihitung nilai similaritynya. Pada vector space ini dokumendokumen direpresentasikan dengan vector-vector pada ruang multidimensi, yang mana diilustrasikan pada Gambar dimensi seperti pada Gambar 4. Gambar 4. Ilustrasi Similarity Dimensi Dari Gambar 4, vector dj merupakan dokumen yang digunakan sebagai pencarian. Sedangkan q adalah query pencariannya. Untuk menentukan tingkat keterkaitannya maka dihitung sudutnya dengan menggunakan cosinus. Gambar 3. Ilustrasi Potter Stemmer [] 5. Vector Space Model Untuk pembuatan kemiripan Alkitab digunakan teori vector space model. Vector space model ini biasanya digunakan dalam aplikasi search engine seperti Google. Dalam vector space model terdapat perhitungan tf (term frequency) dan idf (inverse document frequency). Perhitungan tf tersebut dapat dilakukan dengan menggunakan salah satu dari rumus di bawah ini. Sedangkan inverse document frequency berfungsi untuk menurunkan nilai kordinat dari term-term yang terdapat pada banyak dokumen. Karena tidak semua sumbu pada vector space sama pentingnya, terdapat juga dokumen yang memiliki noise. Variasi perhitungan idf seperti tampak di bawah ini: Similarity ( D, D ) 6. Proses Strong i j n t ik k 1 n tik k 1 * t jk n k 1 t jk () Kegiatan utama pada pembuatan aplikasi ini adalah melakukan proses penomoran strong terhadap semua kata atau frase pada Alkitab Perjanjian Baru Bahasa Indonesia sehingga didapatkan nomor strongnya, yang mana nomor strong tersebut didapatkan dari Alkitab Perjanjian Baru Bahasa Inggris. Nomor strong yang didapatkan tersebut nantinya digunakan dalam proses pencarian kemiripan berdasarkan perikop yang diinputkan. Ada 5 tahap dalam proses penomoran strong. Masing-masing tahap akan dijelaskan dibawah. 1. Dengan pendekatan pencarian frekuensi Pada tahap pertama ini dilakukan dengan cara menghitung frekuensi kemunculan kata pada ayat yang ditemukan nomor strong-nya tersebut. Setelah dihitung kemunculannya maka dilakukan stopword removal kemudian dilakukan filtering dengan threshold tertentu. Stopword removal dilakukan karena kata yang terdapat pada stoplist sering muncul dalam ayat pada Alkitab Perjanjian Baru Bahasa Indonesia. Threshold yang telah diuji coba dan dianggap baik adalah minimal nomor strong ditemukan pada dua ayat dan memiliki frekuensi Jurnal Sistem Informasi MTI UI, Volume 5, Nomor, ISSN 141 8896 73

lebih besar sama dengan 0,6.. Dengan word alignment Pada tahap kedua ini dilakukan perhitungan frekuensi dengan bantuan mutual information yang diharapkan hasilnya dapat lebih baik dari pada hasil pada tahap pertama. Cara kerjanya hampir sama dengan tahap pertama yaitu pada awalnya disediakan dua corpus. Perbedaannya terdapat pada cara perhitungan frekuensinya. aplikasi penomoran strong pada Alkitab Perjanjian Baru Bahasa Indonesia. Hasil dari Alkitab Perjanjian Baru Bahasa Indonesia dengan nomor strong ini dapat digunakan untuk pembuatan fitur lainnya yaitu similarity. Arsitektur umum untuk penomoran strong dari 5 tahap tersebut adalah preproses, proses, kandidat, filtering dan cek manual. Arsitektur untuk aplikasi desktop dapat dilihat pada Gambar 6. X = 7955 [(69 x 788) (0-4)] (69+0) (69+4) (0+788) (4+788) = 7955 [543858 + 4] 69 x 73 x 788 x 7886 = 7955 x 95785875044 31308708574 = 7515,40634 Gambar 5. Contoh Perhitungan MI Perhitungan tersebut dilakukan dengan cara membuat matriks yang berukuran x. Contoh matriks berukuran x tersebut dapat dilihat pada Gambar 5. Dari nilai mutual information yang didapat tersebut, semakin besar nilainya maka kandidat tersebut dicurigai sebagai kandidat yang utama. 3. Dengan n-gram Tahap ketiga adalah dengan mengkombinasikan kata. Kombinasi tersebut didasarkan pada teori n- gram. Dari kombinasi kata tersebut didapatkan kandidat yang nantinya dilakukan filtering dengan syarat nilai mutual information yang pertama lebih besar dari nilai mutual information yang kedua. Dan nilai O 11 lebih besar dari 1 dan nilai O 11 lebih besar dari O 1. 4. Dengan stemmed corpus Tahap keempat adalah melakukan stemming pada corpus Alkitab Perjanjian Baru Bahasa Indonesia. Tahap ini diperlukan karena perbedaan antara tata bahasa Inggris dan tata bahasa Indonesia yang dapat membuat frekuensi berbeda untuk kandidat nomor strong dan kata-kata. Corpus hasil stemming tersebut akan digunakan sebagai corpus dalam proses tahap 1-3. 5. Dengan pencarian kembali kandidat strong pada tahap 1 Tahap kelima adalah pencarian kembali kandidat strong pada tahap I, yang threshold kandidat pertama lebih besar dari pada threshold kandidat kedua. Selain itu dilakukan pencarian kandidat berdasarkan proper name, dan nomor strong yang termasuk dalam konjungsi, preposisi, dan kata ganti. 7. Arsitektur Sistem Sasaran pembuatan penelitian ini adalah membuat Gambar 6. Arsitektur untuk Aplikasi Desktop Gambar 6 menjelaskan proses untuk mendapatkan nomor strong. Tahap pertama, Alkitab Perjanjian Baru Bahasa Indonesia dan Inggris diproses dengan menggunakan eliminasi stopword atau stemming. Ini dapat menghapus semua konjungsi. Tahap kedua, dari hasil dari tahap preprocessing lakukan 5 tahap proses penomoran strong. Tahap ketiga, kita akan mendapatkan kandidat dari tahap kedua. Pada tahap keempat, kita harus menyaring kandidat dengan menggunakan batas threshold yang telah ditentukan sebelumnya, dan secara manual memeriksa nomor strong yang memiliki frekuensi sama dengan 1. Pada tahap terakhir, kita akan mendapatkan nomor-nomor strong. Arsitektur untuk pencarian similarity dan Alkitab berbasis situs adalah input yang diberikan oleh pengguna akan dikirimkan melalui internet, kemudian dilakukan pengolahan query berdasarkan input dari pengguna, baik untuk fitur pencarian dan fitur kesamaan (similarity). Data yang digunakan dalam aplikasi ini diperoleh dari nomor strong pada aplikasi yang dibuat sebelumnya. Dari hasil query, pengolahan akan diserahkan kepada pengguna melalui internet. Output untuk permintaan kesamaan ini memuat daftar yang paling mirip di bagian ini diurutkan secara descending (menurun). Arsitektur untuk aplikasi situs ditampilkan pada Gambar 7. 74 Jurnal Sistem Informasi MTI UI, Volume 5, Nomor, ISBN 141 8896

Gunawan, Devi Dwi Putranto, Herman Budianto, dan Indra Maryati pengguna dapat melakukan pembelajaran Alkitab dengan lebih mudah dan efisien. Selain itu dapat digunakan untuk mengetahui tingkat keterkaitan antar perikop yang ada pada Alkitab Perjanjian Baru Bahasa Indonesia. Tabel 1. Uji Coba Strong Jenis Uji Coba Output Uji Coba Alasan Gambar 7. Arsitektur untuk Aplikasi Situs 8. Uji Coba Aplikasi penomoran strong dengan lima tahap yang dilakukan dalam penelitian ini telah dapat memberikan penomoran strong yang tepat pada Alkitab Bahasa Indonesia. Hal ini dapat diketahui dari penanganan penomoran strong sampai di belakang kata tersebut. Dengan metode penyusunan yang dilakukan didapatkan Alkitab Perjanjian Baru Bahasa Indonesia dengan nomor strong dengan tingkat keberhasilan 61,03%. Stemming dapat digunakan untuk membantu meningkatkan akurasi penomoran. Hal ini dapat dilihat bahwa stemming dapat meningkatkan 7,50% hasil penomoran strong dari penomoran strong tanpa stemming. Kesulitan terutama untuk melakukan penomoran strong sampai akurasi yang sempurna adalah fakta bahwa terdapat 1839 nomor strong atau 33,9% yang hanya dipakai satu kali dalam Alkitab Perjanjian Baru. Uji coba dilakukan dengan beberapa jenis kasus dan dapat dilihat padatabel 1 berikut ini. Dari hasil uji coba Tabel 1 dapat dilihat bahwa penomoran strong tidak dapat mencapai target yang ditentukan dikarenakan alasan yang telah disebutkan. Namun dengan adanya penomoran strong ini, strong yang hanya memiliki satu frekuensi ejaannya tidak sama strong yang memiliki imbuhan strong dimana terdapat perbedaan arti kata jenis kata proper name frase jumlah kata yang berbeda antara Alkitab Bahasa Indonesia dengan Alkitab Bahasa Inggris Arti kata yang memiliki satu frekuensi tidak berhasil dinomori Arti kata yang berbeda ejaannya tersebut tidak berhasil dinomori Arti kata dapat dinomori Dapat dinomori tetapi tidak 100% dapat dinomori Hampir semua penomoran strong dengan jenis kata proper name dapat ditangani kecuali untuk nomor strong yang hanya memiliki satu frekuensi Dapat ditangani namun tidak 100% dapat dinomori strong dengan jumlah kata yang berbeda dapat dinomori sesuai dengan nilai mutual information Hanya dapat dilakukan untuk frekuensi lebih dari atau sama dengan. Karena dengan threshold minimal 1 ayat tidak dapat dipastikan kebenaran kandidatnya Penghitungan kandidat didasarkan pada jumlah frekuensi kemunculan kandidat kata tanpa dilakukan pengecekan ejaannya Dilakukan stemming sehingga didapatkan root katanya Kandidat penomoran strong yang diambil hanya yang kandidat strong dengan nilai frekuensi atau mutual information yang tertinggi Karena kemunculan nomor strong dapat dipastikan terletak pada ayat-ayat tertentu dan memiliki arti yang sama, sehingga kandidat arti kata tersebut lebih kuat Kandidat frase yang benar tersebut tidak memiliki nilai mutual information yang tertinggi tersebut tidak tergantung dari banyaknya jumlah kata, tetapi tergantung pada nilai frekuensi atau nilai mutual informationnya Modul similarity adalah modul yang digunakan untuk mencari kemiripan perikop pada Alkitab Perjanjian Baru. Pencarian kemiripan perikop Jurnal Sistem Informasi MTI UI, Volume 5, Nomor, ISSN 141 8896 75

tersebut dilakukan dengan cara memilih perikop yang hendak dicari kemiripannya dalam daftar perikop. Hasil dari pencarian kemiripan perikop tersebut dapat dilihat pada Gambar 8. Pada gambar tersebut query yang diinputkan oleh pengguna adalah Yohanes pembabtis yang terdapat pada injil Mrk 1:1-8. Hasil dari pencarian kemiripan perikop pada sistem adalah injil Mat 3:1-1. Hasil tersebut sama dengan kemiripan yang terdapat pada Alkitab yang dapat dilihat di bawah judul perikopnya. 4. Walaupun stopword memiliki nomor strong, dalam perhitungan hasil search dan similaritas, tetap akan menyebabkan tidak akurat. Selain keempat hal tersebut, program ini terbukti dapat menyusun penomoran strong pada Alkitab Perjanjian Baru berbahasa Indonesia yang sebelumnya ada pada Alkitab bahasa Inggris ke bahasa Yunani. REFERENSI [1] Bloomfield, Maurice, A Vedic Concordance. Motilal Banarsidass Publ. 1990 [] Z. Talla, Fadillah., A Study of Stemming Effects on Information Retrieval in Bahasa Indonesia. http://info.science.uva.nl/pub/theory/illc/research reports/mol-003-0.text.pdf. 003. [3] F.Brown, Peter., A Statistical Approach to Machine Translation. www.aclweb.org/ anthology-new/j/j90-00.pdf. 00. Gambar 8. Hasil Uji Coba Modul Similarity 9. Kesimpulan Dengan adanya Alkitab Perjanjian Baru Bahasa Indonesia yang dilengkapi dengan nomor strong, pembelajaran Alkitab menjadi lebih mudah dan tersedia secara online. Karena dari nomor strong tersebut dapat diketahui asal katanya sehingga dapat mengurangi kesalahpahaman dalam pentafsiran. Kesimpulan lain yang dapat diambil dari hasil pengamatan pada setiap tahap penomoran strong yang dilakukan pada pembuatan dan uji coba aplikasi sebagai berikut. 1. Word Alignment dapat membantu menyelesaikan permasalahan penomoran strong, dengan cara mengetahui keterkaitan antara nomor strong pada Alkitab Bahasa Inggris dengan kata pada Alkitab Bahasa Indonesia.. Penyelesaian masalah penomoran frase yang menimbulkan kesulitan tersendiri dapat diselesaikan dengan menggunakan perhitungan n- gram, karena cara ini dapat mencari keterkaitan antara dua atau lebih kata. 3. Manfaat nyata penomoran strong pada aplikasi web adalah similaritas dan search pada Alkitab yang dapat dilakukan dengan melakukan pencarian kata berdasarkan nomor strong-nya. 76 Jurnal Sistem Informasi MTI UI, Volume 5, Nomor, ISBN 141 8896