Identifikasi Tipe Pertanyaan Asumsi Pengelompokan Tipe Jawaban Lingkungan Implementasi Temu Kembali Jawaban HASIL DAN PEMBAHASAN

5 Identifikasi Tipe Pertanyaan Ada beberapa tipe pertanyaan yang digunakan dalam Bahasa Indonesia, yaitu: 1 APA, yang menanyakan suatu pengertian, tujuan, manfaat, kata benda, baik abstrak maupun konkret (tidak termasuk di dalamnya yes/no question). 2 SIAPA, yang menanyakan orang atau makhluk hidup lain yang melakukan sesuatu. 3 KAPAN, yang menanyakan waktu terjadinya suatu peristiwa. 4 MANA, yang menanyakan tempat. 5 MENGAPA, yang menanyakan tujuan atau sebab terjadinya sesuatu. Dalam penelitian ini, tipe pertanyaan BAGAIMANA tidak diikutsertakan karena jawabannya adalah suatu penjelasan. Begitu pula dengan tipe pertanyaan MANA yang menanyakan suatu pilihan. Dari lima tipe pertanyaan di atas, akan dilakukan pembelajaran rule yang akan digunakan berdasarkan pola kalimat yang dimiliki dokumen. Pengelompokan Tipe Jawaban Untuk dapat menemukan jawaban yang tepat, perlu dilakukan pembelajaran terhadap sistem, di antaranya adalah pengelompokan tipe jawaban. Tipe jawaban ini disusun dalam suatu kamus yang dibuat secara manual. Temu Kembali Jawaban Tiap petunjuk pada kalimat dalam dokumen akan mendapatkan nilai berdasarkan hasil dari WordMatch dan rule yang ada, sesuai dengan tingkat relevansinya terhadap kueri pertanyaan yang diberikan. Dalam hal ini ada empat tingkatan nilai, yakni (Rillof & Thelen 2000): clue (+3), good_clue (+4), confident (+6), slam_dunk (+20). Kalimat yang ditemukembalikan adalah kalimat yang memiliki nilai tertinggi dibandingkan nilai kalimat lain. Evaluasi Question Answering System Metode yang digunakan dalam evaluasi Question Answering System ini adalah dengan melihat persentase antara jumlah kalimat relevan yang ditemukembalikan terhadap jumlah seluruh kalimat yang ditemukembalikan. Semakin besar hasil persentase, maka kinerja sistem akan semakin baik. Kalimat jawaban yang ditemukembalikan adalah kalimat yang memiliki nilai tertinggi dibandingkan kalimat lain. Rumus yang digunakan yaitu Ar Relevansi = 100% A dengan: Relevansi = Persentase hasil relevansi Ar = Jumlah kalimat relevan yang ditemukembalikan A = Jumlah kalimat yang ditemukembalikan Asumsi Asumsi-asumsi yang digunakan dalam penelitian ini yaitu: 1 Kamus pengelompokan tipe jawaban yang digunakan dibuat secara manual. 2 Rule-rule yang digunakan dibuat dengan memperhatikan dokumen yang digunakan. 3 Tidak dilakukan kajian terhadap hubungan makna semantik dalam dokumen. Lingkungan Implementasi Lingkungan implementasi yang digunakan adalah sebagai berikut: Perangkat lunak: Windows XP Professional SP 2, XAMPP versi 1.4.13 (PHP: 5.0.4, MySQL: 4.1.11, dan Apache: 2.0.53), Macromedia Dreamweaver MX 2004, Internet Explorer 7.0, Netscape versi 8.0.1. Perangkat keras: Prosesor Intel Pentium IV 2.8 GHz, RAM 768 MB, harddisk 40 GB, keyboard, mouse, dan monitor. HASIL DAN PEMBAHASAN Koleksi Dokumen Pengujian Dokumen pengujian berformat teks (*.txt). Nama dokumen berdasarkan urutan ayat dalam terjemahan surat Al Baqarah. Jumlah digit angka yang digunakan pada nama dokumen adalah tiga, sehingga pemberian nama dokumen pada ayat 2 adalah Ayat 002. Dokumen disimpan dalam satu direktori dan

6 tidak terdapat tag-tag tertentu seperti XML atau HTML. Satu dokumen berisi satu terjemahan ayat. Dalam penelitian ini, sebuah kalimat harus diakhiri oleh tanda titik(.). Dalam satu dokumen minimal berisi satu kalimat. Dalam dokumen yang digunakan, terdapat beberapa dokumen yang merupakan gabungan dari dua atau tiga ayat. Penggabungan dilakukan karena terdapat beberapa ayat yang diakhiri oleh tanda koma(,) dan ayat berikutnya merupakan lanjutan dari ayat sebelumnya. Penggabungan dilakukan secara manual oleh penulis. Ayat 002 dan 003 adalah contoh ayat yang diakhiri oleh tanda koma(,) dan masih berkelanjutan dengan ayat berikutnya, sehingga ayat 002, 003, dan 004 digabungkan menjadi satu dokumen. Contoh dokumen yang demikian dapat dilihat pada Lampiran 1. Untuk ayat yang kalimatnya diakhiri oleh tanda tanya(?) atau tanda seru(!) dan tidak berhubungan dengan ayat selanjutnya, penulis menambahkan tanda titik(.) secara manual di akhir kalimatnya. Contoh ayat yang kalimatnya diakhiri oleh tanda tanya(?) yaitu ayat 044 dan dapat dilihat pada Lampiran 2. Ayat 175 adalah contoh ayat yang kalimatnya diakhiri oleh tanda seru(!) dan dapat dilihat pada Lampiran 3. Berdasarkan jumlah ayat surat Al Baqarah, seharusnya jumlah dokumen yang digunakan sebanyak 286 dokumen. Namun, setelah dilakukan proses penggabungan ayat, jumlah dokumen yang digunakan menjadi 274. Nama dokumen menunjukkan ayat terjemahan. Ayat 002-004 menunjukkan bahwa dokumen tersebut berisi terjemahan ayat 002, 003, dan 004. Ayat 001 menunjukkan bahwa dokumen tersebut berisi terjemahan ayat 001. Nama dokumen yang digunakan kemudian disimpan dalam tabel tb_dokumen. Jumlah kalimat dalam keseluruhan dokumen adalah 609. Indexing Proses awal dalam indexing yaitu menyimpan nama dokumen yang digunakan sebagai dokumen uji dalam tabel tb_dokumen. Struktur tabel tb_dokumen dapat dilihat pada Tabel 1. Tabel 1 Struktur tabel tb_dokumen Nama Kolom Tipe Keterangan iddokumen SMALL Primary key INT namadokumen TEXT - Field iddokumen merupakan urutan penyimpanan dokumen berdasarkan jumlah dokumen yang digunakan. Proses penyimpanan nama dokumen terurut seperti proses penyimpanan file biasa, misalnya Ayat 001, Ayat 002, Ayat 003, Ayat 004, dan seterusnya. Nama dokumen disimpan dalam field namadokumen. Parsing pada dokumen diawali dengan memisahkan kalimat-kalimat dokumen berdasarkan separator titik(.). Hasil proses ini berupa array kalimat yang kemudian disimpan dalam tabel tb_kalimat. Struktur tabel tb_kalimat dapat dilihat pada Tabel 2. Tabel 2 Struktur tabel tb_kalimat Nama Tipe Keterangan Kolom iddok SMALLINT Primary key idkalimat SMALLINT Primary key kalimat TEXT - score SMALLINT - Field iddok mengacu ke field iddokumen pada tabel tb_dokumen. Field idkalimat menunjukkan urutan kalimat pada dokumen yang bersangkutan. Array kalimat yang dihasilkan disimpan dalam field kalimat. Field score digunakan untuk menyimpan nilai yang diperoleh masing-masing kalimat dari proses Wordmatch dan pembobotan berdasarkan rule dari tipe kueri pengguna. Pada indexing dokumen dan awal proses pengolahan terhadap kueri, field score masing-masing kalimat diberi nilai nol(0). Parsing pada kalimat diawali dengan proses case folding yaitu membuat semua huruf pada teks yang akan di-parsing menjadi huruf kecil. Proses tersebut dilakukan untuk memperkecil ukuran basis data pada indeks (Nadirman 2006). Penelitian ini memanfaatkan algoritma parsing Ikhsani (2006) dengan melakukan penambahan algoritma untuk penghilangan stopwords dalam melakukan parsing dan menciptakan token unik. Stopwords berisi kata-kata umum yang hampir selalu ada pada dokumen. Stopwords yang digunakan mengacu pada stopwords Nadirman (2006) dengan melakukan penyesuaian terhadap daftar kata-kata umum yang terdapat pada dokumen pengujian. Katakata umum yang digunakan sebagai identitas pada rule dan kamus tipe jawaban tidak disertakan dalam stopwords. Contoh kata-kata umum yang digunakan sebagai identitas rules yaitu: adalah, agar, karena, dan pada. Contoh

7 kata-kata umum yang digunakan dalam kamus tipe jawaban yaitu: mereka, aku, dan dia. Daftar kata stopwords disimpan dalam kamus k_stopwords.txt dan dapat dilihat pada Lampiran 4. Setelah dilakukan proses penghilangan stopwords dihasilkan tokentoken yang menjadi indeks suatu dokumen. Stemming dilakukan pada setiap token dengan menggunakan algoritma stemming Ridha (2002) dengan melakukan perubahan pada beberapa aturan yang tidak diperlukan terhadap dokumen pengujian. Setelah dilakukan pengkajian terhadap dokumen yang digunakan, tidak ditemukan kata-kata yang menggunakan imbuhan asing, sehingga proses penghilangan imbuhan asing (remove foreign suffixs) tidak digunakan. Kalimat kueri juga mengalami parsing dan stemming seperti pada kalimat dokumen. Hasil parsing dan stemming dari kalimat kueri dimasukkan dalam array, sedangkan hasil parsing dan stemming dari kalimat dokumen disimpan dalam tabel tb_kata. Struktur tabel tb_kata dapat dilihat pada Tabel 3. Tabel 3 Struktur tabel tb_kata Nama Kolom Tipe iddokumen SMALLINT idkalimat SMALLINT kata TINYTEXT Hasil parsing dan stemming untuk masingmasing kalimat dari tb_kalimat disimpan di field kata pada tabel tb_kata. Field iddokumen dan idkalimat mengacu pada field iddok dan idkalimat pada tabel tb_kalimat. Keterhubungan antartabel dapat dilihat pada Gambar 2. tb_dokumen iddokumen namadokumen 1 N tb_kalimat iddok idkalimat namadokumen 1 N tb_kata iddok idkalimat kata score Gambar 2 Keterhubungan antartabel. WordMatch Kalimat dokumen maupun kalimat kueri yang telah dipecah menjadi token-token dan telah di-stemming akan dibandingkan. Algoritma WordMatch dibuat sendiri oleh penulis. Dalam proses perbandingan antara token-token dalam kalimat dokumen dan token-token dalam kalimat kueri, jika terdapat token yang sama akan menambahkan nilai clue (+3) pada kalimat dokumen tersebut. Pengelompokan Tipe Jawaban Untuk dapat menemukan kalimat jawaban yang tepat, perlu dilakukan pembelajaran terhadap sistem, di antaranya dengan melakukan pengelompokan tipe jawaban berdasarkan tipe pertanyaan. Tipe jawaban ini disusun dalam suatu kamus yang dibuat secara manual. Kamus yang dihasilkan yaitu: 1 ORANG, jawaban dari pertanyaan SIAPA, yang dapat diidentifikasi dengan adanya sebutan atas seseorang, Nabi, Allah, dan makhluk lainnya. Beberapa yang termasuk dalam kamus ORANG ini adalah Allah, Kami, Dia, Engkau, manusia, dan syaitan. Tipe jawaban ini disimpan dalam kamus bernama kamus_orang.txt dan dapat dilihat pada Lampiran 5. 2 WAKTU, jawaban dari pertanyaan KAPAN yang mengidentifikasi waktu terjadinya suatu peristiwa. Hari, malam, dan tahun merupakan contoh kata yang tergolong dalam kamus WAKTU. Tipe jawaban ini disimpan dalam kamus bernama kamus_waktu.txt dan dapat dilihat pada Lampiran 6. 3 TEMPAT, jawaban dari pertanyaan MANA, terdiri dari beberapa nama tempat yang terdapat pada dokumen. Nama tempat yang terdapat dalam dokumen misalnya Shafa, neraka, dan surga. Tipe jawaban ini disimpan dalam kamus bernama kamus_tempat.txt dan dapat dilihat pada Lampiran 7. Selain mengelompokkan tipe jawaban, untuk memperoleh jawaban yang akurat tentu saja disertai implementasi rule yang dijelaskan pada sub bab algoritma rule. Untuk jawaban dari pertanyaan MENGAPA langsung diimplementasikan dalam sistem. Caranya adalah dengan mengidentifikasi kata agar, karena, dan supaya dari indeks. Begitu pula dengan jawaban dari pertanyaan APA langsung diimplementasikan dalam sistem dengan mengidentifikasi kata adalah dan yaitu dari indeks.

8 Algoritma Rule Dalam penelitian ini digunakan metode rule-based. Setelah dilakukan pengkajian terhadap pola kalimat dokumen yang digunakan dan kemungkinan pola kalimat kueri dengan menggunakan bahasa alami, maka disusun algoritma rule. Algoritma yang dihasilkan adalah sebagai berikut: 1. APA Q = (Q - {apa}) If(Q,{Allah}) then (Q + {kami}) elseif(q,{kami}) Score(S) += wordmatch (Q,S) If contains (Q,{maksud}) and contains (S,{adalah,yaitu}) then If contains (S,{adalah,yaitu}) then Score(S) += confident 2. MENGAPA Q = (Q - {mengapa}) If(Q,{Allah}) then (Q + {kami}) elseif(q,{kami}) Score(S) += WordMatch(Q,S) If contains (S,{agar,karena,supaya}) then 3. SIAPA Q = (Q - {siapa}) If(Q,{Allah}) then (Q + {kami}) elseif(q,{kami}) Score(S) += wordmatch (Q,S) If ~contains (Q, ORANG) and contains (S, ORANG) then Score(S) += confident If contains (Q, ORANG) and contains (S, ORANG) then 4. KAPAN Q = (Q - {kapan}) If(Q,{kami}) Score(S) += wordmatch(q,s) If contains (S, WAKTU) and contains (S,{pada,selama}) then Score(S) += confident If contains (S,WAKTU) then Score(S) += good_clue 5. MANA Q = (Q - {mana,dimana,kemana}) Score(S) += wordmatch(q,s) If contains (S,TEMPAT) then Keterangan: S = sentence (kalimat dokumen) Q = query (kalimat kueri) Secara umum, algoritma rule yang digunakan berbeda dengan algoritma rule Riloff & Thelen (2000). Setelah parsing kalimat kueri dan penentuan tipe pertanyaan berdasarkan kalimat kueri, kata penunjuk tipe pertanyaan pada kalimat kueri dihilangkan. Pada kueri yang memiliki tipe pertanyaan APA, MENGAPA, dan SIAPA, proses selanjutnya adalah menambahkan kata kami pada kueri yang mengandung kata Allah, menambahkan kata kamu pada kueri yang mengandung kata kami, dan tidak menambahkan kata apapun untuk selainnya. Pada kueri yang memiliki tipe pertanyaan KAPAN, hanya akan ditambahkan kata kamu jika kueri mengandung kata kami. Di lain pihak, untuk kueri yang memiliki tipe pertanyaan MANA, kueri tidak mengalami proses seperti yang telah dijelaskan. Setelah proses manipulasi kueri, kueri akan di-stemming. Dari token-token kueri yang dihasilkan akan dilakukan proses pemberian nilai berdasarkan WordMatch dan rule yang ada. Evaluasi Question Answering System Tujuan dari Question Answering System yaitu menemukembalikan informasi yang relevan dan sedikit mungkin menemukembalikan informasi yang tidak relevan. Menurut Nadirman (2006), relevan atau tidaknya suatu informasi yang ditemukembalikan hanya dapat dilakukan dengan cara membaca dokumen itu satu persatu.

9 Menurut Rijsbergen (1979), relevansi merupakan sesuatu yang sifatnya subjektif. Setiap orang mempunyai perbedaan untuk mengartikan bahwa dokumen itu relevan atau tidak terhadap sebuah topik informasi. Oleh karena itu dalam penelitian ini digunakan suatu set dokumen kecil yang membentuk suatu pola kueri yang relevan terhadap sistem dan juga kalimat jawaban yang benar berdasarkan kueri yang diberikan (relevance judgement). Relevance judgement yang digunakan dapat dilihat pada Lampiran 8. Kalimat jawaban yang ditemukembalikan adalah kalimat yang memiliki nilai tertinggi dibandingkan kalimat lain. Nilai tertinggi dari suatu kalimat jawaban akan selalu berubah berdasarkan kueri yang diberikan. Pada evaluasi Question Answering System ini, digunakan dua macam kueri. Kueri yang pertama adalah kueri yang digunakan dalam penelitian berdasarkan rule yang telah dibuat. Jumlah kueri yang digunakan dalam penelitian sebanyak lima puluh, di mana terdapat sepuluh kueri pada setiap tipe pertanyaan. Kueri yang digunakan dalam penelitian dapat dilihat pada Lampiran 9. Kueri kedua adalah kueri yang diberikan oleh pengguna umum tanpa mengetahui rule yang digunakan dalam sistem. Banyak pengguna umum adalah sepuluh orang di mana masing-masing pengguna memberikan satu kueri untuk setiap tipe pertanyaan. Contoh kueri yang diberikan oleh pengguna umum dapat dilihat pada Lampiran 10. Dari kueri yang diberikan akan diketahui jumlah kalimat jawaban yang relevan menurut pengguna. Hasil evaluasi dinyatakan dalam persentase jumlah kalimat jawaban yang relevan menurut pengguna terhadap jumlah kalimat jawaban yang ditemukembalikan berdasarkan tipe pertanyaan. Hasil evaluasi Question Answering System terhadap dua macam kueri dapat dilihat pada Gambar 3. Persentase Relevansi (%) 100 90 80 70 60 50 40 30 20 10 0 96.67 47.44 76.25 43.33 97.5 78.33 90 56.67 68.03 APA MENGAPA SIAPA KAPAN MANA Tipe Pertanyaan 39.94 Penelitian Pengguna Umum Gambar 3 Evaluasi Question Answering System. Dari Gambar 3, dapat dilihat bahwa terdapat perbedaan persentase hasil evaluasi antara kueri penelitian dengan kueri pengguna umum. Persentase dari kueri penelitian selalu lebih besar daripada persentase dari kueri pengguna umum. Faktor-faktor yang mempengaruhi perbedaan hasil evaluasi yaitu: Kurangnya pemahaman pengguna umum terhadap lingkup dokumen pengujian yang berpengaruh pada pola kueri yang diberikan. Contoh kueri di luar lingkup dokumen pengujian yaitu Mengapa umat islam kalah dalam perang uhud?. Perilaku pengguna umum yang lebih ke arah kueri bersifat prosedural daripada kueri bersifat deskriptif. Contoh kueri yang bersifat prosedural adalah Di mana Nabi Adam diciptakan?. Perbedaan tingkat relevansi antara seseorang dengan orang lain. Setiap rule yang dibuat tentunya tidak memiliki kinerja yang sama. Dari seluruh tipe pertanyaan yang ada, baik kueri dari penulis maupun kueri dari pengguna umum, dapat dilihat bahwa rule pada tipe pertanyaan SIAPA mempunyai persentase paling tinggi. Hal ini terjadi karena kecenderungan penggunaan subjek yang unik pada dokumen, sehingga kueri yang diberikan dapat spesifik mengacu terhadap subjek kalimat yang bersangkutan. Tipe pertanyaan SIAPA juga merupakan tipe pertanyaan yang mencari

10 deskripsi atas seseorang, makhluk Allah, atau Allah sendiri. Rule pada tipe pertanyaan MANA merupakan rule yang memiliki persentase paling rendah. Hal ini terjadi karena banyaknya variasi pola jawaban pada tipe pertanyaan MANA, sehingga rule yang digunakan hanya dapat mencakup pola kalimat secara umum. Selain itu, tidak adanya kata umum yang dapat dijadikan sebagai identitas rule pada pola jawaban tipe pertanyaan MANA juga mempengaruhi hasil temu kembali. Tabel 4 Evaluasi keseluruhan rule dari kueri penelitian Rule Akurasi APA 96.67 % MENGAPA 76.25% SIAPA 97.50% KAPAN 90.00% MANA 68.03% Rata-rata 85.69% Secara keseluruhan, dari Tabel 4 dapat dilihat bahwa akurasi rata-rata rule terhadap kueri yang diberikan oleh penulis adalah 85.69%. Hal ini menunjukkan bahwa peluang relevansi kalimat jawaban yang ditemukembalikan untuk satu kueri yang diberikan oleh penulis yaitu 85.69%. Di sisi lain, nilai akurasi rata-rata rule terhadap kueri yang diberikan oleh pengguna umum dapat dilihat pada Tabel 5. Tabel 5 Evaluasi keseluruhan rule dari kueri pengguna umum Rule Akurasi APA 47.44 % MENGAPA 43.33% SIAPA 78.33% KAPAN 56.67% MANA 39.94% Rata-rata 53.14% Dari Tabel 5 dapat dilihat bahwa akurasi rata-rata rule terhadap keseluruhan kueri yang diberikan oleh pengguna umum adalah 53.14%. Hal ini menunjukkan bahwa peluang relevansi kalimat jawaban yang ditemukembalikan pada satu kueri yang diberikan oleh pengguna umum yaitu 53.14%. Kelebihan dan Kekurangan Sistem Question Answering System pada terjemahan Al Qur an surat Al Baqarah yang telah dikembangkan memiliki kelebihan dan kekurangan sebagai berikut: Kelebihan: Sistem yang dibangun berbasis web, sehingga dapat dijalankan pada berbagai platform sistem operasi. Kueri yang digunakan dalam bentuk bahasa alami. Indexing dokumen hanya dilakukan sekali, yaitu indexing di awal pembangunan sistem. Kekurangan: Jika terdapat penambahan dokumen, maka harus dilakukan proses pengindeksan ulang dokumen. Tidak dilakukan kajian terhadap hubungan makna semantik dalam dokumen, sehingga kandungan terjemahan yang bersifat prosedural belum dapat ditemukembalikan. Penelitian ini belum menggunakan thesaurus dan hanya menggunakan simple matching, sehingga hasil dari kueri yang memiliki kata-kata hampir sama dengan kata-kata dalam kalimat dokumen akan menghasilkan jawaban yang lebih spesifik. KESIMPULAN DAN SARAN Kesimpulan Dalam penelitian yang telah dilakukan, diperoleh suatu Question Answering System pada terjemahan Al Qur an surat Al Baqarah. Dalam pengembangan sistem digunakan metode rule-based sehingga dihasilkan rule untuk setiap tipe pertanyaan. Dari evaluasi sistem, rule pada tipe pertanyaan SIAPA mempunyai kinerja yang paling tinggi dan rule pada tipe pertanyaan MANA mempunyai kinerja yang paling rendah. Secara keseluruhan, akurasi rata-rata rule terhadap kueri yang diberikan oleh penulis adalah 85.69%, sedangkan akurasi rata-rata rule terhadap kueri yang diberikan pengguna umum adalah 53.14%.