2. Ketepatan untuk setiap jawaban.
|
|
- Hartono Chandra
- 6 tahun lalu
- Tontonan:
Transkripsi
1 dikembalikan sebagai top passage dari kueri pertanyaan yang diberikan. 5. Ekstraksi Jawaban Top passages yang diperoleh dilakukan perhitungan terhadap jarak kata. Entitas yang memiliki jarak terpendek dengan kata kunci pada kalimat tanya (kueri) akan menjadi entitas jawaban. Evaluasi Hasil Percobaan Tahap evaluasi dilakukan secara objektif dari segi: 1. Pasangan jawaban dan dokumen (Responsiveness) 2. Ketepatan untuk setiap jawaban. Pemberian nilai dilakukan berdasarkan empat kriteria, yaitu: 1. Wrong (W): jawaban tidak benar. 2. Unsupported (U): jawaban benar tapi dokumen tidak mendukung. 3. Inexact (X): jawaban dan dokumen benar tapi terlalu panjang. 4. Right (R): jawaban dan dokumen benar Lingkungan Pengembangan Perangkat lunak yang digunakan untuk penelitian yaitu : 1. Windows 7 sebagai sistem operasi, 2. Apache Xampp-win sebagai web server, 3. Notepad ++ sebagai editor program. Perangkat keras yang digunakan untuk penelitian yaitu : 1. Processor Intel Centrino 2.3 GHz, 2. RAM 4 GB, 3. Harddisk kapasitas 250 GB. HASIL DAN PEMBAHASAN Koleksi Dokumen Pengujian Dokumen uji yang digunakan adalah dokumen berbahasa Indonesia yang sudah tersedia di Laboratorium Temu Kembali Informasi Departemen Ilmu Komputer IPB. Sumber koleksi dokumen diambil dari media koran, majalah, dan jurnal penelitian. Dokumen ini disimpan dalam satu direktori. Secara umum, nama dokumen diberi nama berdasarkan sumber data dan tanggal data diterbitkan, misalnya suaramerdeka txt yang berarti data berasal dari majalah Suara Merdeka dan diterbitkan oleh Suara Merdeka pada tanggal 04 bulan Januari tahun Dokumen memiliki ukuran terkecil 1 KB dan terbesar 53 KB. Masing-masing dokumen uji berekstensi teks (*.txt) dan struktur XML di dalamnya. Gambar 5 menunjukkan contoh format strukur dokumen yang digunakan. <DOC> <DOCNO> suaramerdeka </DOCNO> <TITLE> Ribuan Bibit untuk Lahan Kritis </TITLE> <AUTHOR> </AUTHOR> <DATE> Minggu, 4 Januari 2004 </DATE> <TEXT> NGALIYAN- Kecamatan Ngaliyan telah mendistribusikan sekitar 30 ribu bibit berbagai jenis tanaman. Sebelumnya, wilayah itu telah menerima bantuan bibit tanaman dari Departemen Pertanian. Bibit tanaman yang diberikan adalah petai, durian, rambutan, mangga, sukun, dan jati. </TEXT> </DOC> Gambar 5 Struktur dokumen pengujian. Pemrosesan dokumen pada tahap indexing, hanya diambil bagian dokumen yang diapit oleh tag <TITLE> dan <TEXT>, sedangkan untuk pembentukan passages, hanya digunakan bagian dokumen yang diapit oleh tag <TEXT>. Gambar 6 menunjukkan ilustrasi bagian dokumen yang diproses. <DOC> <DOCNO> </DOCNO> <TITLE>... </TITLE> <AUTHOR> </AUTHOR> <DATE> </DATE> <TEXT>... </TEXT> </DOC> Gambar 6 Ilustrasi bagian dokumen yang digunakan untuk pemrosesan. 5
2 Pemrosesan Dokumen Langkah pertama pada pemrosesan dokumen adalah penamaan entitas (named entity) yang disebut tagging pada dokumen dengan menggunakan hasil penelitian dari Citrainingputra (2009). Penamaan entitas dilakukan untuk proses perolehan kandidat jawaban sesuai dengan jenis pertanyaannya. Adapun named entity yang digunakan terdiri dari NAME, ORGANIZATION, NUMBER, PERCENT, CURRENCY, DATE, TIME, dan LOCATION. Pada tahap ini dilakukan dengan memasukkan satu per satu setiap bagian dokumen yang diapit tag <TEXT> ke dalam sistem name entity tagging (Citraningputra 2009). Gambar 7 menunjukkan hasil tagging untuk dokumen suaramerdeka txt. Selanjutnya semua dokumen hasil tagging kemudian disimpan dalam korpus. NGALIYAN- <LOCATION> Kecamatan Ngaliyan </LOCATION> telah mendistribusikan sekitar <NUMBER>30</NUMBER> ribu bibit berbagai jenis tanaman. Sebelumnya, wilayah itu telah menerima bantuan <NUMBER> </NUMBER> bibit tanaman dari <ORGANIZATION> Departemen Pertanian </ORGANIZATION>. Bibit tanaman yang diberikan adalah petai, durian, rambutan, mangga, sukun, dan jati. Gambar 7 Contoh hasil tagging dokumen. Langkah kedua adalah pembacaan terhadap isi file dari korpus. Pembacaan hanya berlaku pada isi file yang berada pada tag <TITLE> dan <TEXT>. Kemudian pada isi file tersebut dilakukan parsing dengan pemisah kata yang tersimpan dalam variabel pemisahkata yang terdiri atas tanda baca [+\/%,.\"\];()\':=`?\[!@]. Tidak semua hasil parsing disimpan, karena hasil parsing diseleksi kembali oleh stopwords yang merupakan kata buangan atau daftar kata umum yang mempunyai fungsi tapi tidak mempunyai arti. File ini tersimpan dalam file stopwords.txt yang terdiri atas 733 kata yang dipisahkan dengan karakter enter, contoh kata tersebut antara lain acapkali, dalam, dan, dapat, sesaat, dari, dan lain-lain. Perhitungan tf-idf Langkah pertama melakukan perhitungan tfidf adalah mendapatkan informasi term frequency, dengan memanfaatkan hasil pada tahap pemrosesan dokumen. Term frequency diperoleh dari pasangan dokumen dan hasil parsing (token-token) dari masing-masing file disimpan dalam suatu array pada variabel tf. Variabel ini digunakan untuk menghitung nilai df, idf, dan tf-idf setiap kata. Langkah selanjutnya adalah mendapatkan document frequency (df). Document frequency adalah jumlah dokumen yang mengadung kata tertentu. Kemudian dari hasil tersebut dapat dihitung nilai invers document frequency (idf). Tujuan dari idf adalah untuk menentukan katakata (term) yang merupakan penciri dari suatu dokumen, oleh karena itu dalam penelitian ini hanya kata dengan nilai idf lebih besar sama dengan 0.3 yang disimpan. Hal ini bertujuan untuk menghapus kata-kata yang tidak termasuk dalam stopwords namun bukan penciri dari sebuah dokumen. Hasil idf disimpan dalam filegenerate/idf.txt dengan menggunakan tanda >> sebagai pemisah. Melalui idf dapat diperoleh informasi untuk menghitung nilai tf-idf yang merupakan perkalian antara nilai tf dan idf. Selanjutnya hasil tf-idf kata juga disimpan dalam satu file filegenerate/tfidf.txt dengan menggunakan tanda >> sebagai pemisah. Pembentukan Passages Tahap awal pembentukan passages adalah dilakukan pembentukan kalimat untuk setiap dokumen dengan menggunakan tanda pemisah antar kalimat yaitu [.?!]. Setiap passage dibentuk dari dua kalimat yang berurutan sehingga passage yang posisinya berdekatan saling overlap. Hasil pembentukan passages ini disimpan dalam satu file../filegenerate/passages.txt. Nilai yang disimpan adalah id passage, nama dokumen, dan passage. Masing-masing variabel dipisahkan dengan tanda >>. Pemrosesan Kueri Kueri berupa kalimat Tanya yang diawali dengan kata tanya dan diakhiri dengan tanda tanya (?). Kata tanya yang digunakan pada penelitian ini adalah SIAPA, KAPAN, DIMANA, dan BERAPA. Langkah pertama yang dilakukan pada pemrosesan kueri adalah parsing terhadap kalimat tanya dengan pemisah kata yang tersimpan dalam variabel pemisahkata yang terdiri atas tanda baca [+\/%,.\"\];()\':=`?\[!@]. Kueri di-parsing terlebih dahulu, kemudian dilakukan proses case folding yaitu pengubahan semua huruf menjadi huruf kecil. Selanjutnya dilakukan tokenisasi untuk mendapatkan katakata penyusun kueri berupa kata tanya dan keyword (kata-kata selain kata tanya). Hasil tokenisasi disimpan dalam array $query. Melalui $query, kita dapat melakukan 6
3 identifikasi dan menyimpan kata tanya dari kueri pertanyaan berupa array dengan index ke- 0 atau query[0]. Tujuannya adalah menentukan tipe jawaban yang akan dikembalikan oleh sistem. Tipe jawaban dicirikan dengan tag named entity yang terdapat pada dokumen. Tabel 1 menunjukkan daftar pasangan jenis kata tanya dan named entity yang menjadi acuan dari jawaban yang akan dikembalikan. Tabel 1 Daftar pasangan kata tanya dan named entity Kata Tanya Siapa Kapan Dimana Berapa Tag Entitas NAME, ORGANIZATION DATE, TIME LOCATION NUMBER, CURRENCY Perolehan dokumen teratas Dokumen yang digunakan untuk proses perolehan jawaban adalah 10 dokumen dengan bobot kesamaan cosine tertinggi. Dengan memanfaatkan nilai idf dan tf-idf dapat dilakukan perolehan norm dari kueri dan dokumen. Kueri dimasukkan secara manual kemudian dilakukan perhitungan terhadap norm query, tf-idf query, dan norm untuk setiap dokumen. Langkah selanjutnya adalah memasangkan nilai norm query dengan query setiap dokumen untuk menghasilkan nilai dotproduct dan cosine. Setelah diperoleh nilai cosine, dilakukan pengurutan nilai cosine. Dokumen yang diambil untuk memasuki langkah selanjutnya adalah 2 dan 10 dokumen dengan nilai cosine tertinggi. Selanjutnya dilakukan pemilihan passages pada kamus passage yang termasuk dalam 10 dokumen di atas. Hasil pemilihan passages ini disimpan dalam variabel $passagesdoctop untuk digunakan pada tahap perolehan top passages. Perolehan Top Passages Passages yang akan digunakan dalam proses pembobotan adalah passages yang mengandung tag named entity yang dibutuhkan, yang dalam pembahasan kali ini disebut arraytag. arraytag merupakan hasil dari identifikasi kata tanya. Misalnya Siapa yang mengacu pada PERSON- ORGANIZATION, dan Kapan yang mengacu pada DATE-TIME. Selanjutnya passage yang disimpan variabel $passagesdoctop kemudian disaring untuk diambil passages yang memiliki TAG sesuai kata tanya kueri pertanyaan. Selanjutnya dilakukan pembobotan passages menggunakan pembobotan heuristic dan pembobotan menggunakan metode rule-based. Pembobotan Heuristic Sesuai dengan tahapan yang terdapat dalam jurnal Ballesteros dan Xiaoyan-Li (2007) serta penelitian Cidhy (2009) yang digunakan sebagai acuan dalam penelitian ini, pembobotan passages terdiri atas : 1. Pembobotan passages berdasarkan hasil dari proses wordmatch sesuai threshold. Hasilnya disimpan dalam variabel count_match. 2. Pembobotan passages berdasarkan urutan nilai dari arraywordquestion (kata-kata selain kata tanya pada kueri) dalam passages. Hasilnya bernilai Boolean, disimpan dalam variabel Ord. 3. Pembobotan passages berdasarkan nilai dari arraywordquestion dalam passages. Hasilnya bernilai Boolean, disimpan dalam variabel Sm. 4. Pembobotan berdasarkan hasil dari proses wordmatch sesuai threshold berbanding ukuran passage (jumlah kata dalam satu passage). Setelah diperoleh nilai dari ke-empat variabel di atas kemudian dihitung skor heuristic setiap passage yaitu: heuristic_score = count_match + count_match/w + Sm*0.5 + Ord*0.5. Pembobotan Rule-based Mengacu pada rule yang terdapat dalam Riloff dan Thelen (2000) serta penelitian Sianturi (2008), yang digunakan sebagai acuan dalam penelitian ini pembobotan passages terdiri atas: 1. Fungsi WordMatch. WordMatch adalah nilai perbandingan antara kalimat kueri dengan kalimat pada dokumen. Algoritme WordMatch dilakukan dengan cara membandingkan token-token pada setiap passages dengan token-token pada kalimat kueri. Setiap token yang sama akan menambahkan nilai pada passages tersebut. Hasilnya disimpan dalam variabel WordMatch. 2. Algoritme Rule. Penelitian ini membuat algoritme rule dengan melakukan beberapa modifikasi yang digunakan dalam pembobotan passages. Algoritme rules yang 7
4 digunakan sebagai acuan dalam penelitian ini: 1. SIAPA Score(S) +=WordMatch (Q,S) If contains(q,human) && (S,Human) Score(S) += slam_dunk Algoritme rule untuk kueri pertanyaan dengan kata tanya SIAPA pada sistem yang dibangun pada penelitian ini berbeda dengan algoritme rule yang telah diimplementasikan oleh Sianturi (2008). Perbedaannya terletak pada penambahan rule dan pemberian nilai score. 2. KAPAN Score(S) +=WordMatch (Q,S) If contains(s, {saat, ketika, kala, semenjak, sejak, waktu, setelah, sebelum}) and contains(s,time) Score(S) += slam_dunk If contains(s,time) and contains(q,time) Score(S) += confident If contains(s, {saat, ketika, kala, semenjak, sejak, waktu, setelah, sebelum}) or contains(s,time) Score(S) += good_clue Algoritme rule untuk kueri pertanyaan dengan kata tanya KAPAN yang dibangun pada penelitian ini dengan algoritme rule yang telah diimplementasikan oleh Sianturi (2008) hanya berbeda pada pemberian nilai score. 3. DIMANA Score(S) +=WordMatch (Q,S) If contains(s, {dalam, dari, pada}) and contains(s,location) Score(S) += slam_dunk If contains(s,location) Score(S) += good_clue If contains(s, {dalam, dari, pada }) Score(S) += clue Algoritme rule yang digunakan sama dengan rule yang telah diimplementasikan oleh Sianturi (2008). 4. BERAPA Score(S) +=WordMatch (Q,S) If contains(q,number) and contains(s,number) Score(S) += slam_dunk If contains(s,number) Score(S) += confident Algoritme rule yang digunakan dibuat sendiri oleh penulis. Fungsi dan notasi yang digunakan dalam rules tersebut adalah sebagai berikut : 1. Notasi S = sentence (kalimat dokumen). 2. Notasi Q = query (kalimat kueri). 3. Fungsi contains adalah fungsi untuk memeriksa kalimat dokumen dan kalimat kueri pertanyaan, apakah mengandung kata yang telah ditentukan. 4. Fungsi WordMatch adalah fungsi untuk memeriksa kesamaan kata. 5. Fungsi score adalah fungsi pemberian nilai pada kalimat dokumen. Setelah diperoleh nilai dari Wordmatch dan rule dihitung skor setiap passage. Pembobotan Heuristic dan Rule-Based Pembobotan passages gabungan heuristic dan rule-based dilakukan berdasarkan nilai hasil dari proses pembobotan heuristic yang diperoleh dari pencocokan kata kueri dengan passages dan nilai pembobotan rule-based diperoleh dari rule yang digunakan. Formula untuk penggabungan kedua metode: $scoretotal = α*$heuristic+(1-α)* $rule-based dengan α=0.5. Ekstraksi Jawaban Tahap berikutnya adalah ekstraksi jawaban dari top passages yang diperoleh. Passage yang memiliki nilai tertinggi pada pembobotan passages menjadi top passage. Kata yang menjadi kandidat jawaban adalah kata yang memiliki entitas sesuai dengan kata tanya pada kueri pertanyaan. Yang perlu diperhatikan dalam perolehan entitas jawaban adalah top passage dapat terdiri atas satu atau lebih passage dan setiap passage dapat memiliki satu atau lebih kandidat jawaban. Jawaban akhir setiap passage diperoleh dengan cara menghitung jarak antara setiap kandidat jawaban pada setiap passage dengan masingmasing kata pada $arraywordmatch. $arraywordmatch merupakan array yang menampung kumpulan kata hasil pencocokan antara keyword dengan kata-kata pada passage. Kandidat jawaban yang memiliki jarak 8
5 terpendek dianggap sebagai jawaban yang paling tepat. Contoh hasil percobaan menggunakan kueri Siapa Muwardi P. Simatupang?, diperoleh 19 passages pada satu dokumen teratas. Setelah diambil passage yang mengandung tag <NAME> atau <ORGANIZATION> diperoleh 12 passage dari 19 passage. TopPassage yang diperoleh dengan heuristic, rule-based serta gabungan heuristic dan rule-based adalah sama. Nilai pembobotan untuk rule-based 5,078,heuristic 10 dan gabungan kedua metode adalah 7,53. Top passages yang diperoleh: Ini mungkin karena pendekatan pembangunan pertanian masih bersifat subsisten kata <ORGANIZATION> Ketua Umum Dewan Pimpinan Pusat Himpunan Alumni Institut Pertanian Bogor </ORGANIZATION> <NAME> Muwardi P Simatupang </NAME> pada acara diskusi 'Membangun Pertanian <LOCATION> Indonesia </LOCATION> Untuk Meningkatkan Pendapatan Petani dan Negara' di <LOCATION> Jakarta </LOCATION> <DATE> Kamis(22/4) </DATE> <NAME> Muwardi</NAME> mengatakan pendekatan subsisten merupakan pendekatan yang menitikberatkan pada peningkatan produksi Kandidat jawaban yang diperoleh hanya ada satu yaitu kata Ketua Umum Dewan Pimpinan Pusat Himpunan Alumni Institut Pertanian Bogor sehingga kata tersebut menjadi jawaban akhir. Hasil Percobaan dokumen yang ditemukembalikan dengan menggunakan tiga pembobotan passages yaitu heuristic (Cidhy 2009), rule-based serta gabungan heuristic dan rule-based dengan menggunakan 10 dokumen teratas. Jumlah koleksi dokumen yang digunakan sebanyak 106 dokumen dan sebanyak 40 kueri. Kueri tersebut diambil dari penelitian Cidhy (2009). Proses dokumentasi evaluasi kueri dicatat dalam bentuk tabel yang terdiri atas sumber dokumen, pertanyaan (kueri), perolehan passages, ketepatan dokumen, ketepatan jawaban, dan koreksi. Kemudian dilakukan pencocokan antara hasil pencarian yang diperoleh terhadap pasangan dokumen dan kueri pertanyaan yang seharusnya. Berdasarkan kesesuaian pasangan jawaban dan dokumen, penilaian dibedakan menjadi 4 jenis yaitu : right, wrong, unsupported, dan null. Persentase evaluasi hasil percobaan yang dilakukan oleh Cidhy dan penulis dapat dilihat pada Tabel 2. Berikut pembahasan untuk masing-masing percobaan : 1. Perbandingan Hasil Percobaan Untuk Kata Tanya SIAPA Berdasarkan 10 kueri pertanyaan yang diuji, diambil contoh kueri pertanyaan Siapa Bungaran Saringgih?. Hasil penelitian Cidhy (2009) dan penulis mengembalikan 10 dokumen teratas yang sama, namun mengembalikan top passage dan jawaban yang berbeda. Top passage yang diperoleh pada penelitian Cidhy (2009) : Hasil percobaan dilakukan dengan membandingkan hasil penelitian yang dilakukan oleh penulis dengan hasil penelitian Cidhy (2009). Perbandingan dilakukan dengan melihat perolehan top passage, ketepatan jawaban dan Tabel 2 Persentase perolehan jawaban oleh Cidhy (2009) dan penulis menggunakan 10 dokumen teratas Kata Penelitian Cidhy (2009) Penelitian Oleh Penulis Tanya Pembobotan Heuristic (%) Pembobotan Rule-Based (%) Heuristic dan Rule-Based (%) Siapa Berapa Dimana Kapan Keterangan 1: Right 2: Unsupported 3: Wrong 4: Null 9
6 Menurut <NAME> Bungaran Saragih </NAME>, hal tersebut wajar dengan keadaan setiap penyalur pupuk, dimana mereka memerlukan waktu dalam proses pengepakan kembali. Mengenai kelangkaan pupuk di <LOCATION> Cirebon </LOCATION> yang hanya terjadi di beberapa kecamatan, <NAME> Bungaran Saragih </NAME> menegaskan bahwa produsen pupuk setempat telah menutupi kelangkaan tersebut dengan pengiriman pupuk dari luar wilayah <LOCATION> Cirebon </LOCATION>. Top passage di atas diperoleh dari dokumen indosiar txt. Berdasarkan hasil top passage, tidak diperoleh kandidat jawaban sehingga jawaban yang dikembalikan null. Dengan menggunakan kueri pertanyaan yang sama, penelitian yang dilakukan menggunakan rule-based menghasilkan kriteria right yaitu Menteri Pertanian. Jawaban ini diperoleh setelah sistem mengembalikan top passage sebagai berikut : Dalam acara yang dihadiri <ORGANIZATION> Menteri Pertanian </ORGANIZATION> <NAME>Bungaran Saragih</NAME>, <ORGANIZATION> Menteri Kelautan dan Perikanan </ORGANIZATION> <NAME> Rokhmin Dahuri </NAME>, serta Menakertrans <NAME> Jacob Nuwa Wea </NAME>, <NAME> Presiden Megawati </NAME> menyampaikan rasa terima kasihnya kepada masyarakat <LOCATION> Gorontalo </LOCATION> yang telah bekerja keras menanam dan memproduksi jagung. Dalam pidato tanpa teks, <NAME>Mega</NAME> mengatakan, ''Saya melihat potensi menanam jagung di <LOCATION> Gorontalo</LOCATION> memang bisa digerakkan, bahkan bisa menjadi satu potensi yang sangat luar biasa. Top passage di atas diperoleh dari dokumen indosiar txt. Masih menggunakan kueri pertanyaan yang sama, penelitian yang dilakukan menggunakan gabungan heuristic dan rule-based juga menghasilkan kriteria null yaitu tidak mengembalikan jawaban. Hal ini disebabkan top passage yang dihasilkan sama dengan top passage pada penelitian Cidhy (2009). Jawaban yang diperoleh dengan rule-based lebih tepat dibanding metode yang lain. Hal ini disebabkan oleh top passage yang dihasilkan rule-based lebih relevan dibanding metode yang lain. Persentase ketepatan jawaban untuk kata tanya SIAPA pada penelitian Cidhy (2009) menghasilkan persentase kriteria right sebesar 70%, wrong 20% dan null 10%, sedangkan hasil penelitian penulis menghasilkan persentase kriteria right sebesar 80%, wrong 10% dan null 10% untuk rule-based dan kriteria right sebesar 70%, wrong 20% dan null 10% untuk gabungan heuristic dan rule-based. Daftar kueri pertanyaan dan evaluasi untuk kata tanya SIAPA dapat dilihat pada Lampiran Perbandingan Hasil Percobaan Untuk Kata Tanya KAPAN Berdasarkan 10 kueri pertanyaan yang diuji, diambil contoh kueri pertanyaan Kapan dilakukan penelitian di rumah kaca Balitro?. Hasil penelitian Cidhy (2009) dan penulis mengembalikan 10 dokumen teratas, top passage dan jawaban yang dihasilkan pada ketiga percobaan adalah sama. Jawaban yang diperoleh adalah 1998/1999. Berikut top passage yang bersumber dari dokumen balaipenelitian txt: Penelitian ini bertujuan untuk menguji potensi agensi hayati dalam menekan perkembangan penyakit layu bakteri jahe. Untuk itu telah dilakukan penelitian di <LOCATION>rumah kaca Balittro Bogor </LOCATION> pada tahun <DATE>1997/1998 </DATE> dan di lanjutkan penelitian di lapang di <LOCATION> IP Sukamulya (Sukabumi)</LOCATION> pada tahun <DATE>1998/1999</DATE>. Persentase ketepatan jawaban untuk kata tanya KAPAN merupakan yang paling tinggi dibanding kata tanya yang lain. Baik penelitian Cidhy maupun yang dilakukan penulis, menghasilkan persentase kriteria right sebesar 100%. Hal ini disebabkan kedua penelitian menghasilkan top passage yang sama dengan tepat sehingga diperoleh jawaban yang sama. Daftar kueri pertanyaan dan evaluasi untuk kata tanya KAPAN dapat dilihat pada Lampiran Perbandingan Hasil Percobaan Untuk Kata Tanya DIMANA Berdasarkan 10 kueri pertanyaan yang diuji, diambil contoh kueri pertanyaan Dimana terjadi kekeringan dengan jumlah terbanyak?. Hasil penelitian Cidhy (2009) dan penulis mengembalikan 10 dokumen teratas yang sama, namun mengembalikan top passage dan jawaban yang berbeda. Top passage yang diperoleh pada penelitian Cidhy (2009) terdapat 10
7 pada dokumen mediaindonesia txt. Adapun top passages yang dihasilkan: Mereka yang terkena dampak kekeringan khususnya pada kebutuhan rumah tangga itu terdapat di wilayah <LOCATION> Kabupaten Gunungkidul</LOCATION>, <LOCATION> Sleman, dan Kulonprogo </LOCATION>. Jumlah yang terkena kekeringan terbanyak di wilayah <LOCATION> Kabupaten Gunungkidul</LOCATION> yang mencapai lebih dari <NUMBER> 100 ribu jiwa </NUMBER>. Berdasarkan hasil top passage, diperoleh kriteria right dengan kandidat jawaban Sleman, dan Kulonprogo. Dengan menggunakan kueri pertanyaan yang sama, penelitian yang dilakukan menggunakan rule-based menghasilkan kriteria wrong yaitu Kabupaten Rembang. Jawaban ini diperoleh setelah sistem mengembalikan top passage yang kurang tepat sebagai berikut : Provinsi <LOCATION> Jateng </LOCATION> menghadapi kekeringan tahun ini telah memprioritaskan pembuatan embung-embung air agar dapat mengairi lahan pertanian yang dilanda kekeringan. "Kita tengah mempercepat pembuatan embung di <LOCATION>Kabupaten Rembang</LOCATION> pada tahun <DATE>2005</DATE>, agar lahan pertanian di <LOCATION>Kabupaten Rembang</LOCATION> yang sering dilanda kekeringan dapat terairi," katanya. Masih menggunakan kueri pertanyaan yang sama, penelitian yang dilakukan menggunakan gabungan heuristic dan rule-based juga menghasilkan kriteria wrong yaitu Kabupaten Rembang. Hal ini disebabkan top passage yang dihasilkan sama dengan top passage pada rulebased. Persentase ketepatan jawaban untuk kata tanya DIMANA pada penelitian Cidhy (2009) lebih baik dari metode yang lain, karena menghasilkan persentase kriteria right sebesar 90% dan wrong 10%, sedangkan hasil penelitian penulis dengan rule-based dan untuk gabungan heuristic dan rule-based menghasilkan persentase yang sama dengan kriteria right sebesar 80% dan wrong 20%. Daftar kueri pertanyaan dan evaluasi untuk kata tanya DIMANA dapat dilihat pada Lampiran Perbandingan Hasil Percobaan Untuk Kata Tanya BERAPA Berdasarkan 10 kueri pertanyaan yang diuji, diambil contoh kueri pertanyaan Berapa luas wilayah yang ditanami tanaman padi di Kalimantan Timur?. Hasil penelitian Cidhy (2009) dan penulis mengembalikan 10 dokumen teratas yang sama, namun mengembalikan top passage dan jawaban yang berbeda. Top passage yang diperoleh pada penelitian Cidhy (2009) maupun gabungan heuristic dan rule-based mengembalikan kriteria wrong dengan jawaban 6 kecamatan. Adapun top passage yang diperoleh dari dokumen indosiar txt, yaitu : Dari catatan <ORGANIZATION>Dinas Pertanian dan Tanaman Pangan Provinsi Jambi</ORGANIZATION>, rusaknya tanaman pertanian akibat banjir yang terjadi pada tanaman padi, cabe, kacang tanah, dan jeruk. Hal itu terjadi di <NUMBER>6 kecamatan</number> yang ada di <LOCATION>Kabupaten Kerinci</LOCATION>, seperti tanaman padi seluas <NUMBER>11,87 hektar</number> tergenang air, dan sebanyak <NUMBER>148 hektar</number> mengalami puso. Pada kueri pertanyaan yang sama, penelitian yang dilakukan menggunakan rule-based mengembalikan jawaban yang benar yaitu 11,5 juta dengan top passage sebagai berikut : Semua pelaku usaha perbenihan masih mengonsentrasikan pemasarannya di <LOCATION> Pulau Jawa </LOCATION> yang dinilai sudah maju dalam usaha tanaman pangan, sedangkan di luar <LOCATION> Pulau Jawa </LOCATION> belum banyak disentuh atau dimanfaatkan produsen benih sehingga produktivitas padi yang dihasilkannya pun masih rendah. <NAME> Susena </NAME> mengatakan, peluang pemasaran benih padi unggul saat ini masih terbuka lebar karena dari areal tanaman padi sekira <NUMBER>11,5 juta</number> ha, hanya sekira <NUMBER> 4 juta </NUMBER> ha yang menggunakan benih padi unggul. Jawaban yang diperoleh dengan rule-based lebih tepat dibanding metode yang lain. Hal ini disebabkan oleh top passage yang dihasilkan rule-based lebih relevan dibanding metode yang lain. 11
8 Persentase ketepatan jawaban untuk kata tanya BERAPA merupakan yang paling rendah dibanding kata tanya yang lain. Dengan metode rule-based menghasilkan persentase kriteria right sebesar 50%, unsupported 10%, dan wrong 40%, sedangkan penelitian Cidhy (2009) maupun metode gabungan menghasilkan persentase kriteria right sebesar 40%, unsupported 10%, dan wrong 50%. Hal ini disebabkan pada panamaan entitas (Name- Entity-Tagger) untuk Kata Tanya BERAPA masih dalam ruang lingkup yang kecil, yaitu hanya menggunakan tangging <NUMBER>, <CURRENCY>, dan <PERCENT> sedangkan penulisan teks dan informasi untuk jawaban BERAPA seringkali disajikan dengan cara lebih variatif. Seperti adanya penulisan dalam bentuk rincian untuk jumlah, luas dan lain-lain. Daftar kueri pertanyaan dan evaluasi untuk kata tanya BERAPA dapat dilihat pada Lampiran Perbandingan Hasil Percobaan untuk keseluruhan Kata Tanya Percobaan dilakukan dengan membandingkan ketepatan passage dan jawaban yang ditemukembalikan pada keseluruhan Kata Tanya menggunakan tiga metode pembobotan passages. Perbandingan Hasil Percobaan menggunakan 10 Dokumen Teratas Persentase ketepatan jawaban yang ditemukembalikan dari hasil percobaan dapat dilihat pada Gambar Heuristic RuleBased Rule Based dan Heuristic right unsupported wrong null Gambar 8 Grafik hasil percobaa keseluruhan kata tanya menggunakan 10 dokumen teratas. Berdasarkan Gambar 8 dapat dilihat bahwa metode pembobotan rule-based menghasilkan persentase kriteria right yang tinggi dibanding metode yang lain. Persentase untuk kriteria right untuk rule-based sebesar 77,5%, heuristic persentasenya lebih rendah daripada rule-based sebesar 75%, dan untuk penggabungan kedua metode hasil persentasenya lebih kecil dari masing-masing metode sebesar persentase 72,5%. Perbandingan Hasil Percobaan menggunakan 2 Dokumen Teratas Persentase ketepatan jawaban yang ditemukembalikan dari hasil percobaan dapat dilihat pada Gambar Heuristic RuleBased right unsupported wrong null Rule Based dan Heuristic Gambar 9 Grafik hasil percobaan keseluruhan kata tanya menggunakan 2 dokumen teratas. Berdasarkan Gambar 9 dapat dilihat bahwa metode pembobotan heuristic serta gabungan heuristic dan rule-based menghasilkan persentase kriteria right yang tinggi dibanding metode rule-based. Persentase heuristic dan penggabungan kedua metode hasil persentasenya sebesar 75% sedangkan persentase untuk kriteria right untuk rule-based sebesar 60%. Dengan menggunakan keseluruhan Kata Tanya yang diambil dari 10 dokumen teratas, metode rule-based lebih banyak mengembalikan top passages dan jawaban yang tepat. Diambil dari 2 dokumen teratas, metode heuristic serta gabungan heuristic dan rulebased yang lebih banyak mengembalikan top passages dan jawaban yang tepat. Dengan demikian, dilihat untuk masing-masing pembobotan dapat mengembalikan jawaban yang tepat namun tergantung pada banyaknya dokumen yang digunakan. Untuk pembobotan dengan metode rule-based berpengaruh pada banyaknya dokumen namun tergantung pada rule yang digunakan dalam menemukembalikan jawaban berdasarkan tipe pertanyaan kueri, sedangkan pembobotan heuristic berpengaruh pada banyaknya dokumen dan keterkaitan informasi dan urutan susunan kata pada kueri dengan passages. 12
PEMILIHAN DEPARTEMEN FAKULTAS
PEMILIHAN PASSAGES DALAM QUESTION ANSWEING SYSTEM UNTUK DOKUMEN BEBAHASA INDONESIA SUCI AMELIA SANU DEPATEMEN ILMU KOMPUTE FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PETANIANN BOGO BOGO 2011
Lebih terperinciHASIL DAN PEMBAHASAN. Menggunakan nilai Mean Reciprocal Rank (MRR) untuk melihat kinerja sistem dalam mengambil passage yang relevan.
4 dan Thelen (2000) karena disesuaikan terhadap kaidah bahasa Indonesia. Rule yang dibuat Sianturi (2008) dan digunakan oleh Sanur (2011) memiliki notasi S sebagai sentence atau passage serta Q sebagai
Lebih terperinciHASIL DAN PEMBAHASAN. Tabel 1 Struktur tabel tb_dokumen
6 Lingkungan Implementasi Lingkungan implementasi yang digunakan adalah sebagai berikut : Perangkat lunak : Sistem operasi Windows XP Professional Microsoft Visual Basic.NET 2005 SQL Srever 2000 Perangkat
Lebih terperinciGambar 4 Ilustrasi bagian dokumen yang digunakan untuk pemrosesan.
6 pada akhir, seperti newsipb11111-2.txt yang berarti data berasal dari berita IPB dan diterbitkan pada tanggal 11 bulan Januari tahun 211 urutan ke-2. Dokumen memiliki ukuran terkecil 1 KB dan terbesar
Lebih terperinciANALISIS PERTANYAAN BERBAHASA INDONESIA PADA QUESTION ANSWERING SYSTEM (QAS) KARTINA
ANALISIS PERTANYAAN BERBAHASA INDONESIA PADA QUESTION ANSWERING SYSTEM (QAS) KARTINA DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2010 1 ANALISIS
Lebih terperinciLingkungan Pengembangan HASIL DAN PEMBAHASAN Koleksi Dokumen Pengujian Pengolahan Query
5 Lingkungan Pengembangan Perangkat lunak yang digunakan dalam penelitian ialah: Sistem Operasi Windows 7. Sphinx Search. XAMPP versi 1.7.3. Named Entity Tagger bahasa Indonesia. Perangkat keras yang digunakan
Lebih terperinciIdentifikasi Tipe Pertanyaan Asumsi Pengelompokan Tipe Jawaban Lingkungan Implementasi Temu Kembali Jawaban HASIL DAN PEMBAHASAN
5 Identifikasi Tipe Pertanyaan Ada beberapa tipe pertanyaan yang digunakan dalam Bahasa Indonesia, yaitu: 1 APA, yang menanyakan suatu pengertian, tujuan, manfaat, kata benda, baik abstrak maupun konkret
Lebih terperincibeberapa tag-tag lain yang lebih spesifik di dalamnya.
metode mana yang lebih baik digunakan untuk memilih istilah ekspansi yang akan ditambahkan pada kueri awal. Lingkungan Implementasi Perangkat lunak yang digunakan untuk penelitian yaitu:. Windows Vista
Lebih terperinciHASIL DAN PEMBAHASAN. Tabel 1 Perhitungan recall-precision. ) adalah peluang kata i dalam dokumen setelah q j. p( i q j
3 p( i j ) adalah peluang kata i dalam dokumen setelah j diketahui (Adisantoso 1996). Hitung Relevansi Kata Pada tahap ini, dilakukan proses perhitungan setiap kata yang dinilai relevan dan tidak relevan
Lebih terperinciHASIL DAN PEMBAHASAN. diformulasikan digunakan dalam proses temu kembali selanjutnya.
beberapa kata. Menurut Baeza-Yates dan Ribeiro-Neto (1999), tidak semua kata dapat digunakan untuk merepresentasikan sebuah dokumen secara signifikan Pemrosesan teks yang dilakukan dalam penelitian ini
Lebih terperinciQUESTION ANSWERING SYSTEM MENGGUNAKAN N-GRAM TERM WEIGHT MODEL DEBBY PUSPA BAHRI
QUESTION ANSWEING SYSTEM MENGGUNAKAN N-GAM TEM WEIGHT MODEL DEBBY PUSPA BAHI DEPATEMEN ILMU KOMPUTE FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PETANIAN BOGO BOGO 2013 QUESTION ANSWEING SYSTEM
Lebih terperinciHASIL DAN PEMBAHASAN. sim(, )=
4 untuk dianggap relevan dengan istilah-istilah kueri tertentu dibandingkan dokumendokumen yang lebih pendek. Sehinggavektor dokumen perlu dinormalisasi. Ukuran kesamaan antara kueri Q dan dokumen D i
Lebih terperinciBAB IV METODOLOGI PENELITIAN. Penelitian ini dilakukan dengan melalui empat tahap utama, dimana
BAB IV METODOLOGI PENELITIAN Penelitian ini dilakukan dengan melalui empat tahap utama, dimana tahap pertama adalah proses pengumpulan dokumen teks yang akan digunakan data training dan data testing. Kemudian
Lebih terperinciIMPLEMENTASI QUESTION ANSWERING SYSTEM PADA DOKUMEN BAHASA INDONESIA MENGGUNAKAN METODE N-GRAM FANDI RAHMAWAN
IMPLEMENTASI QUESTION ANSWERING SYSTEM PADA DOKUMEN BAHASA INDONESIA MENGGUNAKAN METODE N-GRAM FANDI RAHMAWAN DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR
Lebih terperinciBAB III METODOLOGI PENELITIAN
BAB III METODOLOGI PENELITIAN berikut. Tahapan penelitian yang dilakukan dalam penelitian adalah sebagai Indentifikasi Masalah Merumuskan Masalah Study Literatur Perancangan : 1. Flat Teks 2. Database
Lebih terperinciBAB 1 PENDAHULUAN UKDW
BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah Perkembangan ilmu pengetahuan yang pesat dewasa ini telah mendorong permintaan akan kebutuhan informasi ilmu pengetahuan itu sendiri. Cara pemenuhan kebutuhan
Lebih terperinciTabel 3 Situs berita dan jumlah RSS yang diunduh Situs Berita
6 besar dibandingkan dengan istilah yang berada pada description. Lingkup Implemental Lingkungan implementasi yang akan digunakan adalah sebagai berikut: Perangkat Lunak : Sistem operasi Windows XP Professional
Lebih terperinciIMPLEMENTASI QUESTION ANSWERING SYSTEM DENGAN METODE RULE-BASED PADA BANYAK DOKUMEN BERBAHASA INDONESIA ROMAIDA DOLAROSA SIANTURI
IMPLEMENTASI QUESTION ANSWERING SYSTEM DENGAN METODE RULE-BASED PADA BANYAK DOKUMEN BERBAHASA INDONESIA ROMAIDA DOLAROSA SIANTURI DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
Lebih terperinciJULIO ADISANTOSO - ILKOM IPB 1
KOM341 Temu Kembali Informasi KULIAH #3 Inverted Index Inverted index construction Kumpulan dokumen Token Modifikasi token Tokenizer Linguistic modules perkebunan, pertanian, dan kehutanan perkebunan pertanian
Lebih terperinciBAB III METODOLOGI PENELITIAN
BAB III METODOLOGI PENELITIAN Metodologi penelitian merupakan sistematika tahap-tahap yang dilaksanakan dalam pembuatan tugas akhir. Adapun tahapan yang dilalui dalam pelaksanaan penelitian ini adalah
Lebih terperinciBAB I PENDAHULUAN Latar Belakang
BAB I PENDAHULUAN 1.1. Latar Belakang Semakin canggihnya teknologi di bidang komputasi dan telekomunikasi pada masa kini, membuat informasi dapat dengan mudah didapatkan oleh banyak orang. Kemudahan ini
Lebih terperinciLampiran 1 Antarmuka implementasi
LAMPIRAN 16 Lampiran 1 Antarmuka implementasi 17 17 Lampiran 2 Contoh dokumen XML dalam koleksi pengujian indosiar050704-001 SumKa Presiden Megawati Lakukan
Lebih terperinciPENDAHULUAN. Latar belakang
Latar belakang PENDAHULUAN Indonesia merupakan negara megabiodiversity yang memiliki kekayaan tumbuhan obat. Indonesia memiliki lebih dari 38.000 spesies tanaman (Bappenas 2003). Sampai tahun 2001 Laboratorium
Lebih terperinciBAB II LANDASAN TEORI
BAB II LANDASAN TEORI 2.1. Twitter Twiter adalah sebuah layanan media sosial yang memungkinkan penggunanya untuk menulis maksimal 140 karakter, yang dikenal sebagai Tweet. Twitter didirikan oleh Jack Dorsey
Lebih terperinciSistem Rekomendasi Hasil Pencarian Artikel Menggunakan Metode Jaccard s Coefficient
Jurnal Transistor Elektro dan Informatika (TRANSISTOR EI) Vol. 2, No. 1 1 Sistem Rekomendasi Hasil Pencarian Artikel Menggunakan Metode Jaccard s Coefficient Muhammad Fadelillah, Imam Much Ibnu Subroto,
Lebih terperinciEkspansi Kueri pada Sistem Temu Kembali Informasi Berbahasa Indonesia Menggunakan Analisis Konteks Lokal
Tersedia secara online di: http://journal.ipb.ac.id/index.php.jika Volume 1 Nomor 1 halaman 22-29 ISSN: 2089-6026 Ekspansi Kueri pada Sistem Temu Kembali Informasi Berbahasa Indonesia Menggunakan Analisis
Lebih terperinciBAB 3 METODE PENELITIAN
19 BAB 3 METODE PENELITIAN 3.1. Tahap Pembentukan Knowledge Graph Sekumpulan kata-kata dalam suatu dokumen tidak akan terepresentasi sepenuhnya ke dalam graf. Bagian inti dokumen yang akan menyebabkan
Lebih terperinciBAB IV ANALISA DAN PERANCANGAN
BAB IV ANALISA DAN PERANCANGAN Pada bab ini akan dibahas mengenai analisa proses information retrieval dengan menggunakan cosine similarity dan analisa proses rekomendasi buku dengan menggunakan jaccard
Lebih terperinciSISTEM TEMU KEMBALI INFORMASI
SISTEM TEMU KEMBALI INFORMASI ROCCHIO CLASSIFICATION Badrus Zaman, S.Si., M.Kom Doc. 1..???? Doc. 2..**** Doc. 3. #### Doc. 4..@@@ 081211633014 Emilia Fitria Fahma S1 Sistem Informasi Pengertian Teknik
Lebih terperinciText & Web Mining - Budi Susanto - TI UKDW 1 VECTOR SPACE MODEL. Budi Susanto
Text & Web Mining - Budi Susanto - TI UKDW 1 VECTOR SPACE MODEL Budi Susanto Text & Web Mining - Budi Susanto - TI UKDW 2 Parametric dan zone Index Sebuah dokumen, selain tersusun dari deretan term, juga
Lebih terperinciINFORMATION RETRIEVAL SYSTEM PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS DENGAN METODE VECTOR SPACE MODEL DAN ALGORITMA ECS STEMMER
INFORMATION RETRIEVAL SSTEM PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS DENGAN METODE VECTOR SPACE MODEL DAN ALGORITMA ECS STEMMER Muhammad asirzain 1), Suswati 2) 1,2 Teknik Informatika, Fakultas Teknik,
Lebih terperinciBAB III ANALISIS DAN PERANCANGAN
BAB III ANALISIS DAN PERANCANGAN Dalam bab ini akan dijabarkan analisa, yang meliputi analisa masalah dan gambaran umum masalah yang sedang dibahas, perancangan sistem serta desain antarmuka (user interface)
Lebih terperinciHASIL DAN PEMBAHASAN. 4. Menghitung fungsi objektif pada iterasi ke-t, 5. Meng-update derajat keanggotaan. 6. Mengecek kondisi berhenti:
2. v kj merupakan centroid term ke-j terhadap cluster ke-k 3. μ ik merupakan derajat keanggotaan dokumen ke-i terhadap cluster ke-k 4. i adalah indeks dokumen 5. j adalah indeks term 6. k adalah indeks
Lebih terperinciContoh Perhitungan Kemiripan Cosinus pada Model Ruang Vektor
Contoh Perhitungan Kemiripan Cosinus pada Model Ruang Vektor Persoalan 1: Ada 4 dokumen (D1 s.d D4): D1: dolar naik harga naik penghasilan turun D2: harga naik harusnya gaji juga naik D3: Premium tidak
Lebih terperinciBAB V EKSPERIMEN TEXT CLASSIFICATION
BAB V EKSPERIMEN TEXT CLASSIFICATION Pada bab ini akan dibahas eksperimen untuk membandingkan akurasi hasil text classification dengan menggunakan algoritma Naïve Bayes dan SVM dengan berbagai pendekatan
Lebih terperinciVECTOR SPACE MODEL. Tujuan 4/2/13. Budi Susanto
Text & Web Mining - Budi Susanto - TI UKDW 1 VECTOR SPACE MODEL Budi Susanto Text & Web Mining - Budi Susanto - TI UKDW 2 Tujuan Memahami model index berdasar pada bobot untuk binary retrieval model Memahami
Lebih terperinciCROSS LANGUAGE QUESTION ANSWERING SYSTEM MENGGUNAKAN PEMBOBOTAN HEURISTIC DAN MULTIDOKUMEN FADILA ANDRE MULYANTO
COSS LANGUAGE QUESTION ANSWEING SYSTEM MENGGUNAKAN PEMBOBOTAN HEUISTIC DAN MULTIDOKUMEN FADILA ANDE MULYANTO DEPATEMEN ILMU KOMPUTE FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PETANIAN BOGO
Lebih terperinci(bytes) Ukuran rata-rata dokumen Ukuran dokumen keseluruhan Ukuran dokumen terbesar Ukuran dokumen terkecil 412
Pengujian dan Evaluasi Sistem Pengujian dilakukan sebanyak 60 kali menggunakan dua jenis kueri (kueri biasa dan kueri khusus) dan dua jenis kesalahan (kesalahan konteks dan kesalahan Damerau). Evaluasi
Lebih terperinciPembersihan Data Lingkungan Pengembangan Sistem HASIL DAN PEMBAHASAN
3 Nilai fuzzy support bagi frequent sequence dengan ukuran k diperoleh dengan mengkombinasikan frequent sequence dengan ukuran k-1. Proses ini akan berhenti jika tidak memungkinkan lagi untuk membangkitkan
Lebih terperinciBAB II LANDASAN TEORI
BAB II LANDASAN TEORI 2.1. Tinjauan Penelitian Terdahulu Penelitian sebelumnya dilakukan oleh Rahmatulloh (2016). Penelitian yang berjudul Rancang Bangun Sistem Informasi Pencarian Benda Hilang Lost &
Lebih terperinciBAB III METODELOGI PENELITIAN
BAB III METODELOGI PENELITIAN 3.1 Metode Penelitian Metode penelitian yang digunakan yaitu metode eksperimental dimana metode ini bekerja dengan memanipulasi dan melakukan kontrol pada objek penelitian
Lebih terperinciHASIL DAN PEMBAHASAN
10 HASIL DAN PEMBAHASAN Pengumpulan Dokumen Tahapan awal yang dilakukan dalam penelitian adalah mengolah dokumen XML yang akan menjadi korpus. Terdapat 21578 dokumen berita yang terdiri atas 135 topik.
Lebih terperinciBAB I PENDAHULUAN 1.1 Latar Belakang
BAB I PENDAHULUAN 1.1 Latar Belakang Buku merupakan media informasi yang memiliki peran penting dalam perkembangan ilmu pengetahuan, karena dengan buku kita dapat memperoleh banyak informasi, pengetahuan
Lebih terperinciBAB III METODOLOGI PENELITIAN
BAB III METODOLOGI PENELITIAN Pada penelitian ini ada beberapa tahapan penelitian yang akan dilakukan seperti terlihat pada gambar 3.1 berikut : Mulai Identifikasi Masalah Pengumpulan Data Analisa Aplikasi
Lebih terperinciPSEUDO-RELEVANCE FEEDBACK PADA TEMU-KEMBALI MENGGUNAKAN SEGMENTASI DOKUMEN ELENUR DWI ANBIANA
PSEUDO-RELEVANCE FEEDBACK PADA TEMU-KEMBALI MENGGUNAKAN SEGMENTASI DOKUMEN ELENUR DWI ANBIANA DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2009
Lebih terperinciSISTEM PENCARIAN PASAL-PASAL PADA KITAB UNDANG-UNDANG HUKUM PIDANA DENGAN MENGGUNAKAN METODE TF-IDF. Abstrak
SISTEM PENCARIAN PASAL-PASAL PADA KITAB UNDANG-UNDANG HUKUM PIDANA DENGAN MENGGUNAKAN METODE TF-IDF Muh. Alfarisi Ali¹, Moh. Hidayat Koniyo², Abd. Aziz Bouty³ ¹Mahasiswa Teknik Informatika Universitas
Lebih terperinciQUERY-SENSITIVE SIMILARITY MEASURE DALAM TEMU KEMBALI DOKUMEN BERBAHASA INDONESIA ABSTRAK
QUERY-SENSITIVE SIMILARITY MEASURE DALAM TEMU KEMBALI DOKUMEN BERBAHASA INDONESIA Sri Nurdiati 1, Julio Adisantoso 1, Adam Salnor Akbar 2 1 Staf Departemen Ilmu Komputer, Fakultas Matematika dan IPA, Institut
Lebih terperinciBAB 3 LANDASAN TEORI
BAB 3 LANDASAN TEORI 3.1 Twitter API Application Programming Interface (API) merupakan fungsi-fungsi/perintah-perintah untuk menggantikan bahasa yang digunakan dalam system calls dengan bahasa yang lebih
Lebih terperinciBAB III METODOLOGI PENELITIAN
BAB III METODOLOGI PENELITIAN Pada penelitian tugas akhir ini ada beberapa tahapan penelitian yang akan dilakukan seperti yang terlihat pada gambar 3.1: Identifikasi Masalah Rumusan Masalah Studi Pustaka
Lebih terperinciBAB II DASAR TEORI Crawler Definisi Focused Crawler dengan Algoritma Genetik [2]
BAB II DASAR TEORI Pada bab ini dibahas teori mengenai focused crawler dengan algoritma genetik, text mining, vector space model, dan generalized vector space model. 2.1. Focused Crawler 2.1.1. Definisi
Lebih terperinciBAB III METODOLOGI PENELITIAN
BAB III METODOLOGI PENELITIAN berikut. Tahapan penelitian yang dilakukan dalam penelitian adalah sebagai Identifikasi Masalah Merumuskan Masalah Study Literatur Perancangan Struktur Menu Interface Analisa
Lebih terperinciBAB I PENDAHULUAN. Informasi yang terdapat dalam Laporan Hasil Pemeriksaan (LHP) BPK RI
BAB I PENDAHULUAN I.1 Latar Belakang Informasi yang terdapat dalam Laporan Hasil Pemeriksaan (LHP) BPK RI saat ini belum di-manaje dengan baik secara digital. Informasi yang terdapat dalam LHP yang terdapat
Lebih terperinciBAB 1 PENDAHULUAN Latar Belakang
BAB 1 PENDAHULUAN 1.1. Latar Belakang Kebutuhan informasi dan perkembangan teknologi yang semakin tinggi meningkatkan jumlah artikel atau berita yang terpublikasikan, terutama pada media online. Untuk
Lebih terperinciPENDAHULUAN. Latar belakang
Latar belakang PEDAHULUA Kata kunci atau yang biasa disebut dengan query pada pencarian informasi dari sebuah search engine digunakan sebagai kriteria pencarian yang tepat dan sesuai dengan kebutuhan.
Lebih terperincicommit to user 5 BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori Text mining
BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori 2.1.1 Text mining Text mining adalah proses menemukan hal baru, yang sebelumnya tidak diketahui, mengenai informasi yang berpotensi untuk diambil manfaatnya dari
Lebih terperinciPEMBOBOTAN DALAM PROSES PENGINDEKSAN DOKUMEN BAHASA INDONESIA MENGGUNAKAN FRAMEWORK INDRI HENDREX HERDI
PEMBOBOTAN DALAM PROSES PENGINDEKSAN DOKUMEN BAHASA INDONESIA MENGGUNAKAN FRAMEWORK INDRI HENDREX HERDI DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR
Lebih terperinciBAB 1 PENDAHULUAN. 1.1 Latar Belakang
BAB 1 PENDAHULUAN Pada bab ini dipaparkan latar belakang penelitian, rumusan masalah, tujuan penelitian, ruang lingkup penelitian, tahapan penelitian, dan sistematika penulisan laporan. 1.1 Latar Belakang
Lebih terperinciPENERAPAN SISTEM TEMU KEMBALI INFORMASI PADA KUMPULAN DOKUMEN SKRIPSI
18 PENERAPAN SISTEM TEMU KEMBALI INFORMASI PADA KUMPULAN DOKUMEN SKRIPSI Karter D. Putung, Arie Lumenta, Agustinus Jacobus Teknik Informatika Universitas Sam Ratulangi Manado, Indonesia. karterputung@gmail.com,
Lebih terperinciPemanfaatan Aljabar Vektor Pada Mesin Pencari
Pemanfaatan Aljabar Vektor Pada Mesin Pencari Anwar Ramadha 13514013 Program Studi Informatika Sekolah Teknik Elektro dan Informatika Institut Teknologi Bandung, Jl. Ganesha 10 Bandung 40132, Indonesia
Lebih terperinciBAB IV ANALISA DAN PERANCANGAN
BAB IV ANALISA DAN PERANCANGAN 4.1 Analisa Sistem Lama Pada sistem peringkasan dokumen sebelumnya sistem sudah bisa dijalankan namun masih adanya kekurangan pada sistem tersebut yaitu penginputan dokumen
Lebih terperinciXML RETRIEVAL UNTUK DOKUMEN BAHASA INDONESIA MARYAM NOVIYANA BAHI
XML RETRIEVAL UNTUK DOKUMEN BAHASA INDONESIA MARYAM NOVIYANA BAHI DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2012 XML RETRIEVAL UNTUK DOKUMEN
Lebih terperinciBAB I PENDAHULUAN. 1.1 Latar Belakang
BAB I PENDAHULUAN 1.1 Latar Belakang Dalam kehidupan sehari-hari, seorang individu memiliki berbagai jenis kebutuhan dimana kebutuhan tersebut tidaklah mutlak sama antar setiap individu. Tetapi ada satu
Lebih terperinciINDEXING AND RETRIEVAL ENGINE UNTUK DOKUMEN BERBAHASA INDONESIA DENGAN MENGGUNAKAN INVERTED INDEX
INDEXING AND RETRIEVAL ENGINE UNTUK DOKUMEN BERBAHASA INDONESIA DENGAN MENGGUNAKAN INVERTED INDEX Wahyu Hidayat 1 1 Departemen Teknologi Informasi, Fakultas Ilmu Terapan, Telkom University 1 wahyuhidayat@telkomuniversity.ac.id
Lebih terperinciBAB II TINJAUAN PUSTAKA
BAB II TINJAUAN PUSTAKA 2.1 Sistem Rekomendasi Sistem rekomendasi adalah sebuah sistem yang dibangun untuk mengusulkan informasi dan menyediakan fasilitas yang diinginkan pengguna dalam membuat suatu keputusan
Lebih terperinciPERSETUJUAI\ ARTIKEL ILMIAH. Mashar Eka Putra Dai. S1-Sistem Informasi. Teknik Informatika. Teknik. Penerapan Metode Document Frequency
PERSETUJUAI\ ARTIKEL ILMIAH Artikel ilmiah hasil penelitian mahasiswa: Nama NIM Mashar Eka Putra Dai 53 1409036 Program Studi S1-Sistem Informasi Jurusan Teknik Informatika Fakultas Teknik Judul Karya
Lebih terperinciTEMU-KEMBALI MODEL EXTENDED BOOLEAN MENGGUNAKAN P-NORM MODEL DAN BELIEF REVISION DEVI DIAN PRAMANA PUTRA
TEMU-KEMBALI MODEL EXTENDED BOOLEAN MENGGUNAKAN P-NORM MODEL DAN BELIEF REVISION DEVI DIAN PRAMANA PUTRA DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR
Lebih terperinciTEMU KEMBALI INFORMASI
JULIO ADISANTOSO Departemen Ilmu Komputer IPB Pertemuan 3 MODEL IR Konsep IR Model IR Konsep Boolean Model Pemodelan IR Model IR Konsep Boolean Model Model IR didefinisikan sebagai empat komponen, yaitu:
Lebih terperinciPENCARIAN FULL TEXT PADA KOLEKSI SKRIPSI FAKULTAS TEKNIK UHAMKA MENGGUNAKAN METODE VECTOR SPACEMODEL
Vol. 2, 2017 PENCARIAN FULL TEXT PADA KOLEKSI SKRIPSI FAKULTAS TEKNIK UHAMKA MENGGUNAKAN METODE VECTOR SPACEMODEL Miftahul Ari Kusuma 1*, Mia Kamayani 2, Arry Avorizano 3 Program Studi Teknik Informatika,
Lebih terperinciBAB III METODOLOGI PENELITIAN
BAB III METODOLOGI PENELITIAN Metodologi penelitian merupakan rangkaian dari langkah-langkah yang diterapkan dalam penelitian, secara umum dan khusus langkah-langkah tersebut tertera pada Gambar flowchart
Lebih terperinci1.1 Latar Belakang Masalah
BAB 1. PENDAHULUAN Bab ini berisi penjelasan mengenai latar belakang masalah, rumusan masalah, tujuan pembahasan, ruang lingkup kajian, sumber data, dan sistematika penyajian dari tugas akhir Sistem Informasi
Lebih terperinciTUNING PARAMETER DALAM FUNGSI OKAPI BM25 PADA MESIN PENCARI TEKS BAHASA INDONESIA TEDY SAPUTRA
TUNING PARAMETER DALAM FUNGSI OKAPI BM25 PADA MESIN PENCARI TEKS BAHASA INDONESIA TEDY SAPUTRA DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2013
Lebih terperinciBAB I. Pendahuluan. 1. Latar Belakang Masalah
BAB I Pendahuluan 1. Latar Belakang Masalah Semakin canggihnya teknologi di bidang komputasi dan telekomunikasi pada masa kini, membuat informasi dapat dengan mudah didapatkan oleh banyak orang. Kemudahan
Lebih terperinciImplementasi Algoritma Term Frequency Inverse Document Frequency dan Vector Space Model untuk Klasifikasi Dokumen Naskah Dinas
Implementasi Algoritma Term Frequency Inverse Document Frequency dan Vector Space Model untuk Klasifikasi Dokumen Naskah Dinas A. Achmad 1, A. A. Ilham 2, Herman 3 1 Program Studi Teknik Elektro, Jurusan
Lebih terperinciPENGUNAAN METODE COSINESIMILARITY PADA SISTEM PENGELOMPOKAN KERJA PRAKTEK, TUGAS AKHIR DAN SKRIPSI
ISSN : 338-418 PENGUNAAN METODE COSINESIMILARITY PADA SISTEM PENGELOMPOKAN KERJA PRAKTEK, TUGAS AKHIR DAN SKRIPSI Randy Agung Wibowo (agung.wbowo9@gmail.com) Didik Nugroho (masdidiknugroho@gmail.com) Bebas
Lebih terperinciAPLIKASI PENGKATEGORIAN DOKUMEN DAN PENGUKURAN TINGKAT SIMILARITAS DOKUMEN MENGGUNAKAN KATA KUNCI PADA DOKUMEN PENULISAN ILMIAH UNIVERSITAS GUNADARMA
APLIKASI PENGKATEGORIAN DOKUMEN DAN PENGUKURAN TINGKAT SIMILARITAS DOKUMEN MENGGUNAKAN KATA KUNCI PADA DOKUMEN PENULISAN ILMIAH UNIVERSITAS GUNADARMA Adhit Herwansyah Jurusan Sistem Informasi, Fakultas
Lebih terperinciBAB 3 PERANCANGAN SISTEM
BAB 3 PERANCANGAN SISTEM Bab ini menguraikan perancangan sistem yang dikembangkan meliputi arsitektur sistem, perancangan pembuat unit pengindeksan dan perancangan antarmuka. 3.1 Arsitektur Sistem Gambar
Lebih terperinciPENGGUNAAN OPERATOR BELIEF REVISION PADA TEMU KEMBALI DOKUMEN BAHASA INDONESIA MODEL BOOLEAN MERISKA DEFRIANI
PENGGUNAAN OPERATOR BELIEF REVISION PADA TEMU KEMBALI DOKUMEN BAHASA INDONESIA MODEL BOOLEAN MERISKA DEFRIANI DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR
Lebih terperinciPERBANDINGAN EFISIENSI MODEL RUANG VEKTOR PADA SISTEM TEMU KEMBALI INFORMASI ARI ALKAUTSAR
PERBANDINGAN EFISIENSI MODEL RUANG VEKTOR PADA SISTEM TEMU KEMBALI INFORMASI ARI ALKAUTSAR DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2012 1 PERBANDINGAN
Lebih terperinciPEMANFAATAN ASSOCIATION RULE MINING DALAM MEMBANTU PENCARIAN DOKUMEN-DOKUMEN BERITA YANG SALING BERKAITAN
PEMANFAATAN ASSOCIATION RULE MINING DALAM MEMBANTU PENCARIAN DOKUMEN-DOKUMEN BERITA YANG SALING BERKAITAN Hermawan Andika Institut Informatika Indonesia andika@iii.ac.id Suhatati Tjandra Sekolah Tinggi
Lebih terperinciBAB III METODOLOGI PENELITIAN
BAB III METODOLOGI PENELITIAN Metodologi Penelitian adalah sekumpulan peraturan, kegiatan, dan prosedur yang digunakan oleh pelaku suatu disiplin ilmu. Metodologi juga merupakan analisis teoritis mengenai
Lebih terperinciCode shift Asumsi-asumsi Pengaburan Kode Lingkungan Pengembangan HASIL DAN PEMBAHASAN Karakteristik Dokumen Perlakuan ( Treatment
6 dengan FF. Jenis karakter substitusi dapat dilihat pada Tabel 6. Code shift Karakter yang dibuang dari lima bit kode dalam penelitian ini adalah karakter ke dua. Hal ini dengan pertimbangan pengucapan
Lebih terperinciLAPORAN AKHIR HIBAH PENELITIAN dalam Rangka Kegiatan SP4 Departemen Ilmu Komputer
LAPORAN AKHIR HIBAH PENELITIAN dalam Rangka Kegiatan SP4 Departemen Ilmu Komputer CORPUS DOKUMEN TEKS BAHASA INDONESIA UNTUK PENGUJIAN EFEKTIVITAS TEMU KEMBALI INFORMASI Oleh: Ir. Julio Adisantoso, M.Kom.
Lebih terperinciIII. METODE PENELITIAN. Penelitian ini dilakukan di Jurusan Ilmu Komputer Fakultas Matematika Dan
III. METODE PENELITIAN A. Tempat dan Waktu Penelitian Penelitian ini dilakukan di Jurusan Ilmu Komputer Fakultas Matematika Dan Ilmu Pengetahuan Alam, Universitas Lampung. Waktu penelitian adalah pada
Lebih terperinciBAB I PENDAHULUAN 1.1 Latar Belakang
BAB I PENDAHULUAN 1.1 Latar Belakang Ketersediaan informasi yang semakin banyak menjadikan ringkasan sebagai kebutuhan yang sangat penting (Mulyana, 2010). Menurut (Hovy, 2001) Ringkasan merupakan teks
Lebih terperinciIMPLEMENTASI QUESTION ANSWERING SYSTEM DENGAN METODE RULE-BASED UNTUK TEMU KEMBALI INFORMASI BERBAHASA INDONESIA. Oleh: NAFI IKHSANI G
IMPLEMENTASI QUESTION ANSWERING SYSTEM DENGAN METODE RULE-BASED UNTUK TEMU KEMBALI INFORMASI BERBAHASA INDONESIA Oleh: NAFI IKHSANI G64102016 DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN
Lebih terperinciBAB III PERANCANGAN. Tabel 3.1 Detil Tabel mpage
BAB III PERANCANGAN Bab ini menjelaskan mengenai perancangan sistem peringkas berita otomatis pada media massa online berbasis GVSM. Perancangan dibagi dalam beberapa bagian antara lain perancangan database,
Lebih terperinciBAB 3 ANALISIS MASALAH DAN PERANCANGAN
BAB 3 ANALISIS MASALAH DAN PERANCANGAN 3.1 State of the Art Pada penelitian sebelumnya sudah ada yang menggunakan metode Stemming untuk preprocessing text dalam mengolah data pelatihan dan data uji untuk
Lebih terperinciMETODE PENELITIAN HASIL DAN PEMBAHASAN
METODE PENELITIAN Proses Dasar Sistem Proses dasar pengembangan sistem secara umum terdiri dari tahapan sebagai berikut: 1 Praproses. Pada tahap ini dilakukan persiapan yang meliputi seleksi data, transformasi
Lebih terperinciSistem Temu Kembali Informasi/ Information Retrieval
Sistem Temu Kembali Informasi/ Information Retrieval Pemodelan IR Imam Cholissodin S.Si., M.Kom. Table Of Content 1. Boolean Retrieval Model Boolean Index Inverted Index 2. Boolean Query Retrieval 3. Vector
Lebih terperinciBAB 3 PERANCANGAN. Tabel 3.1 Daftar Kategori dan Jumlah Dokumen Teks. Dokumen Bulutangkis 155 Basket 59 Otomotif 160 Sepakbola 767 Tenis 159
23 BAB 3 PERANCANGAN Bab ini menjelaskan tentang perancangan yang digunakan untuk melakukan eksperimen klasifikasi dokumen teks. Bab perancangan klasifikasi dokumen teks ini meliputi data (subbab 3.1),
Lebih terperinciPeningkatan Kinerja Pencarian Dokumen Tugas Akhir menggunakan Porter Stemmer Bahasa Indonesia dan Fungsi Peringkat Okapi BM25
54 Widiasri, M., dkk.: Peningkatan Kinerja Pencarian Dokumen Tugas Akhir Menggunakan Peningkatan Kinerja Pencarian Dokumen Tugas Akhir menggunakan Porter Stemmer Bahasa Indonesia dan Fungsi Peringkat Okapi
Lebih terperinciBAB II TINJAUAN PUSTAKA
7 BAB II TINJAUAN PUSTAKA A. Tinjauan Pustaka Penelitian-penelitian yang pernah dilakukan di bidang information retrieval telah memunculkan berbagai metode pembobotan dan clustering untuk mengelompokkan
Lebih terperinciBAB III METODE PENELITIAN. a. Menentukan kebutuhan data yang dibutuhkan. b. Mengumpulkan semua data yang dibutuhkan.
BAB III METODE PENELITIAN 3.1 DESAIN PENELITIAN Desain penelitian ini meliputi: 1. Tahapan awal penelitian a. Menentukan kebutuhan data yang dibutuhkan. b. Mengumpulkan semua data yang dibutuhkan. c. Mempersiapkan
Lebih terperinciText Mining. Budi Susanto. Text dan Web Mining. Teknik Informatika UKDW Yogyakarta
Text Mining Budi Susanto Materi Pengertian Text Mining Pemrosesan Text Tokenisasi Lemmatization Vector Document Pengertian Text Mining Text mining merupakan penerapan konsep dan teknik data mining untuk
Lebih terperinciBAB 1 PENDAHULUAN Pengantar
BAB 1 PENDAHULUAN 1.1. Pengantar Dewasa ini fungsi komputer semakin dimanfaatkan dalam segala bidang. Baik di bidang pendidikan, bisnis, ataupun penelitian. Penggunaan komputer kini tidak lagi terbatas
Lebih terperinciPROGRAM STUDI INFORMATIKA FAKULTAS KOMUNIKASI DAN INFORMATIKA UNIVERSITAS MUHAMMADIYAH SURAKARTA
PERBANDINGAN HASIL DETEKSI KEMIRIPAN TOPIK SKRIPSI DENGAN MENGGUNAKAN METODE N-GRAM DAN EKSPANSI KUERI Disusun oleh : Dwi iswanto L200100014 Pembimbing : Husni Thamrin PROGRAM STUDI INFORMATIKA FAKULTAS
Lebih terperinciBAB I PENDAHULUAN 1.1. Latar Belakang Rendy, 2013
BAB I PENDAHULUAN 1.1. Latar Belakang Twitter merupakan sebuah situs microblogging yang populer dibandingkan dengan situs microblogging lainnya. Hal ini terlihat dari jumlah pengguna Twitter yang mencapai
Lebih terperinciIMPLEMENTASI ALGORITMA K-NEAREST NEIGHBOUR YANG BERDASARKAN ONE PASS CLUSTERING UNTUK KATEGORISASI TEKS
IMPLEMENTASI ALGORITMA K-NEAREST NEIGHBOUR YANG BERDASARKAN ONE PASS CLUSTERING UNTUK KATEGORISASI TEKS Andreas Daniel Arifin 1, Isye Arieshanti 2, Agus Zainal Arifin 3 1,2,3 Jurusan Teknik Informatika,
Lebih terperinciBAB I PENDAHULUAN Latar Belakang Masalah
BAB I PENDAHULUAN 1.1. Latar Belakang Masalah Di era kompetisi saat ini, keberadaan perpustakaan sebagai sebuah lembaga yang bergerak dalam bidang jasa layanan informasi sangat berpengaruh. Pesatnya perkembangan
Lebih terperinciBAB III METODOLOGI PENELITIAN
28 BAB III METODOLOGI PENELITIAN Untuk menunjang kegiatan penelitian, dalam bab ini akan dijelaskan desain penelitian, metode penelitian yang digunakan, serta alat dan bahan penelitian. 3.1 Desain Penelitian
Lebih terperinci