Bab III Analisis dan Rancangan Sistem Kompresi Kalimat

dokumen-dokumen yang mirip
BAB IV PEMBAHASAN MODEL

Didownload dari ririez.blog.uns.ac.id BAB I PENDAHULUAN

IV. PERANCANGAN DAN IMPLEMENTASI SISTEM

BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB I PENDAHULUAN I-1

BAB VB PERSEPTRON & CONTOH

BAB III METODOLOGI PENELITIAN

BAB II TINJAUAN PUSTAKA

BAB 5 HASIL DAN PEMBAHASAN. Sampel yang digunakan dalam penelitian ini adalah data pengujian pada

ANALISIS DATA KATEGORIK (STK351)

PENGURUTAN DATA. A. Tujuan

III. METODE PENELITIAN. Penelitian ini dilakukan di MTs Negeri 2 Bandar Lampung dengan populasi siswa

BAB I PENDAHULUAN. 1.1 Latar Belakang. Di dalam matematika mulai dari SD, SMP, SMA, dan Perguruan Tinggi

SEARAH (DC) Rangkaian Arus Searah (DC) 7

BAB III METODE PENELITIAN. menghasilkan Lembar Kegiatan Siswa (LKS) pada materi Geometri dengan

BAB III HIPOTESIS DAN METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN

2.1 Sistem Makroskopik dan Sistem Mikroskopik Fisika statistik berangkat dari pengamatan sebuah sistem mikroskopik, yakni sistem yang sangat kecil

BAB II TINJAUAN PUSTAKA. George Boole dalam An Investigation of the Laws of Thought pada tahun

BAB 1 PENDAHULUAN. Pertumbuhan dan kestabilan ekonomi, adalah dua syarat penting bagi kemakmuran

BAB III METODE PENELITIAN. yang digunakan meliputi: (1) PDRB Kota Dumai (tahun ) dan PDRB

BAB IV PENGUJIAN DAN ANALISA

BAB III METODE PENELITIAN. Sebelum dilakukan penelitian, langkah pertama yang harus dilakukan oleh

BAB III METODE PENELITIAN. Pada penelitian ini, penulis memilih lokasi di SMA Negeri 1 Boliyohuto khususnya

BAB I PENDAHULUAN. suatu komputer digital [12]. Citra digital tersusun atas sejumlah elemen.

Bab III Analisis Rantai Markov

BAB III METODE PENELITIAN. pretest postes control group design dengan satu macam perlakuan. Di dalam

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

ANALISIS BENTUK HUBUNGAN

BAB I PENDAHULUAN Latar Belakang dan Permasalahan

BAB V ANALISA PEMECAHAN MASALAH

BAB 2 LANDASAN TEORI. estimasi, uji keberartian regresi, analisa korelasi dan uji koefisien regresi.

BAB IV CONTOH PENGGUNAAN MODEL REGRESI GENERALIZED POISSON I. Kesulitan ekonomi yang tengah terjadi akhir-akhir ini, memaksa

III. METODE PENELITIAN

BAB 1 PENDAHULUAN. Universitas Sumatera Utara

III. METODE PENELITIAN. Penelitian ini dilaksanakan di SMP Negeri 13 Bandar Lampung. Populasi dalam

Contoh 5.1 Tentukan besar arus i pada rangkaian berikut menggunakan teorema superposisi.

PROPOSAL SKRIPSI JUDUL:

TINJAUAN PUSTAKA. Node. Edge. Gambar 1 Directed Acyclic Graph

Preferensi untuk alternatif A i diberikan

BAB III METODE PENELITIAN. berjumlah empat kelas terdiri dari 131 siswa. Sampel penelitian ini terdiri dari satu kelas yang diambil dengan

BAB IV PEMBAHASAN HASIL PENELITIAN PENGARUH PENGGUNAAN METODE GALLERY WALK

BAB V TEOREMA RANGKAIAN

BAB 3 PEMBAHASAN. 3.1 Prosedur Penyelesaian Masalah Program Linier Parametrik Prosedur Penyelesaian untuk perubahan kontinu parameter c

Bab 1 PENDAHULUAN Latar Belakang

BAB III METODE PENELITIAN. Penelitian ini merupakan penelitian yang bertujuan untuk mendeskripsikan

BAB II TINJAUAN PUSTAKA

III. METODE PENELITIAN. Penelitian ini merupakan studi eksperimen yang telah dilaksanakan di SMA

BAB VIB METODE BELAJAR Delta rule, ADALINE (WIDROW- HOFF), MADALINE

III. METODE PENELITIAN. Penelitian ini dilaksanakan di SMPN 8 Bandar Lampung. Populasi dalam

RANGKAIAN SERI. 1. Pendahuluan

BAB 2 LANDASAN TEORI. Universitas Sumatera Utara

BAB V PENGEMBANGAN MODEL FUZZY PROGRAM LINIER

III. METODE PENELITIAN. Metode penelitian yang digunakan dalam penelitian ini adalah metode

Bab 2 Tinjauan Pustaka 2.1 Penelitian Terdahulu

BAB III PERBANDINGAN ANALISIS REGRESI MODEL LOG - LOG DAN MODEL LOG - LIN. Pada prinsipnya model ini merupakan hasil transformasi dari suatu model

Nama : Crishadi Juliantoro NPM :

MEREDUKSI SISTEM PERSAMAAN LINEAR FUZZY PENUH DENGAN BILANGAN FUZZY TRAPESIUM

III. METODE PENELITIAN. Penelitian ini merupakan studi eksperimen dengan populasi penelitian yaitu

IMAGE CLUSTER BERDASARKAN WARNA UNTUK IDENTIFIKASI KEMATANGAN BUAH TOMAT DENGAN METODE VALLEY TRACING

BAB III METODOLOGI PENELITIAN. Metode yang digunakan dalam penelitian ini adalah metode eksperimen

III. METODE PENELITIAN. Penelitian ini dilaksanakan di SD Al-Azhar 1 Wayhalim Bandar Lampung. Populasi

3 METODE HEURISTIK UNTUK VRPTW

PENENTUAN DENSITAS PERMUKAAN

BAB V ANALISIS FAKTOR-FAKTOR BEBAN DAN TAHANAN (LOAD AND RESISTANCE FACTOR)

BAB IV HASIL PENELITIAN DAN PEMBAHASAN

BAB II LANDASAN TEORI

BAB IV HASIL DAN PEMBAHASAN PENELITIAN. penerapan Customer Relationship Management pada tanggal 30 Juni 2011.

BAB III METODOLOGI PENELITIAN. Jenis penelitian yang digunakan adalah penelitian pengembangan yang

PENENTUAN KELAS DENGAN NEAREST NEIGHBOR CLUSTERING DAN PENGGUNAAN METODE NAÏVE BAYES UNTUK KLASIFIKASI DOKUMEN

BAB 2 TINJAUAN KEPUSTAKAAN

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB II METODOLOGI PENELITIAN. Jenis penelitian yang digunakan dalam penelitian ini adalah penelitian. variable independen dengan variabel dependen.

BAB 2 LANDASAN TEORI

BAB II DASAR TEORI. 2.1 Definisi Game Theory

BAB IV HASIL PENELITIAN DAN PEMBAHASAN

BAB II TEORI ALIRAN DAYA

III. METODE PENELITIAN. bersifat statistik dengan tujuan menguji hipotesis yang telah ditetapkan.

BAB.3 METODOLOGI PENELITIN 3.1 Lokasi dan Waktu Penelitian Penelitian ini di laksanakan di Sekolah Menengah Pertama (SMP) N. 1 Gorontalo pada kelas

BAB III METODE PENELITIAN. sebuah fenomena atau suatu kejadian yang diteliti. Ciri-ciri metode deskriptif menurut Surakhmad W (1998:140) adalah

III.METODE PENELITIAN. Pada penelitian ini subyek yang digunakan adalah siswa VII A SMPN 5

IV. HASIL DAN PEMBAHASAN

REGRESI DAN KORELASI LINEAR SEDERHANA. Regresi Linear

Histogram Citra. Bab Membuat Histogram

Bab 2 AKAR-AKAR PERSAMAAN

METODE PENELITIAN. pelajaran 2011/ Populasi penelitian ini adalah seluruh siswa kelas X yang

BAB III METODOLOGI PENELITIAN

Configural Frequency Analysis untuk Melihat Penyimpangan pada Model Log Linear

BAB IV PEMBAHASAN HASIL PENELITIAN

BAB 2 LANDASAN TEORI

BAB 2 ANALISIS ARUS FASA PADA KONEKSI BEBAN BINTANG DAN POLIGON UNTUK SISTEM MULTIFASA

SISTEM PENDUKUNG KEPUTUSAN PENILAIAN KINERJA DAN PEMILIHAN MITRA BADAN PUSAT STATISTIK (BPS) KABUPATEN GUNUNGKIDUL MENGGUNAKAN METODE SAW BERBASIS WEB

BAB 3 METODOLOGI PERANCANGAN

CONTOH SOAL #: PENYELESAIAN PERSAMAAN DIFERENSIAL BIASA. dx dengan nilai awal: y = 1 pada x = 0. Penyelesaian: KASUS: INITIAL VALUE PROBLEM (IVP)

PENERAPAN METODE LINIEAR DISCRIMINANT ANALYSIS PADA PENGENALAN WAJAH BERBASIS KAMERA

Penerapan Metode Runge-Kutta Orde 4 dalam Analisis Rangkaian RLC

Dalam sistem pengendalian berhirarki 2 level, maka optimasi dapat. dilakukan pada level pertama yaitu pengambil keputusan level pertama yang

Analisis Regresi 1. Diagnosa Model Melalui Pemeriksaan Sisaan dan Identifikasi Pengamatan Berpengaruh. Pokok Bahasan :

BAB III METODOLOGI PENELITIAN. dalam situs BAPEPAM dan berjumlah dua puluh delapan reksadana yang berasal dari dua

BAB III METODE PENELITIAN. Metode penelitian yang digunakan dalam penelitian ini adalah metode

Transkripsi:

Bab III Analss dan Rancangan Sstem Kompres Kalmat Bab n bers penjelasan dan analss terhadap sstem kompres kalmat yang dkembangkan d dalam tess n. Peneltan n menggunakan pendekatan statstcal translaton yang dgunakan oleh Wtbrock et al. [WIT99] dan Banko et al. [BAN00]. Sedangkan Hdden Markov Model yang dgunakan dadaptas dar HMM-Hedge yang dgunakan oleh Zajc et al [ZAJ02] dan Dorr et al. [DOR04]. Adaptas dlakukan pada topolog HMM, probabltas ems, probabltas transs, dan preprocessng. III.1 Model Probabltas Secara formal, kompres kalmat merupakan pencaran kompres yang memaksmalkan C S. dengan, C = arg max C S S adalah kalmat asal, terdr atas urutan kata S 1, S 2, S 3, S N C adalah kalmat hasl kompres kalmat, terdr atas urutan kata C 1, C 2, C 3 C N. Kata C dapat berupa S atau S yang dhapus (#S #. C adalah hasl kompres kalmat yang palng optmal. C III-1 Msalnya jka S adalah fnally another advantage of broadband s dstance maka salah satu kanddat C yang terbak adalah #fnally# another advantage #of# #broadband# s dstance. Kata yang dtanda dengan #, adalah kata yang dhapus sehngga C dapat dbaca another advantage s dstance. Jka menggunakan teorema Bayes, persamaan III-1 dapat dtuls kembal sebaga berkut: 18

S C C C = arg max C S III-2 Karena S bernla sama untuk setap kombnas C maka persamaan III-2 dapat dtuls kembal menjad: C = arg max S C C III-3 C Karena S C dan C mash sult dhtung, maka dgunakan dua asums. Asums pertama adalah probabltas kemunculan suatu kata d kalmat asal hanya bergantung kepada pasangan kata n d kalmat yang terkompres. Oleh karena tu S C dapat dhampr dengan: S C n = 1 S C III-4 dengan S adalah kata ke- d kalmat asal, C adalah kata ke- d kalmat terkompres S C adalah probabltas kemunculan suatu kata S d kalmat asl jka dketahu kata C muncul d kompres dan dhtung dengan cara sebaga berkut: count( C, S P ( S C = count _ all( C III-5 Asums kedua adalah kata pada kalmat terkompres hanya bergantung kepada satu kata sebelum kata tersebut, sehngga C dhtung sebaga berkut: C n = 1 C C 1 III-6 Dapat dlhat bahwa C dhtung dengan probabltas bgram. Karena nla probabltas yang dhaslkan cenderung sangat kecl, maka dgunakan log probablty. Jka persamaan III-4 dan III-6 dsubttuskan ke persamaan III-3 dan dtambahkan bobot probabltas α, maka persamaannya menjad: C = arg max((1 α H n = 1 log( S C + α n = 1 C C 1 III-7 19

\ Nla S C dan C C -1 dhtung dar dokumen lath yang terdr atas pasangan kalmat asl dan kalmat yang terkompres. III.2 Hdden Markov Model (HMM Berdasarkan model probabltas yang menggunakan persamaa III-7, dapat dgunakan Hdden Markov Model (HMM untuk mencar susunan kata yang palng mungkn menjad kalmat terkompres. Berkut akan dbahas secara lebh detl setap komponen HMM yang dgunakan dalam task kompres kalmat. 1. Observed State Observed state (S 1, S 2,.. S N pada HMM n adalah urutan kata kalmat asal yang akan dkompres. S 1 adalah kata pertama, S 2 kata kedua dan seterusnya. 2. Start State HMM untuk kompres kalmat n mempunya start-state. End-state tdak dgunakan karena proses akan dhentkan setelah semua observed state dproses. 3. Hdden state Untuk sejumlah N kata unk dalam kalmat, terdapat 2N hdden state. Untuk setap observed state terdapat dua hdden state, yatu satu hdden state yang akan menamplkan kata dan satu hdden state yang menandakan kata tu dhapus. Sebaga contoh, jka observed state adalah always, avalable maka ada empat hdden state yatu always, #always#, avalable dan #avalable#. Gambar III-1 memperlhatkan topolog HMM untuk observed state tersebut. Setap hdden state hanya terhubung dengan hdden state kata berkutnya tanpa self-loop. Hal n untuk menjamn urutan kata hasl kompres akan sesua dengan urutan kata pada kalmat asl, sehngga mengurang terbentuknya kalmat yang tdak vald secara tatabahasa. 20

always avalable Start #always# #avalable# Gambar III-1 Topolog Pertama HMM Perbedaan topolog HMM n dengan topolog HMM-Hedge dtunjukkan oleh Gambar II-4. Perbedaan utama terletak pada representas kata yang dhapus dan penggunaan self loop. Pada HMM n, setap kata memlk pasangan kata yang akan dhapus, sedangkan pada HMM-Hedge, state G yang merepresentaskan kata yang dhapus dapat dgunakan untuk kata manapun sehngga membutuhkan self loop. Untuk melhat pengaruh topolog terhadap knerja HMM, dlakukan ujcoba terhadap topolog yang lan. Gambar III-2 memeperlhatkan topolog kedua. always avalable Start #always# #avalable# Gambar III-2 Topolog Kedua HMM 21

Pada topolog kedua, setap hdden state salng berhubungan. Dengan topolog n urutan kalmat yang dhaslkan dapat berbeda dengan kalmat asal. Kedua topolog n dgunakan karena lebh sederhana dan lebh mudah djelaskan dengan model probabltas yang dgunakan. 4. Probabltas Transs Probabltas transs adalah probabltas perpndahan dar suatu hdden state ke hdden state lannya. Probabltas n dsmpan dalam bentuk log untuk mempermudah perhtungan dan mencegah underflow. Pada HMM n, probabltas bgram dgunakan sebaga probabltas transs dan dhtung dar dokumen pelathan. 5. Probabltas Ems Probabltas ems adalah probabltas suatu observed state dhaslkan dar sebuah hdden state. Dalam HMM n, probabltas ems dhtung dengan S C dar dokumen pelathan. S C sendr dhtung menggunakan persamaan III-5. 6. Probabltas Awal Probabltas awal menyatakan probabltas suatu rngkasan akan dmula oleh state. Probabltas awal suatu kata C dhtung dengan probabltas bgram C awal_dokumen. III.3 Decode Kompres Kalmat Algortma Vterb dgunakan untuk mencar urutan hdden state yang optmal d dalam HMM. Masukan dar algortma n adalah urutan kata kalmat (S 1, S 2.. S n dan outputnya adalah urutan hdden state S = (C 1, C 2 C n. Sebelum proses decode, dlakukan pembelajaran terhadap dokumen pelathan untuk mendapatkan probabltas bgram dan probabltas ems S C. Berkut adalah contoh proses decode untuk kalmat contextsenstve onlne help s always avalable, menggunakan topolog pertama (Gambar III-1 dengan asums probabltas bgram dan probabltas ems sudah dhtung terlebh dahulu. 22

Proses decode menghtung nla vterb trels secara rekursf. Vterb trels, v t ( adalah probabltas vterb path pada state ke- dan saat t. Gambar III-3 memperlhatkan dagram trels pada saat t=1 dengan observed state contextsenstve. ptrans adalah probabltas transs, pemm adalah probabltas ems. Karena semua probabltas dsmpan dalam log maka operator yang dgunakan adalah penjumlahan dan dapat bernla negatf. contexsenstve v 1 (contextsenstve = ptrans(contexsenstve <start>, + pemm(contextsenstve contextsenstve = -12.12 + -13.25 = -12.80 Start #contexsenstve# v 1 (#contextsenstve# = -10.79 Observed state t=1, contextsenstve Gambar III-3 Dagram trels untuk t=1 Langkah berkutnya dgambarkan pada dagram trels berkut, untuk t=2 dengan observed state onlne contexsenstve onlne Start #contexsenstve# #onlne# Observed state t=1, contextsenstve t=2 onlne Gambar III-4 Dagram trels untuk t=2 23

Nla v 2 (onlne dhtung dengan cara sebaga berkut v 2 (onlne = max( v 1 (contextsenstve+ptrans(onlne contextsenstve+ pemm(onlne onlne, v 1 (#contextsenstve#+ptrans(onlne #contextsenstve#+ pemm(onlne onlne lalu, subttuskan dengan nla setap varabel: v 2 (onlne = max( -12.80 + -7.09 + -11.05 = -30.94, -10.79 + -5.02 + -11.05 = -26.86 Terlhat bahwa nla terbesar menuju state onlne pada t=2 adalah dar state #contextsenstve#. State n dsmpan sebaga backponter agak dapat dtelusur kembal. Dengan cara yang sama, nla terbesar menuju state #onlne# pada t=2 adalah contextsenstve. Proses dlakukan sampa pada observed state terakhr yatu t=6, avalable, kemudan dhtung nla v 6 ( yang terbesar. Dar hasl perhtungan, nla probabltas terbesar yatu -7.76, dperoleh dar state avalable. Penelusuran balk mendapatkan path sebaga berkut: <start> #contextsenstve# onlne help s #always# avalable sehngga hasl akhr adalah onlne help s avalable. III.4 Preprocessng Preprocessng dlakukan terhadap data uj coba dan data lathan sebelum proses kompres dan proses tranng dlakukan. Selan casefoldng dan pembuatan huruf nonalphanumerk, dujcobakan dua perlakuan untuk preprocessng: 1. Pemberan tag smbol numerk, terdr atas dua tag: uang {MON}, angka {NUM} dan campuran {MIX}. Hal n dsebabkan corpus yang dgunakan banyak mengandung angka, bak merupakan uang maupun nama produk. Contoh: 24

Tabel III-1 Contoh pemberan tag smbol numerk Sebelum preprocessng The system s prced at $26,995 Datavews 8.0 also supports Ada Compaq 386 users awarded the 386/20e and the 386/20 hgh marks for CPU speed Sesudah preprocessng the system s prced at {MON} datavews {NUM} also supports ada compaq {NUM} users awarded the {MIX} and the {MIX} hgh marks for CPU speed 2. Pemberan tag untuk enttas. Kata yang merupakan enttas ddefnskan sebaga kata yang dawal huruf kaptal dan berada d tengah kalmat atau kata yang berada d depan kalmat dan seluruh hurufnya terdr atas huruf kaptal. Dua kata enttas yang berurutan akan dgabung menjad satu. Hal n dlakukan karena banyak nama produk dan stlah yang hanya muncul d satu kalmat saja, sehngga pola bgramnya tdak akan tertangkap oleh model pada saat pelathan. Contoh: Tabel III-2 Contoh pemberan tag smbol enttas Sebelum preprocessng Much of ATM 's performance depends on the underlyng applcaton ESRI wll develop an nterface to Sybase 's SQL Server. Sesudah preprocessng much of {NAME} performance depends on the underlyng applcaton\ {NAME} wll develop an nterface to {NAME} server III.5 Arstektur Sstem Arstektur sstem kompres HMM dtunjukkan oleh Gambar III-5. Dokumen lath yang telah d-preprocessng dgunakan dalam tahap pelathan untuk menghtung probabltas ems dan probabltas transs. Probabltas tersebut bersama dengan arstektur topolog dgunakan dalam proses decodng untuk mencar kalmat yang terkompres berdasarkan kalmat masukan. 25

Dokumen Lath Preprocessng Pelathan (Penghtungan Probabltas Ems dan Probabltas Translas Kalmat Masukan Preprocessng HMM Decodng Topolog Kalmat Hasl Kompres Gambar III-5 Arstektur Sstem Kompres Kalmat Proses pelathan cukup dlakukan satu kal. Setelah probabltas ems dan probabltas transs dperoleh, HMM decodng dapat dgunakan untuk berbaga kalmat masukan tanpa perlu melalukan pelathan ulang. 26