Bab III Analss dan Rancangan Sstem Kompres Kalmat Bab n bers penjelasan dan analss terhadap sstem kompres kalmat yang dkembangkan d dalam tess n. Peneltan n menggunakan pendekatan statstcal translaton yang dgunakan oleh Wtbrock et al. [WIT99] dan Banko et al. [BAN00]. Sedangkan Hdden Markov Model yang dgunakan dadaptas dar HMM-Hedge yang dgunakan oleh Zajc et al [ZAJ02] dan Dorr et al. [DOR04]. Adaptas dlakukan pada topolog HMM, probabltas ems, probabltas transs, dan preprocessng. III.1 Model Probabltas Secara formal, kompres kalmat merupakan pencaran kompres yang memaksmalkan C S. dengan, C = arg max C S S adalah kalmat asal, terdr atas urutan kata S 1, S 2, S 3, S N C adalah kalmat hasl kompres kalmat, terdr atas urutan kata C 1, C 2, C 3 C N. Kata C dapat berupa S atau S yang dhapus (#S #. C adalah hasl kompres kalmat yang palng optmal. C III-1 Msalnya jka S adalah fnally another advantage of broadband s dstance maka salah satu kanddat C yang terbak adalah #fnally# another advantage #of# #broadband# s dstance. Kata yang dtanda dengan #, adalah kata yang dhapus sehngga C dapat dbaca another advantage s dstance. Jka menggunakan teorema Bayes, persamaan III-1 dapat dtuls kembal sebaga berkut: 18
S C C C = arg max C S III-2 Karena S bernla sama untuk setap kombnas C maka persamaan III-2 dapat dtuls kembal menjad: C = arg max S C C III-3 C Karena S C dan C mash sult dhtung, maka dgunakan dua asums. Asums pertama adalah probabltas kemunculan suatu kata d kalmat asal hanya bergantung kepada pasangan kata n d kalmat yang terkompres. Oleh karena tu S C dapat dhampr dengan: S C n = 1 S C III-4 dengan S adalah kata ke- d kalmat asal, C adalah kata ke- d kalmat terkompres S C adalah probabltas kemunculan suatu kata S d kalmat asl jka dketahu kata C muncul d kompres dan dhtung dengan cara sebaga berkut: count( C, S P ( S C = count _ all( C III-5 Asums kedua adalah kata pada kalmat terkompres hanya bergantung kepada satu kata sebelum kata tersebut, sehngga C dhtung sebaga berkut: C n = 1 C C 1 III-6 Dapat dlhat bahwa C dhtung dengan probabltas bgram. Karena nla probabltas yang dhaslkan cenderung sangat kecl, maka dgunakan log probablty. Jka persamaan III-4 dan III-6 dsubttuskan ke persamaan III-3 dan dtambahkan bobot probabltas α, maka persamaannya menjad: C = arg max((1 α H n = 1 log( S C + α n = 1 C C 1 III-7 19
\ Nla S C dan C C -1 dhtung dar dokumen lath yang terdr atas pasangan kalmat asl dan kalmat yang terkompres. III.2 Hdden Markov Model (HMM Berdasarkan model probabltas yang menggunakan persamaa III-7, dapat dgunakan Hdden Markov Model (HMM untuk mencar susunan kata yang palng mungkn menjad kalmat terkompres. Berkut akan dbahas secara lebh detl setap komponen HMM yang dgunakan dalam task kompres kalmat. 1. Observed State Observed state (S 1, S 2,.. S N pada HMM n adalah urutan kata kalmat asal yang akan dkompres. S 1 adalah kata pertama, S 2 kata kedua dan seterusnya. 2. Start State HMM untuk kompres kalmat n mempunya start-state. End-state tdak dgunakan karena proses akan dhentkan setelah semua observed state dproses. 3. Hdden state Untuk sejumlah N kata unk dalam kalmat, terdapat 2N hdden state. Untuk setap observed state terdapat dua hdden state, yatu satu hdden state yang akan menamplkan kata dan satu hdden state yang menandakan kata tu dhapus. Sebaga contoh, jka observed state adalah always, avalable maka ada empat hdden state yatu always, #always#, avalable dan #avalable#. Gambar III-1 memperlhatkan topolog HMM untuk observed state tersebut. Setap hdden state hanya terhubung dengan hdden state kata berkutnya tanpa self-loop. Hal n untuk menjamn urutan kata hasl kompres akan sesua dengan urutan kata pada kalmat asl, sehngga mengurang terbentuknya kalmat yang tdak vald secara tatabahasa. 20
always avalable Start #always# #avalable# Gambar III-1 Topolog Pertama HMM Perbedaan topolog HMM n dengan topolog HMM-Hedge dtunjukkan oleh Gambar II-4. Perbedaan utama terletak pada representas kata yang dhapus dan penggunaan self loop. Pada HMM n, setap kata memlk pasangan kata yang akan dhapus, sedangkan pada HMM-Hedge, state G yang merepresentaskan kata yang dhapus dapat dgunakan untuk kata manapun sehngga membutuhkan self loop. Untuk melhat pengaruh topolog terhadap knerja HMM, dlakukan ujcoba terhadap topolog yang lan. Gambar III-2 memeperlhatkan topolog kedua. always avalable Start #always# #avalable# Gambar III-2 Topolog Kedua HMM 21
Pada topolog kedua, setap hdden state salng berhubungan. Dengan topolog n urutan kalmat yang dhaslkan dapat berbeda dengan kalmat asal. Kedua topolog n dgunakan karena lebh sederhana dan lebh mudah djelaskan dengan model probabltas yang dgunakan. 4. Probabltas Transs Probabltas transs adalah probabltas perpndahan dar suatu hdden state ke hdden state lannya. Probabltas n dsmpan dalam bentuk log untuk mempermudah perhtungan dan mencegah underflow. Pada HMM n, probabltas bgram dgunakan sebaga probabltas transs dan dhtung dar dokumen pelathan. 5. Probabltas Ems Probabltas ems adalah probabltas suatu observed state dhaslkan dar sebuah hdden state. Dalam HMM n, probabltas ems dhtung dengan S C dar dokumen pelathan. S C sendr dhtung menggunakan persamaan III-5. 6. Probabltas Awal Probabltas awal menyatakan probabltas suatu rngkasan akan dmula oleh state. Probabltas awal suatu kata C dhtung dengan probabltas bgram C awal_dokumen. III.3 Decode Kompres Kalmat Algortma Vterb dgunakan untuk mencar urutan hdden state yang optmal d dalam HMM. Masukan dar algortma n adalah urutan kata kalmat (S 1, S 2.. S n dan outputnya adalah urutan hdden state S = (C 1, C 2 C n. Sebelum proses decode, dlakukan pembelajaran terhadap dokumen pelathan untuk mendapatkan probabltas bgram dan probabltas ems S C. Berkut adalah contoh proses decode untuk kalmat contextsenstve onlne help s always avalable, menggunakan topolog pertama (Gambar III-1 dengan asums probabltas bgram dan probabltas ems sudah dhtung terlebh dahulu. 22
Proses decode menghtung nla vterb trels secara rekursf. Vterb trels, v t ( adalah probabltas vterb path pada state ke- dan saat t. Gambar III-3 memperlhatkan dagram trels pada saat t=1 dengan observed state contextsenstve. ptrans adalah probabltas transs, pemm adalah probabltas ems. Karena semua probabltas dsmpan dalam log maka operator yang dgunakan adalah penjumlahan dan dapat bernla negatf. contexsenstve v 1 (contextsenstve = ptrans(contexsenstve <start>, + pemm(contextsenstve contextsenstve = -12.12 + -13.25 = -12.80 Start #contexsenstve# v 1 (#contextsenstve# = -10.79 Observed state t=1, contextsenstve Gambar III-3 Dagram trels untuk t=1 Langkah berkutnya dgambarkan pada dagram trels berkut, untuk t=2 dengan observed state onlne contexsenstve onlne Start #contexsenstve# #onlne# Observed state t=1, contextsenstve t=2 onlne Gambar III-4 Dagram trels untuk t=2 23
Nla v 2 (onlne dhtung dengan cara sebaga berkut v 2 (onlne = max( v 1 (contextsenstve+ptrans(onlne contextsenstve+ pemm(onlne onlne, v 1 (#contextsenstve#+ptrans(onlne #contextsenstve#+ pemm(onlne onlne lalu, subttuskan dengan nla setap varabel: v 2 (onlne = max( -12.80 + -7.09 + -11.05 = -30.94, -10.79 + -5.02 + -11.05 = -26.86 Terlhat bahwa nla terbesar menuju state onlne pada t=2 adalah dar state #contextsenstve#. State n dsmpan sebaga backponter agak dapat dtelusur kembal. Dengan cara yang sama, nla terbesar menuju state #onlne# pada t=2 adalah contextsenstve. Proses dlakukan sampa pada observed state terakhr yatu t=6, avalable, kemudan dhtung nla v 6 ( yang terbesar. Dar hasl perhtungan, nla probabltas terbesar yatu -7.76, dperoleh dar state avalable. Penelusuran balk mendapatkan path sebaga berkut: <start> #contextsenstve# onlne help s #always# avalable sehngga hasl akhr adalah onlne help s avalable. III.4 Preprocessng Preprocessng dlakukan terhadap data uj coba dan data lathan sebelum proses kompres dan proses tranng dlakukan. Selan casefoldng dan pembuatan huruf nonalphanumerk, dujcobakan dua perlakuan untuk preprocessng: 1. Pemberan tag smbol numerk, terdr atas dua tag: uang {MON}, angka {NUM} dan campuran {MIX}. Hal n dsebabkan corpus yang dgunakan banyak mengandung angka, bak merupakan uang maupun nama produk. Contoh: 24
Tabel III-1 Contoh pemberan tag smbol numerk Sebelum preprocessng The system s prced at $26,995 Datavews 8.0 also supports Ada Compaq 386 users awarded the 386/20e and the 386/20 hgh marks for CPU speed Sesudah preprocessng the system s prced at {MON} datavews {NUM} also supports ada compaq {NUM} users awarded the {MIX} and the {MIX} hgh marks for CPU speed 2. Pemberan tag untuk enttas. Kata yang merupakan enttas ddefnskan sebaga kata yang dawal huruf kaptal dan berada d tengah kalmat atau kata yang berada d depan kalmat dan seluruh hurufnya terdr atas huruf kaptal. Dua kata enttas yang berurutan akan dgabung menjad satu. Hal n dlakukan karena banyak nama produk dan stlah yang hanya muncul d satu kalmat saja, sehngga pola bgramnya tdak akan tertangkap oleh model pada saat pelathan. Contoh: Tabel III-2 Contoh pemberan tag smbol enttas Sebelum preprocessng Much of ATM 's performance depends on the underlyng applcaton ESRI wll develop an nterface to Sybase 's SQL Server. Sesudah preprocessng much of {NAME} performance depends on the underlyng applcaton\ {NAME} wll develop an nterface to {NAME} server III.5 Arstektur Sstem Arstektur sstem kompres HMM dtunjukkan oleh Gambar III-5. Dokumen lath yang telah d-preprocessng dgunakan dalam tahap pelathan untuk menghtung probabltas ems dan probabltas transs. Probabltas tersebut bersama dengan arstektur topolog dgunakan dalam proses decodng untuk mencar kalmat yang terkompres berdasarkan kalmat masukan. 25
Dokumen Lath Preprocessng Pelathan (Penghtungan Probabltas Ems dan Probabltas Translas Kalmat Masukan Preprocessng HMM Decodng Topolog Kalmat Hasl Kompres Gambar III-5 Arstektur Sstem Kompres Kalmat Proses pelathan cukup dlakukan satu kal. Setelah probabltas ems dan probabltas transs dperoleh, HMM decodng dapat dgunakan untuk berbaga kalmat masukan tanpa perlu melalukan pelathan ulang. 26