BAB II ESSAY GRADING METODE LSA DAN LATENT SEMANTIC ANALYSIS (LSA)

BAB II ESSAY GRADING METODE LSA DAN LATENT SEMANTIC ANALYSIS (LSA) 2.. ESSAY GRADING METODE LSA Ada beberapa metode essay gradng yang saat n tengah dkembangkan bak untuk kebutuhan rset ataupun komersal. Metode-metode tersebut menunjukkan tngkat korelas yang cukup tngg bla dbandngkan dengan pemerksaan secara manual. Setap metode memlk teknk penlaan yang berbeda. Namun walaupun teknk penlaannya berbeda tap tujuan yang dcapa sama, yatu menbangun suatu sstem yang mampu memberkan penlaan terhadap jawaban esa secara otomats seobjektf mungkn. Akhr tahun 980-an, sekelompok lmuan Bellcore mengembangkan metode statstkal dan berbass jumlah untuk mengambl teks [3]. Tdak sepert teknk sederhana yang bergantung pada bobot kesamaan kata pada kalmat, metode mereka yang bernama Latent Semantc Analyss (LSA), mencptakan representas terhadap jumlah dan kebolehjadan kata untuk dbandngkan secara geometrs (matrk). Bagan pemrosesan pentng dar LSA adalah komponen penganalssan bernama SVD (Sngular Value Decomposton) yang mengkompres nformas berkatan dalam jumlah besar ke dalam ruang yang lebh kecl. LSA merepresentaskan s kata dalam matrks dua dmens yang besar. Menggunakan teknk aljabar matrks, yatu SVD tad, hubungan baru antara kata dan dokumen dtentukan dan dmodfkas untuk mewakl art sebenarnya. Tap analss kata drepresentaskan dalam kolom sedangkan tap bars mewakl kalmat, paragraf, dan sub dvs lannya yang berkatan. Landauer melaporkan, LSA telah dujkan dengan lma skema penlaan, masng-masng dengan perlakuan berbeda dmana esa mahasswa dbandngkan dengan esa referens. In terutama berkatan dengan vektor yang harus dkomputas. Unjuk kerja penlaan LSA hampr sama handalnya Implementas pembobotan SICBI..., Dud 3 Hermawand, FT UI, 2008

dengan penlaan manusa. Dar tes esa pada GMAT, kesepakatan antara penlaan manusa dan sstem LSA berksar antara 85% sampa 9% [4]. D Indonesa sendr penlaan esa otomats n tengah dkembangkan terutama untuk esa berbahasa Indonesa. 2.2. SVD (SINGULAR VALUE DECOMPOSITION) Telah durakan sebelumnya bahwa bagan pemrosesan dar LSA adalah SVD. Teknk Sngular Value Decomposton (SVD) dgunakan untuk melakukan estmas struktur dalam penggunaan kata dalam dokumendokumen. SVD pada dasarnya merupakan teknk untuk melakukan estmas rank dar matrks [3]. Jka dketahu matrks A dengan dmens m n, dmana nla m n dan rank(a) = r maka sngular value decomposton dar A, dnotaskan sebaga SVD(A), ddefnskan melalu persamaan A U V T... (2-) dmana T T U U V V I n dan memenuh konds... (2-2) dag(,, ) n... (2-3) dmana 0 untuk r j 0 untuk j r Kolom r pertama dar matrks U dan V mendefnskan vektor egen orthonormal yang bersesuaan dengan r nla vektor egen tdak-nol dar Implementas pembobotan SICBI..., Dud 4 Hermawand, FT UI, 2008

matrks AA T dan A T A berturut-turut. Kolom dar matrks U dan V bers vektor, masng-masng dsebut vektor sngular kr dan kanan. Nla sngular dar A merupakan elemen dagonal dar matrks Σ, dmana nla sngular ddapat dar akar pangkat dua dar nla absolut dar sejumlah n nla egen dar AA T [3]. 2.3. LSA VIA SVD Untuk melakukan LSA, harus dbuat sebuah matrks yang dbangun dar susunan kata kunc (terms) dan dokumen. Matrks n ddefnskan sebaga matrks A. Elemen dar matrks kata kunc-dokumen n ddapat dar banyaknya kehadran setap kata kunc pada dokumen tertentu, a a a A 2 j a2 a22 a2 j A2 A a A A 2 A j a a a A 2... (2-4) Dmana a bernla frekuens kehadran kata kunc pada dokumen j. Nla frekuens n umumnya dsebut tf (term frequency). A j merupakan matrks kolom yang elemennya menggambarkan kemunculan tap kata kunc pada dokumen ke-j. A menggambarkan frekuens kemunculan kata kunc pada setap dokumen. Karena tdak setap kata kunc akan muncul pada setap dokumen, maka matrks A pada umumnya lowong (sparse), yakn konds dmana elemen bernla 0 jauh lebh banyak. Matrks A dfaktorkan menjad hasl perkalan dar 3 matrks trplet sngular U, Σ dan V sepert dperlhatkan pada Gambar 2.. Inlah yang dsebut SVD. SVD menurunkan struktur laten semantk dar A melalu perkalan matrks ortogonal U, Σ dan V. Matrks-matrks n mereflekskan hubungan asl antara dokumen dengan kata-kata kunc menjad vektor-vektor yang bebas lnear. Implementas pembobotan SICBI..., Dud 5 Hermawand, FT UI, 2008

A = U V T a a a,, n 0 u u a m, m, n r r 0 v v r Gambar 2.. Dekomposs matrks A dengan SVD Penggunaan faktor k dalam sngular trplet merupakan langkah untuk membentuk A k, yang merupakan aproksmas matrks asl A dalam ruang k. Pada kasus n, SVD dpandang sebaga sebuah teknk yang dpaka untuk menurunkan kumpulan varabel ndeks, dmana setap kata kunc dan dokumen dapat drepresentaskan sebaga sebuah vektor dalam ruang k. Tabel 2-. Interpretas komponen SVD dalam LSA A = Matrks kata kunc dokumen m = Banyaknya kata kunc A k = Pendekatan rank-k terhadap A n = Banyaknya dokumen U = Vektor-vektor kata kunc k = Nla faktor Σ = Nla Sngular r = Rank dar A V = Vektor-vektor dokumen Gambar 2.2 adalah representas dar SVD dengan penggunaan faktor k. Bagan yang darsr pada matrks U dan V dan dagonal Σ membentuk A k. Untuk keterangan tap smbolnya, dapat dlhat pada Tabel 2- Gambar 2.2. Dekomposs SVD dengan faktor k [4] Implementas pembobotan SICBI..., Dud 6 Hermawand, FT UI, 2008

Ddalam metode LSA, operas truncated SVD menghaslkan matrks A k yang tdak sama dengan matrks A yang asl. Matrks A k hanyalah sebuah pendekatan atau aproksmas A pada faktor k. Truncated SVD mengambl sebagan besar struktur pentng yang terdapat pada hubungan kata kunc dan dokumen. Dan, pada saat yang sama juga menghlangkan nose atau varabltas penggunaan kata yang menjad gangguan utama dalam proses nformaton retreval [3]. Selama nla dar k jauh lebh kecl dar banyaknya kata kunc (m) maka perbedaan mnor dalam termnolog dapat dabakan. Kata-kata kunc yang terdapat dalam dokumen yang sama, akan berdekatan satu sama lan dalam ruang k walaupun kata-kata kunc tu tdak pernah hadr bersamaan lag pada dokumen yang sama. Hal n berart beberapa dokumen yang tdak memlk satupun kata kunc yang sama yang terdapat dalam query, maka da tdak akan mendekat query tersebut dalam ruang-k. 2.4. RELEVANSI DOKUMEN DAN QUERY Query dapat drepresentaskan sebaga vektor dalam ruang-k. Vektor nlah yang kemudan d bandngkan dengan vektor-vektor dokumen untuk selanjutkan dnla mana yang palng mendekat. Sebuah query sepert halnya dokumen, merupakan kumpulan dar kata-kata. Query pengguna dapat representaskan sebaga T q q U k k... (2-5 ) sebaga Mrp dengan vektor query, vektor dokumen drepresentaskan T d d U k k... (2-6) Matrks q adalah matrks satu kolom yang elemennya bers nla kehadran kata kunc dalam query. Sementara matrks d adalah matrks satu Implementas pembobotan SICBI..., Dud 7 Hermawand, FT UI, 2008

kolom. Elemennya bers nla kehadran kata kunc dalam dokumen. Matrks d sama dengan kolom matrks A. q adalah vektor query dan d adalah vektor dokumen. Vektor query dapat dbandngkan atau dkorelaskan dengan semua vektor dokumen yang ada. Teknk korelas yang umum dgunakan adalah dengan mencar nla kosnus sudut yang dbentuk antara vektor query dan vektor dokumen. Korelas kosnus antara vektor query dan vektor dokumen dberkan oleh persamaan cos q d q d... (2-7) α adalah sudut dantara kedua vektor tersebut. Jka q dan d dnormalsas, maka magntude dar vektor tersebut adalah dan persamaan datas dapat dsederhanakan menjad cos qd. Jad, nla korelas adalah perhtungan sudut berdasarkan kosnus antara q dan d. Jka dlakukan pengurutan dar dokumen yang palng dekat ke palng jauh relevansnya, maka dokumen yang palng dekat adalah dokumen yang memlk sudut dengan yang palng kecl. 2.5. PROGRAM PENDUKUNG Otomas essay gradng dengan metode LSA yang telah dkembangkan adalah suatu sstem terpadu yang dbangun dengan bahasa scrptng PHP dan HTML serta dukungan database MySQL. Selan tga program pendukung d atas, LSA sendr menggunakan modul JAMA yang dprogram ulang menjad program PHP untuk menghtung matrks yang haslnya dkrmkan ke database dan PHP kembal untuk dtamplkan. Web server yang dgunakan adalah Apache. Selan tu untuk menjalankan program bsa dlakukan dengan dukungan web browser sepert Internet Explorer, Opera atau Mozlla Frefox. Pembangunan ftur pembobotan juga harus Implementas pembobotan SICBI..., Dud 8 Hermawand, FT UI, 2008

dlakukan mengunakan bahasa scrptng dan sstem database yang sama untuk menjaln ntegras yang sesua. 2.5. PHP PHP yang merupakan sngkatan rekursf PHP: Hypertext Preprocessor bukan bahasa pemrograman. PHP adalah bahasa scrptng open source yang dtuls menggunakan sntaks bahasa C, Java, dan Perl [6]. PHP membuat sebuah halaman web menjad dnams. Artnya halaman web menjad lebh nteraktf dan halaman yang dtamplkan dbuat saat clent melakukan request halaman tersebut sehngga nformas yang dterma oleh clent adalah selalu nformas yang terbaru. Scrpt PHP menyatu dengan fle HTML (HyperText Markup Language), deksekus d komputer server dmana scrpt tersebut dalankan (server sde), jad semua nformas yang ngn dtamplkan d halaman web bsa dlhat dengan bak oleh semua jens browser clent. 2.5.2 MySQL MySQL merupakan salah satu program database server yang dkeluarkan oleh T.c.X. DataKonsultanAB, sebuah perusahaan IT Sweda dan banyak dgunakan d nternet saat n. MySQL bersama PHP adalah pasangan bahasa scrptng dan database server yang terbukt tangguh, memlk jamnan keamanan yang tngg dan cukup mudah dpelajar. Walau pada awalnya dbangun d atas platform Unx/Lnux namun kn sudah dapat berjalan dengan bak pada sstem operas Mcrosoft Wndows. Database sendr merupakan bagan ntegral dalam pendataan d berbaga bdang. Pada sstem, semua data pengajar, mahasswa, soal dan jawaban tersmpan dalam database sesua dengan kategor-kategornya. Tap nformas ddeskrpskan dalam tabel dengan feld-feld yang spesfk sepert Gambar 2.3. Selan MySQL banyak database server lan yang beredar d pasaran, namun selan menyedakan dukungan open source, MySQL memlk beberapa keunggulan lan. Pertama adalah kemampuannya menangan jutaan user dalam waktu yang bersamaan. Kelebhan n tentu cocok untuk dmanfaatkan pada sebuah program penlaan esa yang ujannya mungkn Implementas pembobotan SICBI..., Dud 9 Hermawand, FT UI, 2008

dkut ratusan bahkan rbuan mahasswa. Kedua adalah kemampuannya menampung lebh dar 50.000.000 record. Selan tu MySQL sangat cepat mengeksekus perntah dan memlk sstem user prvledge yang mudah dan efsen. Gambar 2.3. Contoh tabel dalam MySQL 2.5.3 Apache Sepert halnya PHP, Apache juga pertama kal ddesan untuk sstem operas Unx. Namun kn varan Apache telah dapat dalankan d lngkungan Wndows. Sebenarnya web server dbutuhkan untuk menjalankan PHP dan MySQL. Web server yang juga dkenal dengan stlah HTTPD (Hypertext Transfer Protocol Daemon) atau HTTP server adalah servce yang bekerja untuk melayan request dar HTTP clent (web browser) ke komputer server. Implementas pembobotan SICBI..., 0 Dud Hermawand, FT UI, 2008

2.5.4 JAMA Selan MATLAB, aplkas matemats web based yang bsa dgunakan untuk penghtungan SVD adalah JAMA. JAMA adalah sngkatan dar Java Matrx. JAMA yang dgunakan merupakan skrp php untuk perhtungan matrks kompleks. Class-class dar package JAMA akan serng dgunakan dalam operas matrks sepert perkalan matrks, transpose, dan nverse. Karena JAMA hanya merupakan scrpt PHP bukan merupakan aplkas maka knerja server-pun tdak akan terlalu terbeban. 2.6. PEMBOBOTAN (WEIGHTING) Sebuah metode pembobotan merupakan susunan dar tga buah pembobotan: pembobotan lokal (local weghtng), pembobotan global (global weghtng) dan normalsas (normalzaton) []. Teknk pembobotan yang tepat dapat menngkatkan performans LSA. Pembobotan dkenakan pada tap elemen matrks A. Pembobotan drumuskan melalu persamaan : a L(, j) G( ) N( j )... (2-8) L(,j) merupakan bobot lokal untuk kata kunc dalam dokumen j. G() adalah bobot global untuk kata kunc, dan N(j) adalah faktor normalsas dokumen j. Bobot lokal adalah fungs dar berapa banyak setap kata kunc muncul dalam suatu dokumen. Bobot global adalah fungs dar berapa banyak setap kunc muncul dalam semua dokumen. Faktor normalsas dgunakan untuk mengkompensas perbedaan panjang dokumen-dokumen. Vektor dokumen (matrks kolom A) dan vektor query dkenakan pembobotan dengan metode yang berbeda. Bobot lokal dhtung berhubungan dengan kata kunc pada dokumen atau query. Bobot global lebh ddasarkan pada sejumlah dokumen yang ada tanpa memperhatkan apakah tu pembobotan pada dokumen atau query. Normalsas vektor query sebenarnya tdak perlu karena tdak mempengaruh urutan relevans akhr terhadap dokumen. Implementas pembobotan SICBI..., Dud Hermawand, FT UI, 2008

2.6. Pembobotan Lokal Pembobotan lokal akan bekerja dengan bak jka berdasarkan prnsp bahwa kata-kata kunc dengan frekuens kemunculan yang banyak yang lebh berhubungan dengan dokumen []. Sejumlah pembobotan lokal yang umum dgunakan dberkan dalam Tabel 2-2. Pembobotan lokal yang palng sederhana adalah pembobotan bner (BNRY) dan frekuens ntra-dokumen (FREQ). Dar Tabel 2-2, f adalah frekuens kemunculan kata kunc dalam dokumen j. Pembobotan n basanya dgunakan untuk pembobotan pada query, dmana kata kunc hanya muncul satu-dua kal saja. Untuk pembobotan dokumen, metode n umumnya bukan yang terbak. Hal n karena BNRY tdak membedakan antara kata kunc yang muncul beberapa kal dengan kata kunc yang muncul hanya sekal. Selan tu metode FREQ dnla memberkan bobot terlalu besar untuk kata kunc yang muncul beberapa kal. Metode logartma dgunakan untuk menyesuakan frekuens ntra dokumen. Karena sebuah kata kunc yang muncul sepuluh kal dalam sebuah dokumen tdak berart sepuluh kal lebh pentng dbandngkan kata kunc yang muncul sekal dalam dokumen tersebut. Dua dar sejumlah metode pembobotan lokal dalam Tabel 2-2. bsa dkatakan mrp karena metode tersebut menggunakan logartma. Dua metode tu adalah LOGA dan LOGN. Semua logartma pada metode pembobotan berbass 2. a j adalah frekuens rata-rata dar kemunculan kata kunc dalam dokumen j. Karena dalam LOGN terdapat normalsas yakn ( log a j ), maka hasl pembobotan yang dberkan oleh LOGN akan selalu lebh kecl nlanya dbandngkan LOGA untuk kata kunc dan dokumen yang sama. Pembobotan lokal lannya, yang menjad penengah antara metode bner dan frekuens ntra dokumen adalah metode normalsas frekuens dperlebar (augmented normalzed term frequency) atau ATF. Pada Tabel 2-2. x j merupakan frekuens maksmum dar kata kunc dalam dokumen j. ATF memberkan bobot pada sebuah kata yang muncul pada dokumen dan memberkan tambahan bobot bla kata tersebut muncul beberapa kal. Dengan Implementas pembobotan SICBI..., 2 Dud Hermawand, FT UI, 2008

formula n, L(,j) bervaras hanya antara 0,5 sampa untuk kata yang muncul dalam dokumen. Tabel 2-2. Macam-macam pembobotan lokal Formula Nama Metode Kependekan jka f 0 0 jka f 0 Bner BNRY f Frekuens ntra-dokumen FREQ log f jka f 0 0 jka f 0 Log LOGA log f log a j jka f 0 0 jka f 0 Normalsas log LOGN f 0,5 jka f 0 0 jka f 0 Akar pangkat dua SQRT Normalsas frekuens dperlebar ATF f 0,9 0, jka f 0 a j 0 jka f 0 Normalsas frekuens rata-rata dperlebar ATFA f 0, 2 0,8 jka f 0 x j 0 jka f 0 ATF dengan perubahan koefsen ATFC [] Implementas pembobotan SICBI..., 3 Dud Hermawand, FT UI, 2008

2.6.2 Pembobotan Global Pembobotan global dtujukan untuk memberkan sebuah nla beda kepada setap kata kunc. Pembobotan global yang berdasarkan de bahwa semakn kecl nla frekuens kemunculan kata dalam seluruh koleks dokumen, maka makn berbedalah kata tersebut []. Tabel 2-3. Macam-macam pembobotan global Formula Nama Metode Kependekan log N n Invers frekuens dokumen IDFB log N n n Invers probablstk IDFP N j f F log f log N F Entrop ENPY F n Frekuens global IDF IGFF F n 0,9 Akar pangkat dua global IDF IGFS Tdak ada bobot global NONE [] Sebuah pembobotan global yang umum dgunakan adalah nverted document frequency atau IDF. Dalam Tabel 2-3 dberkan dua varas yakn IDFB dan IDFP. N adalah jumlah dokumen dalam koleks dan n merupakan jumlah dokumen dmana kata kunc muncul ddalamnya. IDFB adalah logartma dar nvers dar probabltas kata kunc muncul dalam dokumen acak. IDFP adalah logartma dar nvers dar probabltas ketdak-hadran kata kunc dalam dokumen acak. IDFB dan IDFP adalah sama dalam artan keduanya memberkan bobot yang lebh besar untuk kata yang tampl pada Implementas pembobotan SICBI..., 4 Dud Hermawand, FT UI, 2008

beberapa dokumen saja dan memberkan bobot yang lebh kecl untuk kata yang muncul pada banyak dokumen dalam koleks. IDFP memberkan bobot negatf untuk kata yang muncul pada lebh dar separuh jumlah seluruh dokumen. Sementara pada IDFB, nla terendah pembobotan adalah. Pada metode entrop (ENPY), F merupakan frekuens kemunculan kata kunc d seluruh koleks dokumen. Jka sebuah kata kunc muncul sekal pada setap dokumen, maka kata tersebut dberkan bobot bernla nol. Jka sebuah kata kunc muncul sekal pada satu dokumen, maka kata tersebut dber bobot satu. Kombnas dan varas lan dar frekuens kemunculan akan menghaslkan bobot yang nlanya antara nol dan satu. Entrop adalah teknk pembobotan yang sangat berguna karena a memberkan bobot yang lebh besar untuk kata yang frekuens kemunculannya kecl pada sejumlah kecl dokumen. Dalam Tabel 2-3. juga dsebutkan pembobotan frekuens global IDF (IGFF). Jka sebuah kata kunc muncul sekal pada setap dokumen atau sekal pada satu dokumen, maka kata tersebut dberkan bobot sebesar satu, yang merupakan bobot terkecl. Sebuah kata yang muncul beberapa kal pada sejumlah dokumen akan mendapat bobot yang besar. Pembobotan n bekerja dengan bak jka dkombnaskan dengan pembobotan global yang berbeda pada vektor query. 2.6.3 Normalsas Bagan ketga dar sebuah pembobotan adalah faktor normalsas atau N(j), yang mana dgunakan untuk mengkompensas perbedaan panjang dokumen-dokumen dalam koleks. Bagan n berguna untuk menormalkan vektor dokumen sehngga dokumen-dokumen tersebut ndependen terhadap panjangnya. Pada Tabel 2-4. dperlhatkan dua buah metode normalsas. Normalsas yang palng umum dgunakan dalam model ruang vektor adalah normalsas kosnus (COSN). Normalsas n memlk faktor pembag magntude dar dokumen yang dbobotkan, sehngga hal n menyebabkan magntude dar vektor dokumen selalu bernla satu. Dalam metode COSN, dokumen yang lebh panjang dberkan bobot lebh kecl untuk kata kunc, Implementas pembobotan SICBI..., 5 Dud Hermawand, FT UI, 2008

sehngga dokumen yang lebh pendek akan lebh panjang dalam proses perolehan nformas. Tabel 2-4. Macam-macam Normalsas Formula Nama Metode Kependekan m 0 GL 2 Normalsas kosnus COSN ( slope) pvot slope l j Normalsas pvot PUQN Tdak ada normalsas NONE [] Metode pvoted unque normalzaton (PUQN) mencoba untuk mengatas masalah dalam penanganan dokumen-dokumen yang pendek. Dalam Tabel 2.4, l j adalah banyaknya kata kunc yang berbeda dalam dokumen j. Nla slope dapat dset sebesar 0,2 dan pvot adalah rata-rata banyaknya kata kunc yang berbeda per dokumen dalam seluruh koleks. Prnsp dasar dar normalsas pvot adalah untuk mengatas perbedaan panjang dokumen dantara dokumen yang memlk probabltas relevan dan dokumen yang memlk probabltas akan dperoleh atau d-retreve. Dengan faktor normalsas n, kurva relevans dan kurva retreval dgambarkan berdasarkan panjang dokumen. Ttk dmana kedua kurva n bersnggungan atau memotong dsebut pvot. Dokumen pada sebelah kr dar pvot umumnya memlk probabltas yang lebh besar untuk d-retreve darpada tngkat relevansnya. Dan, dokumen yang ada d sebelah kanan pvot memlk probabltas lebh relevan darpada untuk d-retreve. Melalu penggeseran pvot n, faktor normalsas dapat dubah-ubah sedemkan rupa untuk mendapatkan hasl kombnas yang lebh bak antara probabltas relevans dan retreval. Implementas pembobotan SICBI..., 6 Dud Hermawand, FT UI, 2008