BAB III LANDASAN TEORI III.1 Peambaga Teks (Text Miig) Text Miig memiliki defiisi meambag data yag berupa teks dimaa sumber data biasaya didapatka dari dokume, da tujuaya adalah mecari kata-kata yag dapat mewakili isi dari dokume sehigga dapat dilakuka aalisa keterhubuga atara dokume (Rata Maria, 2013). Text miig bisa diaggap subjek riset yag tergolog baru. Text miig dapat memberika solusi dari permasalaha seperti pemrosesa, pegorgaisasia da megaalisa ustructured text dalam jumlah besar. Dalam member solusi, text miig megadopsi da megembagka bayak tekik dari bidag lai, seperti data miig, iformatio retrieval, statistic da matematik, machie learig, liguistic, atural laguage processig, da visualizatio. Kegiata riset utuk text miig atara lai ekstraksi da peyimpaa teks, preprocessig aka kote teks, pegumpula data statistic da idexig da aalisa kote. Permasalaha yag dihadapi pada text miig sama dega permasalaha yag terdapat pada data miig, yaitu jumlah data yag besar, dimesi yag tiggi, data da struktur yag terus berubah, da data oise. Perbedaa diatara keduaya adalah pada data yag diguaka, pada data miig, data yag diguaka adalah structured data, sedagka pada text miig, data yag diguaka pada 11
umumya adalah ustructured data, atau miimal semistructured. Hal ii meyebabka adaya tataga tambaha pada text miig yaitu struktur teks yag kompleks da tidak legkap, arti yag tidak jelas da tidak stadard, serta bahasa yag berbeda ditambah traslasi yag tidak akurat. Tahapa yag dilakuka secra umum yaitu Ekstraksi dokume. Teks yag dilakuka proses text miig, pada umumya memiliki beberapa karakteristik diataraya adalah memiliki dimesi yag tiggi, terhadap oise pada data, da terdapat struktur teks yag tidak baik. Cara yag diguaka dalam mempelajari struktur data teks adalah dega terlebih dahulu meetuka fitur-fitur yag mewakili setiap kata utuk setiap fitur yag ada pada dokume, sebelum meetuka fitur-fitur yag mewakili, diperluka tahap pre-processig yag dilakuka secara umum dalam text miig pada dokume, yaitu case foldig, tokeizig, filterig, da stemmig (Raymod J.Mooey, 2006), seperti terlihat pada Gambar 3.1. Case Foldig Tokeizig Filterig Stemmig Gambar 3.1: Proses Peambaga Teks 12
Case foldig adalah megubah semua huruf dalam dokume mejadi huruf kecil, haya huruf a sampai dega z yag diterima. Karakter selai huruf dihilagka da diaggap delimeter. Proses foldig seperti pada Gambar 3.2. Maajeme pegetahua adalah sebuah kosep baru di duia bisis. (Teks Iput) maajeme pegetahua adalah sebuah kosep baru di duia bisis (Teks Output) Gambar 3.2: Proses Flodig Tahap tokeizig atau parsig adalah tahap pemotoga strig iput berdasarka tiap kata yag meyusuya, sedagka tahap filterig adalah tahap megambil katakata petig dari hasil term. Bisa megguaka algoritma stoplist (membuag kata yag kurag petig) atau wordlist (meyimpa kata petig). Stoplist/stopword adalah kata-kata yag tidak deskriptif yag dapat dibuag dalam pedekata bag-of-word. Cotoh stopwords adalah yag, da, di, dari, da seterusya. Proses tokeizig da filterig seperti pada Gambar 3.3. 13
maajeme pegetahua adalah sebuah kosep baru di duia bisis maajeme pegetahua kosep baru duia bisis (Hasil Filter) (Hasil Toke) Gambar 3.3: Proses Tokeizig da Filter Tahap stemmig adalah tahap mecari root kata dari tiap kata hasil filterig. Pada tahp ii dilakuka proses pegambila berbagai betuka kata kedalam suatu represetasi yag sama. Tahap ii kebayaka dipakai utuk teks berbahasa iggris da lebih sulit diterapka pada teks berbahasa Idoesia. Hal ii dikareaka bahasa Idoesia tidak memiliki rumus betuk baku yag permae. Proses tahapa stemmig pada teks berbahasa Idoesia seperti pada Gambar 3.4. membela meguatya dikataka dibadigka (Hasil Filterig) bela meguat kata dibadig (Hasil Stemmig) Gambar 3.4: Proses Stemmig 14
III.2 Algoritma TF-IDF Algoritma ii adalah salah satu jeis pegklasifikasia yag berdasarka relevasi umpa balik algoritma yag diusulka oleh Rocchio seperti pada Gambar 3.5. Tiga desai utama dari metode ii adalah: 1. Metode pembobota kata. 2. Normalisasi pajag dokume. 3. Ukura kesamaa. Gambar 3.5: Ilustrasi Algoritma Peamba D1, D2, D3, D4, D5= dokume. Tf= bayakya kata yag dicari pada sebuah dokume. D= total dokume. Df= bayak dokume yag megadug kata yag dicari. 15
Formula yag diguaka utuk meghitug bobot (w) masig-masig dokume terhadap kata kuci adalah: Rumus: Keteraga :,, d= dokume ke-d t=kata ke-t dari kata kuci W= bobot dokume ke-d terhadap kata ke-t Rumus mecari ilai IDF : setelah bobot (w) masig-masig dokume diketahui, maka dilakuka proses sortig/peguruta dimaa semaki besar ilai W, semaki besar tigkat similaritas dokume tersebut terhadap kata yag dicari, demikia sebalikya. III.3 Cosie Similarity Cosie similarity adalah metode similaritas yag palig bayak diguaka utuk meghitug similartias dua buah dokume. Dega rumus: Keteraga: A= bobot TF-IDF dari kata kuci B= bobot TF-IDF dari dokume A= pejumlajha TF-IDF dari kata kuci B= pejumlajha TF-IDF dari dokume log / cos è. 16
III.3.1 Ilustrasi TF/IDF da Cosie Similarity Dokume 1 (D1) : maajeme trasaksi logistik Dokume 2 (D2) : pegetahua atar idividu Dokume 3 (D3) : dalam maajeme pegetahua terdapat trasfer pegetahua logistik Tabel 3.1 Perhituga TF/IDF Frekuesi Normal Freq Df D/Df log(d/df) TF IDF Terms D1 D2 D3 D1 D2 D3 D1 D2 D3 Maajeme 1 0 1 0,33 0,20 2 1,50 0,176 0,06 0,04 Trasaksi 1 0 0 0,33 1 3,00 0,477 0,16 Logistik 1 0 1 0,33 0,20 2 1,50 0,176 0,06 0,04 Pegetahua 0 1 2 0,50 0,40 2 1,50 0,176 0,09 0,07 Idividu 0 1 0 0,50 1 3,00 0,477 0,24 Trasfer 0 0 1 0,20 1 3,00 0,477 0,10 3 2 5 17
Kata kuci (Q) : pegetahua logistik Terms Q TF IDF Sim(Q,Di) D1 D2 D3 Q,D1 Q,D2 Q,D3 Qi2 Dki2 Dki2 Dki2 Maajeme 0 0,06 0,04 0 0,003445348 0 0,00124 Trasaksi 0 0,16 0 0,025293855 0 0 Logistik 1 0,06 0,04 0,06 0,04 1 0,003445348 0 0,00124 Pegetahua 1 0,09 0,07 0,09 0,07 1 0 0,007752 0,004961 Idividu 0 0,24 0 0 0,056911 0 Trasfer 0 0,10 0 0 0 0,009106 0,06 0,09 0,11 2,00 0,03 0,06 0,02 Sim(Q,D1) 0,23 Sim(Q,D2) 0,24 Sim(Q,D3) 0,58 18
Perhituga: Sqrt(Q) = Sqrt( Qj2 )Dimaa j adalah kata di basis data. Misalya utuk Sqrt(Q) = Sqrt( Qj2 ) Sqrt(Q) = 0 0 1 1 0 0 = 2 = 1,41 Sqrt(Di) = Sqrt( D 2 i. j )Dimaa j adalah kata di basis data. Misalya utuk Sqrt(Di) = Sqrt( D 2 2. j ) Sqrt(D1) = 0,003445 0,025294 0,003445 0 0 0 = 0, 0322 = 0,1794 Sqrt(D2) = 0 0 0 0,007752 0,056911 0 = 0, 06 = 0,25 Sqrt(D3) = 0,00124 0 0,00124 0,004961 0 0, 009106 = 0, 02 = 0,1286 Sum(Q.Di) = Q D j i. j Dimaa j adalah kata di basis data. Misalya utuk Sum(Q.Di) = Q j D Sum(Q.D1)=0+0+0,06+0+0+0 = 0,06 Sum(Q.D2)=0+0+0+0,09+0+0 = 0,09 Sum(Q.D1)=0+0+0,04+0,07+0+0 = 0,11 3. j Selajutya meghitug ilai cosius sudut atara vektor kata kuci dega tiap dokume dega rumus : Cosie(Di) = sum(q.di)/[sqrt(q)*sqrt(di)] 19
Misalya utuk Di maka : Cosie(D1) = sum(q.d1) / [sqrt(q)*sqrt(d1)] = 0,06/[0,141*0,1794] = 0,23 Cosie(D2) = sum(q.d2) / [sqrt(q)*sqrt(d2)] = 0,09/[0,141*0,25] = 0,24 Cosie(D3) = sum(q.d3) / [sqrt(q)*sqrt(d3)] = 0,11/[0,141*0,1286] = 0,58 sehigga hasil yag diperoleh utuk ketiga dokume diatas adalah seperti berikut ii. Tabel 3.3 Hasil Vector Space Model D1 D2 D3 Cosie 0,23 0,24 0,58 Rak 3 Rak 2 Rak 1 Dari hasil akhir maka dapat diketahui bahwa dokume ke-3 (D3) memiliki tigkat kesamaa tertiggi kemudia diikuti dega D2 lalu D1. 20