BAB III LANDASAN TEORI

dokumen-dokumen yang mirip
BAB I PENDAHULUAN. Matematika merupakan suatu ilmu yang mempunyai obyek kajian

METODE NUMERIK JURUSAN TEKNIK SIPIL FAKULTAS TEKNIK UNIVERSITAS BRAWIJAYA 7/4/2012 SUGENG2010. Copyright Dale Carnegie & Associates, Inc.

TINJAUAN PUSTAKA Pengertian

6. Pencacahan Lanjut. Relasi Rekurensi. Pemodelan dengan Relasi Rekurensi

BAB III METODE PENELITIAN

BAB II LANDASAN TEORI. matematika secara numerik dan menggunakan alat bantu komputer, yaitu:

REGRESI LINIER DAN KORELASI. Variabel bebas atau variabel prediktor -> variabel yang mudah didapat atau tersedia. Dapat dinyatakan

BAB V UKURAN GEJALA PUSAT (TENDENSI CENTRAL)

Modul Klasifikasi Aduan dengan Pendekatan Kemiripan Teks pada Aplikasi Perangkat Bergerak Suara Warga (Surga) Kota Kediri

Algoritma Latent Semantic Analysis (LSA) Pada Peringkas Dokumen Otomatis Untuk Proses Clustering Dokumen

BAB III METODE PENELITIAN

Bab 7 Penyelesaian Persamaan Differensial

Evaluasi Algoritme HASIL DAN PEMBAHASAN Penggunaan Cronjob Memasukkan Link ke Frontier Pemberhentian Crawling

Mata Kuliah : Matematika Diskrit Program Studi : Teknik Informatika Minggu ke : 4

BAB IV PEMBAHASAN DAN ANALISIS

BAB V METODOLOGI PENELITIAN

METODE PENELITIAN. dalam tujuh kelas dimana tingkat kemampuan belajar matematika siswa

Bab III Metoda Taguchi

IV. METODE PENELITIAN

Probabilitas dan Statistika Teorema Bayes. Adam Hendra Brata

Ukuran Pemusatan. Pertemuan 3. Median. Quartil. 17-Mar-17. Modus

III. METODOLOGI PENELITIAN. Penelitian ini dilakukan di SMA Negeri 1 Way Jepara Kabupaten Lampung Timur

PENGUKURAN KEMIRIPAN DOKUMEN TEKS BAHASA INDONESIA MENGGUNAKAN METODE COSINE SIMILARITY

BAB III METODOLOGI 3.1 Tempat dan Waktu Penelitian 3.2 Bahan dan Alat 3.3 Metode Pengumpulan Data Pembuatan plot contoh

Materi 5 DATA MINING 3 SKS Semester 6 S1 Sistem Informasi UNIKOM 2016 Nizar Rabbi Radliya

BAB III METODE PENELITIAN

Distribusi Sampling (Distribusi Penarikan Sampel)

BAB I KONSEP DASAR PERSAMAAN DIFERENSIAL

III. METODOLOGI PENELITIAN. Populasi dalam penelitian ini adalah semua siswa kelas XI IPA SMA Negeri I

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

BAB III METODOLOGI PENELITIAN. kuantitatif karena bertujuan untuk mengetahui kompetensi pedagogik mahasiswa

III. METODE PENELITIAN. Penelitian ini dilaksanakan di SMPN 20 Bandar Lampung, dengan populasi

Masih ingat beda antara Statistik Sampel Vs Parameter Populasi? Perhatikan tabel berikut: Ukuran/Ciri Statistik Sampel Parameter Populasi.

BAB IV HASIL DAN PEMBAHASAN. : Lux meter dilengkapi sensor jarak berbasis arduino. : panjang 15,4 cm X tinggi 5,4 cm X lebar 8,7 cm

UKURAN PEMUSATAN DATA

BAB IV. METODE PENELITlAN. Rancangan atau desain dalam penelitian ini adalah analisis komparasi, dua

DISTRIBUSI SAMPLING (Distribusi Penarikan Sampel)

BAB IV HASIL DAN PEMBAHASAN. Sebelum melakukan deteksi dan tracking obyek dibutuhkan perangkat

II. LANDASAN TEORI. Sampling adalah proses pengambilan atau memilih n buah elemen dari populasi yang

PENGUJIAN HIPOTESIS. Atau. Pengujian hipotesis uji dua pihak:

III. METODOLOGI PENELITIAN. Penelitian ini dilakukan di SMA Negeri 1 Way Jepara Kabupaten Lampung Timur

BAB III 1 METODE PENELITAN. Penelitian dilakukan di SMP Negeri 2 Batudaa Kab. Gorontalo dengan

Pengendalian Proses Menggunakan Diagram Kendali Median Absolute Deviation (MAD)

PERTEMUAN 3 CARA MEMBUAT TABEL DISTRIBUSI FREKUENSI UKURAN PEMUSATAN DATA

1 n MODUL 5. Peubah Acak Diskret Khusus

BAB 1 PENDAHULUAN. Bagi Negara yang mempunyai wilayah terdiri dari pulau-pulau yang dikelilingi lautan,

I. DERET TAKHINGGA, DERET PANGKAT

kesimpulan yang didapat.

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

Aplikasi Interpolasi Bilinier pada Pengolahan Citra Digital

Bab 3 Metode Interpolasi

MANAJEMEN RISIKO INVESTASI

BAB III METODE PENELITIAN Penelitian ini dilakukan di kelas X SMA Muhammadiyah 1 Pekanbaru. semester ganjil tahun ajaran 2013/2014.

BAB II LANDASAN TEORI

BAB II TINJAUAN TEORITIS

IV METODE PENELITIAN 4.1 Lokasi dan waktu 4.2. Jenis dan Sumber Data 4.3 Metode Pengumpulan Data

3. Rangkaian Logika Kombinasional dan Sequensial 3.1. Rangkaian Logika Kombinasional Enkoder

BAB III METODE PENELITIAN. penelitian yaitu PT. Sinar Gorontalo Berlian Motor, Jl. H. B Yassin no 28

RESPONSI 2 STK 511 (ANALISIS STATISTIKA) JUMAT, 11 SEPTEMBER 2015

BAB III METODE PENELITIAN

Pemilihan Ketua BEM Fakultas Teknik UN PGRI Kediri menggunakan Metode ELECTRE

BAB III METODE PENELITIAN. Jenis penelitian ini adalah penelitian pengembangan (research and

METODOLOGI PENELITIAN. penggunaan metode penelitian. Oleh karena itu, metode yang akan digunakan

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

Statistika Deskriptif Ukuran Pemusatan dan Ukuran Penyebaran

Masih ingat beda antara Statistik Sampel Vs Parameter Populasi? Perhatikan tabel berikut: Ukuran/Ciri Statistik Sampel Parameter Populasi

III. METODOLOGI PENELITIAN. Penelitian ini dilaksanakan di MTs Muhammadiyah 1 Natar Lampung Selatan.

BAB III METODOLOGI PENELITIAN

III. METODE PENELITIAN

BAB 3 METODE PENELITIAN

III. METODOLOGI PENELITIAN. Populasi dalam penelitian ini adalah semua siswa kelas XI MIA SMA Negeri 5

Penentuan Model Terbaik pada Metode Naive Bayes Classifier dalam Menentukan Status Gizi Balita dengan Mempertimbangkan Independensi Parameter

PENGARUH VARIASI PELUANG CROSSOVER DAN MUTASI DALAM ALGORITMA GENETIKA UNTUK MENYELESAIKAN MASALAH KNAPSACK. Sutikno

Persamaan Non-Linear

PENGENDALIAN KUALITAS STATISTIKA UNTUK MONITORING DAN EVALUASI KINERJA DOSEN DI JURUSAN MATEMATIKA FMIPA UNIVERSITAS TANJUNGPURA

BAB I PENDAHULUAN. X Y X Y X Y sampel

BAB 2 LANDASAN TEORI. Statistika merupakan salah satu cabang penegtahuan yang paling banyak mendapatkan

IV METODE PENELITIAN

BAB IV PENGUMPULAN DAN PENGOLAHAN DATA. Langkah Langkah Dalam Pengolahan Data

BAB V ANALISA PEMECAHAN MASALAH

ANALISIS SISTEM ANTRIAN PADA LOKET PENDAFTARAN PASIEN DI PUSKESMMAS PADANG PASIR KECAMATAN PADANG BARAT

PETA KONSEP RETURN dan RISIKO PORTOFOLIO

BAB III METODE PENELITIAN. Penelitian ini dilaksanakan di kelas X SMA N 10 Pekanbaru, semester

II. LANDASAN TEORI. dihitung. Nilai setiap statistik sampel akan bervariasi antar sampel.

BAB IV PEMECAHAN MASALAH

BAB IV PENELITIAN. menggunakan sensor mekanik limit switch sebagai mekanis hitungnya

BAB VIII MASALAH ESTIMASI SATU DAN DUA SAMPEL

BAB I PENDAHULUAN. Integral adalah salah satu konsep penting dalam Matematika yang

BAB 1 PENDAHULUAN. Analisis regresi menjadi salah satu bagian statistika yang paling banyak aplikasinya.

Pendekatan Nilai Logaritma dan Inversnya Secara Manual

Institut Teknologi Sepuluh Nopember Surabaya. Model Sistem dalam Persamaan Keadaan

III BAHAN DAN METODE PENELITIAN. memelihara itik Damiaking murni di Kampung Teras Toyib Desa Kamaruton

BAB III PEMBAHASAN. Pada BAB III ini akan dibahas mengenai bentuk program linear fuzzy

ANALISIS INTENSITAS HUJAN DI STASIUN KALIBAWANG KABUPATEN KULONPROGO

BAB III METODOLOGI DAN PELAKSANAAN PENELITIAN. Perumusan - Sasaran - Tujuan. Pengidentifikasian dan orientasi - Masalah.

= Keterkaitan langsung ke belakang sektor j = Unsur matriks koefisien teknik

METODE PENELITIAN. Penelitian tentang Potensi Ekowisata Hutan Mangrove ini dilakukan di Desa

STUDI PERBANDINGAN PERFORMANCE ALGORITMA HEURISTIK POUR TERHADAP MIXED INTEGER PROGRAMMING DALAM MENYELESAIKAN PENJADWALAN FLOWSHOP

PENGGGUNAAN ALGORITMA GAUSS-NEWTON UNTUK MENENTUKAN SIFAT-SIFAT PENAKSIR PARAMETER DAN

BAB III METODE PENELITIAN

Transkripsi:

BAB III LANDASAN TEORI III.1 Peambaga Teks (Text Miig) Text Miig memiliki defiisi meambag data yag berupa teks dimaa sumber data biasaya didapatka dari dokume, da tujuaya adalah mecari kata-kata yag dapat mewakili isi dari dokume sehigga dapat dilakuka aalisa keterhubuga atara dokume (Rata Maria, 2013). Text miig bisa diaggap subjek riset yag tergolog baru. Text miig dapat memberika solusi dari permasalaha seperti pemrosesa, pegorgaisasia da megaalisa ustructured text dalam jumlah besar. Dalam member solusi, text miig megadopsi da megembagka bayak tekik dari bidag lai, seperti data miig, iformatio retrieval, statistic da matematik, machie learig, liguistic, atural laguage processig, da visualizatio. Kegiata riset utuk text miig atara lai ekstraksi da peyimpaa teks, preprocessig aka kote teks, pegumpula data statistic da idexig da aalisa kote. Permasalaha yag dihadapi pada text miig sama dega permasalaha yag terdapat pada data miig, yaitu jumlah data yag besar, dimesi yag tiggi, data da struktur yag terus berubah, da data oise. Perbedaa diatara keduaya adalah pada data yag diguaka, pada data miig, data yag diguaka adalah structured data, sedagka pada text miig, data yag diguaka pada 11

umumya adalah ustructured data, atau miimal semistructured. Hal ii meyebabka adaya tataga tambaha pada text miig yaitu struktur teks yag kompleks da tidak legkap, arti yag tidak jelas da tidak stadard, serta bahasa yag berbeda ditambah traslasi yag tidak akurat. Tahapa yag dilakuka secra umum yaitu Ekstraksi dokume. Teks yag dilakuka proses text miig, pada umumya memiliki beberapa karakteristik diataraya adalah memiliki dimesi yag tiggi, terhadap oise pada data, da terdapat struktur teks yag tidak baik. Cara yag diguaka dalam mempelajari struktur data teks adalah dega terlebih dahulu meetuka fitur-fitur yag mewakili setiap kata utuk setiap fitur yag ada pada dokume, sebelum meetuka fitur-fitur yag mewakili, diperluka tahap pre-processig yag dilakuka secara umum dalam text miig pada dokume, yaitu case foldig, tokeizig, filterig, da stemmig (Raymod J.Mooey, 2006), seperti terlihat pada Gambar 3.1. Case Foldig Tokeizig Filterig Stemmig Gambar 3.1: Proses Peambaga Teks 12

Case foldig adalah megubah semua huruf dalam dokume mejadi huruf kecil, haya huruf a sampai dega z yag diterima. Karakter selai huruf dihilagka da diaggap delimeter. Proses foldig seperti pada Gambar 3.2. Maajeme pegetahua adalah sebuah kosep baru di duia bisis. (Teks Iput) maajeme pegetahua adalah sebuah kosep baru di duia bisis (Teks Output) Gambar 3.2: Proses Flodig Tahap tokeizig atau parsig adalah tahap pemotoga strig iput berdasarka tiap kata yag meyusuya, sedagka tahap filterig adalah tahap megambil katakata petig dari hasil term. Bisa megguaka algoritma stoplist (membuag kata yag kurag petig) atau wordlist (meyimpa kata petig). Stoplist/stopword adalah kata-kata yag tidak deskriptif yag dapat dibuag dalam pedekata bag-of-word. Cotoh stopwords adalah yag, da, di, dari, da seterusya. Proses tokeizig da filterig seperti pada Gambar 3.3. 13

maajeme pegetahua adalah sebuah kosep baru di duia bisis maajeme pegetahua kosep baru duia bisis (Hasil Filter) (Hasil Toke) Gambar 3.3: Proses Tokeizig da Filter Tahap stemmig adalah tahap mecari root kata dari tiap kata hasil filterig. Pada tahp ii dilakuka proses pegambila berbagai betuka kata kedalam suatu represetasi yag sama. Tahap ii kebayaka dipakai utuk teks berbahasa iggris da lebih sulit diterapka pada teks berbahasa Idoesia. Hal ii dikareaka bahasa Idoesia tidak memiliki rumus betuk baku yag permae. Proses tahapa stemmig pada teks berbahasa Idoesia seperti pada Gambar 3.4. membela meguatya dikataka dibadigka (Hasil Filterig) bela meguat kata dibadig (Hasil Stemmig) Gambar 3.4: Proses Stemmig 14

III.2 Algoritma TF-IDF Algoritma ii adalah salah satu jeis pegklasifikasia yag berdasarka relevasi umpa balik algoritma yag diusulka oleh Rocchio seperti pada Gambar 3.5. Tiga desai utama dari metode ii adalah: 1. Metode pembobota kata. 2. Normalisasi pajag dokume. 3. Ukura kesamaa. Gambar 3.5: Ilustrasi Algoritma Peamba D1, D2, D3, D4, D5= dokume. Tf= bayakya kata yag dicari pada sebuah dokume. D= total dokume. Df= bayak dokume yag megadug kata yag dicari. 15

Formula yag diguaka utuk meghitug bobot (w) masig-masig dokume terhadap kata kuci adalah: Rumus: Keteraga :,, d= dokume ke-d t=kata ke-t dari kata kuci W= bobot dokume ke-d terhadap kata ke-t Rumus mecari ilai IDF : setelah bobot (w) masig-masig dokume diketahui, maka dilakuka proses sortig/peguruta dimaa semaki besar ilai W, semaki besar tigkat similaritas dokume tersebut terhadap kata yag dicari, demikia sebalikya. III.3 Cosie Similarity Cosie similarity adalah metode similaritas yag palig bayak diguaka utuk meghitug similartias dua buah dokume. Dega rumus: Keteraga: A= bobot TF-IDF dari kata kuci B= bobot TF-IDF dari dokume A= pejumlajha TF-IDF dari kata kuci B= pejumlajha TF-IDF dari dokume log / cos è. 16

III.3.1 Ilustrasi TF/IDF da Cosie Similarity Dokume 1 (D1) : maajeme trasaksi logistik Dokume 2 (D2) : pegetahua atar idividu Dokume 3 (D3) : dalam maajeme pegetahua terdapat trasfer pegetahua logistik Tabel 3.1 Perhituga TF/IDF Frekuesi Normal Freq Df D/Df log(d/df) TF IDF Terms D1 D2 D3 D1 D2 D3 D1 D2 D3 Maajeme 1 0 1 0,33 0,20 2 1,50 0,176 0,06 0,04 Trasaksi 1 0 0 0,33 1 3,00 0,477 0,16 Logistik 1 0 1 0,33 0,20 2 1,50 0,176 0,06 0,04 Pegetahua 0 1 2 0,50 0,40 2 1,50 0,176 0,09 0,07 Idividu 0 1 0 0,50 1 3,00 0,477 0,24 Trasfer 0 0 1 0,20 1 3,00 0,477 0,10 3 2 5 17

Kata kuci (Q) : pegetahua logistik Terms Q TF IDF Sim(Q,Di) D1 D2 D3 Q,D1 Q,D2 Q,D3 Qi2 Dki2 Dki2 Dki2 Maajeme 0 0,06 0,04 0 0,003445348 0 0,00124 Trasaksi 0 0,16 0 0,025293855 0 0 Logistik 1 0,06 0,04 0,06 0,04 1 0,003445348 0 0,00124 Pegetahua 1 0,09 0,07 0,09 0,07 1 0 0,007752 0,004961 Idividu 0 0,24 0 0 0,056911 0 Trasfer 0 0,10 0 0 0 0,009106 0,06 0,09 0,11 2,00 0,03 0,06 0,02 Sim(Q,D1) 0,23 Sim(Q,D2) 0,24 Sim(Q,D3) 0,58 18

Perhituga: Sqrt(Q) = Sqrt( Qj2 )Dimaa j adalah kata di basis data. Misalya utuk Sqrt(Q) = Sqrt( Qj2 ) Sqrt(Q) = 0 0 1 1 0 0 = 2 = 1,41 Sqrt(Di) = Sqrt( D 2 i. j )Dimaa j adalah kata di basis data. Misalya utuk Sqrt(Di) = Sqrt( D 2 2. j ) Sqrt(D1) = 0,003445 0,025294 0,003445 0 0 0 = 0, 0322 = 0,1794 Sqrt(D2) = 0 0 0 0,007752 0,056911 0 = 0, 06 = 0,25 Sqrt(D3) = 0,00124 0 0,00124 0,004961 0 0, 009106 = 0, 02 = 0,1286 Sum(Q.Di) = Q D j i. j Dimaa j adalah kata di basis data. Misalya utuk Sum(Q.Di) = Q j D Sum(Q.D1)=0+0+0,06+0+0+0 = 0,06 Sum(Q.D2)=0+0+0+0,09+0+0 = 0,09 Sum(Q.D1)=0+0+0,04+0,07+0+0 = 0,11 3. j Selajutya meghitug ilai cosius sudut atara vektor kata kuci dega tiap dokume dega rumus : Cosie(Di) = sum(q.di)/[sqrt(q)*sqrt(di)] 19

Misalya utuk Di maka : Cosie(D1) = sum(q.d1) / [sqrt(q)*sqrt(d1)] = 0,06/[0,141*0,1794] = 0,23 Cosie(D2) = sum(q.d2) / [sqrt(q)*sqrt(d2)] = 0,09/[0,141*0,25] = 0,24 Cosie(D3) = sum(q.d3) / [sqrt(q)*sqrt(d3)] = 0,11/[0,141*0,1286] = 0,58 sehigga hasil yag diperoleh utuk ketiga dokume diatas adalah seperti berikut ii. Tabel 3.3 Hasil Vector Space Model D1 D2 D3 Cosie 0,23 0,24 0,58 Rak 3 Rak 2 Rak 1 Dari hasil akhir maka dapat diketahui bahwa dokume ke-3 (D3) memiliki tigkat kesamaa tertiggi kemudia diikuti dega D2 lalu D1. 20