BAB 2 LANDASAN TEORI. 2.1 Text mining

dokumen-dokumen yang mirip
BAB 2 LANDASAN TEORI

IMPLEMENTASI METODE SUPPORT VECTOR MACHINES UNTUK PENCARIAN INFORMASI BUKU RIKI HIDAYAT

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI

BAB II TINJAUAN PUSTAKA

BAB 2 LANDASAN TEORI

BAB 3 LANDASAN TEORI

SISTEM TEMU BALIK INFORMASI

Self Organizing Map-Neural Network untuk Pengelompokan Abstrak

PERBANDINGAN ALGORITMA STEMMING PORTER DENGAN ALGORITMA NAZIEF & ADRIANI UNTUK STEMMING DOKUMEN TEKS BAHASA INDONESIA

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI

Klasifikasi Konten Berita Dengan Metode Text Mining

IMPLEMENTASI ALGORITMA MULTINOMIAL NAIVE BAYES CLASSIFIER PADA SISTEM KLASIFIKASI SURAT KELUAR (Studi Kasus : DISKOMINFO Kabupaten Tangerang)

Jurnal Ilmiah Komputer dan Informatika (KOMPUTA) 1 Edisi.1 Volume. 1 Bulan AGUSTUS ISSN :

IMPLEMENTASI MODIFIKASI ENHANCED CONFIX STRIPPING STEMMER UNTUK BAHASA INDONESIA DENGAN METODE CORPUS BASED STEMMING

commit to user 5 BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori Text mining

APLIKASI PENENTUAN KATA DASAR DARI KATA BERIMBUHAN PADA KALIMAT BAHASA INDONESIA DENGAN ALGORITMA STEMMING

commit to user BAB II TINJAUAN PUSTAKA

BAB I PENDAHULUAN 1.1 Latar Belakang

PENERAPAN ALGORITMA STEMMING NAZIEF & ADRIANI DAN SIMILARITY PADA PENERIMAAN JUDUL THESIS

TELEMATIKA, Vol. 12, No. 02, JULI, 2015, Pp ISSN X PENILAIAN UJIAN BERTIPE ESSAY MENGGUNAKAN METODE TEXT SIMILARITY

BAB II LANDASAN TEORI. 2.1 Peringkasan Teks Otomatis (Automatic Text Summarization) Peringkasan Teks Otomatis (Automatic Text Summarization) merupakan

BAB II LANDASAN TEORI

BAB 2 TINJAUAN PUSTAKA

IMPLEMENTASI MODIFIKASI ENHANCED CONFIX STRIPPING STEMMER UNTUK BAHASA INDONESIA DENGAN METODE CORPUS BASED STEMMING

BAB 3 ANALISIS DAN PERANCANGAN SISTEM

Pemanfaatan Aljabar Vektor Pada Mesin Pencari

BAB II LANDASAN TEORI

APLIKASI PENDETEKSI KEMIRIPAN PADA DOKUMEN TEKS MENGGUNAKAN ALGORITMA NAZIEF & ADRIANI DAN METODE COSINE SIMILARITY

BAB 3 METODOLOGI 3.1 Analisis Kebutuhan dan Masalah Analisis Kebutuhan Analisis Masalah

BAB II LANDASAN TEORI

EKSTRAKSI TREN TOPIK PORTAL BERITA ONLINE MENGGUNAKAN NON-NEGATIVE MATRIX FACTORIZATION SKRIPSI CLARA SRI MENDA BANGUN

Learning Vector Quantization untuk Klasifikasi Abstrak Tesis

1. Pendahuluan 2. Kajian Pustaka

BAB II LANDASAN TEORI

Tabel 3 Situs berita dan jumlah RSS yang diunduh Situs Berita

Peningkatan Kinerja Pencarian Dokumen Tugas Akhir menggunakan Porter Stemmer Bahasa Indonesia dan Fungsi Peringkat Okapi BM25

Klasifikasi Iklan pada Online Shop dengan Metode Naive Bayes

BAB II LANDASAN TEORI

BAB I PENDAHULUAN Latar Belakang

BAB II KAJIAN TEORI. kumpulan kalimat penting dari suatu teks yang menggambarkan inti teks tersebut

Pemodelan Penilaian Essay Otomatis Secara Realtime Menggunakan Kombinasi Text Stemming Dan Cosine Similarity

PEMBUATAN WEB PORTAL SINDIKASI BERITA INDONESIA DENGAN KLASIFIKASI METODE SINGLE PASS CLUSTERING

ANALISIS SENTIMEN PADA TWITTER MENGGUNAKAN TEXT MINING SKRIPSI. Boy Utomo Manalu

TEMU BALIK INFORMASI PADA DOKUMEN TEKS BERBAHASA INDONESIA DENGAN METODE VECTOR SPACE RETRIEVAL MODEL

BAB 2 LANDASAN TEORI

IMPLEMENTASI METODE MAXIMUM MARGINAL RELEVANCE PADA PERINGKASAN TEKS OTOMATIS ARTIKEL BERITA

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI

Analisa dan Evaluasi Afiks Stemming untuk Bahasa Indonesia

BAB I. Pendahuluan. 1. Latar Belakang Masalah

BAB 3 ANALISIS MASALAH DAN PERANCANGAN

Sistem Temu Kembali Informasi Menggunakan Model Ruang Vektor dan Inverted Index

RANCANG BANGUN SISTEM TEMU KEMBALI INFORMASI ABSTRAK TUGAS AKHIR MAHASISWA PRODI TEKNIK INFORMATIKA UNSOED Oleh : Lasmedi Afuan

BAB II LANDASAN TEORI

BAB III METODOLOGI PENELITIAN

BAB III LANDASAN TEORI. 3.1 Peringkasan Teks Secara Otomatis Sering kali kita memerlukan ringkasan dari sebuah dokumen untuk dapat

JULIO ADISANTOSO - ILKOM IPB 1

Team project 2017 Dony Pratidana S. Hum Bima Agus Setyawan S. IIP

BAB II DASAR TEORI Crawler Definisi Focused Crawler dengan Algoritma Genetik [2]

Preprocessing Text Mining Pada Box Berbahasa Indonesia

Gambar 1.1 Proses Text Mining [7]

BAB 2 TINJAUAN PUSTAKA

Team project 2017 Dony Pratidana S. Hum Bima Agus Setyawan S. IIP

BAB III METODELOGI PENELITIAN

BAB 2 TINJAUAN PUSTAKA

ANALISIS SENTIMEN PADA TWITTER MENGGUNAKAN PENDEKATAN AGGLOMERATIVE HIERARCHICAL CLUSTERING SKRIPSI

Implementasi Stemmer Tala pada Aplikasi Berbasis Web

Jurnal Ilmiah Sains, Teknologi, Ekonomi, Sosial dan Budaya Vol. 1 No. 4 Desember 2017

Personalisasi Modul Similaritas Pencarian Lowongan Kerja dengan Algoritma Extended Weighted Tree Similarity

BAB III ANALISIS DAN PERANCANGAN SISTEM

BAB II TINJAUAN PUSTAKA

Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi

2BAB 2 LANDASAN TEORI

DETEKSI KESESUAIAN BIDANG MINAT TERHADAP PROPOSAL TUGAS AKHIR MAHASISWA STUDI KASUS : MAHASISWA SI UKDW

BAB 2 TINJAUAN PUSTAKA

UKDW. 1.1 Latar Belakang BAB 1 PENDAHULUAN

PEMANFAATAN ALGORITMA TF/IDF UNTUK SISTEM INFORMASI e-complaint HANDLING

TEKNIK VECTOR SPACE MODEL (VSM) DALAM PENENTUAN PENANGANAN DAMPAK GAME ONLINE PADA ANAK

BAB II TINJAUAN PUSTAKA

BAB IV METODOLOGI PENELITIAN. Penelitian ini dilakukan dengan melalui empat tahap utama, dimana

BAB III METODOLOGI PENELITIAN

BAB 1 PENDAHULUAN Latar Belakang

BAB III METODOLOGI PENELITIAN

STEMMING DOKUMEN TEKS BAHASA INDONESIA MENGGUNAKAN ALGORITMA PORTER ABSTRAK

PENCARIAN ALAMAT FASILITAS UMUM MENGGUNAKAN METODE VECTOR SPACE MODEL ( STUDI KASUS KOTA PEKANBARU ) TUGAS AKHIR

SISTEM PENCARIAN AYAT AL-QUR AN BERDASARKAN TERJEMAHAN BAHASA INDONESIA DENGAN PEMODELAN RUANG VEKTOR TUGAS AKHIR

IMPLEMENTASI VECTOR SPACE MODEL UNTUK MENINGKATKAN KUALITAS PADA SISTEM PENCARIAN BUKU PERPUSTAKAAN

BAB II TINJAUAN PUSTAKA

BAB I PENDAHULUAN I-1

Sistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF)

PERSETUJUAI\ ARTIKEL ILMIAH. Mashar Eka Putra Dai. S1-Sistem Informasi. Teknik Informatika. Teknik. Penerapan Metode Document Frequency

BAB II LANDASAN TEORI

BAB IV ANALISA DAN PERANCANGAN

BAB III ANALISIS DAN PERANCANGAN

DAFTAR ISI. Halaman Judul. Halaman Pengesahan. Halaman Pernyataan. Halaman Persembahan. Halaman Motto DAFTAR TABEL DAFTAR GAMBAR ABSTRACT

KLASIFIKASI DATA PENGADUAN MASYARAKAT PADA LAMAN PESDUK CIMAHI MENGGUNAKAN ROCCHIO

BAB III METODE PENELITIAN

BAB II LANDASAN TEORI

Transkripsi:

BAB 2 LANDASAN TEORI Bab ini akan membahas landasan teori, penelitian terdahulu, kerangka pikir, dan hipotesis yang mendasari penyelesaian permasalahan dalam pengklasifikasian novel menggunakan TF-IDF. 2.1 Text mining Text mining dapat diartikan sebagai penemuan informasi yang baru yang sebelumnya tidak diketahui oleh komputer dengan mengekstrak informasi secara otomatis dari sumber yang berbeda. Kunci dari proses ini adalah menggabungkan informasi yang berhasil diekstraksi dari berbagai sumber (Hearst, 2003). Sedangkan menurut (Harlian, 2006) text mining didefinisikan sebagai data yang berupa teks yang biasanya sumber data didapatkan dari dokumen, dengan tujuan adalah mencari kata-kata yang dapat mewakili isi dari dokumen tersebut yang nantinya dapat dilakukan analisa hubungan antar dokumen. 2.1.1 Tahapan Text mining Tahapan text mining secara umum dibagi menjadi beberapa tahapan umum (Triawati, 2009). 1. Text Preprocessing Text Preprocessing merupakan tahapan awal dari text mining yang bertujuan mempersiapakan teks menjadi data yang akan mengalami pengolahan pada tahap selanjutnya. Pada text mining, data mentah yang berisi informasi memiliki struktur yang sembarang, sehingga diperlukan proses pengubahan bentuk menjadi data yang

8 terstruktur sesuai kebutuhan, yaitu biasanya akan mejadi nilai-nilai numerik. Proses ini disebut Text Preprocessing (Triawati, 2009). Pada tahap ini, tindakan yang dilakukan adalah tolowercase, dengan mengubah semua karakter huruf menjadi huruf kecil, dan tokenizing yaitu proses penguraian deskripsi yang semula berupa kalimat mejadi kata-kata kemudian menghilangkan delimiter-delimiter seperti tanda koma (,), tanda titik (.), spasi, dan karakter angka yang terdapat pada kata tersebut.(weiss et al, 2005). 2. Seleksi fitur (Feature Selection) Pada tahap ini akan dilakukan seleksi dengan mengurangi jumlah kata-kata yang dianggap tidak penting dalam dokumen tersebut untuk menghasilkan proses pengklasifikasian yang lebih efektif dan akurat (Do et al, 2006., Feldman & Sanger,2007., Berry et al,2007). Tahapan ini adalah dengan melakukan penghilangan stopword dan juga mengubah kata-kata kedalam bentuk dasar terhadap kata yang berimbuhan (Berry et al, 2010), (Feldman et al, 2007) Stopword merupakan kosakata yang bukan merupakan ciri atau kata unik dari suatu dokumen seperti kata sambung (Dragut et al, 2009). Yang termasuk stopword yaitu di, pada, sebuah, karena, oleh dan sebagainya. Sebelum memasuki tahapan penghilang stopword, daftar stopword harus dibuat terlebih dahulu. Jika katakata yang termasuk stopword masuk dalam stoplist, maka kata tersebut akan dihapus dari deskripsi sehingga sisanya dianggap sebagai kata-kata yang mencirikan isi dokumen atau keywords. Setelah melalui tahap penghilangan stopword, tahap selanjutnya adalah stemming. Stemming adalah proses pemetaan dan penguraian berbagai bentuk dari suatu kata menjadi kata dasarnya (Tala, 2003). Tujuan dilakukannya proses stemming adalah menghilangkan imbuhan-imbuhan berupa prefix, suffix, maupun konfiks yang terdapat pada setiap kata. Apabila imbuhan tadi tidak dihilangkan maka setiap kata akan disimpan didalam database, sehingga nantinya akan menjadi beban di dalam database. Bahasa Indonesia memiliki aturan morfologi maka proses stemming harus berdasarkan aturan morfologi bahasa Indonesia.

9 Proses stemming biasanya menggunakan algoritma. Algoritma stemming telah dikembangkan untuk beberapa bahasa, seperti Algoritma Porter untuk teks bahasa Inggris, Algoritma Porter untuk teks bahasa Indonesia, dan Algoritma Nazief dan Adriani untuk teks bahasa Indonesia (Nazief & Adriani, 1996). Algoritma Nazief & Adriani memiliki keakuratan yang lebih besar dibandingkan Algoritma Porter untuk stemming dalam bahasa Indonesia (Agusta, 2009). 2.2 Algoritma Nazief & Adriani Algoritma Nazief & Adriani adalah salah satu algoritma untuk stemming bahasa Indonesia. Adapun tahapan yang dimiliki dalam algoritma ini adalah (Nazief & Adriani,1996): 1. Cari kata yang akan di stemming didalam kamus. Jika ditemukan maka diasumsikan kata tersebut adalah root word maka algoritma berhenti. 2. Infection suffixes ( -lah, -kah, -ku, -mu, atau -nya ) dibuang. Jika berupa partikel ( -lah, -kah, -tah, atau -pun ) maka langkah ini diulangi untuk menghapus Passive Pronouns ( -ku, -mu, atau -nya ), jika ada 3. Hapus derivation suffixes ( -i, -an, atau -kan ). Jika kata ditemukan dikamus, maka algoritma berhenti. Jika tidak, maka dilanjutkan ke langkah 3a a. Jika -an telah dihapus dalam huruf terakhir dari kata tersebut ditemukan dalam kamus, maka algoritma berhenti. Jika tidak, akan dilanjutkan ke langkah 3b. b. Akhiran yang dihapus ( -i, -an, atau -kan ) dikembalikan ke tahap 4. Hapus derivation prefix. 9 di-, ke-, se-, te-, be-, dan me- ) jika pada langkah 3 ada sufiks yang dihapus maka pergi ke langkah 4a, jika tidak pergi ke langkah 4b. a. Periksa tabel kombinasi awalan-akhiran yang tidak diijinkan seperti pada tabel 2.1. jika ditemukan, maka algoritma berhenti, jika tidak pergi ke langkah 4b. b. For I=1 to 3, tentukan tipe awalan kemudian hapus awalan dan lakukan perubahan pada kata dasar sesuai tabel peluruhan 2.2 jika root word belum juga ditemukan lakukan langkah 5, jika sudah maka

10 algoritma berhenti. Jika awalan kedua sama dengan awalan pertama maka algoritma berhenti. 5. Melakukan recoding. 6. Jika semua langkah selesai tetapi masih tidak berhasil, maka kata awal diasumsikan sebagai root word. Proses selesai. Tabel 2.1 Tabel kombinasi awalan akhiran yang tidak diijinkan (Adriani et al, 2007) Awalan Akhiran yang tidak diijinkan be- -i dikemese- -an -i, -kan -an -i, -kan Tabel 2.2 Tabel aturan peluruhan kata dasar (Adriani et al, 2007) Aturan Awalan Peluruhan 1 berv... ber-v.. be-rv.. 2 belajar bel-ajar 3 berclerc2 Be-ClerC2.. dimana C1!= {'r' 'l'} 4 terv... ter-v... te-rv... 5 tercer... ter-cer... dimana C!== r 6 teclerc2 te-clec2... dimana C1!= r 7 me{i r w y}v... me-{i r w y}v... 8 mem{b f v}... mem-{b f v}... 9 Mempe... m-pe... 10 mem{r V V}... me-m{rv V}... me-p{rv V}...

11 11 men{c d j z} men-{c d j z}... 12 menv... me-nv... me-tv... 13 meng{g h q k}... meng-{g h q k}... 14 mengv... meng-v... meng-kv... 15 mengec Meng-C 16 menyv... me-ny... men-sv... 17 memv... mem-pv... 18 pe{w y}v... pe-{w y}v... 19 perv... per-v... pe-rv... 20 pem{b f v}... pem-{b f v}... 21 pem{rv V}... pe-m{rv V}... pe-p{rv V} 22 pen{c d j z}... pen-{c d j z}... 23 penv... pe-nv... pe-tv... 24 Peng{g h q} peng-{g h q} 25 pengv peng-v peng-kv 26 penyv pe-nya peny-sv 27 pelv pe-iv...; kecuali untuk kata pelajar 28 PeCP pe-cp...dimana C!={r w y I m n} dan P!= er 29 percerv per-cerv... dimana C!={r w y I m n} Untuk mengatasi keterbatasan pada algoritma di atas, maka ditambahkan aturanaturan dibawah ini: 1. Aturan untuk reduplikasi. a. Jika kedua kata yang dihubungkan penghubung adalah kata yang sama maka root word adalah bentuk tunggalnya, contoh : buku-buku root wood-nya adalah buku b. Kata lain misalnya bolak-balik, berbalas-balasan, dan seolah-olah. Untuk mendapatkan root word nya, kedua kata diartikan secara terpisah. Jika keduanya memiliki root word nya yang sama maka diubah menjadi

12 bentuk tunggal, contoh: kata berbalas-balasan, berbalas dan balasan memiliki root word yang sama yaitu balas, maka root wood berbalasbalasan adalah balas. Sebaliknya, pada kata bolak-balik, bolak dan balik memiliki root word yang berbeda, maka root word-nya adalah bolak-balik. 2. Tambahan bentuk awalan dan akhiran serta aturannya. a. Tipe awalan mem-, kata yang diawali dengan awalan memp- memiliki tipe awalan mem-. b. Tipe awalan meng-, kata yang diawali dengan awalan mengk- memiliki tipe awalan meng-.. 2.3 Term Frequency-Inverse Document Frequency (TF-IDF) TF-IDF (Term Frequency-Inverse Document Frequency) merupakan metode statistic numeric yang mencerminkan seberapa pentingnya sebuah kata dalam sebuah dokumen atau korpus (Rajaraman et al, 2011). Hal ini sering digunakan sebagai faktor bobot dalam pencarian informasi dan penambangan teks (text mining). Nilai TF-IDF meningkat secara proporsional berdasarkan jumlah atau banyaknya kata yang muncul pada dokumen, tetapi diimbangi dengan frekuensi kata dalam korpus. Variasi dari skema pembobotantf-idfsering digunakan oleh mesin pencari sebagai alat utama dalam mencetak nilai (scoring) dan peringkat (ranking) sebuah relevansi dokumen yang diberikan user. Term Frequency-Inverse document frequency (TF-IDF) adalah suatu metode pembobotan kata dengan menghitung nilai TF dan juga menghitung kemunculan sebuah kata pada dokumen teks. Pada pembobotan ini, jika kemunculan term pada sebuah dokumen teks tinggi dan kemunculan term tersebut pada dokumen teks yang lain rendah, maka bobotnya akan semakin besar. Sedangkan jika kemunculan term pada dokumen teks lain tinggi, maka bobotnya akan semakin kecil. Tujuan penghitungan IDF adalah untuk mencari kata-kata yang benar-benar merepresentasikan dokumen teks pada suatu koleksi. Metode ini merupakan metode paling baik dalam perolehan informasi (Khodra et al, 2005). Adapun rumus dari TF- IDF dapat di lihat pada persamaan berikut (Salton, 1983).

13 (1) Dengan tf(i,j) adalah frekuensi kemunculan term j pada dokumen teks d i D*, dimana i = 1,2,3,...,N, df(j) adalah frekuensi dokumen yang mengandung term j dari semua koleksi dokumen, dan N adalah jumlah seluruh dokumen yang ada di koleksi dokumen. Berdasarkan rumus diatas berapapun besarnya nilai tf(i,j), apabila N= df(j) maka akan didapatkan hasil 0 (nol) untuk perhitungan idf. Untuk itu dapat ditambahkan nilai 1 pada sisi idf, sehingga perhitungan untuk pembobotan dapat dilihat pada rumus persamaan 2. +1) (2) 2.4 Novel Dari sekian banyak bentuk karya sastra yang ada saat ini seperti esai, novel, cerpen dan lain-lain. Novel merupakan karya sastra yang paling populer, novel selalu memiliki penggemar, baik itu remaja hingga dewasa, Menurut Kamus Besar Bahasa Indonesia (KBBI), novel adalah karangan prosa yang panjang, mengandung rangkaian cerita kehidupan seseorang dengan orang di sekelilingnya dengan menonjolkan watak dan sifat setiap pelaku. Orang yang menulis novel adalah novelis. Novel memiliki beberapa ciri yang paling utama, yaitu : 1. Memiliki alur/plot yang kompleks. Berbagai peristiwa dalam novel ditampilkan saling berkaitan sehingga novel dapat bercerita panjang lebar, membahas persoalan secara luas, dan lebih mendalam. 2. Tema dalam novel tidak hanya satu, tetapi muncul tema-tema sampingan. Oleh karena itu, pengarang novel dapat membahas hampir semua segi persoalan. Genre merupakan cara penerbit, pembaca, atau penulis, membagi karya seni berdasarkan kategori tertentu yang telah disepakati. Penerbit membutuhkan genre agar mereka mudah menentukan pangsa pasar, serta bagaimana memasarkan sebuah buku. Setiap genre mempunyai kategori masing-masing, serta formulanya yang berbeda satu sama lain. Novel dibagi kedalam beberapa genre dintaranya (Forbes, Jamie M, 1998) :

14 a. Horror adalah novel yang satu ini berisi cerita yang menegangkan, seram, dan membuat pembaca berdebar-debar, pada umumnya bercerita tentang hal-hal yang mistis atau seputar dunia gaib. b. Inspiratif adalah adalah novel yang ceritanya mampu menginspirasi banyak orang. Pada umumnya novel ini mempunyai pesan moral atau hikmah tertentu yang dapat diambil oleh si pembaca novel. Sehingga pembaca akan termotivasi atau mempunyai dorongan untuk melakukan hal yang lebih baik. c. Misteri adalah sebuah novel yang memiliki cerita lebih rumit karena akan menimbulkan rasa penasaran oleh si pembaca hingga akhir cerita. d. Romantis adalah novel yang berceritakan seputar percintaan dan kasih sayang dari awal cerita hingga akhir cerita. 2.5 Tesaurus Bahasa Indonesia Kata tesaurus berasal dari bahasa Yunani, thesauros yang bermakna khazanah. Tesaurus mengalami perkembangan makna yakni buku yang dijadikan sumber informasi. Di dalam buku Tesaurus Bahasa Indonesia Pusat Bahasa, tesaurus berisi seperangkat kata yang saling berhubungan maknanya. Pada dasarnya tesaurus merupakan sarana yang digunakan untuk mengalihkan gagasan ke dalam sebuah kata atau sebaliknya. Oleh sebab itu, tesaurus disusun berdasarkan gagasan atau tema. Namun, untuk memudahkan pengguna dalam pencarian kata, tesaurus pun berkembang, dan kini banyak tesaurus yang dikemas berdasarkan abjad. Tesaurus berbeda dengan kamus, jika pada kamus informasi yang didapat adalah tentang makna kata, sedangkan pada tesaurus sendiri dapat dicari kata yang akan digunakan untuk mengungkapkan gagasan pengguna. Dengan demikian tesaurus dapat membantu penggunanya dalam mengekspresikan atau mengungkapkan gagasan sesuai dengan apa yang dimaksud. Sebagai contoh, pencarian kata lain untuk kata hewan, pengguna tesaurus dapat mencari pada lema hewan. Hewan n binatang, dabat,fauna,sato,satwa Kata diatas tersebut merupakan sederetan kata yang terdapat pada kata hewan, sehingga dapat dilihat sederetan kata tesebut menunjukkan bahwa kata tersebut bersinonim sehingga dapat saling menggantikan sesuai dengan konteksnya. Tesaurus

15 ini berguna juga dalam pengajaran bahasa. Di dalam buku tesaurus bahasa indonesia pusat bahasa ini, hiponim dicantumkan pula karena didalam tesaurus biasanya memuat makna yang saling bertalian atau berhubungan. Sehingga, pengguna dapat dengan mudah memperoleh kata yang tepat sesuai dengan yang dikehendaki sehingga pengguna dapat memanfaatkan kata itu untuk keperluan pragmatis. 2.6 Penelitian Terdahulu Dalam melakukan penelitian, penulis membutuhkan beberapa bahan penelitian yang sudah pernah dilakukan peneliti-peneliti lainnya mengenai masalah teknik pengklasifikasian dan metode Ontologi. (Februariyanti, 2012) berhasil mengimplementasikan metode ontologi dan hasil eksperimen didapat struktur direktory dan struktur halaman web sesuai dengan struktur ontology. (Kurniawan, 2012) berhasil melakukan proses klasifikasi data berita secara otomatis dan proses klasifikasi semakin akurat jika data latih yang digunakan dalam pembelajaran berjumlah banyak. Untuk penelitian yang dilakukan oleh peneliti sebelumnya, dapat dilihat pada Tabel 2.3.

16 Tabel 2.3. Tabel Penelitian Terdahulu No Peneliti Tahun Judul penelitian Keterangan 1 Herny Februariyanti 2012 Klasifikasi dokumen berita teks bahasa Indonesia menggunakan Ontologi - klasifikasi menggunakan TF- IDF dengan menghitung nilai similaritas dengan file yang ada pada file ontologi - hasil dari pengklasifikasian disimpan di directory local dengan mengikuti struktur ontology. 2 Bambang Kurniawan 2012 Klasifikasi Konten Berita Dengan Metode Text Mining - Klasifikasi data berita secara otomatis dan proses klasifikasi semakin akurat jika data latih yang digunakan dalam pembelajaran berjumlah banyak.