BAB 2 LANDASAN TEORI. 2.1 Text mining

BAB 2 LANDASAN TEORI Bab ini akan membahas landasan teori, penelitian terdahulu, kerangka pikir, dan hipotesis yang mendasari penyelesaian permasalahan dalam pengklasifikasian novel menggunakan TF-IDF. 2.1 Text mining Text mining dapat diartikan sebagai penemuan informasi yang baru yang sebelumnya tidak diketahui oleh komputer dengan mengekstrak informasi secara otomatis dari sumber yang berbeda. Kunci dari proses ini adalah menggabungkan informasi yang berhasil diekstraksi dari berbagai sumber (Hearst, 2003). Sedangkan menurut (Harlian, 2006) text mining didefinisikan sebagai data yang berupa teks yang biasanya sumber data didapatkan dari dokumen, dengan tujuan adalah mencari kata-kata yang dapat mewakili isi dari dokumen tersebut yang nantinya dapat dilakukan analisa hubungan antar dokumen. 2.1.1 Tahapan Text mining Tahapan text mining secara umum dibagi menjadi beberapa tahapan umum (Triawati, 2009). 1. Text Preprocessing Text Preprocessing merupakan tahapan awal dari text mining yang bertujuan mempersiapakan teks menjadi data yang akan mengalami pengolahan pada tahap selanjutnya. Pada text mining, data mentah yang berisi informasi memiliki struktur yang sembarang, sehingga diperlukan proses pengubahan bentuk menjadi data yang

8 terstruktur sesuai kebutuhan, yaitu biasanya akan mejadi nilai-nilai numerik. Proses ini disebut Text Preprocessing (Triawati, 2009). Pada tahap ini, tindakan yang dilakukan adalah tolowercase, dengan mengubah semua karakter huruf menjadi huruf kecil, dan tokenizing yaitu proses penguraian deskripsi yang semula berupa kalimat mejadi kata-kata kemudian menghilangkan delimiter-delimiter seperti tanda koma (,), tanda titik (.), spasi, dan karakter angka yang terdapat pada kata tersebut.(weiss et al, 2005). 2. Seleksi fitur (Feature Selection) Pada tahap ini akan dilakukan seleksi dengan mengurangi jumlah kata-kata yang dianggap tidak penting dalam dokumen tersebut untuk menghasilkan proses pengklasifikasian yang lebih efektif dan akurat (Do et al, 2006., Feldman & Sanger,2007., Berry et al,2007). Tahapan ini adalah dengan melakukan penghilangan stopword dan juga mengubah kata-kata kedalam bentuk dasar terhadap kata yang berimbuhan (Berry et al, 2010), (Feldman et al, 2007) Stopword merupakan kosakata yang bukan merupakan ciri atau kata unik dari suatu dokumen seperti kata sambung (Dragut et al, 2009). Yang termasuk stopword yaitu di, pada, sebuah, karena, oleh dan sebagainya. Sebelum memasuki tahapan penghilang stopword, daftar stopword harus dibuat terlebih dahulu. Jika katakata yang termasuk stopword masuk dalam stoplist, maka kata tersebut akan dihapus dari deskripsi sehingga sisanya dianggap sebagai kata-kata yang mencirikan isi dokumen atau keywords. Setelah melalui tahap penghilangan stopword, tahap selanjutnya adalah stemming. Stemming adalah proses pemetaan dan penguraian berbagai bentuk dari suatu kata menjadi kata dasarnya (Tala, 2003). Tujuan dilakukannya proses stemming adalah menghilangkan imbuhan-imbuhan berupa prefix, suffix, maupun konfiks yang terdapat pada setiap kata. Apabila imbuhan tadi tidak dihilangkan maka setiap kata akan disimpan didalam database, sehingga nantinya akan menjadi beban di dalam database. Bahasa Indonesia memiliki aturan morfologi maka proses stemming harus berdasarkan aturan morfologi bahasa Indonesia.

9 Proses stemming biasanya menggunakan algoritma. Algoritma stemming telah dikembangkan untuk beberapa bahasa, seperti Algoritma Porter untuk teks bahasa Inggris, Algoritma Porter untuk teks bahasa Indonesia, dan Algoritma Nazief dan Adriani untuk teks bahasa Indonesia (Nazief & Adriani, 1996). Algoritma Nazief & Adriani memiliki keakuratan yang lebih besar dibandingkan Algoritma Porter untuk stemming dalam bahasa Indonesia (Agusta, 2009). 2.2 Algoritma Nazief & Adriani Algoritma Nazief & Adriani adalah salah satu algoritma untuk stemming bahasa Indonesia. Adapun tahapan yang dimiliki dalam algoritma ini adalah (Nazief & Adriani,1996): 1. Cari kata yang akan di stemming didalam kamus. Jika ditemukan maka diasumsikan kata tersebut adalah root word maka algoritma berhenti. 2. Infection suffixes ( -lah, -kah, -ku, -mu, atau -nya ) dibuang. Jika berupa partikel ( -lah, -kah, -tah, atau -pun ) maka langkah ini diulangi untuk menghapus Passive Pronouns ( -ku, -mu, atau -nya ), jika ada 3. Hapus derivation suffixes ( -i, -an, atau -kan ). Jika kata ditemukan dikamus, maka algoritma berhenti. Jika tidak, maka dilanjutkan ke langkah 3a a. Jika -an telah dihapus dalam huruf terakhir dari kata tersebut ditemukan dalam kamus, maka algoritma berhenti. Jika tidak, akan dilanjutkan ke langkah 3b. b. Akhiran yang dihapus ( -i, -an, atau -kan ) dikembalikan ke tahap 4. Hapus derivation prefix. 9 di-, ke-, se-, te-, be-, dan me- ) jika pada langkah 3 ada sufiks yang dihapus maka pergi ke langkah 4a, jika tidak pergi ke langkah 4b. a. Periksa tabel kombinasi awalan-akhiran yang tidak diijinkan seperti pada tabel 2.1. jika ditemukan, maka algoritma berhenti, jika tidak pergi ke langkah 4b. b. For I=1 to 3, tentukan tipe awalan kemudian hapus awalan dan lakukan perubahan pada kata dasar sesuai tabel peluruhan 2.2 jika root word belum juga ditemukan lakukan langkah 5, jika sudah maka

10 algoritma berhenti. Jika awalan kedua sama dengan awalan pertama maka algoritma berhenti. 5. Melakukan recoding. 6. Jika semua langkah selesai tetapi masih tidak berhasil, maka kata awal diasumsikan sebagai root word. Proses selesai. Tabel 2.1 Tabel kombinasi awalan akhiran yang tidak diijinkan (Adriani et al, 2007) Awalan Akhiran yang tidak diijinkan be- -i dikemese- -an -i, -kan -an -i, -kan Tabel 2.2 Tabel aturan peluruhan kata dasar (Adriani et al, 2007) Aturan Awalan Peluruhan 1 berv... ber-v.. be-rv.. 2 belajar bel-ajar 3 berclerc2 Be-ClerC2.. dimana C1!= {'r' 'l'} 4 terv... ter-v... te-rv... 5 tercer... ter-cer... dimana C!== r 6 teclerc2 te-clec2... dimana C1!= r 7 me{i r w y}v... me-{i r w y}v... 8 mem{b f v}... mem-{b f v}... 9 Mempe... m-pe... 10 mem{r V V}... me-m{rv V}... me-p{rv V}...

11 11 men{c d j z} men-{c d j z}... 12 menv... me-nv... me-tv... 13 meng{g h q k}... meng-{g h q k}... 14 mengv... meng-v... meng-kv... 15 mengec Meng-C 16 menyv... me-ny... men-sv... 17 memv... mem-pv... 18 pe{w y}v... pe-{w y}v... 19 perv... per-v... pe-rv... 20 pem{b f v}... pem-{b f v}... 21 pem{rv V}... pe-m{rv V}... pe-p{rv V} 22 pen{c d j z}... pen-{c d j z}... 23 penv... pe-nv... pe-tv... 24 Peng{g h q} peng-{g h q} 25 pengv peng-v peng-kv 26 penyv pe-nya peny-sv 27 pelv pe-iv...; kecuali untuk kata pelajar 28 PeCP pe-cp...dimana C!={r w y I m n} dan P!= er 29 percerv per-cerv... dimana C!={r w y I m n} Untuk mengatasi keterbatasan pada algoritma di atas, maka ditambahkan aturanaturan dibawah ini: 1. Aturan untuk reduplikasi. a. Jika kedua kata yang dihubungkan penghubung adalah kata yang sama maka root word adalah bentuk tunggalnya, contoh : buku-buku root wood-nya adalah buku b. Kata lain misalnya bolak-balik, berbalas-balasan, dan seolah-olah. Untuk mendapatkan root word nya, kedua kata diartikan secara terpisah. Jika keduanya memiliki root word nya yang sama maka diubah menjadi

12 bentuk tunggal, contoh: kata berbalas-balasan, berbalas dan balasan memiliki root word yang sama yaitu balas, maka root wood berbalasbalasan adalah balas. Sebaliknya, pada kata bolak-balik, bolak dan balik memiliki root word yang berbeda, maka root word-nya adalah bolak-balik. 2. Tambahan bentuk awalan dan akhiran serta aturannya. a. Tipe awalan mem-, kata yang diawali dengan awalan memp- memiliki tipe awalan mem-. b. Tipe awalan meng-, kata yang diawali dengan awalan mengk- memiliki tipe awalan meng-.. 2.3 Term Frequency-Inverse Document Frequency (TF-IDF) TF-IDF (Term Frequency-Inverse Document Frequency) merupakan metode statistic numeric yang mencerminkan seberapa pentingnya sebuah kata dalam sebuah dokumen atau korpus (Rajaraman et al, 2011). Hal ini sering digunakan sebagai faktor bobot dalam pencarian informasi dan penambangan teks (text mining). Nilai TF-IDF meningkat secara proporsional berdasarkan jumlah atau banyaknya kata yang muncul pada dokumen, tetapi diimbangi dengan frekuensi kata dalam korpus. Variasi dari skema pembobotantf-idfsering digunakan oleh mesin pencari sebagai alat utama dalam mencetak nilai (scoring) dan peringkat (ranking) sebuah relevansi dokumen yang diberikan user. Term Frequency-Inverse document frequency (TF-IDF) adalah suatu metode pembobotan kata dengan menghitung nilai TF dan juga menghitung kemunculan sebuah kata pada dokumen teks. Pada pembobotan ini, jika kemunculan term pada sebuah dokumen teks tinggi dan kemunculan term tersebut pada dokumen teks yang lain rendah, maka bobotnya akan semakin besar. Sedangkan jika kemunculan term pada dokumen teks lain tinggi, maka bobotnya akan semakin kecil. Tujuan penghitungan IDF adalah untuk mencari kata-kata yang benar-benar merepresentasikan dokumen teks pada suatu koleksi. Metode ini merupakan metode paling baik dalam perolehan informasi (Khodra et al, 2005). Adapun rumus dari TF- IDF dapat di lihat pada persamaan berikut (Salton, 1983).

13 (1) Dengan tf(i,j) adalah frekuensi kemunculan term j pada dokumen teks d i D*, dimana i = 1,2,3,...,N, df(j) adalah frekuensi dokumen yang mengandung term j dari semua koleksi dokumen, dan N adalah jumlah seluruh dokumen yang ada di koleksi dokumen. Berdasarkan rumus diatas berapapun besarnya nilai tf(i,j), apabila N= df(j) maka akan didapatkan hasil 0 (nol) untuk perhitungan idf. Untuk itu dapat ditambahkan nilai 1 pada sisi idf, sehingga perhitungan untuk pembobotan dapat dilihat pada rumus persamaan 2. +1) (2) 2.4 Novel Dari sekian banyak bentuk karya sastra yang ada saat ini seperti esai, novel, cerpen dan lain-lain. Novel merupakan karya sastra yang paling populer, novel selalu memiliki penggemar, baik itu remaja hingga dewasa, Menurut Kamus Besar Bahasa Indonesia (KBBI), novel adalah karangan prosa yang panjang, mengandung rangkaian cerita kehidupan seseorang dengan orang di sekelilingnya dengan menonjolkan watak dan sifat setiap pelaku. Orang yang menulis novel adalah novelis. Novel memiliki beberapa ciri yang paling utama, yaitu : 1. Memiliki alur/plot yang kompleks. Berbagai peristiwa dalam novel ditampilkan saling berkaitan sehingga novel dapat bercerita panjang lebar, membahas persoalan secara luas, dan lebih mendalam. 2. Tema dalam novel tidak hanya satu, tetapi muncul tema-tema sampingan. Oleh karena itu, pengarang novel dapat membahas hampir semua segi persoalan. Genre merupakan cara penerbit, pembaca, atau penulis, membagi karya seni berdasarkan kategori tertentu yang telah disepakati. Penerbit membutuhkan genre agar mereka mudah menentukan pangsa pasar, serta bagaimana memasarkan sebuah buku. Setiap genre mempunyai kategori masing-masing, serta formulanya yang berbeda satu sama lain. Novel dibagi kedalam beberapa genre dintaranya (Forbes, Jamie M, 1998) :

14 a. Horror adalah novel yang satu ini berisi cerita yang menegangkan, seram, dan membuat pembaca berdebar-debar, pada umumnya bercerita tentang hal-hal yang mistis atau seputar dunia gaib. b. Inspiratif adalah adalah novel yang ceritanya mampu menginspirasi banyak orang. Pada umumnya novel ini mempunyai pesan moral atau hikmah tertentu yang dapat diambil oleh si pembaca novel. Sehingga pembaca akan termotivasi atau mempunyai dorongan untuk melakukan hal yang lebih baik. c. Misteri adalah sebuah novel yang memiliki cerita lebih rumit karena akan menimbulkan rasa penasaran oleh si pembaca hingga akhir cerita. d. Romantis adalah novel yang berceritakan seputar percintaan dan kasih sayang dari awal cerita hingga akhir cerita. 2.5 Tesaurus Bahasa Indonesia Kata tesaurus berasal dari bahasa Yunani, thesauros yang bermakna khazanah. Tesaurus mengalami perkembangan makna yakni buku yang dijadikan sumber informasi. Di dalam buku Tesaurus Bahasa Indonesia Pusat Bahasa, tesaurus berisi seperangkat kata yang saling berhubungan maknanya. Pada dasarnya tesaurus merupakan sarana yang digunakan untuk mengalihkan gagasan ke dalam sebuah kata atau sebaliknya. Oleh sebab itu, tesaurus disusun berdasarkan gagasan atau tema. Namun, untuk memudahkan pengguna dalam pencarian kata, tesaurus pun berkembang, dan kini banyak tesaurus yang dikemas berdasarkan abjad. Tesaurus berbeda dengan kamus, jika pada kamus informasi yang didapat adalah tentang makna kata, sedangkan pada tesaurus sendiri dapat dicari kata yang akan digunakan untuk mengungkapkan gagasan pengguna. Dengan demikian tesaurus dapat membantu penggunanya dalam mengekspresikan atau mengungkapkan gagasan sesuai dengan apa yang dimaksud. Sebagai contoh, pencarian kata lain untuk kata hewan, pengguna tesaurus dapat mencari pada lema hewan. Hewan n binatang, dabat,fauna,sato,satwa Kata diatas tersebut merupakan sederetan kata yang terdapat pada kata hewan, sehingga dapat dilihat sederetan kata tesebut menunjukkan bahwa kata tersebut bersinonim sehingga dapat saling menggantikan sesuai dengan konteksnya. Tesaurus

15 ini berguna juga dalam pengajaran bahasa. Di dalam buku tesaurus bahasa indonesia pusat bahasa ini, hiponim dicantumkan pula karena didalam tesaurus biasanya memuat makna yang saling bertalian atau berhubungan. Sehingga, pengguna dapat dengan mudah memperoleh kata yang tepat sesuai dengan yang dikehendaki sehingga pengguna dapat memanfaatkan kata itu untuk keperluan pragmatis. 2.6 Penelitian Terdahulu Dalam melakukan penelitian, penulis membutuhkan beberapa bahan penelitian yang sudah pernah dilakukan peneliti-peneliti lainnya mengenai masalah teknik pengklasifikasian dan metode Ontologi. (Februariyanti, 2012) berhasil mengimplementasikan metode ontologi dan hasil eksperimen didapat struktur direktory dan struktur halaman web sesuai dengan struktur ontology. (Kurniawan, 2012) berhasil melakukan proses klasifikasi data berita secara otomatis dan proses klasifikasi semakin akurat jika data latih yang digunakan dalam pembelajaran berjumlah banyak. Untuk penelitian yang dilakukan oleh peneliti sebelumnya, dapat dilihat pada Tabel 2.3.

16 Tabel 2.3. Tabel Penelitian Terdahulu No Peneliti Tahun Judul penelitian Keterangan 1 Herny Februariyanti 2012 Klasifikasi dokumen berita teks bahasa Indonesia menggunakan Ontologi - klasifikasi menggunakan TF- IDF dengan menghitung nilai similaritas dengan file yang ada pada file ontologi - hasil dari pengklasifikasian disimpan di directory local dengan mengikuti struktur ontology. 2 Bambang Kurniawan 2012 Klasifikasi Konten Berita Dengan Metode Text Mining - Klasifikasi data berita secara otomatis dan proses klasifikasi semakin akurat jika data latih yang digunakan dalam pembelajaran berjumlah banyak.