BAB II LANDASAN TEORI

dokumen-dokumen yang mirip
KLASIFIKASI TEKS BERBASIS ONTOLOGI UNTUK DOKUMEN TUGAS AKHIR BERBAHASA INDONESIA TUGAS AKHIR

BAB 2 TINJAUAN PUSTAKA

BAB 3 PERANCANGAN. Tabel 3.1 Daftar Kategori dan Jumlah Dokumen Teks. Dokumen Bulutangkis 155 Basket 59 Otomotif 160 Sepakbola 767 Tenis 159

BAB III ANALISA DAN PERANCANGAN SISTEM

IMPLEMENTASI K NEAREST NEIGHBOR (KNN) PADA KLASIFIKASI ARTIKEL WIKIPEDIA INDONESIA

BAB II LANDASAN TEORI

BAB II TINJAUAN PUSTAKA

STUDI AWAL KLASIFIKASI ARTIKEL WIKIPEDIA BAHASA INDONESIA DENGAN MENGGUNAKAN METODA K NEAREST NEIGHBOR

CASE TOOL UNTUK PEMODELAN SEMANTIK DATA DALAM WEB ONTOLOGY LAGUANGE (OWL)

BAB II LANDASAN TEORI

IMPLEMENTASI MODEL ONTOLOGY UNTUK PENCARIAN INFORMASI BERITA BERBASIS SEMANTIK TUGAS AKHIR

UKDW. 1.1 Latar Belakang BAB 1 PENDAHULUAN

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

BAB II LANDASAN TEORI

STUDI TENTANG PEMODELAN ONTOLOGI WEB SEMANTIK DAN PROSPEK PENERAPAN PADA BIBLIOGRAFI ARTIKEL JURNAL ILMIAH

Implementasi Algoritma Term Frequency Inverse Document Frequency dan Vector Space Model untuk Klasifikasi Dokumen Naskah Dinas

Definisi Semantic Web

Andie Hariyadi Supriyatna

BAB II LANDASAN TEORI. 2.1 Peringkasan Teks Otomatis (Automatic Text Summarization) Peringkasan Teks Otomatis (Automatic Text Summarization) merupakan

BAB III ANALISIS DAN PERANCANGAN SISTEM

BAB III METODELOGI PENELITIAN

PENERAPAN TEKNOLOGI SEMANTIC WEB PADA ENSIKLOPEDIA ALAM

BAB I. Pendahuluan. 1. Latar Belakang Masalah

BAB IV HASIL DAN PEMBAHASAN. jenis dokumen, yaitu dokumen training dan dokumen uji. Kemudian dua

Sistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF)

BAB I PENDAHULUAN 1.1 Latar Belakang Masalah

UKDW BAB 1 PENDAHULUAN. 1.1 Latar Belakang

BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB II TINJAUAN PUSTAKA

UKDW 1. BAB 1 PENDAHULUAN Latar Belakang Masalah

Perancangan Model Ontologi Pada Sistem Informasi Manajemen Skripsi

KLASIFIKASI DATA PENGADUAN MASYARAKAT PADA LAMAN PESDUK CIMAHI MENGGUNAKAN ROCCHIO

BAB III PERANCANGAN. Fitur. Reduksi & Pengelompokan. Gambar 3.1. Alur Pengelompokan Dokumen

BAB III METODE PENELITIAN

PENCARIAN DOKUMEN BERDASARKAN KOMBINASI ANTARA MODEL RUANG VEKTOR DAN MODEL DOMAIN ONTOLOGI

BAB I PENDAHULUAN. masalah, keaslian penelitian, manfaat penelitian) dan juga tujuan penelitian.

EKSTRAKSI FITUR SITUS BERITA ONLINE UNTUK KALEIDOSKOP BERITA TAHUNAN

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB II LANDASAN TEORI

BAB 3 LANDASAN TEORI

BAB II DASAR TEORI Crawler Definisi Focused Crawler dengan Algoritma Genetik [2]

PEMANFAATAN ASSOCIATION RULE MINING DALAM MEMBANTU PENCARIAN DOKUMEN-DOKUMEN BERITA YANG SALING BERKAITAN

BAB I PENDAHULUAN Latar Belakang

PEMANFAATAN ALGORITMA TF/IDF UNTUK SISTEM INFORMASI e-complaint HANDLING

KLASIFIKASI DOKUMEN NASKAH DINAS MENGGUNAKAN ALGORITMA TERM FREQUENCY INVERSED DOCUMENT FREQUENCY DAN VECTOR SPACE MODEL

BAB V EKSPERIMEN TEXT CLASSIFICATION

BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB I PENDAHULUAN. 1.1 Latar Belakang

URi. Program Studi Sistem Informasi Universitas Gunadarma.

BAB I PENDAHULUAN 1.1 Latar Belakang

TEKNIK VECTOR SPACE MODEL (VSM) DALAM PENENTUAN PENANGANAN DAMPAK GAME ONLINE PADA ANAK

BAB I PENDAHULUAN 1.1 Latar Belakang

APLIKASI PENCARIAN HEWAN BERKAKI EMPAT DENGAN MENGGUNAKAN WEB SEMANTIK. : Faizal Wijayanto NPM :

BAB 3 ANALISIS MASALAH DAN PERANCANGAN

BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah

IMPLEMENTASI WEB SEMANTIK DENGAN APACHE JENA

IMPLEMENTASI METHONTOLOGY UNTUK PEMBANGUNAN MODEL ONTOLOGI PROGRAM STUDI PADA PERGURUAN TINGGI DI BALI

BAB II TINJAUAN PUSTAKA. penelitian yang penting (Baharudin, Lee and Khan, 2010). Beberapa peneliti telah

KLASIFIKASI KATEGORI DOKUMEN BERITA BERBAHASA INDONESIA DENGAN METODE KATEGORISASI MULTI- LABEL BERBASIS DOMAIN SPECIFIC ONTOLOGY

BAB I PENDAHULUAN Latar Belakang

BAB I PENDAHULUAN. memberikan dampak yang luas dalam bagaimana manusia menjalani hidupnya.

Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi

PENERAPAN WEB SEMANTIK UNTUK APLIKASI PENCARIAN PADA REPOSITORI KOLEKSI PENELITIAN, STUDI KASUS: PROGRAM STUDI SISTEM INFORMASI STMIK MIKROSKIL MEDAN

Mesin Pencari Cerdas dengan Web Semantik

BAB III ANALISIS DAN PERANCANGAN

BAB II TINJAUAN PUSTAKA

KLASIFIKASI HELPDESK UNIVERSITAS JENDERAL ACHMAD YANI MENGGUNAKAN CONCEPT FREQUENCY-INVERSE DOCUMENT FREQUENCY (CF-IDF) DAN K-NEAREST NEIGHBORS (K-NN)

PENGELOMPOKAN DOKUMEN MENGGUNAKAN ALGORITMA DIG (DOCUMENT INDEX GRAPH)

BAB I PENDAHULUAN 1.1. Latar Belakang

Nur Indah Pratiwi, Widodo Universitas Negeri Jakarta ABSTRAK

MODEL ONTOLOGI UNTUK INFORMASI PARIWISATA DI KABUPATEN BANYUMAS

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

Kata kunci : Klasifikasi,Kategori Berita, Text Mining, Tf-Idf, Naive Bayes

SISTEM PENCARIAN PASAL-PASAL PADA KITAB UNDANG-UNDANG HUKUM PIDANA DENGAN MENGGUNAKAN METODE TF-IDF. Abstrak

1 BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB 4 IMPLEMENTASI. 4.1 Persiapan Dokumen

Bab 2. Tinjauan Pustaka

POLA KEMAMPUAN ANAK BERDASARKAN RAPOR MENGGUNAKAN TEXT MINING DAN KLASIFIKASI NEAREST NEIGHBOR

1.5 Metode Penelitian

BAB IV METODOLOGI PENELITIAN. Penelitian ini dilakukan dengan melalui empat tahap utama, dimana

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB II TINJAUAN PUSTAKA

DAFTAR ISI. HALAMAN PENGESAHAN... ii. HALAMAN PERSEMBAHAN... iii. KATA PENGANTAR...v. DAFTAR ISI... ix. DAFTAR TABEL...xii. DAFTAR GAMBAR...

KLASIFIKASI BERITA BERDASARKAN PENDEKATAN SEMANTIK. Dimas Bagus Prasetyo 1 Freddy Arviando 2, Muhammad Farhan Mubarak 3 Sandy Febriant Eka Putra 4

BAB III METODOLOGI PENELITIAN

BAB I PENDAHULUAN 1.1 Latar Belakang

JURNAL ITSMART Vol 4. No 2. Desember 2015 ISSN :

DAFTAR ISI. Halaman Judul. Halaman Pengesahan. Halaman Pernyataan. Halaman Persembahan. Halaman Motto INTISARI

PERANCANGAN DAN PEMBUATAN APLIKASI PENCARIAN INFORMASI BEASISWA DENGAN MENGGUNAKAN COSINE SIMILARITY

Gambar 1.1 Proses Text Mining [7]

PENDEKATAN MODEL ONTOLOGI UNTUK PENCARIAN LEMBAGA PENDIDIKAN (STUDI KASUS LEMBAGA PENDIDIKAN PROVINSI DAERAH ISTIMEWA YOGYAKARTA)

PERSETUJUAI\ ARTIKEL ILMIAH. Mashar Eka Putra Dai. S1-Sistem Informasi. Teknik Informatika. Teknik. Penerapan Metode Document Frequency

Pemodelan Ontologi Web Semantik pada Pencarian Lowongan Pekerjaan Berdasarkan Profil Pencari Kerja

BAB I PENDAHULUAN 1.1 Latar Belakang

Penerapan Teknologi Semantic Web pada Pengarsipan Berita OnLine

ABSTRAK. Kata kunci: Sistem Tanya Jawab, Semantic Web, Ontology, domain terbatas. v Universitas Kristen Maranatha

BAB 3 ANALISIS DAN PERANCANGAN SISTEM

Klasifikasi Berita Lokal Radar Malang Menggunakan Metode Naïve Bayes Dengan Fitur N-Gram

Penerapan Algoritma Cosine Similarity dan Pembobotan TF-IDF pada Sistem Klasifikasi Dokumen Skripsi

BAB I PENDAHULUAN. Proses penyimpanan makna dan kandungan dari suatu domain pengetahuan

Transkripsi:

BAB II LANDASAN TEORI Pada bab ini berisi tentang data dan informasi yang berkaitan dengan pokok permasalahan yang akan diuji, yaitu dengan mendalami tentang klasifikasi teks. Selain itu juga membahas referensi lain yang berhubungan dengan Ontologi dan Metode Dao yang digunakan sebagai metode dalam menyelesaikan penelitian ini. 2.1 Literatur Review Beberapa penelitian yang dilakukan dengan tema yang sama pada penelitian maupun dengan metode yang berbeda. Pada penelitian Prajna Wira B dan dan Dana Indra S yaitu pengklasikasian otomatis berbasis ontologi untuk artikel berita berbahasa indonesia. Pada penelitian ini mengelompokkan dokumen yang tidak terstruktur ke dalam kelompok-kelompok yang menggambarkan isi dari dokumen berita. Penggunaan ontologi dalam penelitian ini untuk membandingkan nilai kemiripan diantara dokumen dan sebuah node yang ada di ontologi. Hasil penelitian ini menunjukkan bahwa ontologi dapat digunakan untuk melakukan klasifikasi dokumen [1]. Pada penelitiannya, data yang digunakan berupa data artikel berita berbahasa indonesia sebagai domain dalam ontologinya sedangkan pada penelitian yang akan dikembangkan menggunakan domain Tugas Akhir Teknik Informatika UMM dan menggunakan metode dao untuk melakukan klasifikasi dokumen. Pada penelitian Ridde Bhaktiyar Riwanto yaitu klasifikasi judul tugas akhir teknik informatika berdasarkan bidang minat menggunakan algoritma Naïve Bayes Classifier (Studi Kasus : Ruang Baca Fakultas Teknik UMM). Penelitian ini mengelompokkan judul tugas akhir yang sesuai dengan bidang minat menggunakan algoritma Naïve Bayes Classifier. Namun pada penelitian ini membutuhkan data latih untuk melakukan klasifikasi dokumen baru [2]. Pada penelitian dan pengembangan sistem klasifikasi dokumen tugas akhir yang dilakukan membutuhkan data latih.hal ini dikarenakan menggunakan algoritma Naïve Bayes Classifier untuk melakukan pengklasifikasian terhadap data. Untuk memudahkan pemahaman dengan penelitian sebelumnya dapat dilihat pada tabel 2.1 berikut ini : 6

Tabel 2.1 Hasil Penelitian Sebelumnya No Peneliti Judul Penelitian Masalah Penelitian Metode 1 Prajna Wira Basnur dan Dana Indra Sensuse 2 Ridde Bhaktiyar Riwanto Pengklasifikasian Otomatis Berbasis Ontologi Untuk Artikel Berita Berbahasa Indonesia. Klasifikasi Judul Tugas akhir Teknik Informatika Berdasarkan Bidang Minat Sistem TF-IDF, klasifikasi Ontologi, berbasis Navigation ontologi assitent as a dengan classifier menghitung nilai kemiripan menggunakan Navigation assistant as a classifier kurang efisien karena hasil klasifikasinya tidak menghitung kemiripan dengan melihat jarak di dalam ontologinya Pada sistem klasifikasi ini dipengaruhi seberapa banyak data latih yang Naïve Bayes Classifier Penerbit Makara, Teknologi UMM (Universitas Muhammadiyah Malang) - Malang 7

Menggunakan dibutuhkan Algoritma Naive agar Bayes klasifikasi Classifier(Studi dokumen Kasus : Ruang memberikan Baca Fakultas akurasi yang Teknik UMM). maksimal. Universitas Muhammadiyah Malang. 3 Hendra Perangkingan Sitem TF-IDF dan UMM Nurrokhmad Dokumen pencarian Metode Dao (Universitas Berdasarkan saat ini masih Muhammadiyah Kemunculan konvensional Malang) - Kata Kunci Pada dan tidak Malang Ontologi. efektif dalam menemukan dokumen yang dicari pengguna Proses klasifikasi biasanya memiliki dua tahap : learning dan test. Pada tahap learning, sebagian data yang telah diketahui kelas datanya digunakan untuk membentuk model perkiraan. Kemudian pada tahap test model yang sudah terbentuk diuji dengan sebagian data lainnya untuk mengetahui akurasi kelas data yang belum diketahui. Terdapat banyak teknik klasifikasi yang digunakan untuk melakukan klasifikasi dapat berupa bayesian classifier, nearst neighbour classifier, support verctor machine, dan lain sebagainya. Masing masing classifier memiliki algoritma pembelajarannya masing-masing. Penentuan data pembelajaran dapat mempengaruhi hasil pengujian karena pola data pembelajaran tersebut dijadikan sebagai rule untuk menentukan kelas pada data testing. Sehingga besar atau kecilnya presentasi tingkat akurasi dipengaruhi oleh penentuan data pembelajaran. 8

Dengan menggunakan ontologi tidak lagi memerlukan data latih atau data pembelajaran untuk melakukan klasifikasi dokumen tugas akhir. Karena ontologi bersifat unik dan memiliki struktur hirarki, selain itu model ontologi dapat menghilangkan lebih dari satu makna atau arti sehingga dapat memperluas pencarian. Sedangkan penelitian yang akan dikembangkan pengklasifikasian dokumen tugas akhir ini menggunakan metode ontologi, metode dao untuk menghitung jarak pada struktur ontologi dan menggunakan ACM sebagai acuan dalam menentukan rule di dalam ontologinya. 2.2 Klasifikasi Dokumen Klasifikasi dokumen adalah bidang penelitian dalam perolehan informasi yang mengembangkan metode untuk menentukan atau mengkategorikan suatu dokumen ke dalam satu atau lebih kelompok yang telah dikenal sebelumnya secara otomatis berdasarkan isi dokumen[3]. Klasifikasi dokumen bertujuan untuk mengelompokkan dokumen yang tidak terstruktur ke dalam kelompok atau kategori yang menggambarkan isi dari dokumen. Dokumen dapat berupa dokumen teks seperti dokumen tugas akhir. Klasifikasi memiliki dua tahap proses yaitu tahap pembelajaran dan tahap klasifikasi Pada tahap pertama, algoritma kalsifikasi membentuk model klasifikasi dengan menganalisis data latih. Tahap ini sebagai supervised learning karena setiap data latih memiliki label kelas masing-masing. Tahap kedua adalah menentukan kelas untuk data uji dengan melihat model klasifikasi yang terbentuk[4]. 2.3 Ontologi Ontologi adalah ilmu pengetahuan yang pertama kali ada. Pada dasarnya ada dua bidang ilmu yang menggunakan istilah ontologi, yaitu ilmu filsafat dan ilmu komputer. Untuk membedakan istilah ontologi pada dua bidang ini, digunakan istilah philosophical ontology yang mengarah pada filsafat dan computational ontology pada ilmu komputer. Pembahasan ontologi dalam skripsi ini adalah computational ontology[5]. Ontologi merupakan sebuah deskripsi formal tentang sebuah konsep secara eksplisit dalam sebuah domain tertentu(classes, terkadang disebut concepts), properti dari setiap konsep beserta dengan batasannya(facets)[6]. Dalam istilah lain ontologi dijelaskan sebagai suatu representasi dari domain pengetahuan tertentu 9

yang berisi istilah-istilah dalam domain tersebut beserta hubungan antara istilah istilah yang ada[7]. Pada tinjauan filsafat, ontologi adalah pembelajaran tentang sesuatu yang ada. Dalam bidang Artificial Intelligence (AI) ontologi memiliki dua pengertian yang saling berkaitan. Pertama ontologi adalah kosakata representasi yang sering dikhususkan untuk domain atau subyek pembahasan tertentu yang kedua sebagai suatu body of knowledge untuk menjelaskan suatu bahasan tertentu. Ontologi dipresentasikan dengan kumpulan node yang saling terhubung dan membentuk sebuah jejaring. Dalam mempresentasikan ontologi berupa tree yang tidak beraturan dan terbentuk dari sekumpulan konsep yang saling terhubung. Konsep disini dapat dinyatakan dengan frase bahasa indonesia. 2.3.1 Komponen Ontologi Ontologi memiliki banyak struktur, hal ini tergantung penggunaan bahasa ontology yang digunakan, termasuk sintaksisnya. Secara umum ontologi memiliki beberapa komponen yang dapat menjelaskan ontologi tersebut, antara lain [8]: - Konsep (Concept) Digunakan dalam pemahaman yang luas. Sebuah konsep dapat merupakan sesuatu yang dikatakan, selain itu sebagai penjelasan dari tugas, fungsi, aksi, strategi dan sebagainya. Concept juga dikenal sebagai clasess, object dan categories. - Relasi (Relation) Merupakan representasi sebuah tipe dari interaksi antara konsep dari sebuah domain. Sebagai contoh dari relasi binari termasuk subclass-of dan connected to. - Fungsi (Function) Adalah sebuah relasi khusus dimana elemen ke n dari relasi adalah unik untuk elemen ke n-1, contohnya adalah Mother-of. - Aksiom (Axiom) Digunakan untuk memodelkan sebuah sentence yang selalu benar - Instance Digunakan untuk mempresentasikan elemen Pengembangan ontologi dalam penelitian ini terdiri dari beberapa komponen utama yaitu : 10

- Konsep Konsep atau class merepresentasikan term atau kata dalam domain yang spesifik. - Fitur Fitur atau instance mempresentasikan individu dari sebuah kelas - Relasi Relasi atau property mempresentasikan hubungan diantara konsep. Relasi yang digunakan dalam penelitian ini yaitu relasi is-a. 2.4 RDF Resource Description Framework (RDF) merupakan sebuah model sederhana untuk mendeskripsikan hubungan antara sumber-sumber daya yang merupakan properties dan value. Dengan kata lain RDF merupakan standar dari metadata yang digunakan untuk mendiskripsikan alamat dari resource pada web. RDF terdiri dari tiga elemen dasar yaitu subject, karakteristik (property) dari subject disebut sebagai predicate, sedangkan nilai dari property disebut sebagai object. 2.5 SPARQL Simple Protocol and RDF Query Language (SPARQL) merupakan bahasa query yang digunakan untuk memperoleh informasi dari graph RDF atau OWL. SPARQL menyediakan fasilitas untuk mengekstrak informasi dalam bentuk URI, blank node dan literal, mengesktrak subgraf RDF, dan membangun graf RDF berdasar pada informasi dari graf yang di query. Query SPARQL didasarkan pada pencocokan pola pada graf. Pola graf yang paling sederhana adalah triple pattern yang mirip dengan RDF triple, hanya saja pola pada query dimungkinkan pemberian nama diluar terminologi RDF pada posisi subyek, predikat, dan obyek. Klausa yang digunakan dalam query SPARQL diantaranya [9]: 1. PREFIX Statement PREFIX merupakan sebuah meode yang digunakan sebagai penunjuk yang membawa informasi dalam suatu halaman web. Pada dasarnya PREFIX digunakan untuk menyingkat sebuah resource, dalam hal ini dapat diwakili oleh URI (Uniform Resource Identifier). 11

2. SELECT Statement SELECT didefinisikan sebuah daftar variabel-variabel yang akan dikembalikan sebagai hasil dari eksekusi query. Setiap variabel diawali dengan notasi (?). 3. WHERE Statement WHERE didefinisikan sederetan triple pattern yang harus dimiliki oleh setiap hasil query yang valid. Seluruh pola yang merepresentasikan suatu kalimat RDF harus sesuai dengan RDF triple, yaitu terdiri dari subyek, predikat dan obyek. Ketiga RDF triple tersebut direpresentasikan oleh URI atau sebuah variabel dan literal. 4. OPTIONAL Statement OPTIONAL digunakan untuk mengatasi ketidak cocokan struktur pola query dengan pola yang ada pada graf RDF. 2.6 Term frequency- Inversed document frequency (TF-IDF) Term frequency inverse document frequency atau sering disebut TF-IDF adalah metode pembobotan kata dengan menghitung nilai TF dan juga menghitung sebuah kata pada koleksi dokumen teks secara keseluruhan. Metode ini menggabungkan 2 konsep perhitungan bobot yaitu frekuensi kemunculan sebuah kata di dalam sebuah dokumen tertentu dan inverse frekuensi dokumen yang mengandung kata tersebut. Inverse document frequency (IDF) adalah jumlah dokumen yang mengandung sebuah term didasarkan pada seluruh dokumen yang ada [10]. Idf = 1 df Keterangan : atau idf = log D df - Nilai d adalah jumlah dokumen yang terdapat pada kumpulan dokumen. - Nilai df adalah jumlah dokumen yang mengandung term. Kemudian untuk proses pembobotan dari term yang ada menggunakan rumus sebagai berikut : W t.d = tf t.d. log 10 ( D df ) (2) Keterangan : (1) 12

tf = Frekuensi kemunculan term t dalam suatu dokumen d. df = Frekuensi dokumen yang mengandung kata tertentu. D = jumlah dokumen w = bobot dokumen terhadap kata 2.7 Metode Dao Pada penelitian ini, akan digunakan pendekatan metode untuk mengukur jarak kata yang berada pada kumpulan taxonomy ontologi. Tujuannya adalah mengklasifikasi dokumen dengan cara mencari hubungan antara kata dengan istilah di ontologi. Penelitian (Ngoc Dao, T & Simpson T) mengatakan bahwa untuk melakukan perhitungan dilakukan dengan beberapa tahap yaitu : 1. Setiap kalimat pada dokumen akan dibagi menjadi kumpulan kata yang berdiri sendiri atau memecah kalimat menjadi kata (Tokenizing). 2. Stopword yaitu mengambil kata yang penting atau menghilangkan kata yang tidak memiliki kontribusi. Kumpulan istilah ontologi setiap kata (kata kerja/kata benda) di organisasikan kedalam kumpulan taxonomy dimana setiap node adalah kumpulan sinonim yang dipresentasikan dalam satu makna. Jika sebuah kata memiliki makna lebih dari satu, maka akan muncul beberapa sinonim yang terletak di berbagai node dalam taxonomy. Relasi antara 2 sinonim kata menggunakan hypernym, hyponym yaitu relasi is-a. Untuk menghitung relasi/hubungan kesamaan antar kata dengan istilah di ontologi, yang mempunyai hubungan is-a pada struktur hirarki ontologi. Dalam ontologi yang dihitung merupakan node dari setiap taxonomy[11]. 1 Node 1 Node 2 Gambar 2.1 Panjang Jarak antar 2 Node Dalam penelitian, Leacock & Chodrow, P. Resnik berekesperimen untuk mengukur dua kesamaan semantik antara dua kata sederhana dalam persamaan (3) (Dao & Simpson, 2005) Sim(s, t) = 1/distance(s, t) (3) 13

Keterangan : S = kata kunci T = semua kandidat kata penting setiap dokumen Distance = jarak node kedua variabel Dimana panjang jarak terpendek dari s ke t menggunakan node penjumlahan. 2.8 Pengantar Preprocessing Data Preprocessing data adalah proses mengelolah data mentah menjadi data yang siap diolah. Data bisa berupa dokumen, kebanyakan dari dokumen ini tidak memiliki struktur yang pasti sehingga informasi didalamnya sulit untuk diekstrak secara langsung oleh sistem. Dalam tahap ini adalah dimana sistem dapat melakukan seleksi data yang akan dikelola pada setiap dokumen. Tahapan dalam melakukan preprocessing data ini meliputi case folding, stopwords removal. 2.8.1 Case Folding Proses ini melakukan pengubahan huruf dalam dokumen menjadi huruf kecil ( a sampai dengan z ). Pada HTML 5 diperkenalkan beberapa elemen baru dan atribut yang merefleksikan tipikal penggunaan website modern. pada html 5 diperkenalkan beberapa elemen baru dan atribut yang merefleksikan tipikal Gambar 2.2 Case Folding 2.8.2 Stopwords Removal Stopwords tahap mengambil kata-kata penting dari hasil tokenizing Stopwords tahap mengambil kata-kata penting dari hasil tokenizing (stoplist) sedangkan kata-kata yang kurang penting akan dihilangkan. Pada proses ini digunakan daftar stopword yang sebagai acuan penghilangan kata. Pada HTML 5 diperkenalkan beberapa elemen baru dan atribut yang merefleksikan tipikal penggunaan website modern. HTML 5 diperkenalkan beberapa elemen baru atribut merefleksikan tipikal penggunaan website modern. Gambar 2.3 Stopword Removal 14

2.9 Metode Pengujian Pada tahap ini dilakukan uji coba terhadap pengembangan yang telah dibuat. Pengujian yang dilakukan adalah mengukur keakuratan metode klasifikasi dokumen teks. Skenario pengujian dilakukan dengan mengunggah dokumen tugas akhir yang akan diklasifikasikan. Pengujian dilakukan dengan menghitung akurasi. 2.9.1 Akurasi Pada tahap evaluasi dilakukan dengan memperoleh hasil akurasi dengan mengukur keakurasian metode klasifikasi dokumen. Akurasi merupakan metode antara nilai prediksi dengan nilai aktual yang dilakukan oleh sistem. Dengan jumlah klasifikasi secara benar maka dapat diketahui akurasi hasil prediksi. Berikut persamaan akurasi: Accuracy = Jumlah klasifikasi benar Jumlah data uji x 100% (4) 15

16