PENGEMBANGAN MODEL DAN STRUKTUR INFORMASI UNTUK KONTEN BERBASIS TEKS PADA SISTEM NOTEBOX TESIS DEBBY. E. SONDAKH NIM:

dokumen-dokumen yang mirip
PENDAHULUAN. I.1 Latar Belakang

ABSTRAK. Kata Kunci: analisis sentimen, pre-processing, mutual information, dan Naïve Bayes. UNIVERSITAS KRISTEN MARANATHA

PEMBANGUNAN SISTEM CONTENT-BASED IMAGE RETRIEVAL MENGGUNAKAN KODE FRAKTAL DARI DOKUMEN CITRA TESIS ARIF RAHMAN NIM :

PEMANFAATAN TEKNIK STEMMING UNTUK APLIKASI TEXT PROCESSING BAHASA INDONESIA SKRIPSI. Oleh : SEPTIAN BAGUS WAHYONO NPM :

ABSTRAK. Kata kunci : Information Retrieval system, Generalized Vector Space Model. Universitas Kristen Maranatha

TESIS KLASIFIKASI TEKS SHORT MESSAGE SERVICE (SMS) HARLIANDI No. Mhs : /PS/MTF

TESIS PEMBANGUNAN PERANGKAT LUNAK PERINGKAS DOKUMEN DARI BANYAK SUMBER BERBASIS WEB MENGGUNAKAN SENTENCE SCORING DENGAN METODE TF-IDF

ABSTRAK. Kata kunci: Sistem Tanya Jawab, Semantic Web, Ontology, domain terbatas. v Universitas Kristen Maranatha

PENGURAIAN BAHASA INDONESIA DENGAN MENGGUNAKAN PENGURAI COLLINS TESIS. ROSA ARIANI SUKAMTO NIM : (Program Magister Informatika)

BAB I PENDAHULUAN Latar Belakang

INTEGRASI PEMBOBOTAN TF IDF PADA METODE K-MEANS UNTUK CLUSTERING DOKUMEN TEKS

Penggunaan Hidden Markov Model untuk Kompresi Kalimat

ABSTRAK MOBILE LEARNING MANAGEMENT SYSTEM UNTUK TELEPON SELULER. Oleh SUPRIH WIDODO NIM:

KLASIFIKASI SUPERVISED LEARNING PADA TEKS BAHASA BALI DENGAN METODE INFORMATION GAIN DAN NAIVE BAYES CLASSIFIER

SMART BUSINESS PROCESS MANAGEMENT SYSTEM TESIS

ABSTRAK. Kata kunci: Spam, Android, Pesan, Java, Webservice. Universitas Kristen Maranatha

2.2. Fitur Produk Perangkat Lunak Fitur Pengolahan Data Fakultas Fitur Pengolahan Data Jurusan

Penerapan Algoritma K-Means untuk Clustering

PENCARIAN MELODI PADA FILE MIDI

SISTEM ANALISIS SENTIMEN POSITIF DAN NEGATIF MENGGUNAKAN ALGORITMA KLASIFIKASI NAIVE BAYES PADA KASUS TOKOH PUBLIK CAPRES INDONESIA 2014

PEMILIHAN DAN PENGEMBANGAN SISTEM MANAJEMEN JARINGAN ENTERPRISE OPEN SOURCE BERBASIS PROTOKOL SNMP DAN FRAMEWORK STANDAR FCAPS TESIS

KATA PENGANTAR. menyelesaikan penyusunan laporan tugas akhir APLIKASI KLASIFIKASI ARTIKEL TEKNOLOGI INFORMASI PADA MAJALAH CHIP

IMPLEMENTASI ALGORITMA RANDOM FORESTS UNTUK KLASIFIKASI SPAM PADA CITRA DAN TEXT INSTAGRAM TUGAS AKHIR

ANALISIS PEMANFAATAN SEQUENTIAL PATTERN UNTUK MENENTUKAN NODE ORDERING PADA ALGORITMA KONSTRUKSI STRUKTUR BAYESIAN NETWORK

PERINGKASAN TEKS BAHASA INDONESIA SECARA OTOMATIS MENGGUNAKAN METODE SENTENCE SCORING DAN DECISION TREE

PENGEMBANGAN INFRASTRUKTUR KOMUNIKASI UNTUK APLIKASI BERBASIS MESSAGING

PERANCANGAN DAN IMPLEMENTASI SISTEM REKOMENDASI PENCARIAN BUKU PERPUSTAKAAN MENGGUNAKAN METODE VECTOR SPACE MODEL

PEMANFAATAN ARDUINO DALAM PENGEMBANGAN SISTEM RUMAH PINTAR BERBASIS MOBILE DAN WEB (Studi Kasus : Penjadwalan Lampu Rumah)

FOCUSED CRAWLER UNTUK MENGOPTIMALKAN PENCARIAN JURNAL MENGGUNAKAN METODE PORTER STEMMER

STMIK GI MDP. Program Studi Teknik Informatika Skripsi Sarjana Komputer Semester Ganjil Tahun 20010/2011

PERANCANGAN MODEL CUSTOMER RELATIONSHIP MANAGEMENT PRODUK PASCABAYAR (STUDI KASUS : PT EXCELCOMINDO PRATAMA. TBK.)

SKRIPSI Diajukan untuk Memenuhi Salah Satu Syarat Mencapai Gelar Strata Satu Jurusan Informatika. Disusun Oleh: AISHA ALFIANI MAHARDHIKA

PERANCANGAN CLIENT DENGAN PENGKLASIFIKASIAN MENGGUNAKAN ALGORITMA VECTOR SPACE MODEL SKRIPSI MOSES CHRISTIAN

PEMANFAATAN WEB SERVICE MOODLE BERBASIS REST- JSON UNTUK MEMBANGUN MOODLE ONLINE LEARNING EXTENSION BERBASIS ANDROID

ABSTRAK. Kata kunci: chatbot, information state, mixture-language model. v Universitas Kristen Maranatha

UNIVERSITAS BINA NUSANTARA

KOMBINASI METODE K-NEAREST NEIGHBOR DAN NAÏVE BAYES UNTUK KLASIFIKASI DATA

CLUSTERING DOKUMEN TEKS BERDASARKAN FINGERPRINT BIWORD WINNOWING DENGAN MENGGUNAKAN METODE K-MEANS

SISTEM REKOMENDASI DOSEN PEMBIMBING TUGAS AKHIR BERBASIS TEXT MINING MENGGUNAKAN VECTOR SPACE MODEL

PERANCANGAN DAN PEMBUATAN APLIKASI UNTUK PENCARIAN WEB SERVICE MENGGUNAKAN LUCENE

Sistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF)

ANALISIS SPAM FILTERING PADA MAIL SERVER DENGAN METODE BAYESIAN CHI-SQUARE DAN NAIVE BAYES CLASSIFIER SKRIPSI

II TINJAUAN PUSTAKA. 1. Acquiring, adalah proses akuisisi knowledge ke dalam aplikasi KM.

ABSTRAK. Kata kunci: Sistem Pakar, Pembelajaran Mesin, Weka, Support Vector Machine, Regresi Logistik, Demam Berdarah, Malaria, Typhus

INTEGRASI DATA SEMITERSTRUKTUR SECARA SKEMATIK BERBASIS XML (EXTENSIBLE MARKUP LANGUAGE) TITIN PRAMIYATI K.

STUDI DAN IMPLEMENTASI ALGORITMA SUFFIX TREE CLUSTERING UNTUK ORGANISASI DATA HASIL SEARCH ENGINE

BAB I PENDAHULUAN. 1.1 Latar Belakang

KLASIFIKASI TEKS MENGGUNAKAN ALGORITMA NAIVE BAYES UPDATEABLE PADA SOAL UJIAN SBMPTN HALAMAN JUDUL

INTEGRASI DATA SEMITERSTRUKTUR SECARA SKEMATIK BERBASIS XML (EXTENSIBLE MARKUP LANGUAGE) TITIN PRAMIYATI K.

TESIS RANCANG BANGUN APLIKASI TRAVEL GUIDE BANYUMAS BERBASIS ANDROID

BAB I. Pendahuluan. 1. Latar Belakang Masalah

PERANCANGAN DAN IMPLEMENTASI INTERAKSI MEDIA PEMBELAJARAN HIDROKARBON BERBASIS TEKNOLOGI AUGMENTED REALITY TESIS

APLIKASI MESIN PENCARI DOKUMEN CROSS LANGUAGE BAHASA INGGRIS BAHASA INDONESIA MENGGUNAKAN VECTOR SPACE MODEL

ABSTRAK. Kata Kunci : Latent Semantic Indexing, pencarian, dokumen, Singular Value Decomposition.

EKSTRAKSI JALAN SECARA OTOMATIS DENGAN DETEKSI TEPI CANNY PADA FOTO UDARA TESIS OLEH: ANDRI SUPRAYOGI NIM :

ABSTRAK. Keywords : Data Mining, Filter, Data Pre-Processing, Association, Classification, Deskriptif, Prediktif, Data Mahasiswa.

ABSTRAK. Kata kunci: temperamen, kepribadian, Hippocrates, sinonim, antonim, pembelajaran mesin. Universitas Kristen Maranatha

TESIS Karya tulis sebagai salah satu syarat untuk memperoleh gelar Magister dari Institut Teknologi Bandung. Oleh

SISTEM INFORMASI MANAJEMEN SEKOLAH SUB SISTEM PENJADWALAN TUGAS AKHIR

ABSTRAK. Kata kunci: diagram kelas, xml, java, kode sumber, sinkronisasi. v Universitas Kristen Maranatha

IMPLEMENTASI VECTOR SPACE MODEL DAN BEBERAPA NOTASI METODE TERM FREQUENCY INVERSE DOCUMENT FREQUENCY (TF-IDF) PADA SISTEM TEMU KEMBALI INFORMASI

BAB III METODOLOGI PENELITIAN

PERINGKASAN TEKS BERITA SECARA OTOMATIS MENGGUNAKAN TERM FREQUENCY INVERSE DOCUMENT FREQUENCY (TF-IDF) SKRIPSI DANDUNG TRI SETIAWAN

APLIKASI QRSCANNER DAN QR CODE GENERATOR

RANCANG BANGUN SISTEM OPINION MINING DENGAN METODE POS TAGGING

ABSTRAK. Kata Kunci : ATSMS, VB.NET,SQL Server 2005, dan Crystal Report.

Penerapan Teknik Support Vector Machine untuk Pendeteksian Intrusi pada Jaringan

Jurnal Politeknik Caltex Riau

ABSTRAK. Kata kunci : android, Kristen, renungan, saat teduh

PENGUBAHAN SINGKATAN PADA PESAN SINGKAT TELEPON SELULER DENGAN MEMANFAATKAN POHON KEPUTUSAN C4.5

ABSTRAK. Kata Kunci : Website Media Pembelajaran, SMK Teknik Komputer dan Jaringan, Use Case, Flowchart, ERD, AJAX, PHP, MySQL.

PERANGKAT LUNAK PENDUKUNG ESTIMASI BIAYA PRODUKSI DENGAN METODE K-MEANS DAN MULTIPLE LINEAR REGRESSION PADA SISTEM PRODUKSI JOB ORDER TESIS

KAJIAN KARAKTER FASADE BANGUNAN-BANGUNAN RUMAH TINGGAL KOLONIAL DI KAWASAN PERUMAHAN TJITAROEM PLEIN BANDUNG TESIS

ABSTRAK. Kata Kunci : klasifikasi, musik digital, jenis musik, support vector machine, fitur ekstraksi, daftar putar musik digital

4. ABSTRAK. Kata Kunci : manga, rekomendasi, clustering sinopsis

LAPORAN TUGAS AKHIR IMPLEMENTASI ARSITEKTUR MULTITIER DENGAN WEB SERVICE PADA SISTEM PENILAIAN RAPOR DI SEKOLAH MENENGAH KEJURUAN NEGERI 1 BUMIJAWA

TEMU KEMBALI INFORMASI BERDASARKAN LOKASI PADA DOKUMEN YANG DIKELOMPOKKAN MENGGUNAKAN METODE CENTROID LINKAGE HIERARCHICAL

SISTEM INFORMASI PEMBERITAHUAN KEGIATAN ACARA DESA BERBASIS SMS GATEWAY DI KECAMATAN MEJOBO KUDUS

ABSTRAK. Kata kunci: API, Google Calendar, Sinkronisasi

ABSTRAK. Kata Kunci: Beasiswa, sistem informasi, sistem pendukung keputusan. Universitas Kristen Maranatha

PENYUSUNAN METODOLOGI PELAKSANAAN TATA KELOLA TEKNOLOGI INFORMASI UNTUK PEMERINTAHAN TESIS

BAB II LANDASAN TEORI

ABSTRACT. Keyword: Algorithm, Depth First Search, Breadth First Search, backtracking, Maze, Rat Race, Web Peta. Universitas Kristen Maranatha

Implementasi Algoritma Term Frequency Inverse Document Frequency dan Vector Space Model untuk Klasifikasi Dokumen Naskah Dinas

BAB II LANDASAN TEORI

STUDI AWAL KLASIFIKASI ARTIKEL WIKIPEDIA BAHASA INDONESIA DENGAN MENGGUNAKAN METODA K NEAREST NEIGHBOR

Sistem Informasi Bantuan Uang Duka Dengan SMS Gateway Pada Dinas Sosial Tenaga Kerja dan Transmigrasi Kabupaten Kudus

Kata Kunci: AHP, Algoritma, ANP, Profile Matching, Perbandingan, Rekrutmen. Universitas Kristen Maranatha

KLASIFIKASI POLA UKIR KAYU JEPARA BERDASARKAN DETEKSI TEPI BERBASIS JARINGAN SYARAF TIRUAN

ABSTRAK SISTEM INFORMASI KEPEGAWAIAN PADA DEPARTEMEN INFORMATIKA LIPI BANDUNG. Oleh HARNIS ANTANTO P.GULTOM

IMPLEMENTASI ALGORITMA BRUTE FORCE DAN ALGRITMA KNUTH-MORRIS-PRATT (KMP) DALAM PENCARIAN WORD SUGGESTION SKRIPSI ADLI ABDILLAH NABABAN

PEMANFAATAN TRANSFORMASI WAVELET SEBAGAI EKSTRAKSI CIRI PADA KLASIFIKASI BERTINGKAT SINYAL EKG

Tugas Makalah. Sistem Temu Kembali Informasi (STKI) TI Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System

SKRIPSI IMPLEMENTASI FUNGSI REST PADA WEB SERVICE UNTUK PORTAL BERITA DI SMK ISLAM AL HIKMAH MAYONG JEPARA. Oleh : HILMI TAIB

ABSTRAK. Kata Kunci: Perpustakaan, buku, data, peminjaman, pengembalian, pencarian. Universitas Kristen Maranatha

LEMBAR PENGESAHAN. Klasifikasi Kendaraan Roda Empat Menggunakan Metode Naïve Bayes

MODEL PENJADWALAN BATCH PADA JOB SHOP DENGAN KELOMPOK MESIN HETEROGEN UNTUK MEMINIMASI TOTAL WAKTU TINGGAL AKTUAL

LAPORAN SKRIPSI RANCANG BANGUN SISTEM ADMINISTRASI BEASISWA PADA KOPERASI PURA GROUP

IMPLEMENTASI ALGORITMA NAÏVE BAYES UNTUK KLASIFIKASI OPINI PADA DATA TWITTER DENGAN EKSPASI QUERY MENGGUNAKAN PENDEKATAN SINONIM

ABSTRACT. Keywords: Organization, Information System Modeling, Enterprise Architecture, Zachman Framework, Implementation of information technology

Transkripsi:

PENGEMBANGAN MODEL DAN STRUKTUR INFORMASI UNTUK KONTEN BERBASIS TEKS PADA SISTEM NOTEBOX TESIS Karya tulis sebagai salah satu syarat untuk memperoleh gelar Magister dari Institut Teknologi Bandung Disusun Oleh: DEBBY. E. SONDAKH NIM: 23506033 Program Magister Informatika INSTITUT TEKNOLOGI BANDUNG 2008

ABSTRAK PENGEMBANGAN MODEL DAN STRUKTUR INFORMASI UNTUK KONTEN BERBASIS TEKS PADA SISTEM NOTEBOX Oleh: Debby. E. Sondakh 23506033 NoteBOX adalah sistem dan aplikasi konten yang menyediakan informasi dan pengetahuan kepada penggunanya, yang dapat diakses melalui layanan messaging seperti email, SMS, MMS, voice messaging, fax, dan Instant Messaging. NoteBOX dibangun menggunakan konsep unified messaging system (UMS), yang memungkinkan NoteBOX untuk mengintegrasikan berbagai layanan messaging tersebut diatas. UMS memungkinkan terjadinya proses pertukaran pesan dan pengaksesan konten oleh dua jenis layanan messaging yang berbeda dengan media yang berbeda pula. Content service merupakan aplikasi yang berfungsi sebagai penyedia informasi dan pengetahuan, yang akan dijalankan pada content server yang terletak pada lapisan aplikasi sistem NoteBOX. Pada tesis ini dilakukan kajian dan perancangan model pengelompokkan dokumen yang sesuai untuk aplikasi content service untuk sistem NoteBOX. Berdasarkan sifat NoteBOX yang dapat menangani beragam jenis pesan dengan media yang berbeda, konten yang disediakan content server juga harus dapat dikirim dalam bentuk pesan yang beragam, khususnya ukuran panjang dan pendek pesan yang berbeda. Skema pengelompokkan dokumen harus memungkinkan untuk meretrieve sebuah dokumen secara utuh, dan juga bagian-bagian tertentu dokumen saja. Model pengelompokkan dokumen yang diusulkan pada tesis ini didasarkan pada kebutuhan NoteBOX, yang terdiri atas tiga bagian utama yaitu document parsing, document pre-processing dan classification. Document parsing berfungsi untuk mengubah dokumen dengan format yang beragam menjadi dokumen dengan format teks (.txt), untuk memudahkan proses ekstraksi kata dari dokumen. Document preprocessing melakukan tokensisasi dokumen dan pembobotan kata. Tokenisasi dokumen terdiri atas proses ekstraksi kata dari dokumen, eliminasi stop words, dan stemming. Classification terdiri atas document classification untuk mengelompokkan dokumen ke dalam kelas-kelas dokumen, dan document structure classification untuk mengelompokkan elemen dokumen yang ditentukan berdasarkan struktur logik dokumen ke dalam kelas-kelas struktur dokumen. Teknik yang digunakan untuk mengelompokkan dokumen adalah hybrid clustering-classification. Teknik clustering-classification dapat mengotomatisasi proses penentuan predefined class label dokumen dan dapat mengelompokkan dokumen dengan akurasi yang tinggi. Pada teknik ini, predefined class label dokumen ditentukan dari hasil clustering dokumen. Dan selanjutnya dilakukan pengelompokkan dokumen menggunakan teknik classification. Untuk i

mengelompokkan dokumen digunakan pendekatan hierarchical classification. Pendekatan ini mengklasifikasi dokumen ke dalam kelas-kelas yang saling terhubung berdasarkan struktur topik dokumen, dan menghasilkan direktori klasifikasi berbentuk struktur pohon. Ada dua manfaat utama yang dapat diperoleh dari model pengelompokkan dokumen yang dirancang untuk content server NoteBOX. Pertama, model pengelompokkan ini memungkinkan content server untuk dapat memberikan dokumen yang lebih relevan sesuai dengan query pengguna kepada search engine, dan dapat membantu search engine mencari dokumen dengan lebih cepat. Karena, dokumen telah dikelompokkan ke dalam kelas-kelas yang sesuai dengan isi dokumen. Kelas-kelas dokumen dibentuk menggunakan teknik klasifikasi sehingga akurasi pengelompokkan tinggi. Dengan menggunakan pendekatan hierarchical classification, akurasi klasifikasi menjadi semakin tinggi dan proses pencarian dokumen oleh search engine menjadi lebih efisien. Kedua, model pengelompokkan ini memungkinkan search engine untuk me-retrieve dokumen secara utuh atau bagian tertentu dokumen saja. Pada model ini, pengelompokkan dilakukan dengan mempertimbangkan struktur dokumen. Dengan kata lain, pengelompokkan tidak hanya dilakukan pada dokumen saja, tetapi juga pada elemen struktural dokumen. Dengan mengelompokkan elemen struktural dokumen, akses pada bagian tertentu dokumen dapat dimungkinkan. Pada tesis ini tidak dilakukan implementasi model pengelompokkan dokumen yang dirancang. Untuk mengimplementasi model yang didesain dapat menggunakan open-source library. Ekstraksi teks dapat menggunakan library JTidy untuk dokumen HTML, PDFBox untuk dokumen PDF, dan TextMining untuk dokumen Word. Untuk proses pra-pengolahan dokumen dapat menggunakan beberapa class dari library Lucene, dan untuk proses pengelompokkan dokumen dapat menggunakan beberapa class dari library Weka. Kata Kunci: Content service, Dokumen Semi-structured, Pengelompokkan Dokumen ii

ABSTRACT MODELLING AND STRUCTURING INFORMATION FOR TEXT- BASED CONTENT OF NOTEBOX SYSTEM Written By: Debby. E. Sondakh 23506033 NoteBOX is an application and content system that provides information and knowledge for its users, which can be accessed through messaging services such as e-mail, SMS, MMS, Voice messaging, fax, and Instant Messaging. NoteBOX employs unified messaging system (UMS) which enables NoteBOX to integrate different messaging services. UMS enables message exchanging and content accessing by two different messaging services with different devices. Content service is an application that provide the informations and knowledges, which runs at the content server at NoteBOX application layer. This thesis describes a study and designing of document classification model that is suitabe for NoteBOX content service application. Based on NoteBOX nature which can handle various messages with different devices, the contents provided by content server should be able to sent in various messages form, specifically the different messages size. Document classification schema should enable to retrieve the whole document, and certain parts of documents for a short message. The document classification model proposed in this thesis is based on NoteBOX nature and needs, and consist of three main parts: Document Parsing, Document Preprocesing, and Classification. Document parsing has the task of extracting text from various document formats to produce textual document format (.txt). Document preprocessing will tokenize and weight the documents. Document tokenization consist of words extraction, stop words removal, and term stemming. Classification as the main part of document classification applications, consist of two processes: document classification which classify the documents into classes of documents, and document structure classification which classify the document elements based on its logical structure into classes of document s structure. The technique used for classifying documents is a hybrid clustering-classification technique. This technique can automate the process of predefined class label determination, and can classify the documents with high accuracy as well. In this technique, the predefined class label is determined by using the result of clustering process. The next process is document categorization by using the classification technique with hierarchical classification approach, to find the final document classes. Hierarchical classification approach classifies documents into related classes based on document s topic structure. The result of hierarchical classification approach is a tree structured classification directory. iii

This classification model provide two main advantages for NoteBOX content server. First, since the documents have been classified into classes or categories of documents, this classification model enables the content server to provide more relevant documents for the search engine, based on user s query. By using hierarchical classification approach, this model can increase classification accuracy and increase searching process efficiency as well. Second, this classification model enables the search engine to retrieve a whole document and certain parts of the document as well. In this model, the classification is done by considering the document s structure. In other words, this model classifies both the document and it s structural elements. By classifying the documents structural elements, access to a certain parts of the documents is possible. The model is not implemented in this thesis. To implement the document classification model, there are several open-source library that can be used such as JTidy for HTML document, PDFBox for PDF document, TextMining for Word document. For document preprocessing, we can use several classes from Lucene library, and for document classification process we can use WEKA library. Keywords: Content service, Document classification, Semi-structured document. iv

PENGEMBANGAN MODEL DAN STRUKTUR INFORMASI UNTUK KONTEN BERBASIS TEKS PADA SISTEM NOTEBOX Oleh: Debby. E. Sondakh NIM: 23506033 Progam Studi Informatika Institut Teknologi Bandung Telah Disetujui dan Disahkan Sebagai Laporan Tesis Bandung, Tanggal Juni 2008 Pembimbing Ir. Afwarman Manaf, M.Sc, Ph.D NIP. 131803257 v

PEDOMAN PENGGUNAAN TESIS Tesis S2 yang tidak dipublikasikan terdaftar dan tersedia di Perpustakaan Institut Teknologi Bandung, dan terbuka untuk umum dengan ketentuan bahwa hak cipta ada pada pengarang dengan mengikuti aturan HaKI yang berlaku di Institut Teknologi Bandung. Referensi kepustakaan diperkenankan dicatat, tetapi pengutipan atau peringkasan hanya dapat dilakukan seizin pengarang dan harus disertai dengan kebiasaan ilmiah untuk menyebutkan sumbernya. Memperbanyak atau menerbitkan sebagian atau seluruh tesis haruslah seizin Direktur Program Pascasarjana, Institut Teknologi Bandung. vi

KATA PENGANTAR Segala Puji dan Syukur bagi Allah yang telah mengaruniakan berkat kesehatan, akal budi, semangat dan kekuatan sehingga penulis dapat menyelesaikan tesis ini. Tesis ini juga dapat diselesaikan atas dukungan dan bantuan berbagai pihak. Ucapan terima kasih penulis sampaikan kepada semua pihak yang turut membantu dalam pengerjaan tesis ini dan selama masa pendidikan program magister, kepada: 1. Bapak Ir. Afwarman Manaf, M.Sc, Ph.D. sebagai dosen pembimbing dan wali, atas waktu yang telah diluangkan, kesabaran dan pengertian, bimbingan, masukan, serta arahan yang diberikan selama penulisan tesis, dan selama penulis menempuh pendidikan magister. 2. Bapak Ir. Achmad Imam K., M.Sc, Ph.D., dan Bapak Bugi Wibowo, S.T, M.T. sebagai penguji dalam tesis ini, atas waktu yang diluangkan untuk membaca, mencermati, serta memberikan koreksi dan masukan dalam penulisan tesis ini. 3. Keluarga tercinta: suamiku Stenly, anakku Joseph, mama, Ie Poe, atas doa, kesabaran, pengertian, dukungan, dan waktu selama di Bandung. Juga kepada papa, mertua, kakak, adik, atas doa, dukungan, dan bantuan yang diberikan kepada penulis. 4. Universitas Klabat yang telah memberikan beasiswa kepada penulis untuk melanjutkan pendidikan program magister. 5. Bapak Dr.Ing. Farid Wazdi, Bapak Dr. Ing. Benhard Sihotang, Bapak Dr. Ir. Rila Mandala, M.Eng, Bapak Ir. Dwi Hendratmo W., M.Sc., Ph.D, Bapak Ir. Kridanto Surendro, M.Sc., Ph.D, Ibu Dr. Veronica Moertini, yang telah membagikan ilmu dan memberikan wawasan selama pendidikan program magister ini. 6. Teman-teman IF angkatan 2006: Mbak Hilda, Mia, Ridho, Pak Dewa. 7. Pak Ade, Mbak Nur, Ibu Tita, Pak Kandayat, staf duktek, atas kebaikan dan keramahan dalam membantu penulis selama masa pendidikan. vii

8. Pihak lain yang tidak dapat disebutkan satu per satu, yang telah banyak memberikan bantuan dan dukungan. Penulis menyadari bahwa dalam penulisan tesis ini masih terdapat kekurangan yang harus disempurnakan. Oleh karena itu, penulis sangat terbuka untuk menerima kritik dan saran yang membangun agar dapat dicapai sesuatu yang lebih baik. Semoga tesis ini dapat memberikan manfaat positif kepada pembacanya. Terima kasih. Bandung, Juni 2008 Penulis viii

DAFTAR ISI ABSTRAK... I ABSTRACT... III PEDOMAN PENGGUNAAN TESIS... VI KATA PENGANTAR... VII DAFTAR ISI... IX DAFTAR LAMPIRAN... XI DAFTAR GAMBAR... XII DAFTAR TABEL... XIII DAFTAR ISTILAH... XIV DAFTAR SIMBOL... XVII I PENDAHULUAN... I-1 I.1 LATAR BELAKANG... I-1 I.2 RUMUSAN MASALAH... I-4 I.3 TUJUAN... I-5 I.4 BATASAN MASALAH... I-5 I.5 METODOLOGI... I-6 I.6 SISTEMATIKA PEMBAHASAN... I-7 II TINJAUAN PUSTAKA... II-1 II.1 KNOWLEDGE MANAGEMENT... II-1 II.2 PENGELOMPOKKAN DOKUMEN... II-2 II.2.1 Pra-pengolahan Dokumen... II-3 II.2.2 Klasifikasi Dokumen... II-6 II.2.2.1 Hierarchical Text Classification... II-14 II.2.2.2 Teknik Estimasi Akurasi... II-15 II.2.3 Clustering Dokumen... II-16 II.2.3.1 Distance Measure... II-21 II.3 STRUKTUR DOKUMEN... II-21 II.3.1 Klasifikasi Dokumen Semi-structured... II-24 III ANALISIS DAN PERANCANGAN... III-1 III.1 ANALISIS... III-1 ix

III.1.1 Analisis Sistem NoteBOX... III-1 III.1.2 Analisis Skema Pengelompokkan Dokumen Semi-structured... III-3 III.1.2.1 Contoh Proses Pengelompokkan Untuk Skema Klasifikasi Dokumen Semi-structured... III-7 III.1.3 Analisis Kebutuhan Aplikasi Document Classification... III-11 III.1.4 Analisis Algoritma Klasifikasi dan Clustering... III-12 III.2 PERANCANGAN... III-13 III.2.1 Perancangan Model Pengelompokkan Dokumen Semi-structured... III-13 III.2.2 Pemodelan Pengolompokkan Dokumen Semi-structured Menggunakan Use Case... III-15 III.2.3 Perancangan Diagram Kelas Pengelompokkan Dokumen Semi-structured III-18 III.2.4 Desain Struktur Informasi Konten Teks... III-20 III.2.4.1 Struktur Kelas Klasifikasi... III-20 III.2.4.2 Struktur Kelas Elemen Dokumen... III-21 III.2.5 Perancangan Basis Data Pengelompokkan Dokumen Semi-structured.. III-22 IV KAJIAN IMPLEMENTASI... IV-1 IV.1 OPEN-SOURCE LIBRARY UNTUK APLIKASI DOCUMENT CLASSIFICATION. IV-1 IV.2 CLASS UNTUK IMPLEMENTASI APLIKASI DOCUMENT CLASSIFICATION... IV-3 IV.3 RENCANA IMPLEMENTASI... IV-6 IV.3.1 Lingkungan Implementasi... IV-6 IV.3.2 Implementasi Aplikasi... IV-6 V KESIMPULAN DAN SARAN... V-1 V.1 KESIMPULAN... V-1 V.2 SARAN... V-2 DAFTAR PUSTAKA... XV x

DAFTAR LAMPIRAN LAMPIRAN A. LAMPIRAN B. STRUKTUR KELAS KLASIFIKASI... XVII STRUKTUR KELAS DOKUMEN... XXI xi

DAFTAR GAMBAR Gambar I.1. Arsitektur Sistem NoteBOX... I-4 Gambar II.1. Document Retrieval... II-2 Gambar II.2. Gambaran Umum Proses Pengelompokkan Dokumen... II-3 Gambar II.3. Pra-pengolahan Dokumen... II-3 Gambar II.4. Proses Klasifikasi Dokumen... II-7 Gambar II.5. Support Vector Machine [8]... II-14 Gambar II.6. Proses Clustering Dokumen... II-16 Gambar II.7. Struktur Layout Dokumen... II-22 Gambar II.8. Struktur Logik Dokumen... II-23 Gambar II.9. Struktur Logik Dokumen dalam Bentuk Struktur Pohon... II-24 Gambar III.1. Arsitektur Sistem NoteBOX-UMS... III-2 Gambar III.2. Klasifikasi Dokumen dan Struktur Dokumen... III-4 Gambar III.3. Skema Klasifikasi Dokumen Semi-structured... III-6 Gambar III.4. Ilustrasi Hasil Proses Clustering: Cluster Dokumen... III-10 Gambar III.5. Ilustrasi Hasil Proses Classification: Kelas Klasifikasi Dokumen III- 11 Gambar III.6. Model Pengelompokkan Dokumen Semi-structured... III-14 Gambar III.7. Diagram Use Case Aplikasi Document Classification... III-16 Gambar III.8. Diagram Kelas Aplikasi Document Classification... III-19 Gambar III.9. Struktur Kelas Klasifikasi Dokumen... III-21 Gambar III.10. Struktur Kelas Dokumen Buku... III-22 Gambar III.11. Struktur Kelas Dokumen Paper... III-22 Gambar III.12. Basis Data Aplikasi Document Classification... III-24 Gambar IV.1. Arsitektur Implementasi Kelas... IV-3 xii

DAFTAR TABEL Tabel III.1. Ilustrasi Hasil Proses Clustering... III-10 Tabel III.2. Ilustrasi Hasil Proses Classification... III-11 Tabel III.3. Deskripsi Use Case Pada Aplikasi Document Classification... III-17 Tabel III.4. Kelas-Kelas Pada Aplikasi Document Classification... III-17 Tabel III.5. Package Kelas Potensial Aplikasi Document Classification... III-19 Tabel IV.1. Class Yang Dapat Digunakan Untuk Implementasi Aplikasi Document Classification... IV-4 xiii

DAFTAR ISTILAH Daftar istilah dibawah ini berisi istilah-istilah yang digunakan dalam konteks pembahasan tesis, yang sesuai dengan tema tesis yaitu Pengembangan Model dan Struktur Informasi untuk Konten Berbasis Teks pada Sistem NoteBOX, dengan fokus pembahasan tentang aplikasi document classification. Binary search Classification Classifier Cluster Clustering Content server Distance measure Document representation Feature Flat classification Flat document Hashing algorithm Hierarchical : Pencarian secara biner, digunakan untuk mencari data dalam daftar yang terurut. Pencarian dimulai dari tengah daftar sampai data terakhir, dan membandingkan dengan data yang dicari. : Metode pengelompokkan dokumen yang bersifat supervised learning. : Model untuk mengklasifikasi dokumen. : Kelas-kelas dokumen yang terbentuk setelah proses clustering. : Metode pengelompokkan dokumen yang bersifat unsupervised learning. : Penyedia konten untuk search engine. : Jarak antar pasangan dokumen atau dokumen dengan kelas untuk menentukan kesamaan atau ketidak-samaan antara dokumen, atau dokumen dengan kelas. : Representasi dokumen dalam bentuk vektor. : Kata atau frase. : Pendekatan klasifikasi yang menghasilkan kelaskelas klasifikasi yang terpisah, bersifat independen, dan tidak memiliki struktur yang menjelaskan hubungan antara kelas. : Bentuk dokumen tidak terstruktur. : Algoritma. : Pendekatan klasifikasi yang menghasilkan kelas- xiv

classification kelas klasifikasi yang saling terhubung dalam bentuk struktur hirarki. Inverse document : Jumlah atau frekuensi dokumen yang mengandung frequency term ke-i. Knowledge : Pengetahuan; Informasi yang disusun secara sistematis dengan alur logika tertentu. Knowledge : Kerangka kerja untuk mengelola pengetahuan management Label : Nama; nama dokumen atau nama kelas dokumen. Learning : Tahap pembelajaran pada algoritma klasifikasi untuk membangun model klasifikasi. Node : Simpul pada struktur pohon atau struktur hirarki. NoteBOX : Sebuah sistem komunikasi dan aplikasi layanan yang dibangun dengan konsep unified messaging system. Overfit : Suatu kondisi pada algoritma decision-tree, dimana terdapat lebih dari satu pohon klasifikasi. Parser : Program komputer untuk membagi teks/ dokumen menjadi sekumpulan karakter atau kata, untuk dianalisa lebih lanjut; program komputer untuk mengubah format dokumen, misalnya XML parser. Parsing : Proses membagi teks/dokumen menjadi sekumpulan karakter atau kata; proses mengubah format tertentu dokumen menjadi format yang lain. Predefined class label : Kelas awal dokumen yang didefinisikan sebelum proses pengelompokkan dokumen. Query : String yang digunakan untuk mengakses basis data untuk mendapatkan informasi. Retrieval : Temu-balik; mendapatkan kembali. Search engine : Mesin pencari yang berfungsi untuk melakukan xv

pencarian data atau informasi. Semi-structured document : Dokumen yang terdiri atas bagian tidak terstruktur dan bagian terstruktur. Stemmer : Program komputer untuk mencari kata dasar dari suatu term. Stemming : Proses pencarian kata dasar (stem) dengan menghilangkan awalan dan akhiran pada kata. Stop word : Daftar kata yang tidak memiliki makna semantik. Stop word removal : Proses menghapus atau menghilangkan kata yang tidak memiliki makna semantik. Structural node : Simpul pada struktur hirarki dokumen yang merepresentasikan struktur logik dokumen. Supervised learning : Pengelompokkan dokumen yang membutuhkan label atau kelas awal dokumen. Term : Kata atau istilah. Term frequency : Frekuensi kemunculan kata pada sebuah dokumen. Term space : Kumpulan kata pada model ruang vektor. Threshold : Nilai minimum yang harus dicapai; titik untuk memulai. Token : Kata hasil proses ekstraksi dokumen. Unsupervised learning : Pengelompokkan dokumen tanpa membutuhkan label atau kelas awal dokumen. xvi

DAFTAR SIMBOL Simbol Nama Simbol Deskripsi Actor Abstraksi entiti diluar sistem yang berinteraksi dengan sistem secara langsung. Use Case Spesifikasi behaviour sebuah entiti dan interaksi entiti tersebut dengan agen diluar sistem. Class Konsep dari sistem yang di-model-kan. Package Kumpulan class yang saling berhubungan. Association Hubungan struktural antara dua elemen model yang menunjukkan bahwa objek dari salah satu classifier (actor, use case, class, interface, node, component) berhubungan dan dapat melakukan navigasi pada objek dari classifier lain. Directed Association Association yang bersifat navigable pada satu arah, yang menunjukkan alur kontrol dari satu classifier ke classifier lain. Dependency Hubungan antara dua elemen pada model: perubahan pada satu elemen model dapat menyebabkan perubahan pada elemen model lain. Include Hubungan antara dua use case yang mengindikasikan bahwa sebuah use case membutuhkan behaviour dari use case lain. Extend Hubungan antara dua use case yang xvii

mengindikasikan bahwa satu use case dapat meng-extend use case lain; sebuah use casedapat menggunakan use case lain. xviii