PENGEMBANGAN MODEL DAN STRUKTUR INFORMASI UNTUK KONTEN BERBASIS TEKS PADA SISTEM NOTEBOX TESIS DEBBY. E. SONDAKH NIM:

PENGEMBANGAN MODEL DAN STRUKTUR INFORMASI UNTUK KONTEN BERBASIS TEKS PADA SISTEM NOTEBOX TESIS Karya tulis sebagai salah satu syarat untuk memperoleh gelar Magister dari Institut Teknologi Bandung Disusun Oleh: DEBBY. E. SONDAKH NIM: 23506033 Program Magister Informatika INSTITUT TEKNOLOGI BANDUNG 2008

ABSTRAK PENGEMBANGAN MODEL DAN STRUKTUR INFORMASI UNTUK KONTEN BERBASIS TEKS PADA SISTEM NOTEBOX Oleh: Debby. E. Sondakh 23506033 NoteBOX adalah sistem dan aplikasi konten yang menyediakan informasi dan pengetahuan kepada penggunanya, yang dapat diakses melalui layanan messaging seperti email, SMS, MMS, voice messaging, fax, dan Instant Messaging. NoteBOX dibangun menggunakan konsep unified messaging system (UMS), yang memungkinkan NoteBOX untuk mengintegrasikan berbagai layanan messaging tersebut diatas. UMS memungkinkan terjadinya proses pertukaran pesan dan pengaksesan konten oleh dua jenis layanan messaging yang berbeda dengan media yang berbeda pula. Content service merupakan aplikasi yang berfungsi sebagai penyedia informasi dan pengetahuan, yang akan dijalankan pada content server yang terletak pada lapisan aplikasi sistem NoteBOX. Pada tesis ini dilakukan kajian dan perancangan model pengelompokkan dokumen yang sesuai untuk aplikasi content service untuk sistem NoteBOX. Berdasarkan sifat NoteBOX yang dapat menangani beragam jenis pesan dengan media yang berbeda, konten yang disediakan content server juga harus dapat dikirim dalam bentuk pesan yang beragam, khususnya ukuran panjang dan pendek pesan yang berbeda. Skema pengelompokkan dokumen harus memungkinkan untuk meretrieve sebuah dokumen secara utuh, dan juga bagian-bagian tertentu dokumen saja. Model pengelompokkan dokumen yang diusulkan pada tesis ini didasarkan pada kebutuhan NoteBOX, yang terdiri atas tiga bagian utama yaitu document parsing, document pre-processing dan classification. Document parsing berfungsi untuk mengubah dokumen dengan format yang beragam menjadi dokumen dengan format teks (.txt), untuk memudahkan proses ekstraksi kata dari dokumen. Document preprocessing melakukan tokensisasi dokumen dan pembobotan kata. Tokenisasi dokumen terdiri atas proses ekstraksi kata dari dokumen, eliminasi stop words, dan stemming. Classification terdiri atas document classification untuk mengelompokkan dokumen ke dalam kelas-kelas dokumen, dan document structure classification untuk mengelompokkan elemen dokumen yang ditentukan berdasarkan struktur logik dokumen ke dalam kelas-kelas struktur dokumen. Teknik yang digunakan untuk mengelompokkan dokumen adalah hybrid clustering-classification. Teknik clustering-classification dapat mengotomatisasi proses penentuan predefined class label dokumen dan dapat mengelompokkan dokumen dengan akurasi yang tinggi. Pada teknik ini, predefined class label dokumen ditentukan dari hasil clustering dokumen. Dan selanjutnya dilakukan pengelompokkan dokumen menggunakan teknik classification. Untuk i

mengelompokkan dokumen digunakan pendekatan hierarchical classification. Pendekatan ini mengklasifikasi dokumen ke dalam kelas-kelas yang saling terhubung berdasarkan struktur topik dokumen, dan menghasilkan direktori klasifikasi berbentuk struktur pohon. Ada dua manfaat utama yang dapat diperoleh dari model pengelompokkan dokumen yang dirancang untuk content server NoteBOX. Pertama, model pengelompokkan ini memungkinkan content server untuk dapat memberikan dokumen yang lebih relevan sesuai dengan query pengguna kepada search engine, dan dapat membantu search engine mencari dokumen dengan lebih cepat. Karena, dokumen telah dikelompokkan ke dalam kelas-kelas yang sesuai dengan isi dokumen. Kelas-kelas dokumen dibentuk menggunakan teknik klasifikasi sehingga akurasi pengelompokkan tinggi. Dengan menggunakan pendekatan hierarchical classification, akurasi klasifikasi menjadi semakin tinggi dan proses pencarian dokumen oleh search engine menjadi lebih efisien. Kedua, model pengelompokkan ini memungkinkan search engine untuk me-retrieve dokumen secara utuh atau bagian tertentu dokumen saja. Pada model ini, pengelompokkan dilakukan dengan mempertimbangkan struktur dokumen. Dengan kata lain, pengelompokkan tidak hanya dilakukan pada dokumen saja, tetapi juga pada elemen struktural dokumen. Dengan mengelompokkan elemen struktural dokumen, akses pada bagian tertentu dokumen dapat dimungkinkan. Pada tesis ini tidak dilakukan implementasi model pengelompokkan dokumen yang dirancang. Untuk mengimplementasi model yang didesain dapat menggunakan open-source library. Ekstraksi teks dapat menggunakan library JTidy untuk dokumen HTML, PDFBox untuk dokumen PDF, dan TextMining untuk dokumen Word. Untuk proses pra-pengolahan dokumen dapat menggunakan beberapa class dari library Lucene, dan untuk proses pengelompokkan dokumen dapat menggunakan beberapa class dari library Weka. Kata Kunci: Content service, Dokumen Semi-structured, Pengelompokkan Dokumen ii

ABSTRACT MODELLING AND STRUCTURING INFORMATION FOR TEXT- BASED CONTENT OF NOTEBOX SYSTEM Written By: Debby. E. Sondakh 23506033 NoteBOX is an application and content system that provides information and knowledge for its users, which can be accessed through messaging services such as e-mail, SMS, MMS, Voice messaging, fax, and Instant Messaging. NoteBOX employs unified messaging system (UMS) which enables NoteBOX to integrate different messaging services. UMS enables message exchanging and content accessing by two different messaging services with different devices. Content service is an application that provide the informations and knowledges, which runs at the content server at NoteBOX application layer. This thesis describes a study and designing of document classification model that is suitabe for NoteBOX content service application. Based on NoteBOX nature which can handle various messages with different devices, the contents provided by content server should be able to sent in various messages form, specifically the different messages size. Document classification schema should enable to retrieve the whole document, and certain parts of documents for a short message. The document classification model proposed in this thesis is based on NoteBOX nature and needs, and consist of three main parts: Document Parsing, Document Preprocesing, and Classification. Document parsing has the task of extracting text from various document formats to produce textual document format (.txt). Document preprocessing will tokenize and weight the documents. Document tokenization consist of words extraction, stop words removal, and term stemming. Classification as the main part of document classification applications, consist of two processes: document classification which classify the documents into classes of documents, and document structure classification which classify the document elements based on its logical structure into classes of document s structure. The technique used for classifying documents is a hybrid clustering-classification technique. This technique can automate the process of predefined class label determination, and can classify the documents with high accuracy as well. In this technique, the predefined class label is determined by using the result of clustering process. The next process is document categorization by using the classification technique with hierarchical classification approach, to find the final document classes. Hierarchical classification approach classifies documents into related classes based on document s topic structure. The result of hierarchical classification approach is a tree structured classification directory. iii

This classification model provide two main advantages for NoteBOX content server. First, since the documents have been classified into classes or categories of documents, this classification model enables the content server to provide more relevant documents for the search engine, based on user s query. By using hierarchical classification approach, this model can increase classification accuracy and increase searching process efficiency as well. Second, this classification model enables the search engine to retrieve a whole document and certain parts of the document as well. In this model, the classification is done by considering the document s structure. In other words, this model classifies both the document and it s structural elements. By classifying the documents structural elements, access to a certain parts of the documents is possible. The model is not implemented in this thesis. To implement the document classification model, there are several open-source library that can be used such as JTidy for HTML document, PDFBox for PDF document, TextMining for Word document. For document preprocessing, we can use several classes from Lucene library, and for document classification process we can use WEKA library. Keywords: Content service, Document classification, Semi-structured document. iv

PENGEMBANGAN MODEL DAN STRUKTUR INFORMASI UNTUK KONTEN BERBASIS TEKS PADA SISTEM NOTEBOX Oleh: Debby. E. Sondakh NIM: 23506033 Progam Studi Informatika Institut Teknologi Bandung Telah Disetujui dan Disahkan Sebagai Laporan Tesis Bandung, Tanggal Juni 2008 Pembimbing Ir. Afwarman Manaf, M.Sc, Ph.D NIP. 131803257 v

PEDOMAN PENGGUNAAN TESIS Tesis S2 yang tidak dipublikasikan terdaftar dan tersedia di Perpustakaan Institut Teknologi Bandung, dan terbuka untuk umum dengan ketentuan bahwa hak cipta ada pada pengarang dengan mengikuti aturan HaKI yang berlaku di Institut Teknologi Bandung. Referensi kepustakaan diperkenankan dicatat, tetapi pengutipan atau peringkasan hanya dapat dilakukan seizin pengarang dan harus disertai dengan kebiasaan ilmiah untuk menyebutkan sumbernya. Memperbanyak atau menerbitkan sebagian atau seluruh tesis haruslah seizin Direktur Program Pascasarjana, Institut Teknologi Bandung. vi

KATA PENGANTAR Segala Puji dan Syukur bagi Allah yang telah mengaruniakan berkat kesehatan, akal budi, semangat dan kekuatan sehingga penulis dapat menyelesaikan tesis ini. Tesis ini juga dapat diselesaikan atas dukungan dan bantuan berbagai pihak. Ucapan terima kasih penulis sampaikan kepada semua pihak yang turut membantu dalam pengerjaan tesis ini dan selama masa pendidikan program magister, kepada: 1. Bapak Ir. Afwarman Manaf, M.Sc, Ph.D. sebagai dosen pembimbing dan wali, atas waktu yang telah diluangkan, kesabaran dan pengertian, bimbingan, masukan, serta arahan yang diberikan selama penulisan tesis, dan selama penulis menempuh pendidikan magister. 2. Bapak Ir. Achmad Imam K., M.Sc, Ph.D., dan Bapak Bugi Wibowo, S.T, M.T. sebagai penguji dalam tesis ini, atas waktu yang diluangkan untuk membaca, mencermati, serta memberikan koreksi dan masukan dalam penulisan tesis ini. 3. Keluarga tercinta: suamiku Stenly, anakku Joseph, mama, Ie Poe, atas doa, kesabaran, pengertian, dukungan, dan waktu selama di Bandung. Juga kepada papa, mertua, kakak, adik, atas doa, dukungan, dan bantuan yang diberikan kepada penulis. 4. Universitas Klabat yang telah memberikan beasiswa kepada penulis untuk melanjutkan pendidikan program magister. 5. Bapak Dr.Ing. Farid Wazdi, Bapak Dr. Ing. Benhard Sihotang, Bapak Dr. Ir. Rila Mandala, M.Eng, Bapak Ir. Dwi Hendratmo W., M.Sc., Ph.D, Bapak Ir. Kridanto Surendro, M.Sc., Ph.D, Ibu Dr. Veronica Moertini, yang telah membagikan ilmu dan memberikan wawasan selama pendidikan program magister ini. 6. Teman-teman IF angkatan 2006: Mbak Hilda, Mia, Ridho, Pak Dewa. 7. Pak Ade, Mbak Nur, Ibu Tita, Pak Kandayat, staf duktek, atas kebaikan dan keramahan dalam membantu penulis selama masa pendidikan. vii

8. Pihak lain yang tidak dapat disebutkan satu per satu, yang telah banyak memberikan bantuan dan dukungan. Penulis menyadari bahwa dalam penulisan tesis ini masih terdapat kekurangan yang harus disempurnakan. Oleh karena itu, penulis sangat terbuka untuk menerima kritik dan saran yang membangun agar dapat dicapai sesuatu yang lebih baik. Semoga tesis ini dapat memberikan manfaat positif kepada pembacanya. Terima kasih. Bandung, Juni 2008 Penulis viii

DAFTAR ISI ABSTRAK... I ABSTRACT... III PEDOMAN PENGGUNAAN TESIS... VI KATA PENGANTAR... VII DAFTAR ISI... IX DAFTAR LAMPIRAN... XI DAFTAR GAMBAR... XII DAFTAR TABEL... XIII DAFTAR ISTILAH... XIV DAFTAR SIMBOL... XVII I PENDAHULUAN... I-1 I.1 LATAR BELAKANG... I-1 I.2 RUMUSAN MASALAH... I-4 I.3 TUJUAN... I-5 I.4 BATASAN MASALAH... I-5 I.5 METODOLOGI... I-6 I.6 SISTEMATIKA PEMBAHASAN... I-7 II TINJAUAN PUSTAKA... II-1 II.1 KNOWLEDGE MANAGEMENT... II-1 II.2 PENGELOMPOKKAN DOKUMEN... II-2 II.2.1 Pra-pengolahan Dokumen... II-3 II.2.2 Klasifikasi Dokumen... II-6 II.2.2.1 Hierarchical Text Classification... II-14 II.2.2.2 Teknik Estimasi Akurasi... II-15 II.2.3 Clustering Dokumen... II-16 II.2.3.1 Distance Measure... II-21 II.3 STRUKTUR DOKUMEN... II-21 II.3.1 Klasifikasi Dokumen Semi-structured... II-24 III ANALISIS DAN PERANCANGAN... III-1 III.1 ANALISIS... III-1 ix

III.1.1 Analisis Sistem NoteBOX... III-1 III.1.2 Analisis Skema Pengelompokkan Dokumen Semi-structured... III-3 III.1.2.1 Contoh Proses Pengelompokkan Untuk Skema Klasifikasi Dokumen Semi-structured... III-7 III.1.3 Analisis Kebutuhan Aplikasi Document Classification... III-11 III.1.4 Analisis Algoritma Klasifikasi dan Clustering... III-12 III.2 PERANCANGAN... III-13 III.2.1 Perancangan Model Pengelompokkan Dokumen Semi-structured... III-13 III.2.2 Pemodelan Pengolompokkan Dokumen Semi-structured Menggunakan Use Case... III-15 III.2.3 Perancangan Diagram Kelas Pengelompokkan Dokumen Semi-structured III-18 III.2.4 Desain Struktur Informasi Konten Teks... III-20 III.2.4.1 Struktur Kelas Klasifikasi... III-20 III.2.4.2 Struktur Kelas Elemen Dokumen... III-21 III.2.5 Perancangan Basis Data Pengelompokkan Dokumen Semi-structured.. III-22 IV KAJIAN IMPLEMENTASI... IV-1 IV.1 OPEN-SOURCE LIBRARY UNTUK APLIKASI DOCUMENT CLASSIFICATION. IV-1 IV.2 CLASS UNTUK IMPLEMENTASI APLIKASI DOCUMENT CLASSIFICATION... IV-3 IV.3 RENCANA IMPLEMENTASI... IV-6 IV.3.1 Lingkungan Implementasi... IV-6 IV.3.2 Implementasi Aplikasi... IV-6 V KESIMPULAN DAN SARAN... V-1 V.1 KESIMPULAN... V-1 V.2 SARAN... V-2 DAFTAR PUSTAKA... XV x

DAFTAR LAMPIRAN LAMPIRAN A. LAMPIRAN B. STRUKTUR KELAS KLASIFIKASI... XVII STRUKTUR KELAS DOKUMEN... XXI xi

DAFTAR GAMBAR Gambar I.1. Arsitektur Sistem NoteBOX... I-4 Gambar II.1. Document Retrieval... II-2 Gambar II.2. Gambaran Umum Proses Pengelompokkan Dokumen... II-3 Gambar II.3. Pra-pengolahan Dokumen... II-3 Gambar II.4. Proses Klasifikasi Dokumen... II-7 Gambar II.5. Support Vector Machine [8]... II-14 Gambar II.6. Proses Clustering Dokumen... II-16 Gambar II.7. Struktur Layout Dokumen... II-22 Gambar II.8. Struktur Logik Dokumen... II-23 Gambar II.9. Struktur Logik Dokumen dalam Bentuk Struktur Pohon... II-24 Gambar III.1. Arsitektur Sistem NoteBOX-UMS... III-2 Gambar III.2. Klasifikasi Dokumen dan Struktur Dokumen... III-4 Gambar III.3. Skema Klasifikasi Dokumen Semi-structured... III-6 Gambar III.4. Ilustrasi Hasil Proses Clustering: Cluster Dokumen... III-10 Gambar III.5. Ilustrasi Hasil Proses Classification: Kelas Klasifikasi Dokumen III- 11 Gambar III.6. Model Pengelompokkan Dokumen Semi-structured... III-14 Gambar III.7. Diagram Use Case Aplikasi Document Classification... III-16 Gambar III.8. Diagram Kelas Aplikasi Document Classification... III-19 Gambar III.9. Struktur Kelas Klasifikasi Dokumen... III-21 Gambar III.10. Struktur Kelas Dokumen Buku... III-22 Gambar III.11. Struktur Kelas Dokumen Paper... III-22 Gambar III.12. Basis Data Aplikasi Document Classification... III-24 Gambar IV.1. Arsitektur Implementasi Kelas... IV-3 xii

DAFTAR TABEL Tabel III.1. Ilustrasi Hasil Proses Clustering... III-10 Tabel III.2. Ilustrasi Hasil Proses Classification... III-11 Tabel III.3. Deskripsi Use Case Pada Aplikasi Document Classification... III-17 Tabel III.4. Kelas-Kelas Pada Aplikasi Document Classification... III-17 Tabel III.5. Package Kelas Potensial Aplikasi Document Classification... III-19 Tabel IV.1. Class Yang Dapat Digunakan Untuk Implementasi Aplikasi Document Classification... IV-4 xiii

DAFTAR ISTILAH Daftar istilah dibawah ini berisi istilah-istilah yang digunakan dalam konteks pembahasan tesis, yang sesuai dengan tema tesis yaitu Pengembangan Model dan Struktur Informasi untuk Konten Berbasis Teks pada Sistem NoteBOX, dengan fokus pembahasan tentang aplikasi document classification. Binary search Classification Classifier Cluster Clustering Content server Distance measure Document representation Feature Flat classification Flat document Hashing algorithm Hierarchical : Pencarian secara biner, digunakan untuk mencari data dalam daftar yang terurut. Pencarian dimulai dari tengah daftar sampai data terakhir, dan membandingkan dengan data yang dicari. : Metode pengelompokkan dokumen yang bersifat supervised learning. : Model untuk mengklasifikasi dokumen. : Kelas-kelas dokumen yang terbentuk setelah proses clustering. : Metode pengelompokkan dokumen yang bersifat unsupervised learning. : Penyedia konten untuk search engine. : Jarak antar pasangan dokumen atau dokumen dengan kelas untuk menentukan kesamaan atau ketidak-samaan antara dokumen, atau dokumen dengan kelas. : Representasi dokumen dalam bentuk vektor. : Kata atau frase. : Pendekatan klasifikasi yang menghasilkan kelaskelas klasifikasi yang terpisah, bersifat independen, dan tidak memiliki struktur yang menjelaskan hubungan antara kelas. : Bentuk dokumen tidak terstruktur. : Algoritma. : Pendekatan klasifikasi yang menghasilkan kelas- xiv

classification kelas klasifikasi yang saling terhubung dalam bentuk struktur hirarki. Inverse document : Jumlah atau frekuensi dokumen yang mengandung frequency term ke-i. Knowledge : Pengetahuan; Informasi yang disusun secara sistematis dengan alur logika tertentu. Knowledge : Kerangka kerja untuk mengelola pengetahuan management Label : Nama; nama dokumen atau nama kelas dokumen. Learning : Tahap pembelajaran pada algoritma klasifikasi untuk membangun model klasifikasi. Node : Simpul pada struktur pohon atau struktur hirarki. NoteBOX : Sebuah sistem komunikasi dan aplikasi layanan yang dibangun dengan konsep unified messaging system. Overfit : Suatu kondisi pada algoritma decision-tree, dimana terdapat lebih dari satu pohon klasifikasi. Parser : Program komputer untuk membagi teks/ dokumen menjadi sekumpulan karakter atau kata, untuk dianalisa lebih lanjut; program komputer untuk mengubah format dokumen, misalnya XML parser. Parsing : Proses membagi teks/dokumen menjadi sekumpulan karakter atau kata; proses mengubah format tertentu dokumen menjadi format yang lain. Predefined class label : Kelas awal dokumen yang didefinisikan sebelum proses pengelompokkan dokumen. Query : String yang digunakan untuk mengakses basis data untuk mendapatkan informasi. Retrieval : Temu-balik; mendapatkan kembali. Search engine : Mesin pencari yang berfungsi untuk melakukan xv

pencarian data atau informasi. Semi-structured document : Dokumen yang terdiri atas bagian tidak terstruktur dan bagian terstruktur. Stemmer : Program komputer untuk mencari kata dasar dari suatu term. Stemming : Proses pencarian kata dasar (stem) dengan menghilangkan awalan dan akhiran pada kata. Stop word : Daftar kata yang tidak memiliki makna semantik. Stop word removal : Proses menghapus atau menghilangkan kata yang tidak memiliki makna semantik. Structural node : Simpul pada struktur hirarki dokumen yang merepresentasikan struktur logik dokumen. Supervised learning : Pengelompokkan dokumen yang membutuhkan label atau kelas awal dokumen. Term : Kata atau istilah. Term frequency : Frekuensi kemunculan kata pada sebuah dokumen. Term space : Kumpulan kata pada model ruang vektor. Threshold : Nilai minimum yang harus dicapai; titik untuk memulai. Token : Kata hasil proses ekstraksi dokumen. Unsupervised learning : Pengelompokkan dokumen tanpa membutuhkan label atau kelas awal dokumen. xvi

DAFTAR SIMBOL Simbol Nama Simbol Deskripsi Actor Abstraksi entiti diluar sistem yang berinteraksi dengan sistem secara langsung. Use Case Spesifikasi behaviour sebuah entiti dan interaksi entiti tersebut dengan agen diluar sistem. Class Konsep dari sistem yang di-model-kan. Package Kumpulan class yang saling berhubungan. Association Hubungan struktural antara dua elemen model yang menunjukkan bahwa objek dari salah satu classifier (actor, use case, class, interface, node, component) berhubungan dan dapat melakukan navigasi pada objek dari classifier lain. Directed Association Association yang bersifat navigable pada satu arah, yang menunjukkan alur kontrol dari satu classifier ke classifier lain. Dependency Hubungan antara dua elemen pada model: perubahan pada satu elemen model dapat menyebabkan perubahan pada elemen model lain. Include Hubungan antara dua use case yang mengindikasikan bahwa sebuah use case membutuhkan behaviour dari use case lain. Extend Hubungan antara dua use case yang xvii

mengindikasikan bahwa satu use case dapat meng-extend use case lain; sebuah use casedapat menggunakan use case lain. xviii