PENDAHULUAN. I.1 Latar Belakang

I PENDAHULUAN I.1 Latar Belakang Internet sebagai jaringan komputer skala global telah mendorong pertambahan jumlah informasi digital. Pada sistem yang bersifat terbuka seperti internet, pertambahan informasi terjadi secara terus-menerus. Ledakan jumlah informasi menuntut sistem temu-balik informasi, seperti search engine internet, untuk dapat me-retrieve informasi dengan efisien. Search engine bertujuan untuk menghasilkan dokumen yang relevan berdasarkan keyword pada query yang diberikan pengguna. Terkadang search engine memberikan hasil yang kurang relevan. Hal ini dapat terjadi karena satu kata dapat memiliki lebih dari satu arti. Sebagai contoh, kata bark dapat berarti kulit terluar pohon atau suara seekor anjing; sehingga query dengan kata bark dapat menghasilkan dokumen yang berkaitan dengan kulit pohon maupun suara seekor anjing. Untuk menyediakan informasi yang lebih relevan, dibutuhkan sebuah sistem yang tidak hanya mencari informasi berdasarkan keyword saja, tetapi juga memperhatikan konsep atau arti dari keyword, yang menyatakan minat pengguna. Contoh informasi yang diatur atau disusun secara konseptual adalah Open Directory Project [1] dan Yahoo! Directory Search [2]. Direktori ODP dan Yahoo! menggunakan skema hirarkikal untuk mengorganisasi halaman-halaman web. Halaman-halaman web yang memiliki topik yang sama dikelompokkan ke dalam kategori-kategori yang sesuai dengan konten halaman web tersebut, dan setiap kategori dapat memiliki satu atau beberapa sub-kategori. Struktur hirarki informasi ini merepresentasikan pohon pengelompokkan informasi. Pengelompokkan dokumen menjadi proses penting yang menentukan bagaimana sistem temu-balik mengorganisasi data dalam jumlah besar, dan membantu orangorang menemukan informasi yang dibutuhkan dari sekumpulan informasi yang sangat banyak. Tujuan utama pengelompokkan dokumen adalah untuk menyederhanakan proses dan akses terhadap informasi dan pengetahuan, untuk mendukung fungsi manajemen pengetahuan (knowledge management) seperti pemanggilan kembali (retrieval), organisasi, visualisasi, pengembangan, dan I-1

pertukaran pengetahuan [3]. Ada dua metode pengelompokkan dokumen, yaitu klasifikasi dokumen dan cluster dokumen. Klasifikasi dokumen merupakan pengelompokkan dokumen atau bagian dari dokumen ke dalam kategori-kategori yang bersifat tetap (fixed) dan sudah ditentukan berdasarkan isi dokumen. Metode klasifikasi bersifat supervised learning. Ada dua pendekatan utama yang digunakan dalam klasifikasi dokumen, yaitu pendekatan berbasis aturan (rule-based approach) dan pembelajaran mesin (machine learning). Pada pendekatan berbasis aturan klasifikasi dilakukan secara manual. Relevansi antara dokumen dengan query tinggi, tetapi dibutuhkan tenaga kerja yang banyak dan waktu yang lama untuk mengelompokkan dokumen. Pada pendekatan kedua, aturan klasifikasi dokumen dibuat secara otomatis menggunakan informasi dari label dokumen yang sudah ditentukan terlebih dulu. Algoritma-algoritma dasar yang dipakai dalam kategorisasi dokumen adalah decision trees, decision rules, K-nearest neighbor, Naive Bayes, regression-based, dan vector-based. Klasifikasi dokumen dapat menyediakan dokumen dengan tingkat relevansi yang tinggi dengan query pengguna. Hal ini dimungkinkan dengan adanya pengelompokkan dokumen-dokumen secara manual pada tahap awal kategorisasi. Sisi negatif dari pengelompokkan ini adalah biaya dan waktu yang dibutuhkan untuk mengelompokkan dokumen secara manual. Kelemahan lain dari klasifikasi dokumen adalah struktur kategori yang bersifat predefined dan statis. Struktur kategori yang statis tidak menyediakan mekanisme untuk melakukan perubahan struktur, yang mungkin terjadi karena ada beberapa kategori yang perlu digabung, atau muncul kategori baru. Kategori-kategori yang sudah ditentukan lebih dulu juga tidak dapat mencakup semua karakteristik dokumen [3]. Pada metode cluster yang bersifat unsupervised learning dilakukan pemeriksaan isi dokumen untuk mencari kesamaan antara dokumen, kemudian dilakukan pengelompokkan menurut kesamaan tersebut. Kesamaan dihitung menggunakan hubungan dan kesatuan antar fitur dalam dokumen, dimana fitur dapat berupa kata dan frase [4]. Setiap cluster menyimpan dokumen yang serupa. Algoritmaalgoritma dasar pada cluster dokumen adalah hierarchical cluster, partitional cluster, dan fuzzy cluster. Kelebihan utama metode cluster adalah metode ini I-2

dapat mengotomatisasi pengelompokkan dokumen dan dapat digunakan pada semua jenis koleksi dokumen. Beberapa kelebihan metode cluster antara lain adalah dapat menciptakan cluster dokumen baru, memperjelas query yang ambigu, dan mengeliminasi dokumen-dokumen yang tidak relevan. Sedangkan kelemahan cluster dokumen adalah dalam hal prediktabilitas, penamaan cluster, dan pengelompokkan yang tidak tepat; nama cluster tidak sesuai dengan isi dokumen dalam cluster [4]. NoteBOX adalah sebuah aplikasi layanan berbasis Internet Protocol (IP) untuk mengakses informasi dan pengetahuan dengan biaya murah dan mudah, pemakai dapat mengakses layanan ini tanpa batasan ruang dan waktu melalui terminal komputer atau secara mobile. Sistem NoteBOX didukung oleh sistem unified messaging, yaitu sebuah sistem yang memungkinkan integrasi berbagai macam sistem messaging pada jaringan internet maupun mobile seperti e-mail, SMS, MMS, Voice Message, Fax, dan Instant Messaging [5]. Arsitektur sistem NoteBOX dibagi dalam 3 (tiga) lapisan, yaitu: 1. Application Layer, adalah lapisan dimana application server eksternal bekerja, antara lain aplikasi content server dan search engine. 2. Core Layer, adalah lapisan core server yang menjalankan fungsi-fungsi utama sistem yaitu pertukaran pesan dalam sistem. 3. User Layer, adalah lapisan untuk user/client dan lapisan untuk gateway yang menghubungkan sistem (core layer) dengan sistem jaringan eksternal seperti GSM (SMS dan MMS), Internet (e-mail dan Instant Messaging), dan PSTN (fax dan voice messaging). I-3

Gambar I.1. Arsitektur Sistem NoteBOX Pada lapisan aplikasi NoteBOX, akan dikembangkan aplikasi Content Server yang menjalankan content service (layanan konten) yang berperan sebagai penyedia informasi dan pengetahuan. Pada tesis ini akan dikembangkan konsep tentang model informasi yang bersifat semi-structured untuk sistem NoteBOX, dimana pada model informasi yang dikembangkan dokumen yang memuat informasi dan pengetahuan akan diklasifikasi ke dalam kelas-kelas tertentu. Metode pengelompokkan yang akan digunakan merupakan gabungan metode klasifikasi dan cluster. Dalam klasifikasi tersebut dibuat struktur dokumen yang akan disimpan. I.2 Rumusan Masalah Masalah utama yang akan dibahas dalam tesis ini adalah bagaimana merancang model pengelompokkan dan struktur dokumen yang sesuai dengan sistem NoteBOX, sehingga dapat menghasilkan informasi dengan nilai relevansi yang tinggi terhadap query dari pengguna. Rumusan masalah dijabarkan sebagai berikut: I-4

1. Bagaimana menggabungkan metode pengelompokkan dokumen yang ada untuk pengembangan aplikasi document classification untuk content server pada sistem NoteBOX. 2. Bagaimana merancang struktur informasi yang bersifat semi-structured untuk aplikasi document classification pada sistem NoteBOX. I.3 Tujuan Tujuan utama yang ingin dicapai dalam pelaksanaan tesis ini adalah untuk mengembangkan model dan struktur informasi berbasis teks untuk sistem NoteBox. Beberapa tujuan lain yang ingin dicapai adalah sebagai berikut: 1. Mengkaji tentang metode-metode pengelompokkan dokumen. 2. Mengkaji bentuk dokumen terstruktur dan tidak terstruktur 3. Merancang model klasifikasi informasi yang bersifat semi-structured untuk konten berbasis teks pada sistem NoteBox. I.4 Batasan Masalah Batasan masalah yang didefinisikan untuk pengembangan model dan struktur infomasi pada tesis ini adalah: 1. Dalam tesis ini hanya mengkaji proses pengelompokkan dokumen, tidak termasuk proses retrieval dokumen. 2. Koleksi dokumen yang digunakan adalah dokumen tekstual. Gambar, suara, dan video tidak termasuk dalam kajian. 3. Dokumen teks yang dikaji adalah dokumen berbahasa Inggris. 4. Tesis ini akan menghasilkan konsep dan rancangan model klasifikasi informasi untuk aplikasi document classification untuk content server pada sistem NoteBOX, serta struktur klasifikasi informasi (dokumen). Implementasi model tidak dilakukan. I-5

I.5 Metodologi Hipotesa awal dalam mengembangkan model dan struktur informasi pada tesis ini adalah dengan mengkombinasikan metode klasifikasi dan cluster dokumen dengan struktur dokumen yang bersifat semi-structured dapat meningkatkan relevansi dokumen dengan query dari pengguna. Metodologi yang akan digunakan dalam penyusunan tesis ini adalah sebagai berikut: 1. Studi Literatur Pada tahap ini dilakukan studi dan kajian tentang metode pengklasifikasian dokumen dan struktur dokumen. Referensi yang digunakan adalah buku, paper, kajian ilmiah, dan artikel berkaitan dengan topik diatas. 2. Analisis Pada tahap ini dilakukan analisis yang dilakukan mencakup analisis kebutuhan sistem NoteBOX yang berkaitan dengan aplikasi content service yang akan dijalankan oleh content server, dan skema pengelompokkan dokumen yang sesuai untuk aplikasi document classification sebagai bagian dari aplikasi content service dari sistem NoteBOX. 3. Perancangan Pada tahap ini dilakukan perancangan model pengelompokkan dokumen semistructured, struktur klasifikasi, dan struktur dokumen berdasarkan hasil analisis. 4. Kajian Implementasi Hasil rancangan berupa konsep dan model pengelompokkan dokumen semistructured tidak diimplementasikan. Bahasan tentang implementasi hanya memberikan ulasan berkaitan dengan cara mengimplementasikan model pengelompokkan dokumen yang diajukan pada tesis ini. I-6

I.6 Sistematika Pembahasan Laporan tesis ini disusun ke dalam lima bab dengan sistematika penulisan sebagai berikut: Bab I Pendahuluan. Bab ini menjelaskan latar belakang penulisan tesis, rumusan masalah, tujuan, batasan yang ditentukan dalam penulisan tesis, metodologi yang digunakan dalam penulisan, dan sistematika penulisan tesis. Bab II Tinjauan Pustaka. Bab ini memaparkan kajian literatur yang menjelaskan konsep knowledge management, metode-metode pengelompokkan dokumen, dan struktur dokumen. Bab III Analisis dan Perancangan. Bab ini menjelaskan analisis kebutuhan NoteBOX berkaitan dengan aplikasi document classification untuk content server dan analisis model pengelompokkan dokumen. Perancangan mencakup desain model pengelompokkan dokumen semi-structured, desain struktur kelas klasifikasi, dan kelas struktur logik atau elemen dokumen. Bab IV Kajian Impelementasi. Bab ini menjelaskan bagaimana untuk mengimplementasikan model yang didesain, mencakup kelas-kelas dari open source library, yang berkaitan dengan information retrieval, data mining, dan library pendukung untuk mengekstrak teks dari dokumen dengan format beragam, yang dapat digunakan untuk mengembangkan model pengelompokkan dokumen yang dihasilkan pada tesis ini. Bab V Kesimpulan dan Saran Bab ini berisi kesimpulan tentang penelitian dan hasil penelitian yang dilakukan dalam penulisan tesis ini, dan saran untuk pengembangan lebih lanjut. I-7