KNOWLEDGE IN TEXT (IR-2) FIRDAUS SOLIHIN UNIVERSITAS TRUNOJOYO Teknologi for Knowledge Management Document Collection (Mengumpulkan Document/Informasi) Document Retrieval (Mengakses Document/Informasi) Text Mining (analisa berdasarkan ligusitic) Ontologies (pemodelan untuk merepresentasikan object dalam type, properties, dan relasinya) 1
DOCUMENT COLLECTION DOCUMENT COLLECTION 2
DOCUMEN COLLECTION (1) Domain (dependent or independent) Ketergantungan dgn dokumen lain Structured or Non Structured Texts Memiliki struktur khusus or tidak, ex HTML Formated or Non Formated Documents Memiliki format khusus or tidak, ex Doc vs Txt Textual or Multimedia Documents Berupa text atau multimedia DOCUMEN COLLECTION (2) Monolingual or Multilingual Documents Berupa satu bahasa or banyak bahasa Centralized or Non Centralized Document Management Lokasi dokumen satu tempat or banyak tempat Controlled or Free Additional of Doc Pengaksesannya butuh login or tidak Stable or Non Stable Collections Ketersediaannya tetap or tidak tetap. 3
Permasalahan dlm Documents Collection Inconsistent Document Incomplete descriptions Duplicates or Worse Different terminologies/ languange/ perspective/ abriviation DOCUMENT RETRIEVAL 4
DOCUMENT RETRIEVAL DOCUMENT RETRIEVAL QUERY INTERPRETATION (Menggunakan Query) DOCUMENTS INDEXING (Menggunakan Index) RANGKING OF RETRIEVED DOCUMENTS (mengurutkan sesuai rangkingn tertentu) LINGUISTIC AND STATISTICAL Contoh : Search Engine 5
Search Engine www.alltheweb.com AllTheWeb from Fast Search & Transfer (2002) Index: 2,1 GB documents Languages supported: 52 Linguistics used: Lemmatization, language identification, phrasing, anti-phrasing, text categorization, clustering, offensive content reduction, finite-state automata 30 mill. queries per hari 6
Document Retrieval s problems VOLUME DATA Sangat besar dan berkembang dinamis Tersebar dibanyak tempat dan beda platform MULTITUDE OF LANGUAGES Multilingual web 40-50 languages used on the web Many text encoding standart # Website 7
# % Multilingual web Document Retrieval s problems DOCUMENT QUALITY Missplelings (Salah eja) Spam and offensive content (isi sampah) Little text (isi tidak menggmbarkan All topics USER BEHAVIOUR Misspellings (Salah eja) Query length and query session (panjang dan seberapa sering) Document yang dilihat umumnya yang diatas 8
TEXT MINING TEXT MINING LINGUISTIC ANALYSIS Merubah bentuk Document or menambahkan information (memilah dalam S,O,P,Pre dls) Tagging (potongan kata yg memiliki arti), lemmatization (mengindentifikasi satu kata dari berbagai perubahan bentuk) KNOWLEDGE DISCOVERING IN TEXT Menemukan Bentuk Memisahkan Dan Menemukan Kesalahan Statistical and linguistic aproach 9
Lemmatization walk, walked, walks, walking walk run, runs, ran, running run go, goes, going, went, gone go Knowledge Discovering Technique Concept extraction Ontology construction TOC construction Clustering Text categorization Subtechniques: information extraction, text analysis 10
ONTOLOGIES HUBUNGAN ANTAR BAGIAN DALAM SUATU OBJECT YANG DIGAMBARKAN Conceptual modelling Document Analysis & Text Mining Standarization Work Membagun Ontologi model 11
Contoh Ontology THE END 12