KNOWLEDGE IN TEXT (IR-2)

dokumen-dokumen yang mirip
Mencari dokumen yang dituliskan dalam berbagai bahasa

DATAWAREHOUSE FIRDAUS SOLIHIN UNIVERSITAS TRUNOJOYO. DATA dlm suatu ORGANISASI

Inera Firdestawati¹, Yanuar Firdaus A.w.², Kiki Maulana³. ¹Teknik Informatika, Fakultas Teknik Informatika, Universitas Telkom

Sistem Temu Kembali Informasi/ Information Retrieval IRS VS SI LAIN

PENERAPAN SEMANTIC SEARCHING BERBASIS ONTOLOGI PADA PERPUSTAKAAN DIGITAL

BAB III METODOLOGI PENELITIAN

Mengenal Information Retrieval

Search Engines. Information Retrieval in Practice

Text dan Web Mining. Budi Susanto Teknik Informatika UKDW Yogyakarta

1. Pendahuluan. 1.1 Latar belakang

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

ANALISA KOMPETENSI DOSEN DALAM PENENTUAN MATAKULIAH YANG DIAMPU MENGGUNAKAN METODE CF-IDF A B S T R A K

BAB I PENDAHULUAN. Dalam suatu basis data, pendekatan model data relasional masih banyak dimanfaatkan untuk penyimpanan data dan informasi terhadap

Text Pre-Processing. M. Ali Fauzi

BAB I PENDAHULUAN 1.1 Latar Belakang Masalah

JULIO ADISANTOSO - ILKOM IPB 1

Information Retrieval

ABSTRAK. Kata kunci: chatbot, information state, mixture-language model. v Universitas Kristen Maranatha

BAB I PENDAHULUAN Latar Belakang

Budi Susanto Versi /08/2012. Teknik Informatika UKDW Yogyakarta

Search Engine. Text Retrieval dan Image Retrieval YENI HERDIYENI

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

KONTRAK PERKULIAHAN TEMU KEMBALI INFORMASI KOM431

TEMU KEMBALI INFORMASI

Definisi Semantic Web

Implementasi Metode Document Oriented Index Pruning pada Information Retrieval System

BAB II LANDASAN TEORI

PERANCANGAN DAN PEMBUATAN APLIKASI PENCARIAN INFORMASI BEASISWA DENGAN MENGGUNAKAN COSINE SIMILARITY

BAB 2 TINJAUAN PUSTAKA

BAB III LANDASAN TEORI

BAB I PERSYARATAN PRODUK

KOM341 Temu Kembali Informasi

UNIVERSITAS BINA NUSANTARA. Jurusan Teknik Informatika Skripsi Sarjana Komputer Semester Ganjil tahun 2005/2006

Database Management. Addr : :

BAB IV PREPROCESSING DATA MINING

TEMU KEMBALI INFORMASI

APLIKASI PENCARIAN HEWAN BERKAKI EMPAT DENGAN MENGGUNAKAN WEB SEMANTIK. : Faizal Wijayanto NPM :

BAB I PENDAHULUAN. penunjang Al-Quran untuk memudahkan untuk mempelajarinya, yang bisa

INFORMATION RETRIEVAL SYSTEM PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS DENGAN METODE VECTOR SPACE MODEL DAN ALGORITMA ECS STEMMER

Teknik Informatika UKDW Yogyakarta

ANALISIS PENGGUNAAN ALGORITMA STEMMING VEGA PADA INFORMATION RETRIEVAL SYSTEM

IMPLEMENTASI DAN ANALISIS STRUKTUR DATA INDEX SB-TREE PADA TEXT RETRIEVAL SYSTEM

Aplikasi Pencarian Karya Tulis Ilmiah Berbasis Web Menggunakan Sistem Rekomendasi

JULIO ADISANTOSO - ILKOM IPB 1

ABSTRAK. Kata kunci : Information Retrieval system, Generalized Vector Space Model. Universitas Kristen Maranatha

ABSTRAK. Kata Kunci: dokumen digitalisasi, manajemen dokumen, sistem informasi. Universitas Kristen Maranatha

PERANCANGAN DAN PEMBUATAN APLIKASI UNTUK PENCARIAN WEB SERVICE MENGGUNAKAN LUCENE

BAB V PERANCANGAN MOXIE

Aplikasi Aljabar Vektor pada Sistem Temu-balik Informasi (Information Retrieval System)

APLIKASI MESIN PENCARI DOKUMEN CROSS LANGUAGE BAHASA INGGRIS BAHASA INDONESIA MENGGUNAKAN VECTOR SPACE MODEL

BAB II LANDASAN TEORI

UNIVERSITAS MERCU BUANA FAKULTAS : ILMU KOMPUTER PROGRAM STUDI : SISTEM INFORMASI

QUERY EXPANSION DENGAN MENGGABUNGKAN METODE RUANG VEKTOR DAN WORDNET PADA SISTEM INFORMATION RETRIEVAL

BAB 1 PENDAHULUAN Latar Belakang

INDEXING AND RETRIEVAL ENGINE UNTUK DOKUMEN BERBAHASA INDONESIA DENGAN MENGGUNAKAN INVERTED INDEX

CASE TOOL UNTUK PEMODELAN SEMANTIK DATA DALAM WEB ONTOLOGY LAGUANGE (OWL)

ANALISIS DAN PERANCANGAN SEARCH ENGINE DOKUMEN PAPER BERBASIS WEB NASKAH PUBLIKASI. diajukan oleh Aldrik Saddermi

Sistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF)

JULIO ADISANTOSO - ILKOM IPB 1

DATAMULTIDIMENSI. DATAWAREHOUSE vs DATAMART FIRDAUS SOLIHIN UNIVERSITAS TRUNOJOYO

SISTEM PENGKOREKSIAN KATA KUNCI DENGAN MENGGUNAKAN METODE LEVENSHTEIN DISTANCE Studi Kasus Pada Website Universitas Halmahera.

Ekstraksi Informasi Halaman Web Menggunakan Pendekatan Bootstrapping pada Ontology-Based Information Extraction

URi. Program Studi Sistem Informasi Universitas Gunadarma.

APLIKASI PENGKATEGORIAN DOKUMEN DAN PENGUKURAN TINGKAT SIMILARITAS DOKUMEN MENGGUNAKAN KATA KUNCI PADA DOKUMEN PENULISAN ILMIAH UNIVERSITAS GUNADARMA

RELEVANCE FEEDBACK PADA INFORMATION RETRIEVAL DENGAN SUPPORT VECTOR MACHINE

BAB II DASAR TEORI Crawler Definisi Focused Crawler dengan Algoritma Genetik [2]

Penelusuran Informasi (Information Retrieval)

PERTEMUAN 6 PROMOSI DAN PEMELIHARAAN WEB

Foundation of Bussiness Inteligence : Database and Information Management. Ayu Mentari Tania Rizqy Amalia Nisa Tri Lestari Oktarina Yurika Anggesty

PENERAPAN RELATIONAL DATA MENGGUNAKAN XQUERY PADA PEMROGRAMAN XML. Abstraksi

1. BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I Pendahuluan I - 1 UNIVERSITAS KRISTEN MARANATHA

PENERAPAN TEXT MINING DAN VECTOR SPACE MODEL PADA WEB-BASE KNOWLEDGE MANAGEMENT SYSTEM ( STUDI KASUS TEKNIK INFORMATIKA UPN ) TUGAS AKHIR

BAB III METODOLOGI PENELITIAN

HASIL DAN PEMBAHASAN. 4. Menghitung fungsi objektif pada iterasi ke-t, 5. Meng-update derajat keanggotaan. 6. Mengecek kondisi berhenti:

PENGEMBANGAN MODEL DAN STRUKTUR INFORMASI UNTUK KONTEN BERBASIS TEKS PADA SISTEM NOTEBOX TESIS DEBBY. E. SONDAKH NIM:

BAB II LANDASAN TEORI. bidang media komunikasi dan informasi. Internet adalah suatu jaringan komputer

BAB 3 PERANCANGAN SISTEM

PENERAPAN ALGORITMA DEPTH FIRST SEARCH PADA SISTEM PENCARIAN DOKUMEN APPLYING DEPTH FIRST ALGORITHM ON DOCUMENT SEARCHING SYSTEM

PERANCANGAN LibraryUMS-CMS MENGGUNAKAN CODEIGNITER

Integrasi Peringkas Dokumen Otomatis Dengan Penggabungan Metode Fitur dan Metode Latent Semantic Analysis (LSA) Sebagai Feature Reduction

BAB II TINJAUAN PUSTAKA

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

DAFTAR ISI. SKRIPSI... ii

BAB III LANDASAN TEORI

DAFTAR ISI 2. PENGENALAN INTERFACE 7 1. PERSIAPAN 3 2. PENGENALAN INTERFACE (MENU) 7

SISTEM PEMANTAUAN DISTRIBUSI PEMBAYARAN PARKIR MELALUI INTERNET

BAB III TINJAUAN PUSTAKA

BAB I PENDAHULUAN. Begitu juga halnya pada perkembangan Internet, hampir semua bidang teknologi

PERANCANGAN WEB RANK MENGGUNAKAN COLLABORATIVE FILTERING BERDASARKAN KEMIRIPAN KONTEN

Transkripsi:

KNOWLEDGE IN TEXT (IR-2) FIRDAUS SOLIHIN UNIVERSITAS TRUNOJOYO Teknologi for Knowledge Management Document Collection (Mengumpulkan Document/Informasi) Document Retrieval (Mengakses Document/Informasi) Text Mining (analisa berdasarkan ligusitic) Ontologies (pemodelan untuk merepresentasikan object dalam type, properties, dan relasinya) 1

DOCUMENT COLLECTION DOCUMENT COLLECTION 2

DOCUMEN COLLECTION (1) Domain (dependent or independent) Ketergantungan dgn dokumen lain Structured or Non Structured Texts Memiliki struktur khusus or tidak, ex HTML Formated or Non Formated Documents Memiliki format khusus or tidak, ex Doc vs Txt Textual or Multimedia Documents Berupa text atau multimedia DOCUMEN COLLECTION (2) Monolingual or Multilingual Documents Berupa satu bahasa or banyak bahasa Centralized or Non Centralized Document Management Lokasi dokumen satu tempat or banyak tempat Controlled or Free Additional of Doc Pengaksesannya butuh login or tidak Stable or Non Stable Collections Ketersediaannya tetap or tidak tetap. 3

Permasalahan dlm Documents Collection Inconsistent Document Incomplete descriptions Duplicates or Worse Different terminologies/ languange/ perspective/ abriviation DOCUMENT RETRIEVAL 4

DOCUMENT RETRIEVAL DOCUMENT RETRIEVAL QUERY INTERPRETATION (Menggunakan Query) DOCUMENTS INDEXING (Menggunakan Index) RANGKING OF RETRIEVED DOCUMENTS (mengurutkan sesuai rangkingn tertentu) LINGUISTIC AND STATISTICAL Contoh : Search Engine 5

Search Engine www.alltheweb.com AllTheWeb from Fast Search & Transfer (2002) Index: 2,1 GB documents Languages supported: 52 Linguistics used: Lemmatization, language identification, phrasing, anti-phrasing, text categorization, clustering, offensive content reduction, finite-state automata 30 mill. queries per hari 6

Document Retrieval s problems VOLUME DATA Sangat besar dan berkembang dinamis Tersebar dibanyak tempat dan beda platform MULTITUDE OF LANGUAGES Multilingual web 40-50 languages used on the web Many text encoding standart # Website 7

# % Multilingual web Document Retrieval s problems DOCUMENT QUALITY Missplelings (Salah eja) Spam and offensive content (isi sampah) Little text (isi tidak menggmbarkan All topics USER BEHAVIOUR Misspellings (Salah eja) Query length and query session (panjang dan seberapa sering) Document yang dilihat umumnya yang diatas 8

TEXT MINING TEXT MINING LINGUISTIC ANALYSIS Merubah bentuk Document or menambahkan information (memilah dalam S,O,P,Pre dls) Tagging (potongan kata yg memiliki arti), lemmatization (mengindentifikasi satu kata dari berbagai perubahan bentuk) KNOWLEDGE DISCOVERING IN TEXT Menemukan Bentuk Memisahkan Dan Menemukan Kesalahan Statistical and linguistic aproach 9

Lemmatization walk, walked, walks, walking walk run, runs, ran, running run go, goes, going, went, gone go Knowledge Discovering Technique Concept extraction Ontology construction TOC construction Clustering Text categorization Subtechniques: information extraction, text analysis 10

ONTOLOGIES HUBUNGAN ANTAR BAGIAN DALAM SUATU OBJECT YANG DIGAMBARKAN Conceptual modelling Document Analysis & Text Mining Standarization Work Membagun Ontologi model 11

Contoh Ontology THE END 12