Text dan Web Mining. Budi Susanto Teknik Informatika UKDW Yogyakarta

dokumen-dokumen yang mirip
Budi Susanto Versi /08/2012. Teknik Informatika UKDW Yogyakarta

Teknik Informatika UKDW Yogyakarta

BAB II LANDASAN TEORI

ANALISIS CLUSTER PADA DOKUMEN TEKS

PENDAHULUAN. I.1 Latar Belakang


BAB IV PREPROCESSING DATA MINING

BAB II DASAR TEORI Crawler Definisi Focused Crawler dengan Algoritma Genetik [2]

DETEKSI KESESUAIAN BIDANG MINAT TERHADAP PROPOSAL TUGAS AKHIR MAHASISWA STUDI KASUS : MAHASISWA SI UKDW

ANALISIS CLUSTER PADA DOKUMEN TEKS

BAB 2 TINJAUAN PUSTAKA Klasifikasi Data Mahasiswa Menggunakan Metode K-Means Untuk Menunjang Pemilihan Strategi Pemasaran

UNIVERSITAS MERCU BUANA FAKULTAS : ILMU KOMPUTER PROGRAM STUDI : SISTEM INFORMASI

PENERAPAN DATA MINING UNTUK EVALUASI KINERJA AKADEMIK MAHASISWA MENGGUNAKAN ALGORITMA NAÏVE BAYES CLASSIFIER

BAB I PENDAHULUAN 1.1 Tujuan 1.2 Latar Belakang

Abidah Elcholiqi, Beta Noranita, Indra Waspada

Konsep Data Mining. Pendahuluan. Bertalya. Universitas Gunadarma 2009

SATUAN ACARA PERKULIAHAN PROGRAM PASCA SARJANA MAGISTER TEKNIK INFORMATIKA (MKom) UNIVERSITAS DIAN NUSWANTORO

DATA MINING. Pertemuan 1. Nizar Rabbi Radliya 3 SKS Semester 6 S1 Sistem Informasi

PENERAPAN ALGORITMA K-MEANS PADA SISWA BARU SEKOLAHMENENGAH KEJURUAN UNTUK CLUSTERING JURUSAN

BAB II LANDASAN TEORI

BAB 1 KONSEP DATA MINING 2 Gambar 1.1 Perkembangan Database Permasalahannya kemudian adalah apa yang harus dilakukan dengan data-data itu. Sudah diket

WEB CONTENT MINING MENGGUNAKAN PARTITIONAL CLUSTERING K-MEANS PADA NEWS AGGREGATOR

BAB I PENDAHULUAN. penunjang Al-Quran untuk memudahkan untuk mempelajarinya, yang bisa

BAB II LANDASAN TEORI

BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah

PENGELOMPOKAN DOKUMEN MENGGUNAKAN ALGORITMA DIG (DOCUMENT INDEX GRAPH)

Tipe Clustering. Partitional Clustering. Hirerarchical Clustering

UKDW. Bab 1 PENDAHULUAN

BAB I PENDAHULUAN Latar Belakang

BAB 1 PENDAHULUAN. terhadap peran sistem informasi dalam perusahaan sebagai bagian dari produktivitas.

PROGRAM BANTU PEMILIHAN LAGU PUJIAN BERDASARKAN TEMA KEBAKTIAN DENGAN MENGGUNAKAN METODE COSINUS SIMILARITY Studi Kasus: GKI Ngupasan

Kata kunci: Cluster, Knowledge Discovery in Database, Algoritma K-Means,

BAB 2 TELAAH PUSTAKA

BAB 3 ANALISA DAN PERANCANGAN

Implementasi Algoritma Term Frequency Inverse Document Frequency dan Vector Space Model untuk Klasifikasi Dokumen Naskah Dinas

Sistem Basis Data Lanjut DATA MINING. Data Mining 1/12

BAB I PENDAHULUAN. Informasi yang terdapat dalam Laporan Hasil Pemeriksaan (LHP) BPK RI

RENCANA PEMBELAJARAN SEMESTER (RPS)

Materi 1 DATA MINING 3 SKS Semester 6 S1 Sistem Informasi UNIKOM 2015 Nizar Rabbi Radliya

KLASIFIKASI PADA TEXT MINING

SATUAN ACARA PERKULIAHAN UNIVERSITAS GUNADARMA

BAB II TINJAUAN PUSTAKA

KONTRAK PERKULIAHAN TEMU KEMBALI INFORMASI KOM431

TAKARIR. : Mengelompokkan suatu objek yang memiliki kesamaan. : Kelompok atau kelas

KLASIFIKASI PADA TEXT MINING

Web Usage Mining dengan Google Analytics:

Mengenal Information Retrieval

PENGANTAR ANALISIS JEJARING

BAB IV GAMBARAN UMUM METODOLOGI DATA MINING

Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi

BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah

BAB I PENDAHULUAN 1.1. Latar Belakang

2. Tinjauan Pustaka. Gambar 2-1 : Knowledge discovery in database

Saat ini Web merupakan sumber informasi dengan volume yang besar.

PENGGUNAAN ALGORITMA KLASIFIKASI DALAM DATA MINING

PENGEMBANGAN PERANGKAT LUNAK DIAGNOSA PENYAKIT DIABETES MELLITUS TIPE II BERBASIS TEKNIK KLASIFIKASI DATA ABSTRACT

BAB I PENDAHULUAN Latar Belakang

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

BAB 1 PENGERTIAN DATA MINING DAN FUNGSI-FUNGSI DATA MINING

Oleh: Astrid Darmawan Pembimbing: Selvia Lorena Br. Ginting, M.T Wendi Zarman, M.Si

BAB 1 PENDAHULUAN. 1.1 Latar Belakang Permasalahan

Integrasi Peringkas Dokumen Otomatis Dengan Penggabungan Metode Fitur dan Metode Latent Semantic Analysis (LSA) Sebagai Feature Reduction

Studi Penggunaan Data Exif Untuk Mengukur Pengaruhnya. Terhadap Peningkatan Kinerja Image Search Engine

Sistem Temu Kembali Informasi/ Information Retrieval IRS VS SI LAIN

Konsep Data Mining DATA MINING & KNOWLEDGE DISCOVERY IN DATABASES. Bertalya Universitas Gunadarma 2009

BAB II LANDASAN TEORI

BAB II TINJAUAN PUSTAKA. pengetahuan di dalam database. Data mining adalah proses yang menggunakan

Analisa Profil Data Mahasiswa Baru Universitas Stikubank (UNISBANK) Semarang Tahun Dengan Teknik Data Mining

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

Teknik Klasifikasi untuk Melihat Kecenderungan Calon Mahasiswa Baru dalam Memilih Jenjang Pendidikan Program Studi di Perguruan Tinggi

BAB I PENDAHULUAN. Di era modern ini, macam-macam makanan sangatlah banyak dan beragam.

Universitas Putra Indonesia YPTK Padang Fakulas Ilmu Komputer Program Studi Teknik Informatika. Knowledge Discovery in Databases (KDD)

K-Means Analysis Klasterisasi Kasus HIV/AIDS di Indonesia

CLUSTERING MOTIVASI BELAJAR SISWA ELEARNING BERBASIS ALGORITMA K-MEANS

APLIKASI ROUGH SET UNTUK MEMPREDIKSI PRESTASI CALON ANGGOTA KELOMPOK PROGRAMMING (STUDI KASUS : STMIK PELITA NUSANTARA)

EDUCATIONAL DATA MINING (KONSEP DAN PENERAPAN)

Data Mining. Pengenalan Sistem & Teknik, Serta Contoh Aplikasi. Avinanta Tarigan. 22 Nov Avinanta Tarigan Data Mining

SATUAN ACARA PERKULIAHAN MATA KULIAH PENGANTAR BASIS DATA FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI JURUSAN TEKNIK KOMPUTER (D3) KODE: IT014318

RANCANG BANGUN SISTEM TEMU KEMBALI INFORMASI ABSTRAK TUGAS AKHIR MAHASISWA PRODI TEKNIK INFORMATIKA UNSOED Oleh : Lasmedi Afuan

information karena data yang terkumpul itu tidak dapat digunakan untuk aplikasi

GARIS-GARIS BESAR PROGRAM PENGAJARAN (GBPP)

BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI. menerapkan metode clustering dengan algoritma K-Means untuk penelitiannya.

PENGKLASIFIKASIAN MINAT BELAJAR MAHASISWA DENGAN MODEL DATA MINING MENGGUNANAKAN METODE CLUSTERING

BAB II LANDASAN TEORI

BAB I PENDAHULUAN 1.1 Latar Belakang dan Permasalahan

Penerapan Algoritma K-Means untuk Clustering

BAB I PENDAHULUAN. komponen penting dalam hal memajukan kualitas PT tersebut. Apabila sistem

RENCANA PROGRAM KEGIATAN PERKULIAHAN SEMESTER (RPKPS)

BAB III METODOLOGI PENELITIAN

RENCANA PROGRAM KEGIATAN PERKULIAHAN SEMESTER (RPKPS)

BAB 2 TINJAUAN PUSTAKA DAN DASAR TEORI. yang akan diteliti. Pemanfaatan algoritma apriori sudah cukup banyak digunakan, antara lain

1 BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1. Latar Belakang

KONSEP MULTICRITERIA COLLABORATIVE FILTERING UNTUK PERBAIKAN REKOMENDASI

Proses Data Mining dalam Sistem Pembelajaran Berbantuan Komputer

MODEL DATA MINING DALAM PENGKLASIFIKASIAN KETERTARIKAN BELAJAR MAHASISWA MENGGUNAKAN METODE CLUSTERING

UKDW BAB 1 PENDAHULUAN. 1.1 Latar Belakang Masalah

BAB 1 PENDAHULUAN Building A Data WareHouse for Decision Support Second Edition Data Mining : Concepts, Models, Methods, and Algorithms

KONSEP MULTICRITERIA COLLABORATIVE FILTERING UNTUK PERBAIKAN REKOMENDASI

Transkripsi:

Text dan Web Mining Budi Susanto Teknik Informatika UKDW Yogyakarta

Deskripsi Matakuliah ini secara prinsip menekankan tentang teknik-teknik yang perlu diketahui mahasiswa dalam mengelola kumpulan dokumen teks dan atau web dalam skala cukup besar. Pengelolaan tidak hanya terkait tentang bagaimana mengatur penyimpanan, namun juga terkait dengan pemanfaatannya, antara lain untuk menunjang pencarian dokumen dengan menggunakan teknik information retrieval, penerapan konsep data mining pada kumpulan dokumen teks/web.

Kompetensi Matakuliah Setelah mengikuti matakuliah ini, mahasiswa dapat memahami tentang: konsep umum text mining algoritma data mining dasar pembentukan vektor dokumen supervised unsupervised information retrieval link analysis dan web crawling.

Silabus Pengantar Text Mining dan Intelligent Web Metode-metode dasar Dasar-dasar Data Mining: Association Rules Dasar-dasar Data Mining: Supervised Learning Dasar-dasar Data Mining: Unsupervised Learning Pembentukan Vektor Dokumen Information Retrieval: Indexing Retrieval Strategy (2 kali) Link Analysis Web Crawling

Komposisi Nilai Tugas : 50% (ada 5 tugas yang terkait dengan struktur data dan algoritma) TTS : 20% TAS : 30%

Referensi 1. Marmanis, H., Babenko, D. (2009). Algorithms of the intelligent web. Manning Publication Co. 2. Grossman, D.A., Frieder, O. (2004). Information retrieval: Algorithms and Heuristics, 2nd edition. Springer. 3. Konchady, M. (2006). Text mining application programming. Charles River Media. 4. Liu, B. (2007). Web data mining: Exploring hyperlinks, contents, and usage data. Springer. 5. Weiss, S. M., Indurkhya, N., Zhang, T., Damerau, F. J. (2005). Text mining: Predictive methods for analyzing unstructured information. Springer. 6. Wittern, I.H., Frank, E. (2005). Data mining: Practical machine learning tools and techniquues. Elsevier Inc.

Pengantar Text Mining dan Intelligent Web budi susanto

Data Warehouse Data warehouse merupakan suatu rekaman dari informasi transaksional dan operasional yang telah lalu yang disimpan dalam suatu database yang dirancang agar dapat melakukan pelaporan dan analisis data yang efisien. Data warehouse tidak diperuntukkan untuk data yang sedang digunakan saat ini. Data warehouse seringkali menyimpan informasi dalam jumlah besar yang terkadang juga dibagi menjadi unit-unit logika yang lebih kecil yang disebut dependent data mart.

Pembuatan Data Warehouse menggabungkan data dari struktur database yang tersebar dan berbeda yang dapat memberikan fasilitas gambaran global dan analisis komprehensif dalam data warehouse; memisahkan antara data yang digunakan dalam operasi sehari-hari dengan data yang digunakan dalam data warehouse untuk tujuan pelaporan, pendukung keputusan, analisis dan pengendalian.

Blok Proses Datawarehouse

Data Mining Data mining adalah suatu proses yang secara otomatis mencari atau menemukan informasi yang bermanfaat dari suatu kumpulan data yang besar. Tidak semua tugas penemuan informasi disebut sebagai data mining. Sebagai contoh, pencarian data pribadi dengan menggunakan sebuah sistem manajemen basis data, atau pencarian suatu halaman web tertentu dengan cara melakukan query pada search engine di Internet. Pekerjaan-pekerjaan seperti itu merupakan bidang Information Retrieval.

Tahapan Data Mining Data Mining lebih dekat pada bidang pencarian pengetahuan dalam basis data (knowledge discovery in database / KDD), yang merupakan proses konversi dari data mentah menjadi informasi yang bermanfaat.

Kelompok Data Mining Data mining dibagi dalam dua kelompok jenis tugas analisis data: predictive task bertugas untuk memprediksi nilai sebuah atribut tertentu (target) didasarkan pada nilai atribut lain (explanatory) descriptive task bertugas mendapatkan pola analisis asosiasi (association analysis), pengelompokan (clustering), penyimpangan (anomaly detection) yang meringkas hubungan-hubungan dalam data.

Text Mining Text mining merupakan penerapan konsep dan teknik data mining untuk mencari pola dalam teks, yaitu proses penganalisisan teks guna menyarikan informasi yang bermanfaat untuk tujuan tertentu. Berdasarkan ketidakteraturan struktur data teks, maka proses text mining memerlukan beberapa tahap awal yang pada intinya adalah mempersiapkan agar teks dapat diubah menjadi lebih terstruktur.

Tahapan Text Mining

Masalah Umum yang ditangani Klasifikasi Dokumen Information Retrieval Pengorganisasian dan Clustering Dokumen Information Extraction

Clustering Dokumen

Analisis Cluster Analisis cluster adalah pengorganisasian kumpulan pola ke dalam cluster (kelompok-kelompok) berdasar atas kesamaannya. Pola-pola dalam suatu cluster akan memiliki kesamaan ciri/sifat daripada pola-pola dalam cluster yang lainnya.

Analisis Cluster Clustering bermanfaat untuk melakukan analisis pola-pola yang ada, mengelompokkan, membuat keputusan dan machine learning, termasuk data mining, document retrieval, segmentasi citra, dan klasifikasi pola. Metodologi clustering lebih cocok digunakan untuk eksplorasi hubungan antar data untuk membuat suatu penilaian terhadap strukturnya.

Information Retrieval

Information Retrieval Konsep dasar dari IR adalah pengukuran kesamaan sebuah perbandingan antara dua dokumen, mengukur sebearapa mirip keduanya. Setiap input query yang diberikan, dapat dianggap sebagai sebuah dokumen yang akan dicocokan dengan dokumendokumen lain. Pengukuran kemiripan serupa dengan metode klasifikasi yang disebut metode nearest-neighbour.

Information Extraction

Information Extraction Information Extraction bermanfaat untuk menggali struktur informasi dari sekumpulan dokumen. Dalam menerapkan IE, perlu sekali dilakukan pembatasan domain problem. IE sangat memerlukan NLP untuk mengetahui gramatikal dari setiap kalimat yang ada. Sebagai contoh: Indonesia dan Singapore menandatangani MoU kerjasama dalam bidang informasi dan komunikasi. KerjaSama(Indonesia, Singapore, TIK)

Information Extraction Dengan IE, kita dapat menemukan: concepts (CLASS) concept inheritance (SUBCLASS-OF) concept instantiation (INSTANCE-OF) properties/relations (RELATION) domain and range restrictions (DOMAIN/RANGE) equivalence

Web Mining: Karakteristik Web jumlah data/informasi di web sangat besar dan terus bertambah. tipe data beragam informasi pada web sangat beragam. informasi-informasi di web saling terhubung. informasi di web sangat "kotor". web juga merupakan service. web dinamis web merupakan sarana komunitas sosial virtual.

Web Mining Web Mining bertujuan untuk menemukan informasi atau pengetahuan dari Web hyperlink structure contoh: menemukan halaman web terpenting menemukan komunitas pemakai yang berbagi ketertarikan topik yang sama page content usage data. contoh: menemukan pola akses pemakai terhadap web, melalaui click stream.

Sekian!