KOM341 Temu Kembali Informasi

dokumen-dokumen yang mirip
TEMU KEMBALI INFORMASI

Bahasa Pemrograman :: Dasar Pemrograman Java

JULIO ADISANTOSO - ILKOM IPB 1

TPI4202 e-tp.ub.ac.id. Lecture 4 Mas ud Effendi

BAB 5 Mendapatkan Input dari Keyboard

BAB 5 Mendapatkan Input dari Keyboard

PEMROGRAMAN JAVA. Yoannita, S.Kom. Input Kondisi (IF-ELSE, SWITCH)

Sekarang, kita akan mencoba untuk menganalisa program Java pertama : public class Hello {

Mendapatkan Input Dari Keyboard

BAB II VARIABEL DAN TIPE DATA

2 TIPE DATA DAN VARIABEL

Modul Praktikum Pemrograman

Input Nilai tanpa Case String di Java

Dasar-Dasar Pemrograman Java

MK. Pemrograman Berorientasi Objek. Input dari Keyboard. Karmilasari

PEMROGRAMAN JAVA. Petunjuk Penulisan Program Token Aturan Penamaan Identifier Lingkungan /Scope dari variabel Tipe Data (i) Yoannita

Penggunaan Netbeans IDE, Hello World, variable dan Operator aritmetika.

BAB 2 INPUT DARI KEYBOARD

PEMROGRAMAN JAVA : VARIABEL DAN TIPE DATA

PRAKTIKUM 7 DASAR INPUT OUTPUT

Bahasa Pemrograman Java. Yudi Adha. ST. MMSI

PERTEMUAN I PENGENALAN JAVA

Pemrograman. Pertemuan-3 Fery Updi,M.Kom

PEMROGRAMAN BERORIENTASI OBJEK

Pertemuan 2 Struktur Kontrol Percabangan

OPERATOR-OPERATOR DALAM JAVA

MODUL II. OBJECK, PROPERTY, METHOD dan EVENT

Pemrograman JAVA INPUT-OUTPUT

Pertemuan III [STRUKTUR KONTROL] CariGrade.java Program mencari grade nilai menggunakan struktur control if-else

TIPE DATA PADA JAVA. Pertemuan (K-04/L-04)

LAB PEMROGRAMAN I (JAVA FUNDAMENTAL)

LAB PEMROGRAMAN I (JAVA FUNDAMENTAL) PERTEMUAN 3 Dosen : Bella Hardiyana S. Kom

Struktur Data dan Algoritma IKI10400 Semester Gasal 2010/2011 Fakultas Ilmu Komputer Universitas Indonesia

Praktikum 3 Konsep Class, Attribute dan Method

Pengenalan Java, Tipe Data, Variabel dan Operator. Putu Putra Astawa

Modul Praktikum Bahasa Pemrograman 1

Cara Membaca File Text di JAVA

Mencari dan menelusuri jawaban learner yang sudah dinilai. 5 Pelaporan prestasi dan kemajuan penyelesaian tugas

TPI4202 e-tp.ub.ac.id

Input - Output PEMROGRAMAN DASAR. Dr. Eng. Herman Tolle, ST., MT. Sistem Informasi PTIIK UB Semester Ganjil 2014/2015

Nama Lengkap : Muiz Lidinillah NIM :

LAPORAN PRAKTIKUM PEMROGRAMAN BERBASIS OBJEK

KONVERSI DATA DAN INPUT DATA

Bahasa Pemrograman :: Java Class Library

BAB 3 STRUKTURE PROGRAM JAVA

SUMBER BELAJAR PENUNJANG PLPG

STREAM DAN FILE. PipedInputStream, SequenceInputStream, dan StringBufferInputStream.

PENGENALAN JAVA (2)

Topik. Stream I/O Cara menggunakan Stream Hierarchy Java I/O Membaca File Menulis File Menghapus File Cara membaca isi Direktori dalam file

Bahasa Pemrograman 2.

TIPE DATA Pertemuan (K-03/L-03)

Reserved words Reserved words atau keywords merupakan kata-kata spesifik digunakan oleh compiler untuk keperluan pemrograman. Contoh reserved words

TPI4202 e-tp.ub.ac.id

BAB 3 TYPE DATA, VARIABLE DAN OPERATOR

Pemrograman Dasar I N T R O D U C T I O N T O J A V A

Pengenalan C++ Oleh : Dewi Sartika

PEMAHAMAN DASAR DASAR JAVA

Setelah menyelesaikan praktikum ini, mahasiswa diharapkan mampu:

Modul Praktikum 4 Pemograman Berorientasi Objek

Dasar Pemrograman Java

AP2B Dini Triasanti STRUKTUR PEMROGRAMAN PYTHON

PRAKTEK 1 CLASS, ATTRIBUTE, METHOD, DAN OBJEK

STRUKTUR PEMROGRAMAN PYTHON

FAKULTAS TEKNIK UNIVERSITAS NEGERI YOGYAKARTA LAB SHEET PEMROGRAMAN 2

Pengenalan Pascal/DevPascal

JAVA PADA NETBEANS IDE 7.4 ASRI WIDYADHARI KOM E 13

Array Pendeklarasian Array

MODUL III ARRAYLIST TUGAS PENDAHULUAN

Dasar Pemrograman Java

BAB 4 ARRAY. number1 = 10; number2 = 20; number3 = 30;

Tipe data primitif adalah tipe data dasar yang dikenali oleh Java dan bukan merupakan class. Tipe data primitif ini dapat dikenali dengan ciri

2. Software yang dibutuhkan Untuk membuat sebuah program java, minimal yang dibutuhkan adalah:

PERTEMUAN III OBJEK DAN CLASS TUJUAN PRAKTIKUM

BAHASA PEMROGRAMAN JAVA

FAKULTAS TEKNIK UNIVERSITAS NEGERI YOGYAKARTA LAB SHEET PEMROGRAMAN JAVA 2

Membuat dan Menggunakan Class

JENIS DATA SEDERHANA & INPUT/OUTPUT DATA

Pertemuan 3 Struktur Perulangan pada Java

Mukhlidi Muskhir Modul 2

Modul Praktikum 3 Pemograman Berorientasi Objek

Keg. Pembelajaran 2 : Mengenal Bahasa C++

Badiyanto, S.Kom., M.Kom. PBO java

Pertemuan 2 (2) : Membuat Class dan mengakses Anggota Class

IKG2I4 / Software Project I

BAB 8 Argumen dari Command-line

BAB Argument Command-Line dan System Properties

BAB 7. Sebagai contoh, kita memiliki tiga variabel dengan tipe data int yang memiliki identifier berbeda untuk tiap variabel.

Pemrograman Fery Updi,M.Kom

Pertemuan 4 Array pada Java

Elemen Dasar Dalam Bahasa Java

BAB 1 KONSEP DASAR JAVA

game yang dibangun lebih semakin hidup dan terasa nyata, hal ini juga yang membuat para pemain lebih tertarik, bayangkan apabila di dalam suatu

BAB 7 Java Array. Sebagai contoh, kita memiliki tiga variabel dengan tipe data int yang memiliki identifier yang berbeda untuk tiap variabel.

Pendahuluan Dasar Pemrograman Java

TEMU KEMBALI INFORMASI

Variabel dengan tipe dasar hanya dapat menyimpan sebuah nilai

Algoritma,Flowchart, Konsep

Modul 3 Flow Control dan Input

BAB 8 Argumen dari Command-line

Bahasa Pemrograman :: Polimorfism and Abstraction

Transkripsi:

KOM341 Temu Kembali Informasi KULIAH #2 Pemrosesan Teks Java Proses Perolehan Informasi Sederhana KORPUS OFFLINE PROCESS 1

Pengertian TEKS o Teks Korpus Koleksi dokumen yang bisa dibaca oleh mesin o Contoh: Kumpulan artikel surat kabar yang diperoleh dari Internet Kumpulan skripsi mahasiswa yang telah dikumpulkan secara digital oleh perpustakaan Korpus o Korpus adalah teks alami yang dipilih dengan cara tertentu. o Masalah pada perancangan korpus Ukuran Jenis Bahasa o Media: teks, audio, video (multimedia) o Isu pada korpus: Tokenisasi pada korpus Anotasi pada korpus 2

Contoh Korpus Free text Sekurangnya 17 ribu ayam ras milik peternak di wilayah kabupaten Kotawaringin Timur (Kotim), Kalimantan Tengah mati dan kuat dugaan akibat terserang virus avian influenza (AI) atau yang lagi ramai disebut penyakit flu burung. Kasubdin Produksi Peternakan Dinas Pertanian Kotim Drh. Mawardi di Sampit, Selasa mengatakan sebanyak 17 ribu ekor ayam ras yang mati diduga terserang flu burung itu sejak Desember 2003. Dari hasil diagnosa Balai Penyelidikan dan Pengujian Veteriner (BPPV) regional V Banjar Baru Kalimantan Selatan yang diterima Disnak Kotim, Senin (26/1) menyebutkan ayam yang mati terserang panyakit itu hanya ada dua kemungkinan yaitu terserang virus AI dan VVND atau tetelo. "Namun kasus kematian masal ayas ras di Kotim kemungkinan besar akibat akibat serangan virus avian influenza yang bila menular kepada manusia namanya menjadi flu burung," ucapnya. Contoh Korpus XML Format <DOC> <DOCNO>DOC01</DOCNO> <TITLE>Flu Burung Menyerang Kalimantan Tengah</TITLE> <AUTHOR>Ark, Ant</AUTHOR> <DATE> 7 Februari 2003 </DATE> <TEXT> <P>Sekurangnya 17 ribu ayam ras milik peternak di wilayah kabupaten Kotawaringin Timur (Kotim), Kalimantan Tengah mati dan kuat dugaan akibat terserang virus avian influenza (AI) atau yang lagi ramai disebut penyakit flu burung. Kasubdin Produksi Peternakan Dinas Pertanian Kotim Drh. Mawardi di Sampit, Selasa mengatakan sebanyak 17 ribu ekor ayam ras yang mati diduga terserang flu burung itu sejak Desember 2003.</p> <P>Dari hasil diagnosa Balai Penyelidikan dan Pengujian Veteriner (BPPV) regional V Banjar Baru Kalimantan Selatan yang diterima Disnak Kotim, Senin (26/1) menyebutkan ayam yang mati terserang panyakit itu hanya ada dua kemungkinan yaitu terserang virus AI dan VVND atau tetelo. "Namun kasus kematian masal ayas ras di Kotim kemungkinan besar akibat akibat serangan virus avian influenza yang bila menular kepada manusia namanya menjadi flu burung," ucapnya.</p> </TEXT> </DOC> 3

Melacak Teks o Operasi dasar dalam string matching o Contoh: Dapatkan semua baris yang dimulai dengan kata Flu. Dapatkan semua baris yang dimulai dengan kata Huruf Besar. Dapatkan semua baris yang memiliki kata terdiri dari huruf besar semua. Hitung banyaknya kata Flu pada dokumen tersebut. dsb. Statistik Teks o Jumlah Kata Seberapa besar korpus yang ada (N) o Jenis kata Berapa jumlah kata yang unik? Berapa besar perbendaharaan kata pada korpus? o Token kata Berapa jumlah kata pada korpus? Berapa frekuensi dari setiap jenis kata? Kata apa yang paling sering muncul pada korpus? 4

Prosedur Menghitung Frekuensi Kata o Tokenisasi : mendapatkan kata o Ubah menjadi huruf kecil o Urutkan menurut abjad o Hitung frekuensi kemunculan kata o Urutkan menurut frekuensinya o Hitung frekuensi dari frekuensi kemunculan kata Fenomena Frekuensi Kata o Sejumlah kata merupakan kata yang sangat umum (frekuensi sangat besar), misalnya the, of o Kebanyakan kata sangat jarang muncul (frekuensi sangat kecil). o Setengah dari kata-kata pada korpus hanya muncul sekali. 5

Contoh Kata Frekuensi Kata (f) Peringkat (r) f * r name 21 400 8400 comes 16 500 8000 group 13 600 7800 science 11 700 7700 family 10 800 8000 begin 9 900 8100 broke 4 2000 8000 seems 2 3000 6000 could 2 4000 8000 Hukum Zipf o Menjelaskan adanya hubungan antara frekuensi dan urutan/rank (George Kingsley Zipf). o Urutan/Rank: hitung berapa kali kata muncul pada semua teks di dalam korpus (f). urutkan sesuai dengan frekuensi kemunculan kata membentuk rank (r). o Terdapat konstanta c sehingga f * r = c 6

Luhn s Ideas kata-kata yang paling umum dan paling tidak umum adalah tidak signifikan untuk indexing Stopwords o STOPWORDS: Terdapat kata yang merupakan bagian terbesar dari teks yang tidak perlu digunakan sebagai penciri dokumen. Terdapat banyak ragam kata yang hanya muncul sedikit sekali di dalam suatu teks. Contoh: to, in, form, yang, dan o Kata-kata dengan frekuensi cukup (di bagian tengah) adalah yang paling baik digunakan sebagai penciri dokumen. 7

Tokenisasi o Pengertian : suatu tahap pemrosesan di mana teks input dibagi menjadi unit-unit kecil yang disebut token, yang dapat berupa suatu kata, suatu angka, atau suatu tanda baca. o Konsekuensinya: Perlu mengenali unit secara otomatis Apakah suatu kata itu? Kalimat? Paragraf? Kata o Karakter alfanumerik yang saling terhubung yang dipisahkan oleh whitespace. o Whitespace: spasi, tab, newline o Masalah: B2B, amazon.com, Micro$oft isn t, Jum at pro-aktif, out-of-date tanda sambung pada akhir baris 8

Segmentasi kata o Proses tokenisasi sederhana, tetapi tidak terlepas dari kesalahan. o Contoh: Kata majemuk: Jurusan Surabaya-Jakarta Frase: tusuk jarum, keras kepala, sistem informasi Nomor telpon (0251) 8356653 +62 251 8625584 o Menjadi topik dari ekstraksi informasi Kalimat o Satu atau lebih string kata yang diakhiri dengan suatu tanda berhenti sepenuhnya, tanda tanya atau tanda seru. o Contoh: Akhir dari baris. Akhir dari suatu cerita! Apakah kamu sudah punya pacar? Ia sering mengunjungi friendster.com. Dr. Iwan pergi ke Surabaya. Dia mengatakan Bohong!. 9

Batas kalimat o Hipotesakan bahwa batas kalimat sesudah.?! o Pindahkan batas kalimat sesudah tanda petik, bukan setelah titik. Jangan ambil buku itu. Buku itu milik pak Budi., kata ibu kepada Ani. o Jangan gunakan titik jika: Sebelumnya adalah singkatan yg umum yg biasanya bukan akhir kalimat, tp biasanya diikuti oleh nama dengan huruf besar: Prof. Didahului oleh singkatan yang umum dan tidak diikuti oleh kata dengan huruf besar: Jr. o Jangan kenali sebagai batas jika ada! atau? yang diikuti oleh huruf kecil Pemrosesan Teks Otomatis o Menghitung kata pada teks o Mengurutkan kata o Menghitung berbagai nilai statistik kata Input : berkas teks (bisa berupa korpus) Output : daftar kata beserta frekuensinya o Pertanyaannya: Bagaimana program komputernya? Bahasa pemrograman apa yang digunakan? 10

Java o Free for download à http://java.sun.com o Unit terkecil program Java adalah Class yang terdiri dari methods (C:procedure) dan instance (C: data) o Contoh: public class Hello { public static void main(string[] args) { // menampilkan string ke layar System.out.println("Hello world!"); } } Program Java o Program Java harus disimpan dengan nama *.java o Nama File seharusnya sama dengan nama class public nya o Program yang berada pada satu folder dianggap sebagai satu package o Berisi komentar secukupnya untuk memperjelas kode program 11

Standard input o o o o Menggunakan kelas BufferedReader yang berada di java.io import java.io.*; Menyimpan input keyboard ke dalam buffer BufferedReader datain = new BufferedReader(new InputStreamReader(System.in)); Menyimpan input ke dalam variabel sementara bertipe String try { String temp = datain.readline(); } catch(ioexception e){ System.out.println("Error input"); } Contoh (stdin.java) à menghitung rata-rata dari n bilangan riil. Standard output o Tanpa format System.out.print(rataan); System.out.println(rataan); o Dengan format System.out.format("%.2f \n", rataan); 12

Array dalam Java o Sama dengan program dalam C o Mendeklarasikan variabel array int []usia; atau int usia[]; o Membuat objek array (dalam Java disebut sebagai instantiation) int usia[]; usia = new int[100]; atau bisa juga ditulis sekaligus menjadi int usia[] = new int[100]; o Dapat juga langsung didefinisikan seperti dalam C boolean hasil[]={ true, false, true }; int[] nilai = {100, 90, 80, 75}; String hari[] = {"Senin","Selasa","Rabu"}; Mendefinisikan Class dalam Java o Definisi class <modifier> class <name> { <attributedeclaration>* <constructordeclaration>* <methoddeclaration>* } o Contoh: public class Lingkaran { //area penulisan kode selanjutnya } 13

Contoh class Lingkaran public class Lingkaran { // Instance variables private double x; private double y; private double r; // Instance methods public void set(double x, double y, double r) { this.x=x; this.y=y; this.r=r; } public double luas() { double phi=3.14; return phi*r*r; } } // main routine public static void main(string[] args) { // penulisan kode program utama } Tokenisasi dengan Java o Dapat menggunakan dua metode: Class StringTokenizer Method split o Lihat file contoh 14