IKI 40931: Topik Khusus: NLP Kuliah 5: POS Tagging (Lanjutan)

Ukuran: px

Mulai penontonan dengan halaman:

Download "IKI 40931: Topik Khusus: NLP Kuliah 5: POS Tagging (Lanjutan)"

Sucianty Cahyadi
7 tahun lalu
Tontonan:

IKI 40931: Topik Khusus: NLP Kuliah 5: POS Tagging (Lanjutan) (Bab 8.5-8.

1 IKI 40931: Topik Khusus: NLP Kuliah 5: POS Tagging (Lanjutan) (Bab Jurafsky & Martin) Ruli Manurung Fakultas Ilmu Komputer Universitas Indonesia 25 Februari 2008

2 Outline Stochastic POS Tagging 1 Stochastic POS Tagging 2 3 4

3 POS ditentukan oleh konteks Ide dasar POS tagging POS tag sebuah kata dapat ditentukan oleh konteks di mana ia muncul. Bisa dalam corpus 1 Gue bisa menyelesaikan persoalan itu kok. 2 Penjinak ular menguras bisa hanya dengan cangkir plastik. 3 Masyarakat dan aparat bisa membersihkan sampah dengan baik. 4 Beliau menyatakan bisa menurunkan harga kedelai tahun ini. Aturan apa yang dapat disimpulkan mengenai bisa? Dalam rule-based tagger, ide ini dinyatakan dalam rule yang dibuat secara manual (mis: jika kata sesudahnya..., maka... ) Pada stochastic POS, konteks (corpus) diamati dan dipelajari secara otomatis.

4 Pemodelan statistik Pada intinya, pilih tag yang memaksimalkan rumus berikut: P(kata tag) P(tag n tag sebelumnya) Sebagai aproksimasi, sebuah bigram tagger memilih tag untuk kata ke-i (t i ) berdasarkan tag sebelumnya (t i 1 ) dan kata ke-i tersebut (w i ) t i = argmax j P(t j ti 1, w i ) Melalui beberapa asumsi Markovian, diperoleh: t i = argmax j P(t j ti 1) P(w i t j ) Perumusan statistik: Berapa kemungkinan tag VB (atau NN) jika tag sebelumnya TO? (tag sequence probability) dikalikan dengan Jika diketahui sebuah kata adalah VB (atau NN), berapa kemungkinan ia adalah race? (lexical likelihood)

5 Sebuah contoh Amati race pada dua kalimat berikut: 1 Secretariat/NNP is/vbz expected/vbn to/to race/vb tomorrow/nn 2 People/NNS continue/vbp to/to inquire/vb the/dt reason/nn for/in the/dt race/nn for/in outer/jj space/nn Bayangkan sudah diketahui POS tag yg benar kecuali untuk race. Konteks yang perlu diamati (secara bigram): 1 to/to race/??? 2 the/dt race/??? Untuk kasus pertama: 1 P(VB TO) P(race VB) = = P(NN TO) P(race NN) = =

6 Menggunakan statistik Definisi Hidden Markov Model (HMM) adalah pemodelan statistik di mana sebuah sistem menghasilkan (emit) urutan simbol yang dapat diamati (observation symbols) berdasarkan sebuah proses probabilistik yang parameternya tidak diketahui (hidden parameters). Proses probabilistik dinyatakan sebuah FSA: x 1, x 2,... adalah state yang menyatakan proses. a ij adalah state transition probabilities: berapa kemungkinan proses berpindah dari state i ke j? y 1, y 2,... adalah observation symbols. b ij adalah output/emission probability: berapa kemungkinan proses di state i menghasilkan symbol j?

7 Contoh gambar HMM

8 Menggunakan statistik HMM sering digunakan untuk memodelkan data sequential/temporal, di mana proses berjalan seiring waktu t, dengan asumsi berikut: Nilai hidden state x(t) sepenuhnya ditentukan oleh hidden state sebelumnya, x(t 1). Nilai observed symbol y(t) sepenuhnya ditentukan oleh hidden state pada saat itu, x(t). Menghitung probabilitas sebuah observation sequence Probabilitas Y = y 0, y 1, y 2,..., y L 1 dengan panjang L adalah P(Y ) = P X P(Y X)P(X). Jadi, kita menjumlahkan semua kemungkinan X = x 0, x 1, x 2,..., x L 1. Penghitungan brute-force dalam prakteknya bersifat intractable. Namun, ada algoritma forward dan Viterbi...

9 HMM Tagger Stochastic POS Tagging Contoh race: memilih tag terbaik untuk kata yang diamati. Sebuah HMM tagger memilih tag sequence terbaik untuk word sequence yang diamati. Word sequence yang diamati: W = w 1, w 2,..., w n Tag sequence yang terbaik/ benar : T = t 1, t 2,..., t n ˆT = argmax T τ P(T W ) Dengan Bayes Law: ˆT = argmax T τ P(T )P(W T ) Dengan chain rule: Q ˆT = argmax n T τ i=1 P(w i w 1 t 1... w i 1 t i 1 t i )P(t i t 1,... t i 1 )

10 Transformation-Based Tagging Eric Brill merumuskan teori transformation-based learning. Ide dasar: tangani dulu secara bodoh, perbaiki masalah yang timbul. Ulangi sampai beres. Contoh: P(NN race) = 0.98 P(VB race) = 0.02 Kesimpulan: tag semua race sebagai NN! Berdasarkan training data, pelajari rule, mis: Change NN to VB when the previous tag is TO.

11 Cara kerja TBL Tagger Cara kerja: 1 Lakukan proses tagging berdasarkan kamus 2 Cobalah semua kemungkinan transformasi (rule). Pilih yang paling banyak mengurangi error. Aplikasikanlah. 3 Ulangi langkah di atas sampai cukup. Tentunya ada banyak sekali kemungkinan transformasi, jadi dibatasi dengan template: Kata sebelum/sesudah adalah Z. Kata kedua sebelum/sesudah adalah Z. Salah satu dari kedua kata sebelum/sesudah adalah Z. dst.

12 Mengevaluasi hasil POS Tagger Biasanya dibandingkan dengan gold standard: data yang sudah di-tag secara manual oleh manusia. Yang dihitung adalah persentase tag yang dihasilkan benar sesuai dengan gold standard. Rata-rata POS tagger sekarang memiliki akurasi 96-97% (untuk tagset Penn Treebank sederhana ) Ini bagus atau jelek?

13 Mengevaluasi hasil POS Tagger Biasanya dibandingkan dengan gold standard: data yang sudah di-tag secara manual oleh manusia. Yang dihitung adalah persentase tag yang dihasilkan benar sesuai dengan gold standard. Rata-rata POS tagger sekarang memiliki akurasi 96-97% (untuk tagset Penn Treebank sederhana ) Ini bagus atau jelek? Human ceiling (upper-bound) Marcus et al. (1993) menemukan bahwa manusia memiliki kesepakatan 96-97% ketika Brown Corpus di-tag dengan tagset Penn Treebank. Artinya, sebuah gold standard dapat memiliki error 3-4%.

14 Mengevaluasi hasil POS Tagger Biasanya dibandingkan dengan gold standard: data yang sudah di-tag secara manual oleh manusia. Yang dihitung adalah persentase tag yang dihasilkan benar sesuai dengan gold standard. Rata-rata POS tagger sekarang memiliki akurasi 96-97% (untuk tagset Penn Treebank sederhana ) Ini bagus atau jelek? Human ceiling (upper-bound) Marcus et al. (1993) menemukan bahwa manusia memiliki kesepakatan 96-97% ketika Brown Corpus di-tag dengan tagset Penn Treebank. Artinya, sebuah gold standard dapat memiliki error 3-4%. Unigram baseline (lower-bound) Charniak et al. (1993) menunjukkan bahwa sebuah baseline algorithm, yang hanya menggunakan frekuensi unigram, mencapai akurasi 90-91%!

15 Multiple tags, Multiple words Multiple tags Kadang-kadang, sebuah POS tagger benar-benar kesulitan menentukan tag sebuah kata. Daripada memaksa untuk memilih, ia akan memberikan alternatif, mis: (JJ/VBD/VBN), (JJ/NN), dst. Multiple words Beberapa tagset, mis. C5 dan C7, menganggap frasa sebagai sebuah kata, mis: in terms of dianggap sebagai sebuah preposition (II3) dan diberi label in/ii31 terms/ii32 of/ii33 Beberapa corpus memecah stem + morfem-nya, mis: would/md n t/rb dan children/nns s/pos

16 Ringkasan Stochastic POS Tagging POS tag (yang ambigu) bisa ditentukan dengan bantuan konteks. Stochastic POS tagger memaksimalkan probabilitas P(kata tag) P(tag n tag sebelumnya) (nilai dihitung dari corpus). Hidden Markov Model adalah model statistik yang bisa mengestimasi hidden parameter dari pengamatan observable sequence yang dihasilkan. Tagger berdasarkan transformation based learning menggabungkan pendekatan rule-based dan stochastic. tagger dilakukan terhadap gold standard dan unigram baseline.

dokumen-dokumen yang mirip

Tutorial: Pengenalan terhadap POS tagging dan Probabilistic Parsing

1/53 Tutorial: Pengenalan terhadap POS tagging dan Probabilistic Ruli Manurung Fakultas Ilmu Komputer Universitas Indonesia maruli@cs.ui.ac.id Workshop Nasional INACL Kamis, 7 Januari 2016 2/53 Outline