Document Indexing dan Term Weighting. M. Ali Fauzi

Transkripsi

1 Document Indexing dan Term Weighting M. Ali Fauzi

2

3 Document Indexing Setelah melakukan preprocessing, kita akan mendapatkan sebuah set term yang bisa kita jadikan sebagai indeks. Indeks adalah perwakilan dari dokumen.aa Indeks memudahkan proses selanjutnya dalam teks mining ataupun IR.

4 Document Indexing Setelah melakukan preprocessing, kita akan mendapatkan sebuah set term yang bisa kita jadikan sebagai indeks. Indeks adalah perwakilan dari dokumen. Indeks memudahkan proses selanjutnya dalam teks mining ataupun IR.

5 Document Indexing Hasil Token Hasil Filtering Hasil Stemming Type they are Term applied applied apply apply apply to the words words word word word in the texts texts text text text

6 Document Indexing Hasil Token Hasil Filtering Hasil Stemming Type Term namanya namanya nama nama nama adalah santiago santiago santiago santiago santiago santiago santiago santiago - - sudah memutusk an memutusk an putus putus putus untuk mencari mencari cari cari cari sang alkemis alkemis alkemis alkemis alkemis

7 Document Indexing Dalam mebuat sebuah indeks, secara umum kita tidak memperhatikan urutan kata John is quicker than Mary dan Mary is quicker than John memiliki representasi yang sama Ini disebut bag of words model.

10 Document Indexing Hasil Token Hasil Filtering Hasil Stemming Type they are Term applied applied apply apply apply to the words words word word word in the texts texts text text text

11 Document Indexing Hasil Token Hasil Filtering Hasil Stemming Type Term namanya namanya nama nama nama adalah santiago santiago santiago santiago santiago santiago santiago santiago - - sudah memutusk an memutusk an putus putus putus untuk mencari mencari cari cari cari sang alkemis alkemis alkemis alkemis alkemis

12 Term Weighting Teks Mining

13 Term Weighting Dalam mebuat sebuah indeks, setiap kata/term memiliki bobot/nilai masingmasing Ada banyak metode untuk memberikan bobot pada masing-masing term pada indeks

14 Term Weighting Dalam mebuat sebuah indeks, setiap kata/term memiliki bobot/nilai masingmasing Ada banyak metode untuk memberikan bobot pada masingmasing term pada indeks

15 Term Weighting Term Weighting : Metode untuk memberikan nilai/bobot pada masingmasing term indeks.

16 Term Weighting Beberapa metode Term Weighting yang popular : Binary Term Weighting (Raw) Term-frequency Logarithmic Term-frequency TF-IDF

17 Binary Term Weighting Metode Term Weighting

18 Binary Term Weighting Masing-masing dokumen direpresentasikan oleh sebuah binary vector Dokumen diwakili oleh kolom, dan term diwakili oleh baris Jika kata/term berada pada dokumen tertentu, maka nilainya 1, jika tidak, maka nilainya 0

21 Binary Term Weighting Metode term weighting ini tidak memperhatikan jumlah kemunculan kata pada 1 dokumen.

22 Binary Term Weighting Misal : terdapat 6 dokumen : Antony and Cleopatra, Julius Caesar, The Tempest, Hamlet, Othello, dan Macbeth dan 7 kata/term : Antony, Brutus, Caesar, Calpurnia, Cleopatra, mercy, dan worser

23 Binary Term Weighting Antony and Cleopatra Julius Caesar The Tempest Hamlet Othello Macbeth Antony Brutus Caesar Calpurnia Cleopatra mercy worser

24 (Raw) Term-frequency Metode Term Weighting

25 (Raw) Term-frequency Seperti halnya binary, hanya saja mempertimbangkan jumlah kemunculan kata pada dokumen: count vector Term frequency tf t,d dari term t dalam dokumen d didefiniskan sebagai jumlah kemunculan term t pada dokumen d.

26 (Raw) Term-frequency Seperti halnya binary, hanya saja mempertimbangkan jumlah kemunculan kata pada dokumen: count vector Term frequency TF t,d dari term t dalam dokumen d didefiniskan sebagai jumlah kemunculan term t pada dokumen d.

27 (Raw) Term-frequency Antony and Cleopatra Julius Caesar The Tempest Hamlet Othello Macbeth Antony Brutus Caesar Calpurnia Cleopatra mercy worser

28 (Raw) Term-frequency Term frequency TF t,d dari term t dalam dokumen d didefiniskan sebagai jumlah kemunculan term t pada dokumen d. TF Anthony, Antony and Cleopatra = 157 TF Anthony, Julius Caesar = 73 TF Mercy, Macbeth = 1

29 (Raw) Term-frequency Raw term frequency kurang relevan: Sebuah term yang muncul 10 kali pada sebuah dokumen memang lebih penting dalam mewakili dokumen dibandingkan dengan term yang muncul cuma 1 kali. Tapi tidak berate 10 kali lebih penting.

30 (Raw) Term-frequency Relevance does not increase proportionally with term frequency.

31 Log Term-frequency Metode Term Weighting

32 Log Term-frequency Log Term-frequency dari term t dalam d adalah w t,d 1 log10 tft,d, if tft,d 0 0, otherwise 0 0, 1 1, 2 1.3, 10 2, , etc.

33 Log Term-frequency Log Term-frequency dari term t dalam d adalah w t,d 1 log10 tft,d, if tft,d 0 0, otherwise 0 0, 1 1, 2 1.3, 10 2, , etc.

34 Log Term-frequency W tf Antony & Cleopatra Julius Caesar The Tempest Hamlet Othello Macbeth Antony log(157) log(73) Brutus log(4) log(157) log(1) 0 0 Caesar log(232) log(227) log(2) log(1) log(1) Calpurnia log(10) Cleopatra log(57) Mercy log(2) log(3) log(5) log(5) log(1) Worser log(2) log(1) log(1) log(1) 0

35 Log Term-frequency W tf Antony & Cleopatra Julius Caesar The Tempest Hamlet Othello Macbeth Antony Brutus Caesar Calpurnia Cleopatra Mercy Worser

36 TF-IDF Metode Term Weighting

37 TF-IDF Nilai TF-IDF dari sebuah term adalah perkalian antara nilai (Log)TF and nilai IDF-nya. TF-IDF = TF x IDF Catatan: tanda - dalam tf-idf adalah tanda hubung, bukan minus!. Alternative : TFf.IDF, TF x IDF

38 TF-IDF Nilai TF-IDF dari sebuah term adalah perkalian antara nilai (Log)TF and nilai IDF-nya. TF-IDF = TF x IDF Catatan: tanda - dalam tf-idf adalah tanda hubung, bukan minus!. Alternative : TFf.IDF, TF x IDF

39 TF-IDF Apa itu IDF? IDF : Inverse Document Frequency atau Kebalikan dari Document Frequency

40 Document frequency Document frequency (df t ) adalah jumlah dokumen yang mengandung term t df t N N = Jumlah Dokumen

41 Document frequency Document frequency (df t ) adalah jumlah dokumen yang mengandung term t df t N N = Jumlah Dokumen

42 Document frequency Antony & Cleopatra Julius Caesar The Tempest Hamlet Othello Macbeth df t Antony Brutus Caesar Calpurnia Cleopatra Mercy Worser

43 Document frequency Document frequency (df t ) adalah jumlah dokumen yang mengandung term t Rare terms adalah term memiliki nilai df yang kecil Frequent terms adalah term memiliki nilai df yang besar

44 Document frequency Document frequency (df t ) adalah jumlah dokumen yang mengandung term t Rare terms adalah term memiliki nilai df yang kecil Frequent terms adalah term memiliki nilai df yang besar

45 Inverse Document frequency Apa itu IDF? IDF : Inverse Document Frequency atau Kebalikan dari Document Frequency

46 Inverse Document frequency Kata-kata yang muncul di banyak dokumen adalah kata yang tidak penting Misal kata : dan, di, atau, merupakan, tinggi, bisa Sering muncul di hampir semua dokumena Kata-kata seperti ini kurang informative

47 Inverse Document frequency Kata-kata yang muncul di banyak dokumen adalah kata yang tidak penting Misal kata : dan, di, atau, merupakan, tinggi, bisa Sering muncul di hampir semua dokumen Kata-kata seperti ini kurang informative

48 Inverse Document frequency Kata-kata yang muncul di banyak dokumen adalah kata yang tidak penting Misal kata : dan, di, atau, merupakan, tinggi, bisa Sering muncul di hampir semua dokumen Kata-kata seperti ini kurang informatif

49 Inverse Document frequency Di sisi lain, kata-kata langka yang hanya muncul di sedikit dokumen, lebih informatif Misal, kata Meganthropus yang hanya muncul di dokumen sejarah, hampir tidak pernah muncul di dokumen-dokumen lain seperti dokumen olahraga, ekonomi, maupun politik.

50 Inverse Document frequency Di sisi lain, kata-kata langka yang hanya muncul di sedikit dokumen, lebih informatif Misal, kata Meganthropus yang hanya muncul di dokumen sejarah, hampir tidak pernah muncul di dokumendokumen lain seperti dokumen olahraga, ekonomi, maupun politik.

51 Inverse Document frequency Rare terms (Kata-kata langka yang hanya muncul di dokumen-dokumen tertentu) lebih informatif dibandingkan dengan Frequent terms (kata-kata yang muncul di banyak dokumen) Oleh karena itu, Rare terms harus memiliki bobot/nilai yang lebih besar daripada Frequent terms

52 Inverse Document frequency Rare terms (Kata-kata langka yang hanya muncul di dokumen-dokumen tertentu) lebih informatif dibandingkan dengan Frequent terms (kata-kata yang muncul di banyak dokumen) Oleh karena itu, Rare terms harus memiliki bobot/nilai yang lebih besar daripada Frequent terms

53 Inverse Document frequency df t adalah ukuran kebalikan dari keinformatifan term t idf (inverse document frequency) dari sebuah term t didefinisikan: idf log ( N/df t 10 t )

54 Inverse Document frequency idf log ( N/df t 10 t ) Digunakan log (N/df t ) dibanding N/df t untuk mengecilkan efek dari IDF. Menggunakan log berbasis berapapun tidak masalah

55 Inverse Document frequency idf log ( N/df t 10 t ) Digunakan log (N/df t ) dibanding N/df t untuk mengecilkan efek dari IDF. Menggunakan log berbasis berapapun tidak masalah

56 Latihan Term df t idf t calpurnia 1 animal 100 sunday 1,000 fly 10,000 under 100,000 the 1,000,000 Berbeda dengan TF, sebuah term hanya memiliki satu nilai IDF.

57 Inverse Document frequency idf log ( N/df t 10 t ) df t idf t idf t Antony 2 Brutus 3 Caesar 5 Calpurnia 1 Cleopatra 1 Mercy 5 Worser 4 10 log (6/2) log (6/3) log (6/5) log (6/1) log (6/1) log (6/5) log (6/4)

58 TF-IDF Nilai TF-IDF dari sebuah term adalah perkalian antara nilai (Log)TF and nilai IDF-nya. TF-IDF = TF x IDF Term weighting paling populer

59 TF-IDF Nilai TF-IDF dari sebuah term adalah perkalian antara nilai (Log)TF and nilai IDF-nya. TF-IDF = TF x IDF Term weighting paling populer

60 TF-IDF TF-IDF = TF x IDF TF - IDF log(1 tf ) log t, d 10 ( N / df t, d t ) Term yang sering muncul di satu dokumen dan jarang muncul pada dokumen lain akan mendapatkan nilai tinggiaaaaaaaaa

61 TF-IDF TF-IDF = TF x IDF TF - IDF log(1 tf ) log t, d 10 ( N / df t, d t ) Term yang sering muncul di satu dokumen dan jarang muncul pada dokumen lain akan mendapatkan nilai tinggi

62 TF-IDF TF - IDF log(1 tf ) log t, d 10 ( N / df t, d t ) TF-IDF Antony & Cleopatra Julius Caesar The Tempest Hamlet Othello Macbeth Antony Brutus Caesar Calpurnia Cleopatra Mercy Worser

63 Variasi TF-IDF Metode Term Weighting