Document Indexing dan Term Weighting. M. Ali Fauzi

dokumen-dokumen yang mirip
VECTOR SPACE MODEL. Tujuan 4/2/13. Budi Susanto

Text & Web Mining - Budi Susanto - TI UKDW 1 VECTOR SPACE MODEL. Budi Susanto

Sistem Temu Kembali Informasi/ Information Retrieval

Temu-Kembali Informasi 2017

Text Pre-Processing. M. Ali Fauzi

BAB I PENDAHULUAN Latar Belakang

Sistem Temu-Kembali Informasi Perhitungan Kemiripan

Contoh Perhitungan Kemiripan Cosinus pada Model Ruang Vektor

BAB I PENDAHULUAN 1.1 Latar Belakang

SISTEM TEMU KEMBALI INFORMASI

Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem Temu Kembali Informasi

BAB I. Pendahuluan. 1. Latar Belakang Masalah

BAB 1 PENDAHULUAN Latar Belakang

BAB V EKSPERIMEN TEXT CLASSIFICATION

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI. 2.1 Peringkasan Teks Otomatis (Automatic Text Summarization) Peringkasan Teks Otomatis (Automatic Text Summarization) merupakan

ROCCHIO CLASSIFICATION

Integrasi Peringkas Dokumen Otomatis Dengan Penggabungan Metode Fitur dan Metode Latent Semantic Analysis (LSA) Sebagai Feature Reduction

BAB 3 LANDASAN TEORI

BAB II TINJAUAN PUSTAKA

BAB II LANDASAN TEORI

BAB II DASAR TEORI Crawler Definisi Focused Crawler dengan Algoritma Genetik [2]

Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem Temu Kembali Informasi

RANCANG BANGUN SISTEM TEMU KEMBALI INFORMASI ABSTRAK TUGAS AKHIR MAHASISWA PRODI TEKNIK INFORMATIKA UNSOED Oleh : Lasmedi Afuan

Pengujian Kerelevanan Sistem Temu Kembali Informasi

BAB 2 TINJAUAN PUSTAKA

BAB II LANDASAN TEORI

INFORMATION RETRIEVAL SYSTEM PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS DENGAN METODE VECTOR SPACE MODEL DAN ALGORITMA ECS STEMMER

Pemanfaatan Metode Vector Space Model dan Metode Cosine Similarity pada Fitur Deteksi Hama dan Penyakit Tanaman Padi

Text dan Web Mining - Budi Susanto TI UKDW 1 INDEXING. Budi Susanto

IMPLEMENTASI K NEAREST NEIGHBOR (KNN) PADA KLASIFIKASI ARTIKEL WIKIPEDIA INDONESIA

Implementasi Algoritma Term Frequency Inverse Document Frequency dan Vector Space Model untuk Klasifikasi Dokumen Naskah Dinas

EKSTRAKSI FITUR SITUS BERITA ONLINE UNTUK KALEIDOSKOP BERITA TAHUNAN

PENERAPAN SISTEM TEMU KEMBALI INFORMASI PADA KUMPULAN DOKUMEN SKRIPSI

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI

BAB II TINJAUAN PUSTAKA

IMPLEMENTASI VECTOR SPACE MODEL UNTUK MENINGKATKAN KUALITAS PADA SISTEM PENCARIAN BUKU PERPUSTAKAAN

3 METODE. Implementasi Document Index Graph. Penetapan nilai jarak intercluster. Penetapan nilai jarak intracluster. Stemming Penetapan jumlah dokumen

Perangkingan Dokumen Berbahasa Arab Menggunakan Latent Semantic Indexing

PEMANFAATAN ASSOCIATION RULE MINING DALAM MEMBANTU PENCARIAN DOKUMEN-DOKUMEN BERITA YANG SALING BERKAITAN

BAB 1 PENDAHULUAN UKDW

Information Retrieval

BAB I PENDAHULUAN I.1. Latar Belakang Masalah

INDEXING. Tujuan 4/2/13. Budi Susanto (v1.01)

RETRIEVAL STRATEGIES. Tujuan 4/9/13. Budi Susanto

Aplikasi Aljabar Vektor pada Sistem Temu-balik Informasi (Information Retrieval System)

PERINGKASAN TEKS BERITA SECARA OTOMATIS MENGGUNAKAN TERM FREQUENCY INVERSE DOCUMENT FREQUENCY (TF-IDF) SKRIPSI DANDUNG TRI SETIAWAN

JULIO ADISANTOSO - ILKOM IPB 1

TEKNIK VECTOR SPACE MODEL (VSM) DALAM PENENTUAN PENANGANAN DAMPAK GAME ONLINE PADA ANAK

UKDW. 1.1 Latar Belakang BAB 1 PENDAHULUAN

SISTEM PENCARIAN PASAL-PASAL PADA KITAB UNDANG-UNDANG HUKUM PIDANA DENGAN MENGGUNAKAN METODE TF-IDF. Abstrak

Fatkhul Amin Dosen Fakultas Teknologi Informasi Universitas Stikubank Semarang

STUDI AWAL KLASIFIKASI ARTIKEL WIKIPEDIA BAHASA INDONESIA DENGAN MENGGUNAKAN METODA K NEAREST NEIGHBOR

Text & Web Mining - Budi Susanto - TI UKDW 1 RETRIEVAL STRATEGIES. Budi Susanto

BAB II LANDASAN TEORI

commit to user 5 BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori Text mining

BAB III PERANCANGAN. Fitur. Reduksi & Pengelompokan. Gambar 3.1. Alur Pengelompokan Dokumen

PERSETUJUAI\ ARTIKEL ILMIAH. Mashar Eka Putra Dai. S1-Sistem Informasi. Teknik Informatika. Teknik. Penerapan Metode Document Frequency

1 BAB I PENDAHULUAN. 1.1 Latar Belakang

Sistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF)

Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi

Temu-Kembali Informasi 2017

INTEGRASI PERINGKAS DOKUMEN OTOMATIS SEBAGAI FEATURE REDUCTION PADA CLUSTERING DOKUMEN

BAB III ANALISIS DAN PERANCANGAN SISTEM

BAB I PENDAHULUAN. memberikan dampak yang luas dalam bagaimana manusia menjalani hidupnya.

TEMU BALIK INFORMASI PADA DOKUMEN TEKS BERBAHASA INDONESIA DENGAN METODE VECTOR SPACE RETRIEVAL MODEL

BAB II TINJAUAN PUSTAKA. penelitian yang penting (Baharudin, Lee and Khan, 2010). Beberapa peneliti telah

Tugas Makalah. Sistem Temu Kembali Informasi (STKI) TI Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System

BAB II TINJAUAN PUSTAKA

DETEKSI KEMIRIPAN TOPIK PROPOSAL JUDUL TUGAS AKHIR DAN SKRIPSI MENGGUNAKAN LATENT SEMANTIC ANALYSIS DI STMIK BUMIGORA MATARAM

PENCARIAN FULL TEXT PADA KOLEKSI SKRIPSI FAKULTAS TEKNIK UHAMKA MENGGUNAKAN METODE VECTOR SPACEMODEL

Seleksi Fitur Pada Dokumen Abstrak Teks Bahasa Indonesia Menggunakan Metode Information Gain

BAB II TINJAUAN PUSTAKA

SISTEM INFORMATION RETRIEVAL PENCARIAN KESAMAAN AYAT TERJEMAHAN AL QURAN BERBAHASA INDONESIA DENGAN QUERY EXPANSION DARI TAFSIRNYA

BAB III METODELOGI PENELITIAN

STBI Sistem Temu Balik Informasi Temu-Balik Boolean. Husni. Husni.trunojoyo.ac.id Komputasi.wordpress.

Pengelompokan Dokumen Petisi Online Di Situs Change.org Menggunakan Algoritme Hierarchical Clustering UPGMA

PENILAIAN UJIAN BERTIPE URAIAN (ESSAY) MENGGUNAKAN METODE KEMIRIPAN TEKS (TEXT SIMILARITY) SKRIPSI

UKDW 1. BAB 1 PENDAHULUAN Latar Belakang Masalah

PENYUSUNAN STRONG S CONCORDANCE UNTUK ALKITAB PERJANJIAN BARU BAHASA INDONESIA , Indonesia.

ANALISA KOMPETENSI DOSEN DALAM PENENTUAN MATAKULIAH YANG DIAMPU MENGGUNAKAN METODE CF-IDF A B S T R A K

IMPLEMENTASI VECTOR SPACE MODEL DAN BEBERAPA NOTASI METODE TERM FREQUENCY INVERSE DOCUMENT FREQUENCY (TF-IDF) PADA SISTEM TEMU KEMBALI INFORMASI

Identifikasi Plagiasi Karya Ilmiah berbasis Temu Kembali Informasi Menggunakan Algoritam Edit Distance Melalui Peringkasan Teks Otomatis

Penerapan Model OKAPI BM25 Pada Sistem Temu Kembali Informasi

BAB II LANDASAN TEORI

BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB I PENDAHULUAN. Pada umumnya pembaca ingin mendapatkan rangkuman suatu artikel dengan cepat

BAB III METODOLOGI PENELITIAN

IMPLEMENTASI METODE K-NEAREST NEIGHBOR DENGAN DECISION RULE UNTUK KLASIFIKASI SUBTOPIK BERITA

PENGEMBANGAN APLIKASI KALEIDOSKOP BERITA OTOMATIS BERBAHASA INDONESIA

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI

Keywords: information retrieval system, cosine similarity, mean average precision. Jurnal Ilmu Komputer - Volume 5 - No 2 September 2012

IMPLEMENTASI METODE K-NEAREST NEIGHBOUR DENGAN PEMBOBOTAN TF.IDF.ICF UNTUK KATEGORISASI IDE KREATIF PADA PERUSAHAAN

BAB 3 PERANCANGAN 3.1 GAMBARAN UMUM PROSES SEGMENTASI DOKUMEN

TEMU KEMBALI INFORMASI

BAB II TINJAUAN PUSTAKA. Penelitian awal dalam bidang automatic text summarization dimulai

Transkripsi:

Document Indexing dan Term Weighting M. Ali Fauzi

Document Indexing Setelah melakukan preprocessing, kita akan mendapatkan sebuah set term yang bisa kita jadikan sebagai indeks. Indeks adalah perwakilan dari dokumen.aa Indeks memudahkan proses selanjutnya dalam teks mining ataupun IR.

Document Indexing Setelah melakukan preprocessing, kita akan mendapatkan sebuah set term yang bisa kita jadikan sebagai indeks. Indeks adalah perwakilan dari dokumen. Indeks memudahkan proses selanjutnya dalam teks mining ataupun IR.

Document Indexing Hasil Token Hasil Filtering Hasil Stemming Type they - - - - are - - - - Term applied applied apply apply apply to - - - - the - - - - words words word word word in - - - - the - - - - texts texts text text text

Document Indexing Hasil Token Hasil Filtering Hasil Stemming Type Term namanya namanya nama nama nama adalah - - - - santiago santiago santiago santiago santiago santiago santiago santiago - - sudah - - - - memutusk an memutusk an putus putus putus untuk - - - - mencari mencari cari cari cari sang - - - - alkemis alkemis alkemis alkemis alkemis

Document Indexing Dalam mebuat sebuah indeks, secara umum kita tidak memperhatikan urutan kata John is quicker than Mary dan Mary is quicker than John memiliki representasi yang sama Ini disebut bag of words model.

Document Indexing Dalam mebuat sebuah indeks, secara umum kita tidak memperhatikan urutan kata John is quicker than Mary dan Mary is quicker than John memiliki representasi yang sama Ini disebut bag of words model.

Document Indexing Dalam mebuat sebuah indeks, secara umum kita tidak memperhatikan urutan kata John is quicker than Mary dan Mary is quicker than John memiliki representasi yang sama Ini disebut bag of words model.

Document Indexing Hasil Token Hasil Filtering Hasil Stemming Type they - - - - are - - - - Term applied applied apply apply apply to - - - - the - - - - words words word word word in - - - - the - - - - texts texts text text text

Document Indexing Hasil Token Hasil Filtering Hasil Stemming Type Term namanya namanya nama nama nama adalah - - - - santiago santiago santiago santiago santiago santiago santiago santiago - - sudah - - - - memutusk an memutusk an putus putus putus untuk - - - - mencari mencari cari cari cari sang - - - - alkemis alkemis alkemis alkemis alkemis

Term Weighting Teks Mining

Term Weighting Dalam mebuat sebuah indeks, setiap kata/term memiliki bobot/nilai masingmasing Ada banyak metode untuk memberikan bobot pada masing-masing term pada indeks

Term Weighting Dalam mebuat sebuah indeks, setiap kata/term memiliki bobot/nilai masingmasing Ada banyak metode untuk memberikan bobot pada masingmasing term pada indeks

Term Weighting Term Weighting : Metode untuk memberikan nilai/bobot pada masingmasing term indeks.

Term Weighting Beberapa metode Term Weighting yang popular : Binary Term Weighting (Raw) Term-frequency Logarithmic Term-frequency TF-IDF

Binary Term Weighting Metode Term Weighting

Binary Term Weighting Masing-masing dokumen direpresentasikan oleh sebuah binary vector Dokumen diwakili oleh kolom, dan term diwakili oleh baris Jika kata/term berada pada dokumen tertentu, maka nilainya 1, jika tidak, maka nilainya 0

Binary Term Weighting Masing-masing dokumen direpresentasikan oleh sebuah binary vector Dokumen diwakili oleh kolom, dan term diwakili oleh baris Jika kata/term berada pada dokumen tertentu, maka nilainya 1, jika tidak, maka nilainya 0

Binary Term Weighting Masing-masing dokumen direpresentasikan oleh sebuah binary vector Dokumen diwakili oleh kolom, dan term diwakili oleh baris Jika kata/term berada pada dokumen tertentu, maka nilainya 1, jika tidak, maka nilainya 0

Binary Term Weighting Metode term weighting ini tidak memperhatikan jumlah kemunculan kata pada 1 dokumen.

Binary Term Weighting Misal : terdapat 6 dokumen : Antony and Cleopatra, Julius Caesar, The Tempest, Hamlet, Othello, dan Macbeth dan 7 kata/term : Antony, Brutus, Caesar, Calpurnia, Cleopatra, mercy, dan worser

Binary Term Weighting Antony and Cleopatra Julius Caesar The Tempest Hamlet Othello Macbeth Antony 1 1 0 0 0 1 Brutus 1 1 0 1 0 0 Caesar 1 1 0 1 1 1 Calpurnia 0 1 0 0 0 0 Cleopatra 1 0 0 0 0 0 mercy 1 0 1 1 1 1 worser 1 0 1 1 1 0

(Raw) Term-frequency Metode Term Weighting

(Raw) Term-frequency Seperti halnya binary, hanya saja mempertimbangkan jumlah kemunculan kata pada dokumen: count vector Term frequency tf t,d dari term t dalam dokumen d didefiniskan sebagai jumlah kemunculan term t pada dokumen d.

(Raw) Term-frequency Seperti halnya binary, hanya saja mempertimbangkan jumlah kemunculan kata pada dokumen: count vector Term frequency TF t,d dari term t dalam dokumen d didefiniskan sebagai jumlah kemunculan term t pada dokumen d.

(Raw) Term-frequency Antony and Cleopatra Julius Caesar The Tempest Hamlet Othello Macbeth Antony 157 73 0 0 0 0 Brutus 4 157 0 1 0 0 Caesar 232 227 0 2 1 1 Calpurnia 0 10 0 0 0 0 Cleopatra 57 0 0 0 0 0 mercy 2 0 3 5 5 1 worser 2 0 1 1 1 0

(Raw) Term-frequency Term frequency TF t,d dari term t dalam dokumen d didefiniskan sebagai jumlah kemunculan term t pada dokumen d. TF Anthony, Antony and Cleopatra = 157 TF Anthony, Julius Caesar = 73 TF Mercy, Macbeth = 1

(Raw) Term-frequency Raw term frequency kurang relevan: Sebuah term yang muncul 10 kali pada sebuah dokumen memang lebih penting dalam mewakili dokumen dibandingkan dengan term yang muncul cuma 1 kali. Tapi tidak berate 10 kali lebih penting.

(Raw) Term-frequency Relevance does not increase proportionally with term frequency.

Log Term-frequency Metode Term Weighting

Log Term-frequency Log Term-frequency dari term t dalam d adalah w t,d 1 log10 tft,d, if tft,d 0 0, otherwise 0 0, 1 1, 2 1.3, 10 2, 1000 4, etc.

Log Term-frequency Log Term-frequency dari term t dalam d adalah w t,d 1 log10 tft,d, if tft,d 0 0, otherwise 0 0, 1 1, 2 1.3, 10 2, 1000 4, etc.

Log Term-frequency W tf Antony & Cleopatra Julius Caesar The Tempest Hamlet Othello Macbeth Antony 1+ 10 log(157) 1+ 10 log(73) 0 0 0 0 Brutus 1+ 10 log(4) 1+ 10 log(157) 0 1+ 10 log(1) 0 0 Caesar 1+ 10 log(232) 1+ 10 log(227) 0 1+ 10 log(2) 1+ 10 log(1) 1+ 10 log(1) Calpurnia 0 1+ 10 log(10) 0 0 0 0 Cleopatra 1+ 10 log(57) 0 0 0 0 0 Mercy 1+ 10 log(2) 0 1+ 10 log(3) 1+ 10 log(5) 1+ 10 log(5) 1+ 10 log(1) Worser 1+ 10 log(2) 0 1+ 10 log(1) 1+ 10 log(1) 1+ 10 log(1) 0

Log Term-frequency W tf Antony & Cleopatra Julius Caesar The Tempest Hamlet Othello Macbeth Antony 3.195899652 2.86332286 0 0 0 0 Brutus 1.602059991 3.195899652 0 1 0 0 Caesar 3.365487985 3.356025857 0 1.301029996 1 1 Calpurnia 0 2 0 0 0 0 Cleopatra 2.755874856 0 0 0 0 0 Mercy 1.301029996 0 1.477121255 1.698970004 1.698970004 1 Worser 1.301029996 0 1 1 1 0

TF-IDF Metode Term Weighting

TF-IDF Nilai TF-IDF dari sebuah term adalah perkalian antara nilai (Log)TF and nilai IDF-nya. TF-IDF = TF x IDF Catatan: tanda - dalam tf-idf adalah tanda hubung, bukan minus!. Alternative : TFf.IDF, TF x IDF

TF-IDF Nilai TF-IDF dari sebuah term adalah perkalian antara nilai (Log)TF and nilai IDF-nya. TF-IDF = TF x IDF Catatan: tanda - dalam tf-idf adalah tanda hubung, bukan minus!. Alternative : TFf.IDF, TF x IDF

TF-IDF Apa itu IDF? IDF : Inverse Document Frequency atau Kebalikan dari Document Frequency

Document frequency Document frequency (df t ) adalah jumlah dokumen yang mengandung term t df t N N = Jumlah Dokumen

Document frequency Document frequency (df t ) adalah jumlah dokumen yang mengandung term t df t N N = Jumlah Dokumen

Document frequency Antony & Cleopatra Julius Caesar The Tempest Hamlet Othello Macbeth df t Antony 157 73 0 0 0 0 2 Brutus 4 157 0 1 0 0 3 Caesar 232 227 0 2 1 1 5 Calpurnia 0 10 0 0 0 0 1 Cleopatra 57 0 0 0 0 0 1 Mercy 2 0 3 5 5 1 5 Worser 2 0 1 1 1 0 4

Document frequency Document frequency (df t ) adalah jumlah dokumen yang mengandung term t Rare terms adalah term memiliki nilai df yang kecil Frequent terms adalah term memiliki nilai df yang besar

Document frequency Document frequency (df t ) adalah jumlah dokumen yang mengandung term t Rare terms adalah term memiliki nilai df yang kecil Frequent terms adalah term memiliki nilai df yang besar

Inverse Document frequency Apa itu IDF? IDF : Inverse Document Frequency atau Kebalikan dari Document Frequency

Inverse Document frequency Kata-kata yang muncul di banyak dokumen adalah kata yang tidak penting Misal kata : dan, di, atau, merupakan, tinggi, bisa Sering muncul di hampir semua dokumena Kata-kata seperti ini kurang informative

Inverse Document frequency Kata-kata yang muncul di banyak dokumen adalah kata yang tidak penting Misal kata : dan, di, atau, merupakan, tinggi, bisa Sering muncul di hampir semua dokumen Kata-kata seperti ini kurang informative

Inverse Document frequency Kata-kata yang muncul di banyak dokumen adalah kata yang tidak penting Misal kata : dan, di, atau, merupakan, tinggi, bisa Sering muncul di hampir semua dokumen Kata-kata seperti ini kurang informatif

Inverse Document frequency Di sisi lain, kata-kata langka yang hanya muncul di sedikit dokumen, lebih informatif Misal, kata Meganthropus yang hanya muncul di dokumen sejarah, hampir tidak pernah muncul di dokumen-dokumen lain seperti dokumen olahraga, ekonomi, maupun politik.

Inverse Document frequency Di sisi lain, kata-kata langka yang hanya muncul di sedikit dokumen, lebih informatif Misal, kata Meganthropus yang hanya muncul di dokumen sejarah, hampir tidak pernah muncul di dokumendokumen lain seperti dokumen olahraga, ekonomi, maupun politik.

Inverse Document frequency Rare terms (Kata-kata langka yang hanya muncul di dokumen-dokumen tertentu) lebih informatif dibandingkan dengan Frequent terms (kata-kata yang muncul di banyak dokumen) Oleh karena itu, Rare terms harus memiliki bobot/nilai yang lebih besar daripada Frequent terms

Inverse Document frequency Rare terms (Kata-kata langka yang hanya muncul di dokumen-dokumen tertentu) lebih informatif dibandingkan dengan Frequent terms (kata-kata yang muncul di banyak dokumen) Oleh karena itu, Rare terms harus memiliki bobot/nilai yang lebih besar daripada Frequent terms

Inverse Document frequency df t adalah ukuran kebalikan dari keinformatifan term t idf (inverse document frequency) dari sebuah term t didefinisikan: idf log ( N/df t 10 t )

Inverse Document frequency idf log ( N/df t 10 t ) Digunakan log (N/df t ) dibanding N/df t untuk mengecilkan efek dari IDF. Menggunakan log berbasis berapapun tidak masalah

Inverse Document frequency idf log ( N/df t 10 t ) Digunakan log (N/df t ) dibanding N/df t untuk mengecilkan efek dari IDF. Menggunakan log berbasis berapapun tidak masalah

Latihan Term df t idf t calpurnia 1 animal 100 sunday 1,000 fly 10,000 under 100,000 the 1,000,000 Berbeda dengan TF, sebuah term hanya memiliki satu nilai IDF.

Inverse Document frequency idf log ( N/df t 10 t ) df t idf t idf t Antony 2 Brutus 3 Caesar 5 Calpurnia 1 Cleopatra 1 Mercy 5 Worser 4 10 log (6/2) 0.47712125 10 log (6/3) 0.30103 10 log (6/5) 0.07918125 10 log (6/1) 0.77815125 10 log (6/1) 0.77815125 10 log (6/5) 0.07918125 10 log (6/4) 0.17609126

TF-IDF Nilai TF-IDF dari sebuah term adalah perkalian antara nilai (Log)TF and nilai IDF-nya. TF-IDF = TF x IDF Term weighting paling populer

TF-IDF Nilai TF-IDF dari sebuah term adalah perkalian antara nilai (Log)TF and nilai IDF-nya. TF-IDF = TF x IDF Term weighting paling populer

TF-IDF TF-IDF = TF x IDF TF - IDF log(1 tf ) log t, d 10 ( N / df t, d t ) Term yang sering muncul di satu dokumen dan jarang muncul pada dokumen lain akan mendapatkan nilai tinggiaaaaaaaaa

TF-IDF TF-IDF = TF x IDF TF - IDF log(1 tf ) log t, d 10 ( N / df t, d t ) Term yang sering muncul di satu dokumen dan jarang muncul pada dokumen lain akan mendapatkan nilai tinggi

TF-IDF TF - IDF log(1 tf ) log t, d 10 ( N / df t, d t ) TF-IDF Antony & Cleopatra Julius Caesar The Tempest Hamlet Othello Macbeth Antony 1.524831652 1.366152196 0 0 0 0 Brutus 0.482268112 0.962061659 0 0.301029996 0 0 Caesar 0.266483532 0.265734309 0 0.103017176 0.079181246 0.07918 Calpurnia 0 1.556302501 0 0 0 0 Cleopatra 2.144487465 0 0 0 0 0 Mercy 0.103017176 0 0.116960302 0.134526562 0.134526562 0.07918 Worser 0.22910001 0 0.176091259 0.176091259 0.176091259 0

Variasi TF-IDF Metode Term Weighting

Variasi TF-IDF

Term Weighting Lain Metode Term Weighting

Term Weighting Lain Masih ada banyak Term Weighting lain Information Gain Latent semantic indexing Mutual information TF.IDF.ICF Dsb.