SVM untuk Ranking. Model Linear

dokumen-dokumen yang mirip
SVM untuk Regresi Ordinal

SVM untuk Regresi. Machine Learning

Support Vector Machine

Metode Kernel. Machine Learning

Neural Networks. Machine Learning

Model Linear untuk Klasifikasi

Radial Basis Function Networks

UJI KINERJA LEARNING TO RANK DENGAN METODE SUPPORT VECTOR REGRESSION

Model Linear untuk Regresi

BUKU RANCANGAN PEMBELAJARAN

LAPORAN TUGAS AKHIR. Disusun oleh: Franky

Pengantar Support Vector Machine

BAB II DASAR TEORI Crawler Definisi Focused Crawler dengan Algoritma Genetik [2]

KLASIFIKASI WILAYAH DESA-PERDESAAN DAN DESA-PERKOTAAN WILAYAH KABUPATEN SEMARANG DENGAN SUPPORT VECTOR MACHINE (SVM)

BAB III LANDASAN TEORI. Definisi Peramalan adalah memperkiraan atau memproyeksikan sesuatu

1. Pendahuluan 1.1 Latar belakang 1.2 Perumusan masalah

KAJIAN KEMAMPUAN GENERALISASI SUPPORT VECTOR MACHINE DALAM PENGENALAN JENIS SPLICE SITES PADA BARISAN DNA

BAB II DASAR TEORI. Pada bab ini akan dibahas teori-teori pendukung yang digunakan sebagai acuan dalam merancang algoritma.

BAB I PENDAHULUAN Latar Belakang

BAB I. Pendahuluan. 1. Latar Belakang Masalah

PENDAHULUAN. 1.1 Latar Belakang

SUPPORT VECTOR MACHINE (SVM)

ISSN SUPPORT VECTOR MACHINE PADA INFORMATION RETRIEVAL. Oleh....(I Ketut Purnamawan)

Pendahuluan : Evaluasi*

PRESENTASI TUGAS AKHIR IMPLEMENTASI PENGGABUNGAN ALGORITMA SUPPORT VECTOR MACHINE DAN SIMULATED ANNEALING PADA PERMASALAHAN KLASIFIKASI POLA

BAB V EKSPERIMEN TEXT CLASSIFICATION

PREDIKSI INDEKS HARGA SAHAM GABUNGAN MENGGUNAKAN SUPPORT VECTOR REGRESSION (SVR) DENGAN ALGORITMA GRID SEARCH

BAB 2 TINJAUAN PUSTAKA

II TINJAUAN PUSTAKA. * adalah operasi konvolusi x dan y, adalah fungsi yang merepresentasikan citra output,

BAB II LANDASAN TEORI

1. Pendahuluan. 1.1 Latar Belakang

PENERAPAN METODE KLASIFIKASI SUPPORT VECTOR MACHINE (SVM) PADA DATA AKREDITASI SEKOLAH DASAR (SD) DI KABUPATEN MAGELANG

KLASIFIKASI CITRA DOKUMEN MENGGUNAKAN METODE SUPPORT VECTOR MACHINE DENGAN EKSTRAKSI CIRI TERM FREQUENCY INVERSE DOCUMENT FREQUENCY

SISTEM DETEKSI PENYAKIT DIABETES MENGGUNAKAN METODE SUPPORT VECTOR MACHINES

BAB I PENDAHULUAN. 1.1 Latar Belakang

KLASIFIKASI LAMA STUDI MAHASISWA FSM UNIVERSITAS DIPONEGORO MENGGUNAKAN REGRESI LOGISTIK BINER DAN SUPPORT VECTOR MACHINE (SVM)

BAB III PERANCANGAN. Fitur. Reduksi & Pengelompokan. Gambar 3.1. Alur Pengelompokan Dokumen

KLASIFIKASI WILAYAH DESA-PERDESAAN DAN DESA-PERKOTAAN WILAYAH KABUPATEN SEMARANG DENGAN SUPPORT VECTOR MACHINE (SVM) ABSTRACT

IMPLEMENTASI K NEAREST NEIGHBOR (KNN) PADA KLASIFIKASI ARTIKEL WIKIPEDIA INDONESIA

g(x, y) = F 1 { f (u, v) F (u, v) k} dimana F 1 (F (u, v)) diselesaikan dengan: f (x, y) = 1 MN M + vy )} M 1 N 1

PENGGOLONGAN UANG KULIAH TUNGGAL MENGGUNAKAN SUPPORT VECTOR MACHINE

BAB II TINJAUAN PUSTAKA. penelitian yang penting (Baharudin, Lee and Khan, 2010). Beberapa peneliti telah

Text & Web Mining - Budi Susanto - TI UKDW 1 VECTOR SPACE MODEL. Budi Susanto

BAB III ANALISIS DAN PENYELESAIAN MASALAH

PENDETEKSIAN JENIS DAN KELAS AROMA DENGAN MENGGUNAKAN METODE ONE-VS-ONE DAN METODE ONE-VS-REST

BAB 3 PROSEDUR DAN METODOLOGI. menawarkan pencarian citra dengan menggunakan fitur low level yang terdapat

Pendahuluan* Data vs Informasi

VECTOR SPACE MODEL. Tujuan 4/2/13. Budi Susanto

BAB 2 LANDASAN TEORI

ABSTRAK. Universitas Kristen Maranatha

BAB I PENDAHULUAN 1.1 Latar Belakang

INFORMATION RETRIEVAL SYSTEM PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS DENGAN METODE VECTOR SPACE MODEL DAN ALGORITMA ECS STEMMER

BAB III METODELOGI PENELITIAN

KONSEP MULTICRITERIA COLLABORATIVE FILTERING UNTUK PERBAIKAN REKOMENDASI

RETRIEVAL STRATEGIES. Tujuan 4/9/13. Budi Susanto

KONSEP MULTICRITERIA COLLABORATIVE FILTERING UNTUK PERBAIKAN REKOMENDASI

Studi Kasus Klasifikasi Hutan

BAB I PENDAHULUAN. pendidikan, perbankan, perencanaan dan sebagainya. Dengan adanya teknologi komputer

BAB III METODOLOGI. Support Vector Machines (SVM) merupakan salah satu metode machine

Text & Web Mining - Budi Susanto - TI UKDW 1 RETRIEVAL STRATEGIES. Budi Susanto

HASIL DAN PEMBAHASAN. B fch a. d b

BAB 2 OPTIMISASI KOMBINATORIAL. Masalah optimisasi merupakan suatu proses pencarian varibel bebas yang

PENDAHULUAN. Latar belakang

Integrasi Peringkas Dokumen Otomatis Dengan Penggabungan Metode Fitur dan Metode Latent Semantic Analysis (LSA) Sebagai Feature Reduction

Analisis Akurasi Support Vector Machine...

PRESENTASI TUGAS AKHIR KI091391

EVALUASI EFEKTIFITAS METODE MACHINE-LEARNING PADA SEARCH-ENGINE

BAB 1 PENDAHULUAN Latar Belakang

ALGORITMA SUPPORT VECTOR MACHINE UNTUK MENDETEKSI SMS SPAM BERBAHASA INDONESIA

Implementasi Algoritma Term Frequency Inverse Document Frequency dan Vector Space Model untuk Klasifikasi Dokumen Naskah Dinas

BAB I PERSYARATAN PRODUK

BAB III METODE PENELITIAN

BAB III MODEL STATE-SPACE. dalam teori kontrol modern. Model state space dapat mengatasi keterbatasan dari

2. Adanya resiko pemumpukan barang pada gudang.

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

Studi Kasus Sistem Rekomendasi

III KERANGKA PEMIKIRAN

BAB 2 LANDASAN TEORI

BAB 3 METODE PENELITIAN

BAB II LANDASAN TEORI

KLASIFIKASI PENERIMA PROGRAM BERAS MISKIN (RASKIN) DI KABUPATEN WONOSOBO DENGAN METODE SUPPORT VECTOR MACHINE MENGGUNAKAN LibSVM SKRIPSI

Sistem Temu Kembali Informasi/ Information Retrieval IRS VS SI LAIN

PENGGUNAAN FITUR ABSTRAKSI DAN CATATAN PUBLIKASI PENULIS UNTUK KLASIFIKASI ARTIKEL ILMIAH DENGAN METADATA YANG TERBATAS

Matrix Factorization. Machine Learning

BAB III METODE POHON KLASIFIKASI QUEST

IMPLEMENTASI METODE MULTIPLE KERNEL SUPPORT VECTOR MACHINE UNTUK SELEKSI FITUR DARI DATA EKSPRESI GEN DENGAN STUDI KASUS LEUKIMIA DAN TUMOR USUS BESAR

BAB 2 LANDASAN TEORI

Recommendation System

PREDIKSI INDEKS HARGA SAHAM GABUNGAN MENGGUNAKAN SUPPORT VECTOR REGRESSION DENGAN ALGORITMA GRID SEARCH

Bab 1 PENDAHULUAN. 1.1 Latar Belakang

SUPPORT VECTOR MACHINE UNTUK IMAGE RETRIEVAL

BAB 2 LANDASAN TEORI

Pemanfaatan Metode Vector Space Model dan Metode Cosine Similarity pada Fitur Deteksi Hama dan Penyakit Tanaman Padi

DIAGNOSA KERUSAKAN BANTALAN BOLA MENGGUNAKAN METODE SUPPORT VECTOR MACHINE

Bab 5 Penerapan Neural Network Dalam Klasifikasi Citra Penginderaan Jauh

4 Notepad dan Microsoft Excel sebagai editor data.

INTEGRASI PERINGKAS DOKUMEN OTOMATIS SEBAGAI FEATURE REDUCTION PADA CLUSTERING DOKUMEN

BAB I PENDAHULUAN 1.1 Latar Belakang

Transkripsi:

MMA10991 Topik Khusus - Machine Learning Dr. rer. nat. Hendri Murfi Intelligent Data Analysis (IDA) Group Departemen Matematika, Universitas Indonesia Depok 16424 Telp. +62-21-7862719/7863439, Fax. +62-21-7863439, Email. hendri@ui.ac.id Model Linear Model dasar yang akan digunakan adalah model linear, yaitu model yang merupakan kombinasi linear dari fungsi basis, yaitu: Dimana x = (x 1, x 2,..., x D ) T adalah variabel input, dan w = (w 0, w 1,..., w D ) T adalah parameter, φ(x) adalah fungsi basis, M adalah jumlah fungsi basis Pada banyak metode φ 0 (x) = 1, sehingga w 0 berfungsi sebagai bias Ada banyak pilihan yang mungkin untuk fungsi basis φ(x), misal fungsi polinomial, fungsi gaussian, fungsi sigmoidal, fungsi pemetaan, dll 2

Model Linear Kutukan Dimensi Model linear memiliki sifat-sifat yang penting baik dari aspek komputasi maupun analitik. Penggunaan model linear dengan pendekatan parametrik pada metode klasik memiliki keterbatasan pada aplikasi praktis disebabkan oleh kutukan dimensi (curse of dimensionality) y x, w =w 0 w 1 x w 2 x 2 w 3 x 3 1 D 3 untuk model beorde M, maka pertumbuhan jumlah parameter w proposional dengan D M 3 Model Linear Solusi Praktis Untuk menerapkan metode ini pada masalah skala besar, pendekatan umum yang dilakukan adalah membuat fungsi basis dapat beradaptasi dengan data pembelajaran, dan mengeset data pembelajaran tersebut sebagai pusat fungsi basis. Selanjutnya, memilih sebagian dari data pembelajaran tersebut selama proses training (nonparametrik). Dasarnya adalah bahwa data real biasanya memiliki sifat mulus, artinya perubahan sedikit pada data input hanya akan memberikan sedikit perubahan pada output Penggunaan fungsi kernel sebagai fungsi basis adalah salah satu contoh pendekatan seperti ini yang banyak digunakan saat ini. 4

Metode Kernel Fungsi Kernel: Definisi Fungsi kernel adalah suatu fungsi k yang mana untuk semua vektor input x,z akan memenuhi kondisi k(x,z) = φ(x) T φ(z) dimana φ(.) adalah fungsi pemetaan dari ruang input ke ruang fitur Dengan kata lain, fungsi kernel adalah fungsi perkalian dalam (inner product) pada ruang fitur. 5 Salah satu contoh fungsi kernel yang banyak digunakan adalah fungsi Gaussian, yaitu: k(x,x') = exp(- x-x' 2 / 2σ 2 ) dimana x' adalah inti yang biasanya dipilih dari data pembelajaran. Misal untuk data x=5 dengan target t=0.04, maka data tsb dapat digambarkan dengan fungsi basis sbb: y(x) = 0.04 * exp(- x-5 2 / 2σ 2 ) Metode Kernel Fungsi Kernel: Contoh 6

Metode Kernel Fungsi Kernel: Keuntungan Fungsi kernel memungkinkan kita untuk mengimplementasikan suatu model pada ruang dimensi lebih tinggi (ruang fitur) tanpa harus mendefinisikan fungsi pemetaan dari ruang input ke ruang fitur Sehingga, untuk kasus yang nonlinearly separable pada ruang input, diharapkan akan menjadi linearly separable pada ruang fitur Selanjutnya, kita dapat menggunakan hyperplane sebagai decision boundary secara efisien 7 Metode Kernel Fungsi Kernel: Penggunaan Secara umum, ada dua cara penggunaan metode kernel pada machine learning, yaitu: Penggunaan langsung, yaitu fungsi kernel digunakan sebagai fungsi basis dari model machine learning tersebut, contoh: radial basis function Penggunaan tidak langsung melalui kernel trick, yaitu merepresentasikan suatu model ke dalam representasi dual yang mengandung inner product dari fungsi pemetaan, contoh: support vector machine, kernel linear regression, kernel Perceptron, kernel PCA, dll

Klasifikasi Support Vector Machine Klasifikasi dan Regresi Diberikan data pembelajaran {x n, t n }, n = 1 sd N t n bernilai diskrit (kelas) berhingga tidak terurut (skala nominal) Permasalahan: menentukan decision boundary yang dapat mengklasifikasi data dengan benar Regresi t i bernilai kontinu (bilangan real) Permasalahan: menentukan fungsi regresi yang dapat memprediksi nilai data dengan benar 9 Support Vector Machine Regresi Ordinal Diberikan data pembelajaran {x n, t n }, n = 1 sd N Regresi Ordinal t n bernilai diskrit (kelas) berhingga seperti klasifikasi Terdapat urutan diantara elemen t n (skala ordinal) seperti regresi Permasalahan: menentukan fungsi regresi ordinal yang dapat mengklasifikasikan data dengan benar 10

Support Vector Machine Ranking Diberikan data pembelajaran {x n, t n }, n = 1 sd N Ranking t n bernilai real yang menyatakan urutan (ranking) dari data Permasalahan: menentukan fungsi ranking yang dapat mengurutkan data dengan benar 11 Learning to Rank Learning to Rank adalah suatu bidang penelitian yang bertujuan membangun fungsi ranking dengan mengunakan machine learning Misal x i adalah suatu item/dokumen, q j adalah suatu query, f adalah suatu fungsi ranking, maka Learning to Rank dapat diilustrasikan sbb: 12

Bentuk Umum Model linear yang akan digunakan sebagai fungsi regresi ordinal memiliki bentuk umum sbb: y(x) = w T φ(x) dimana x adalah vektor input, w adalah parameter bobot, dan φ(x) adalah fungsi pemetaan 13 Formulasi Masalah Diberikan data pembelajaran {x(q k,d n ), t}, dimana x(q k,d n ) ϵ R D adalah suatu vektor dimana dimensi/fitur merupakan parameter-parameter kemiripan antara query q k ϵ R S, k=1..k dan item/dokumen d n ϵ RS, n=1..n, dan t ϵ {r, r,..., r } adalah suatu skala ordinal. 1 2 P Permasalahan adalah menentukan fungsi y(x) sedemikian sehingga untuk sembarang pasangan data training (x i, t i ) dan (x j, t j ) maka y(x i ) > y(x j ) <==> t i > t j Contoh: Diberikan data training (x 1, 4), (x 2, 3), (x 3, 2), (x 4, 1), maka w 1 adalah fungsi yang benar 14

Formulasi Masalah Misal P k adalah himpunan dari pasangan (i,j) untuk suatu query q k, dimana x i memiliki ranking yang lebih tinggi dari x j : P k = {(i,j) : t i > t j } Contoh: dari contoh sebelumnya, maka P 1 = {(1,2), (1,3), (1,4), (2,3), (2,4), (3,4)} 15 Formulasi Masalah Maka penentuan fungsi y(x) harus memenuhi kondisi berikut ini: i, j P 1 : w T x q 1, d i w T x q 1, d j i, j P 2 : w T x q 2, d i w T x q 2, d j i, j P k : w T x q k, d i w T x q k, d j 16

Formulasi Masalah Asumsikan semua data dapat di ranking dengan benar (linearly rankable), maka jarak antara proyeksi dua data x(q k, d i ) dan x(q k, d j ) pada w adalah: w T x q k, d i x q k, d j w arg max w Margin (δ i ) adalah jarak terdekat dari proyeksi dua data training pada vektor bobot w. Sehingga, memaksimumkan margin dapat dideskripsikan sbb: { 1 w min [w T x q k, d i x q k, d j ]} i, j 17 Formulasi Masalah Solusi langsung dari masalah optimasi sebelumnya akan sangat kompleks, sehingga perlu dikonversi ke masalah yang ekivalen yang lebih mudah diselesaikan Salah satu metode adalah menggunakan bentuk kanonik, yaitu: w T x q k, d i x q k, d j =1 untuk data yang terdekat. Selanjutnya, semua data pembelajaran harus memenuhi kondisi berikut ini: w T x q k, d i x q k, d j 1 18

Formulasi Masalah Sehingga masalah penentuan fungsi ranking y(x) dapat ditulis sbb: 1 arg min w 2 w 2 s.t i, j P 1 : w T x q 1, d i w T x q 1, d j i, j P 2 : w T x q 2, d i w T x q 2, d j i, j P k : w T x q k, d i w T x q k,d j Dengan kata lain, penentuan fungsi ranking y(x) menjadi masalah pemrograman kuadrat (quadratic programming), yaitu meminimumkan suatu fungsi kuadrat dengan kendala pertidaksamaan linear 19 Soft Margin: Landasan Diberikan data pembelajaran {x(q k,d n ), t} Pada formulasi sebelumnya, semua data diasumsikan linearly rankable pada ruang fitur φ(x). Dalam aplikasi praktis, kondisi tersebut sering tidak dapat terpenuhi bahkan setelah data di transformasi ke ruang fitur φ(x). Masalah ini diatasi dengan membuat margin lunak (soft margin) yang memungkinkan beberapa data pada urutan yang salah 20

Soft Margin: Formulasi Masalah Untuk merealisasikan soft margin ini, diperkenalkan variabel slack, ξ ijk 0 untuk masing-masing pasangan data pembelajaran Variabel slack tersebut bernilai i, j P k : w T [ x q k, d i w T x q k,d j ]=1 ijk Sehingga, ξ ijk = 0 adalah pasangan data yang terletak pada margin, 0 < ξ ijk 1 adalah pasangan data yang terletak didalam margin, dan ξ ijk > 1 adalah pasangan data yang salah ranking 21 Soft Margin: Formulasi Masalah Sehingga masalah penentuan fungsi ranking y(x) dapat ditulis sbb [1]: 1 arg min w 2 w 2 C ijk s.t i, j P 1 : w T [ x q 1, d i w T x q 1, d j ] 1 ijk i, j P 2 : w T [ x q 2, d i w T x q 2, d j ] 1 ijk i, j P k : w T [ x q k, d i w T x q k, d j ] 1 ijk ijk 0 dimana parameter C > 0 akan mengkontrol trade-off antara lebar margin (kapabilitas generalisasi) dan jumlah pasangan data training yang tertukar urutannya (kesalahan urutan) 22

Solusi Masalah: Lagrange Multipliers Masalah optimisasi diatas tampak ekivalen dengan masalah optimisasi dari SVM untuk klasifikasi, dimana setiap vektor diganti dengan pasangan vektor jarak [φ(x(q k,d i )) - φ(x(q k,d k ))]. Sehingga penyelesaian masalah optimasi ini dapat mengadaptasi pendekatan yang digunakan oleh SVM untuk klasifikasi 23 Prediksi Data Baru Misal diberikan himpunan data {x(q new, d 1 ), x(q new, d 2 ),..., x(q new, d N )}, maka ranking dari data tersebut ditentukan berdasarkan fungsi ranking y(x), yaitu: x i x j jika y(x i ) > y(x j ) dimana didefiniskan memiliki ranking yang lebih tinggi 24

Algoritma & Perangkat Lunak Ada beberapa algoritma dan perangkat lunak yang telah dikembangkan untuk memecahkan masalah optimasi pada, antara lain: SVM light [1][2] (http://svmlight.joachims.org) SVM rank [3] (http://svmlight.joachims.org) 25 Aplikasi Information Retrieval untuk meranking dokumen/web yang relevan dengan suatu query yang diberikan oleh pengguna Machine Translation untuk meranking sekumpulan hipotesis translasi Computational Biology untuk meranking kandidat struktur 3- D dari suatu protein Recommender System untuk meranking artikel berita terkait dengan berita yang sedang dibaca oleh pengguna 26

Learning to Rank for Information Retrieval Contoh arsitektur dari suatu machine-learned search engine (sumber: www.wikipedia.org) 27 Data Training Salah satu data training yang sering digunakan adalah LETOR, yaitu koleksi data yang diorganisasi oleh Microsoft yang menyimpan penentuan relevansi web terhadap query yang diberikan oleh pengguna pada mesin pencari Microsoft Bing (http://www.bing.com) Pada contoh kasus ini akan digunakan data LETOR 4.0 MQ2008 (http://research.microsoft.com/users/letor/) 28

Data Training: Fitur Masing-masing data training terdiri dari 46 fitur yang merupakan tingkat kemiripan (similarity) antara query dan web 29 Data Training: Fitur Diberikan suatu himpunan dokumen {d 1, d 2,.., d N } dan suatu query q Term Frequency (TF) TF(q, d i ) = jumlah kata-kata (terms) dari query q pada dokumen d i Inverse Document Frequency (IDF) IDF(q, d i ) = log (N/DF(q, d i ) dimana DF(q, d i ) = jumlah dokumen yang mengandung kata-kata (terms) dari query q Term Frequency * Inverse Document Frequency (TFIDF) TFIDF(q, d i ) = TF(q, d i ) * IDF(q, d i ) 30

Satuan Ukuran Akurasi: P@n Precision at Position n (P@n): P @n = jumlah web yang relevan pada posisi n n Contoh: Misal dokumen yang relevan terhadap query q 1 adalah {d 1, d 2, d 3, d 4 } Jika ranking yang diberikan oleh suatu fungsi ranking adalah {d 1, d 4, d 3, d 6, d 2, d 5 }, maka: P@1 = 1/1, P@2 = 2/2, P@3 = 3/3, P@4 = 3/4, P@5 = 4/5, P@6 = 4/6 31 Satuan Ukuran Akurasi: MAP Mean Average Precision (MAP): Misal himpunan dokumen yang relevan terhadap query q j Q adalah {d 1, d 2,.., d mj }, dan R jk adalah himpunan hasil retrival yang diranking dari atas sampai ke dokumen d k, maka: MAP = 1 Q m j 1 P @R Q j=1 m jk j k=1 dimana P@R jk adalah Precision dari R jk, yaitu P @R jk = jumlah web yang relevan pada R jk R jk 32

Satuan Ukuran Akurasi: MAP Contoh: Misal dokumen yang relevan terhadap query q 1 adalah {d 1, d 2, d 3, d 4 } Jika ranking yang diberikan oleh suatu fungsi ranking adalah {d 1, d 4, d 3, d 6, d 2, d 5 }, maka: P@R 11 = 1/1, P@ 21 = 4/5, P@R 31 = 3/3, P@R 41 = 2/2 Sehingga Average Precision (AP) adalah (1+4/5+1+1)/4 = 0.95 Dan MAP 0.95/1 = 0.95, karena hanya ada satu query 33 Satuan Ukuran Akurasi: NDCG@n Normalized Discount Cumulative Gain at Position n (NDCG@n) Misal R(j,m) adalah nilai relevansi dari suatu dokumen urutan ke-m untuk query q j, maka: NDCG@n = 1 Q j=1 dimana Z n adalah faktor normalisasi yang dihitung untuk membuat sedemikian rupa sehingga ranking sempurna pada posisi n akan bernilai 1 Q n Z n m=1 2 R j,m 1 log 1 m 34

Satuan Ukuran Akurasi: NDCG@n Contoh: Diberikan nilai relevansi beberapa URL untuk suatu query sbb: URL Relevansi d 1 http://abc.go.com/ Perfect: 5 d 2 http://abcnews.go.com/sections/ Excellent: 4 d 3 http://www.abc.net.au/ Excellent: 4 d 4 http://abcnews.go.com Excellent: 4 d 5 http://www.abcteach.com/ Fair: 2 Tentukan nilai NDCG@5 untuk urutan {d 1, d 5, d 2, d 3, d 4 }? 35 Satuan Ukuran Akurasi: NDCG@n Gain dan Cumulative Gain 36

Satuan Ukuran Akurasi: NDCG@n Discounting Factor: Log(2) / log(1 + rank) 37 Satuan Ukuran Akurasi: NDCG@n Normalized factor: nilai maksimum yang mungkin untuk suatu urutan tertentu 38

Satuan Ukuran Akurasi: NDCG@n Normalized Discounting Cumulative Gain 39 Desain Eksperimen Eksperimen menggunakan 5-fold Cross Validation dengan statistik data sbb: 40

Hasil Eksperimen Tingkat akurasi metode dengan menggunakan perangkat lunak SVM Rank sumber: http://research.microsoft.com/en-us/um/beijing/projects/letor/letor4baseline.aspx 41 Referensi (1)T. Joachims. Optimizing Searching Engines Using Clickthrough Data. Proceeding of the ACM Conference on Knowledge Discovery and Data Mining, 2002 (2)T. Joachim. Making Large-Scale SVM Learning Practical. In B. Schoelkopf, C. J. C. Burges, and A. J. Smola (Eds), Advances in Kernel Methods Support Vector Learning, pp. 169-184, MIT Press, 1999 (3)T. Joachims. Training Linear SVMs in Linear Time. Proceeding of the ACM Conference on Knowledge Discovery and Data Mining, 2006