PENDAHULUAN. 1.1 Latar Belakang

dokumen-dokumen yang mirip
BAB II LANDASAN TEORI

BAB I PENDAHULUAN 1.1 Latar Belakang dan Permasalahan

Recommendation System

BAB III Landasan Teori

ANALISIS DAN IMPLEMENTASI METODE ITEM-BASED CLUSTERING HYBRID PADA RECOMMENDER SYSTEM

BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB II LANDASAN TEORI

KONSEP MULTICRITERIA COLLABORATIVE FILTERING UNTUK PERBAIKAN REKOMENDASI

BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB I PENDAHULUAN. Pesatnya pertumbuhan internet saat ini berdampak pada melimpahnya

UKDW BAB 1 PENDAHULUAN. 1.1 Latar Belakang

BAB I PENDAHULUAN Latar Belakang

KONSEP MULTICRITERIA COLLABORATIVE FILTERING UNTUK PERBAIKAN REKOMENDASI

Sistem Rekomendasi Bacaan Tugas Akhir Jurusan Teknik Informatika Universitas Sriwijaya menggunakan Metode Collaborative Filtering dan Naive Bayes

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI

BAB 1 PENDAHULUAN Latar Belakang

DIGITAL CAKERY DENGAN ALGORITMA COLLABORATIVE FILTERING

Sistem Rekomendasi Film menggunakan Bisecting K-Means dan Collaborative Filtering

EKSTRAKSI FITUR SITUS BERITA ONLINE UNTUK KALEIDOSKOP BERITA TAHUNAN

UKDW. 1.1 Latar Belakang BAB 1 PENDAHULUAN

BAB II TINJAUAN PUSTAKA

BAB III LANDASAN TEORI

BAB I PENDAHULUAN. tanggal 31 Desember Kelebihan atau ledakan informasi pada jaringan internet

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB III PERANCANGAN. Fitur. Reduksi & Pengelompokan. Gambar 3.1. Alur Pengelompokan Dokumen

ANALISIS DAN IMPLEMENTASI CLUSTER-SMOOTHED PADA COLLABORATIVE FILTERING ANALYSIS AND IMPLEMENTATION OF CLUSTER-SMOOTHED FOR

PENGELOMPOKAN DOKUMEN MENGGUNAKAN ALGORITMA DIG (DOCUMENT INDEX GRAPH)

commit to user 5 BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori Text mining

BAB II TINJAUAN PUSTAKA

BAB II KAJIAN PUSTAKA

BAB I PENDAHULUAN 1.1. Latar Belakang

BAB I PENDAHULUAN. bermunculan, baik yang menggunakan franchise ataupun yang menggunakan

BAB 2 LANDASAN TEORI Sistem Rekomendasi

1. Pendahuluan 1.1 Latar belakang 1.2 Perumusan masalah

BAB 2 LANDASAN TEORI. Universitas Sumatera Utara

Analisis dan Implementasi Prediksi Rating pada Memory-based Collaborative Filtering dengan Menggunakan Smoothing

BAB 1 PENDAHULUAN Latar Belakang

BAB I PENDAHULUAN 1.1. Latar Belakang

BAB 1 PENDAHULUAN UKDW

BAB 3 LANDASAN TEORI

BAB II TINJAUAN PUSTAKA. penelitian yang penting (Baharudin, Lee and Khan, 2010). Beberapa peneliti telah

Analisis Perbandingan Algoritma Fuzzy C-Means dan K-Means

BAB 3 LANDASAN TEORI

3. METODOLOGI. Penelitian dilakukan dalam tiga tahap utama : Persiapan, Evaluasi

IMPLEMENTASI K NEAREST NEIGHBOR (KNN) PADA KLASIFIKASI ARTIKEL WIKIPEDIA INDONESIA

BAB I PENDAHULUAN. 1.1 Latar Belakang

Rancang Bangun Movie Recommender System Dengan Metode Cluster-Based Smoothing Collaborative Filtering

SISTEM TEMU KEMBALI INFORMASI

ANALISIS CLUSTER PADA DOKUMEN TEKS

Integrasi Peringkas Dokumen Otomatis Dengan Penggabungan Metode Fitur dan Metode Latent Semantic Analysis (LSA) Sebagai Feature Reduction

Pemanfaatan Metode Vector Space Model dan Metode Cosine Similarity pada Fitur Deteksi Hama dan Penyakit Tanaman Padi

3.1 Analisa Kebutuhan 3.2 Perancangan Penelitian 3.3 Teknik Analisis 3.4 Jadwal Penelitian. 3.1 Analisa Kebutuhan

BAB I PENDAHULUAN Latar Belakang

STMIK GI MDP. Program Studi Teknik Informatika Skripsi Sarjana Komputer Semester Ganjil Tahun 20010/2011

Pembuatan Sistem Rekomendasi Menggunakan Decision Tree dan Clustering

BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI. Pada penelitian sebelumnya yang dilakukan kan oleh Zhang, L. (Zhang, L.,

BAB III ANALISIS DAN PERANCANGAN SISTEM

BAB I PENDAHULUAN. 1.1 Latar Belakang

Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem Temu Kembali Informasi

II TINJAUAN PUSTAKA. * adalah operasi konvolusi x dan y, adalah fungsi yang merepresentasikan citra output,

IMPLEMENTASI ALGORITMA K-NEAREST NEIGHBOUR YANG BERDASARKAN ONE PASS CLUSTERING UNTUK KATEGORISASI TEKS

BAB II DASAR TEORI Crawler Definisi Focused Crawler dengan Algoritma Genetik [2]

SISTEM REKOMENDASI DOSEN PEMBIMBING TUGAS AKHIR BERDASARKAN PREFERENSI DAN KEAHLIAN DOSEN MENGGUNAKAN EUCLIDIEN DISTANCE TUGAS AKHIR

BAB III ANALISA DAN PERANCANGAN SISTEM

PERANCANGAN DAN IMPLEMENTASI SISTEM REKOMENDASI PENGAMBILAN MATA KULIAH PILIHAN MENGGUNAKAN METODE HYBRID

BAB II LANDASAN TEORI

JURNAL TEKNOLOGI INFORMASI & PENDIDIKAN ISSN : VOL. 2 NO. 1 SEPTEMBER 2010

SISTEM REKOMENDASI BAHAN AJAR UNTUK ELEARNING

BAB II TINJAUAN PUSTAKA

UKDW BAB 1 PENDAHULUAN. 1.1 Latar Belakang

ROCCHIO CLASSIFICATION

SISTEM REKOMENDASI PEMINJAMAN VCD DENGAN METODE ITEM BASED COLLABORATIVE FILTERING

BAB 3 LANDASAN TEORI

Recommender System di Perpustakaan Universitas Kristen Petra menggunakan Rocchio Relevance Feedback dan Cosine Similarity

BAB III ANALISIS DAN PERANCANGAN SISTEM

PENERAPAN ALGORITMA K-MEANS UNTUK CLUSTERING DATA ANGGARAN PENDAPATAN BELANJA DAERAH DI KABUPATEN XYZ

BAB I PENDAHULUAN I.1. Latar Belakang Masalah

Implementasi Algoritma Term Frequency Inverse Document Frequency dan Vector Space Model untuk Klasifikasi Dokumen Naskah Dinas

BAB V EKSPERIMEN TEXT CLASSIFICATION

BAB I PENDAHULUAN A. Latar Belakang

Clustering. Virginia Postrel

BAB II TINJAUAN PUSTAKA. Penelitian awal dalam bidang automatic text summarization dimulai

PERBANDINGAN METODE CLUSTERING MENGGUNAKAN METODE SINGLE LINKAGE DAN K - MEANS PADA PENGELOMPOKAN DOKUMEN

Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem Temu Kembali Informasi

Information Retrieval

BAB 3 PERANCANGAN 3.1 GAMBARAN UMUM PROSES SEGMENTASI DOKUMEN

BAB III. Landasan Teori. Bab ini akan menjelaskan mengenai dasar teori yang digunakan oleh penulis sebagai acuan dalam membuat sistem.

BAB III LANDASAN TEORI. dari masing-masing pendekatan, untuk dapat menghasilkan suatu keakuratan nilai

BAB I PENDAHULUAN 1.1 Latar Belakang

METODE CLUSTERING DENGAN ALGORITMA K-MEANS. Oleh : Nengah Widya Utami

BAB I PENDAHULUAN. informasi yang berbeda-beda. Berita yang dipublikasi di internet dari hari ke hari

BAB I PENDAHULUAN. pendidikan, perbankan, perencanaan dan sebagainya. Dengan adanya teknologi komputer

BAB I. Pendahuluan. 1. Latar Belakang Masalah

BAB 2 TINJAUAN PUSTAKA

Analisis dan Implementasi Graph Clustering pada Berita Digital Menggunakan Algoritma Star Clustering

BAB I PENDAHULUAN. digunakan untuk identitas citra adalah nama file, tanggal pengambilan,

ANALISIS CLUSTER PADA DOKUMEN TEKS

ANALISIS PERBANDINGAN METODE PEARSON DAN SPEARMAN CORRELATION PADA RECOMMENDER SYSTEM

BAB I PENDAHULUAN. 1.1 Latar Belakang

Transkripsi:

DAFTAR TABEL Tabel 3-1 Dokumen Term 1... 17 Tabel 3-2 Representasi... 18 Tabel 3-3 Centroid pada pengulangan ke-0... 19 Tabel 3-4 Hasil Perhitungan Jarak... 19 Tabel 3-5 Hasil Perhitungan Jarak dan Pengelompokkan Data... 20 Tabel 3-6 Hasil Centroid Akhir... 20 Tabel 4-1 Hasil Iterasi Koefisien c Pada Kasus Non Cold Start... 25 Tabel 4-2 Hasil Rata-rata MAE dan MAPE Tiap Metode... 27 Tabel 4-3 Nilai ILS Tiap Metode Terhadap Adjusted Cosine Similarity... 28 xii

PENDAHULUAN 1.1 Latar Belakang Seiring berkembangnya teknologi informasi, ketersediaan data dan informasi yang dapat diakses manusia juga semakin meningkat. Berbagai macam informasi seperti berita, iklan, film, dan lainnya kini telah mudah didapatkan di internet. Dengan kondisi tersebut, kebutuhan akan suatu sistem dalam memilah informasi yang akan ditampilkan juga ikut meningkat. Sehingga banyak website maupun aplikasi yang telah menerapkan recommender system untuk memudahkan penggunanya dalam mendapatkan informasi yang dibutuhkan. Recommender system merupakan bagian dari ilmu information filtering system yang mana memiliki fungsi untuk merekomendasikan suatu konten kepada audiensinya [1]. Berbagai metode yang digunakan untuk memberikan rekomendasi kepada pengguna ini yaitu collaborative filtering, content-based filtering, knowledge-based filtering, dan hybrid [1]. Terdapat dua metode yang umum digunakan dalam membangun recommender system, yaitu content-based filtering dan collaborative filtering [7,8]. Content-based filtering merupakan metode yang memanfaatkan konten dan karakteristik dari item untuk melakukan proses rekomendasinya [1]. Metode ini memiliki kekurangan dimana hasil rekomendasi yang diberikan kurang beragam (diversity) karena hanya mengacu pada konten daripada item tersebut [2]. Sedangkan preferensi seseorang terhadap suatu item tidak selalu bergantung pada karakteristik maupun konten item tersebut [1]. Penelitian pada recommender system saat ini telah melakukan eksperimen pada pengukuran lain untuk menilai suatu recommender system selain menggunakan akurasi [12], salah satunya ialah diversity yang akan dihitung dengan metode intra-list similarity. Berbeda dengan content-based filtering, metode collaborative filtering merupakan metode rekomendasi yang memanfaatkan kesamaan minat atau kesukaan antar penggunanya. Metode ini melihat pola kesamaan rating yang diberikan tiap user. Kekurangan dari metode ini adalah ketidakmampuannya dalam memberikan rekomendasi untuk item baru yang belum memiliki data rating sama sekali, atau biasa disebut masalah cold start pada item [2, 9, 10, 11]. 1

Penelitian ini akan berfokus pada salah satu metode hybrid yang bernama Itembased Clustering Hybrid Method (ICHM). Metode ini mengkombinasikan pendekatan content-based dan collaborative filtering untuk mengatasi kekurangankekurangan dari kedua metode tersebut. Dengan menggunakan skenario-skenario pengujian yang telah disesuaikan, penelitian ini akan menggunakan dataset MovieLens yang telah lengkap untuk melakukan analisis dan pengujian dari sistem yang telah dibangun. Diharapkan dengan dibangunnya sistem yang telah teruji pada penelitian ini dapat memberikan pengembangan pada penelitian recommender system. 1.2 Perumusan Masalah Permasalahan yang menjadi objek dari penelitian ini, terdiri atas : 1. Bagaimana membangun sistem rekomendasi yang mengimplementasikan metode ICHM? 2. Bagaimana menganalisis parameter yang optimal untuk ICHM? 3. Sejauh mana kemampuan ICHM dalam mengatasi masalah cold start yang merupakan kekurangan dari metode collaborative filtering? 4. Sejauh mana kemampuan ICHM dalam mengatasi kurang beragamnya data yang merupakan kekurangan dari metode content-based filtering? 1.3 Tujuan Untuk menjawab beberapa permasalahan yang ada, maka tujuan yang ingin dicapai dari tugas akhir ini adalah : 1. Mengimplementasikan metode ICHM yang optimal. 2. Menganalisis metode ICHM dalam mengatasi masalah cold start. 3. Menganalisis metode ICHM dalam memberikan hasil rekomendasi yang lebih beragam dibandingkan metode content-based filtering. Batasan-batasan yang digunakan untuk mempermudah permasalahan dalam tugas akhir ini adalah: 1. Penanganan masalah cold start pada ICHM di penelitian ini hanya menggunakan average method, tidak menggunakan weighted sum method. 2. Penelitian ini berfokus pada masalah cold start pada item baru, tidak membahas masalah cold start pada user baru. 2

1.4 Hipotesis Hipotesis untuk penelitian ini adalah penggabungan pendekatan content-based dan collaborative filtering dapat membentuk arsitektur Hybrid Recommender System yang optimal sehingga dapat meningkatkan akurasi prediksi rekomendasi pada masalah cold start serta memiliki derajat diversity yang lebih baik dibandingkan metode content-based filtering. 3

1.5 Metodologi Penyelesaian Masalah Tugas akhir ini dilakukan beberapa metode dalam penyelesaian masalah sebagai berikut : 1. Studi Literatur Pada tahap ini dilakukan pencarian, pengumpulan, dan mempelajari informasi referensi yang bersumber dari buku, jurnal maupun sumber lain dari internet sebagai landasan teori dalam pengerjaan dan penyusunan tugas akhir. Referensi yang dicari berkaitan dengan Recommender System, Item-based Clustering Hybrid Method, masalah cold start dan diversity. 2. Pengumpulan Data Mencari, mengumpulkan dan membagi data sample untuk digunakan dalam pelatihan. 3. Analisis Merancang dan desain arsitektur Recommender System dengan metode ICHM yang memadukan metode content-based dan collaborative filtering. 4. Implementasi Sistem Implementasi rancangan desain Item-based Clustering Hybrid Method. 5. Analisis Hasil Pengujian Menganalisis hasil implementasi berupa tingkat akurasi prediksi yang dihasilkan serta komparasi kemampuan dan akurasinya dalam mengatasi kekurangan metode content-based filtering dan collaborative filtering. 6. Pembuatan Laporan Tugas Akhir. Mendokumentasikan penyelesaian tugas akhir ke dalam bentuk laporan tertulis. 1.6 Jadwal Kegiatan No. Kegiatan Bulan 1 Bulan 2 Bulan 3 Bulan 4 Bulan 5 Bulan 6 1 Studi Literatur 2 Perancangan Sistem 3 Implementasi Sistem 4 Analisis Hasil Implementasi Sistem 5 Penyusunan Laporan 4

TINJAUAN PUSTAKA 2.1 Recommender System Recommender System merupakan bagian dari ilmu Information Filtering System yang mana merupakan sistem yang berfungsi merekomendasikan suatu hal kepada audiensi [1]. Pada penelitian ini digunakan recommender system yang bersifat personalized atau disesuaikan dengan audiensinya. Terdapat beberapa metode recommender system yang ada saat ini yaitu collaborative, content-based, knowledge-based, dan hybrid. Penelitian ini akan berfokus pada metode item-based clustering hybrid method yang memadukan content-based dan collaborative filtering. 2.2 Collaborative Filtering Collaborative filtering merupakan metode rekomendasi yang memanfaatkan kesamaan minat atau kesukaan antar penggunanya. Gagasan dasar dari collaborative filtering adalah jika dua pengguna membeli item yang sama sebelumnya, maka besar kemungkinan mereka memiliki minat yang sama ke depannya. Contohnya, jika pengguna A dan pengguna B memiliki banyak kesamaan pada histori pembeliannya kemudian pengguna A baru saja membeli buku Z yang belum pernah dilihat oleh pengguna B, maka secara rasional sistem akan merekomendasikan buku ini pula ke pengguna B [1]. Metode collaborative recommendation tidak membutuhkan pengetahuan apapun dari item yang akan direkomendasikannya. Sehingga kelebihan sistem ini adalah tidak perlu menganalisa dan mengurus data-data tiap item. Sedangkan kelemahan dan tantangan bagi pendekatan ini adalah sebagai berikut [2]: 1. Masalah cold-start, dimana rekomendasi dibutuhkan bagi item baru yang belum pernah mendapatkan rating dari pengguna [2, 11]. 2. Sama sekali mengabaikan informasi yang dapat diekstrak dari konten. 5

2.2.1 Pearson Correlation Pengukur yang paling banyak digunakan dalam menghitung similarity adalah algoritma Pearson correlation coefficient. Pearson correlation menghitung berapa nilai linear antara 2 variabel atau pengguna. Similarity antara pengguna a dengan u dihitung pada persamaan berikut [1]: ii a,i a u,i u w a, u (2.1) 2 2 ii (r a,i (r - r ) a - r )(r ii - r ) (r u,i - r ) u w a, u = similarity antara pengguna u dengan pengguna aktif a i = item yang diberikan rating oleh kedua pengguna r u,i = rating item i oleh pengguna u r u = rating rata-rata oleh pengguna u Untuk menggunakan sebuah prediksi, sistem menggabungkan semua rating dari pengguna lain yang mirip terhadap pengguna aktif. Prediksi ini digunakan untuk memberikan nilai rating suatu item terhadap pengguna aktif. Metode yang umum digunakan adalah menghitung nilai rata-rata, sistem menggunakan korelasi antara pengguna aktif dengan pengguna lain yang mirip untuk memberikan ranting [1]. Rating dari pengguna lain yang memiliki derajat similarity lebih tinggi dengan pengguna aktif akan memiliki nilai lebih besar ketika semua nilai rating dari pengguna yang mirip digabungkan [1]. Metode yang menggunakan deviasi menghitung prediksi rating dengan cara menghitung rating dari setiap pengguna yang mirip. Pertama-tama, nilai deviasi rata-rata dari rating rata-rata untuk semua pengguna yang mirip dihitung dan ditambahkan dengan nilai rata-rata rating pengguna aktif. Berikut rumus menghitung prediksi dengan deviasi [1]: p a, i r a ik ( r u, i uek r w u ) w a, u a, u (2.2) p a, i = prediksi untuk pengguna aktif a untuk item i 6

w a, u = nilai similarity antara pengguna a dan u K = kumpulan pengguna yang memiliki similarity tertinggi 2.3 Content-Based Filtering Content-based filtering merupakan metode rekomendasi yang memanfaatkan ketersediaan data profil pengguna dan data item yang akan direkomendasikan [1]. Data tersebut kemudian dicocokkan satu sama lain kemudian dipilih beberapa item yang relevan untuk direkomendasikan ke pengguna [1]. Sebagai contoh pada studi kasus toko buku, maka konten item adalah deskripsi buku, genre, topik, dan penulisnya. Data tersebut kemudian dicocokkan dengan data penggunanya seperti profil, data perilaku, kesukaan, dan data lainnya. Setelah ditemukan kesamaan yang cocok, maka item yang memiliki kesamaan tersebut direkomendasikan kepada pengguna [1]. Metode content-based recommendation memiliki dua kelebihan jika dibanding metode lainnya. Pertama, metode ini tidak membutuhkan grup pengguna yang besar untuk dapat menghasilkan akurasi rekomendasi yang layak [2]. Kedua, item-item baru dapat langsung direkomendasikan ketika mulai tersedia karena metode ini cukup membutuhkan data dari item tersebut untuk menghasilkan rekomendasi. Kekurangan dan batasan dari metode ini adalah sebagai berikut [2]: 1. Sulit menyediakan rekomendasi yang variatif karena semua informasi dipilih hanya terpaku pada konten 2. Sulit untuk menggunakan sistem content-based secara efektif bagi peneliti baru 2.3.1 Model Vektor TF-IDF Konten dari dokumen dapat dibentuk menjadi daftar kata kunci dengan berbagai cara. Pendekatan yang paling sederhana adalah dengan membuat daftar kata-kata yang muncul pada semua dokumen dan menggambarkan tiap dokumen dengan Boolean vector. Dimana nilai 1 mengindikasikan kata tersebut muncul di suatu dokumen dan nilai 0 bahwa kata tersebut tidak muncul. Jika profil pengguna dideskripsikan dalam daftar yang sama maka pencocokan dokumen dengan pengguna dapat dilakukan dengan mengukur kesamaan antara profil minat pengguna dengan konten dokumen [1]. 7

Pada pendekatan TF-IDF, dokumen dideskripsikan dalam format TF- IDF. TF-IDF merupakan teknik dalam bidang information retrieval yang merupakan singkatan dari term frequency inverse document frequency. Term frequency (TF) mendeskripsikan seberapa sering term tertentu muncul di sebuah dokumen. Term pada penelitian ini adalah suatu kata yang muncul pada item. Persamaan (2.3) mendeskripsikan cara untuk mendapatkan nilai term frequency. Variabel freq(i, menghitung jumlah munculnya term i pada dokumen j. Dengan menggunakan term i, maka OtherKeywords(i, merupakan kumpulan term lain yang muncul di dokumen j. Setelah itu dihitung maxothers(i, sebagai max(freq(z,), z OtherKeywords(i, [1]. freq( i, TF( i, (2.3) maxothers( i, TF ( i, = Nilai term frequency freq ( i, = Jumlah munculnya term i dalam dokumen j maxothers ( i, = Maksimum munculnya term selain i dalam dokumen j Inverse document frequency (IDF) merupakan pengukur kedua yang akan dikombinasikan dengan term frequency. IDF bertujuan untuk mengurangi bobot dari kata kunci yang sering muncul di semua dokumen [1]. Gagasan utamanya adalah kata-kata yang sering muncul di banyak dokumen bukanlah kata yang begitu penting sehingga tidak begitu membantu dalam membedakan dokumen [1]. Contohnya adalah kata-kata seperti dan, kemudian, dan maka. Nilai bobot lebih besar seharusnya diberikan pada kata-kata yang lebih penting dan berarti. N merupakan jumlah dokumen dan n(i) adalah jumlah dokumen dari N dimana kata kunci i muncul. Nilai inverse document frequency dicari dengan menggunakan persamaan: N IDF( i) log (2.4) n( i) IDF (i) = Nilai inverse document frequency 8

= Jumlah seluruh dokumen n (i) = Jumlah dokumen yang muncul kata kunci i Setelah hasil dari masing-masing nilai TF dan IDF didapatkan, bobot TF- IDF untuk kata kunci i di dokumen j dihitung dengan menggunakan persamaan: TF IDF TF( i, IDF( i) (2.5) 2.5 Item Based Clustering Hybrid Method Item-Based Clustering Hybrid Method (ICHM) [2] merupakan metode yang membawa konten dari item ke dalam item-based collaborative filtering. ICHM mengintegrasikan data rating item oleh pengguna dengan tingkat kemiripan dari masing-masing item. Metode ICHM mengatasi kekurangan-kekurangan yang dimiliki oleh pendekatan Collaborative dan Content-based Filtering. Dari sisi collaborative, ICHM mengatasi masalah cold-start pada pendekatan collaborative yang biasa terjadi ketika terdapat item baru. Pendekatan collaborative memiliki kesulitan untuk memberikan rekomendasi item baru karena belum ada pengguna yang memberikan rating pada item tersebut. Metode ICHM dapat memberikan prediksi rekomendasi item baru karena tidak hanya mengambil informasi dari matriks item-rating namun juga dari matriks group-rating [2] yang merupakan matriks kemiripan item berdasarkan cluster-nya. Sedangkan dari sisi content-based, metode ini mengatasi masalah over-specialization yang biasa terdapat pada jenis metode content-based. Item Content Clustering Item Group Vector Group Rater Rating Data Result Collaborative Filtering Group Rating Item Rating 9

Gambar 2-1 Gambaran metode ICHM Berikut merupakan proses kerja pada metode ICHM: 1. Melakukan clustering untuk mengelompokkan item-item, kemudian menggunakan hasilnya untuk menciptakan matriks group-rating. 2. Menghitung tingkat kemiripan (similarity). Metode ini menggunakan tiga perhitungan similarity yaitu: Pertama menggunakan adjusted-cosine algorithm untuk menghitung similarity dari matriks group-rating. Kedua, mengkalkulasi similarity dari matriks item-rating menggunakan Pearson correlation similarity. Terakhir, melakukan kombinasi linier dari kedua perhitungan similarity sebelumnya untuk mendapatkan total similarity. 3. Membuat prediksi suatu item dengan melakukan deviasi rata-rata bobot dari rata-rata neighbour. Group Rating Group Rating bertujuan untuk mengelompokkan tiap item ke dalam beberapa cluster. Matriks group rating merupakan matriks probabilitas tiap item masuk ke dalam masing-masing cluster. Matriks inilah yang menyediakan informasi content-based metode ICHM [2, 5, 8]. Tiap item akan memiliki atribut-atribut data teks seperti contohnya kategori, nama, dan deskripsi. Atribut-atribut item tersebut dihitung nilai TF IDF-nya menggunakan persamaan (2.5) yang kemudian hasilnya akan digunakan untuk proses clustering menggunakan algoritma Adjusted K-Means Clustering. 10

Algoritma 1: Adjusted K-Means Clustering Input: jumlah cluster k dan atribut item Output: himpunan k cluster yang meminimalkan nilai error, dan probabilitas tiap item masuk ke masing-masing cluster yang direpresentasikan sebagai himpunan fuzzy (1) Pilih sejumlah k dokumen secara acak sebagai pusat cluster awal (2) Ulangi (a) dan (b) hingga terjadi perubahan yang kecil a. Masukkan tiap dokumen ke cluster yang paling mendekati menggunakan euclidean distance b. Update rata-rata cluster (3) Hitung nilai probabilitas dari tiap dokumen masuk ke masing-masing cluster k Gambar 2-2-2 Algoritma Adjusted K-Means Clustering Algoritma ini diturunkan dari algoritma K-Means Clustering yang dikembangkan dengan mengaplikasikan teori fuzzy set untuk merepresentasikan hubungan probabilitas antara objek dan cluster pada langkah akhir algoritmanya [2, 5, 8]. Berikut merupakan persamaan untuk menentukan group rating dari suatu item. CS( j, k) Pr o( j, k) 1 (2.6) MaxCS( k) Pr o ( j, k) = probabilitas objek j masuk cluster k CS ( j, k) = counter-similarity antar dokumen j dengan cluster k MaxCS (k) = nilai maksimum counter-similarity pada cluster k Dimana nilai dari CS(j,k) merupakan jarak antara dokumen j dengan centroid cluster k. Nilai jarak tersebut dihitung dengan menggunakan persamaan Euclidean distance berikut 2 d( p, q) 1 ( p i q i ) (2.7) (, ) = Jarak dokumen p terhadap cluster q = Jumlah dokumen 11 n i

= Nilai TF IDF term i pada dokumen p = Nilai rata-rata TF IDF term i pada cluster q Nilai pi didapatkan dari persamaan (2.5). Komputasi Similarity Setelah mendapatkan matriks group-rating, metode ini akan menggunakan algoritma item-based collaborative untuk mengkalkulasi similarity dan membuat prediksi untuk tiap user. Berikut beberapa metode untuk menghitung nilai similarity tersebut 1) Pearson Correlation-based Similarity Pearson similarity merupakan salah satu metode kalkulasi similarity yang paling banyak digunakan dalam collaborative filtering. Pearson mengukur derajat hubungan linier antar dua variabel yang ada. Persamaan ini akan digunakan untuk menghitung similarity item berdasarkan nilai rating item yang diberikan oleh penggunanya [5,8]. sim m ( R R )( R R ) u, k k u, l t ( k, l) u1 (2.8) m m 2 2 ( Ru, k R k ) ( Ru, l Rl ) u1 u1 sim ( k, l) = similarity antar item k dan l m R k, R R u, k, R u, l t = jumlah pengguna yang memberi rating k dan l = rata-rata rating dari item k dan l = rating pengguna u pada item k dan l 2) Adjusted Cosine Similarity Adjusted cosine similarity merupakan pengembangan dari cosine similarity yang bertujuan untuk mengatasi masalah perbedaan skala rating yang diberikan. Adjusted cosine similarity memiliki perbedaan dimana setiap nilai rating akan dikurangi oleh nilai rata-ratanya. Berikut merupakan persamaan cosine similarity. 12