PENENTUAN LIRIK LAGU BERDASARKAN EMOSI MENGGUNAKAN SISTEM TEMU KEMBALI INFORMASI DENGAN METODE LATENT SEMANTIC INDEXING (LSI)

dokumen-dokumen yang mirip
Pencarian Semantik Dokumen Berita Menggunakan Essential Dimension of Latent Semantic Indexing dengan Memakai Reduksi Fitur Document Frequency

PENENTUAN EMOSI BERDASARKAN LIRIK LAGU MENGGUNAKAN SISTEM TEMU KEMBALI INFORMASI DENGAN METODE LATENT SEMANTIC INDEXING (LSI)

Integrasi Peringkas Dokumen Otomatis Dengan Penggabungan Metode Fitur dan Metode Latent Semantic Analysis (LSA) Sebagai Feature Reduction

INTEGRASI PERINGKAS DOKUMEN OTOMATIS SEBAGAI FEATURE REDUCTION PADA CLUSTERING DOKUMEN

BAB II DASAR TEORI Crawler Definisi Focused Crawler dengan Algoritma Genetik [2]

DETEKSI KEMIRIPAN TOPIK PROPOSAL JUDUL TUGAS AKHIR DAN SKRIPSI MENGGUNAKAN LATENT SEMANTIC ANALYSIS DI STMIK BUMIGORA MATARAM

INFORMATION RETRIEVAL SYSTEM PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS DENGAN METODE VECTOR SPACE MODEL DAN ALGORITMA ECS STEMMER

BAB 2 TINJAUAN PUSTAKA

Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem Temu Kembali Informasi

Pengujian Kerelevanan Sistem Temu Kembali Informasi

Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem Temu Kembali Informasi

PERANCANGAN DAN PEMBUATAN APLIKASI PENCARIAN INFORMASI BEASISWA DENGAN MENGGUNAKAN COSINE SIMILARITY

BAB II TINJAUAN PUSTAKA

Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi

PENCARIAN FULL TEXT PADA KOLEKSI SKRIPSI FAKULTAS TEKNIK UHAMKA MENGGUNAKAN METODE VECTOR SPACEMODEL

Perangkingan Dokumen Berbahasa Arab Menggunakan Latent Semantic Indexing

BAB II TINJAUAN PUSTAKA

ROCCHIO CLASSIFICATION

BAB III PERANCANGAN. Fitur. Reduksi & Pengelompokan. Gambar 3.1. Alur Pengelompokan Dokumen

BAB II TINJAUAN PUSTAKA

RANCANG BANGUN SISTEM TEMU KEMBALI INFORMASI ABSTRAK TUGAS AKHIR MAHASISWA PRODI TEKNIK INFORMATIKA UNSOED Oleh : Lasmedi Afuan

TEKNIK VECTOR SPACE MODEL (VSM) DALAM PENENTUAN PENANGANAN DAMPAK GAME ONLINE PADA ANAK

Sistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF)

IMPLEMENTASI VECTOR SPACE MODEL DAN BEBERAPA NOTASI METODE TERM FREQUENCY INVERSE DOCUMENT FREQUENCY (TF-IDF) PADA SISTEM TEMU KEMBALI INFORMASI

SISTEM REKOMENDASI DOSEN PEMBIMBING TUGAS AKHIR BERBASIS TEXT MINING MENGGUNAKAN VECTOR SPACE MODEL

PERBANDINGAN METODE CLUSTERING MENGGUNAKAN METODE SINGLE LINKAGE DAN K - MEANS PADA PENGELOMPOKAN DOKUMEN

BAB 4 HASIL DAN BAHASAN. dengan melampirkan tabel data precision dan recall serta diagram-diagramnya Precision Recall Interpolasi

Information Retrieval

BAB II LANDASAN TEORI

Implementasi Generalized Vector Space Model Menggunakan WordNet

Sistem Deteksi Kemiripan Identitas...

Implementasi Algoritma Term Frequency Inverse Document Frequency dan Vector Space Model untuk Klasifikasi Dokumen Naskah Dinas

BAB III METODELOGI PENELITIAN

IMPLEMENTASI K NEAREST NEIGHBOR (KNN) PADA KLASIFIKASI ARTIKEL WIKIPEDIA INDONESIA

ABSTRAK. Kata kunci: algoritma Smith-Waterman, algoritma Nazief-Adriani, cosine similarity, data mining, dokumen tugas akhir, nilai kemiripan

BAB 3 METODE PENELITIAN. pengelolaan dokumen yang efektif agar kita dapat me-retrieve informasi yang

IMPLEMENTASI ALGORITMA K-NEAREST NEIGHBOUR YANG BERDASARKAN ONE PASS CLUSTERING UNTUK KATEGORISASI TEKS

PEMANFAATAN ASSOCIATION RULE MINING DALAM MEMBANTU PENCARIAN DOKUMEN-DOKUMEN BERITA YANG SALING BERKAITAN

Pembuatan Kakas Komunikasi Antar Pengembang Perangkat Lunak

SISTEM TEMU KEMBALI INFORMASI

PENGKLASIFIKASIAN DOKUMEN BERBAHASA INDONESIA DENGAN PENGINDEKSAN BERBASIS LSI Achmad Ridok 1, Indriati 2

Pemanfaatan Metode Vector Space Model dan Metode Cosine Similarity pada Fitur Deteksi Hama dan Penyakit Tanaman Padi

BAB 1 PENDAHULUAN UKDW

BAB 3 ANALISA DAN PERANCANGAN

INDEXING AND RETRIEVAL ENGINE UNTUK DOKUMEN BERBAHASA INDONESIA DENGAN MENGGUNAKAN INVERTED INDEX

Pemanfaatan Aljabar Vektor Pada Mesin Pencari

BAB 3 LANDASAN TEORI

BAB III METODOLOGI PENELITIAN

ANALISIS PENGGUNAAN ALGORITMA STEMMING VEGA PADA INFORMATION RETRIEVAL SYSTEM

BAB IV HASIL DAN PEMBAHASAN. jenis dokumen, yaitu dokumen training dan dokumen uji. Kemudian dua

BAB 1 PENDAHULUAN. seluruh dunia menjadi sebuah fenomena yang sangat mengejutkan dalam satu abad

Sistem Informasi Tugas Akhir Menggunakan Model Ruang Vektor (Studi Kasus: Jurusan Sistem Informasi)

PENGGUNAAN FITUR ABSTRAKSI DAN CATATAN PUBLIKASI PENULIS UNTUK KLASIFIKASI ARTIKEL ILMIAH DENGAN METADATA YANG TERBATAS

APLIKASI MESIN PENCARI DOKUMEN CROSS LANGUAGE BAHASA INGGRIS BAHASA INDONESIA MENGGUNAKAN VECTOR SPACE MODEL

BAB I PENDAHULUAN Latar Belakang

EKSTRAKSI FITUR SITUS BERITA ONLINE UNTUK KALEIDOSKOP BERITA TAHUNAN

INTEGRASI PERINGKAS DOKUMEN OTOMATIS DENGAN ALGORITMA LATENT SEMANTIC ANALYSIS (LSA) PADA PERINGKAS DOKUMEN OTOMATIS UNTUK PROSES CLUSTERING DOKUMEN

IMPLEMENTASI METODE TERM FREQUENCY INVERSED DOCUMENT FREQUENCE (TF-IDF) DAN VECTOR SPACE MODEL PADA APLIKASI PEMBERKASAN SKRIPSI BERBASIS WEB

BAB 1 PENDAHULUAN UKDW

SISTEM PENCARIAN PASAL-PASAL PADA KITAB UNDANG-UNDANG HUKUM PIDANA DENGAN MENGGUNAKAN METODE TF-IDF. Abstrak

Penerapan Model OKAPI BM25 Pada Sistem Temu Kembali Informasi

commit to user 5 BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori Text mining

PENCARIAN PASAL PADA KITAB UNDANG-UNDANG HUKUM PIDANA (KUHP) BERDASARKAN KASUS MENGGUNAKAN METODE COSINE SIMILARITY DAN LATENT SEMANTIC INDEXING (LSI)

PEMBOBOTAN KATA BERBASIS PREFERENSI DAN HUBUNGAN SEMANTIK PADA DOKUMEN FIQIH BERBAHASA ARAB

Tugas Makalah. Sistem Temu Kembali Informasi (STKI) TI Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System

BAB 3 LANDASAN TEORI

VECTOR SPACE MODEL. Tujuan 4/2/13. Budi Susanto

Aplikasi Aljabar Vektor pada Sistem Temu-balik Informasi (Information Retrieval System)

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I. Pendahuluan. 1. Latar Belakang Masalah

BAB 3 LANDASAN TEORI

1. Introduction. tertentu memegang peran penting dalam. Abstract

Klasifikasi Teks Bahasa Indonesia Pada Corpus Tak Seimbang Menggunakan NWKNN

Studi Penggunaan Data Exif Untuk Mengukur Pengaruhnya. Terhadap Peningkatan Kinerja Image Search Engine

Contoh Perhitungan Kemiripan Cosinus pada Model Ruang Vektor

Tugas Makalah. Sistem Temu Kembali Informasi (STKI) TI Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System

Studi Awal Peringkasan Dokumen Bahasa Indonesia Menggunakan Metode Latent Semantik Analysis dan Maximum Marginal Relevance

JURNAL ITSMART Vol 4. No 2. Desember 2015 ISSN :

Fatkhul Amin Dosen Fakultas Teknologi Informasi Universitas Stikubank Semarang

Analisis dan Implementasi Short Text Similarity dengan Metode Latent Semantic Analysis Untuk Mengetahui Kesamaan Ayat al-quran

SISTEM TEMU-KEMBALI INFORMASI DALAM DOKUMEN MENGGUNAKAN METODE LATENT SEMANTIC INDEXING

BAB II LANDASAN TEORI

Peningkatan Kinerja Pencarian Dokumen Tugas Akhir menggunakan Porter Stemmer Bahasa Indonesia dan Fungsi Peringkat Okapi BM25

PEMBOBOTAN KATA BERBASIS PREFERENSI DAN HUBUNGAN SEMANTIK PADA DOKUMEN FIQIH BERBAHASA ARAB

Text & Web Mining - Budi Susanto - TI UKDW 1 VECTOR SPACE MODEL. Budi Susanto

BAB I PENDAHULUAN 1.1 Tujuan 1.2 Latar Belakang

ABSTRAK. Kata kunci : Pemerolehan Informasi, TF-IDF, Inverted Index, document to document

MAXIMUM MARGINAL RELEVANCE UNTUK PERINGKASAN TEKS OTOMATIS SINOPSIS BUKU BERBAHASA INDONESIA

4 HASIL DAN PEMBAHASAN

IMPLEMENTASI VECTOR SPACE MODEL UNTUK MENINGKATKAN KUALITAS PADA SISTEM PENCARIAN BUKU PERPUSTAKAAN

BAB II TINJAUAN PUSTAKA. Penelitian awal dalam bidang automatic text summarization dimulai

Implementasi Vector Space Model dalam Pembangkitan Frequently Asked Questions Otomatis dan Solusi yang Relevan untuk Keluhan Pelanggan

BAB I PENDAHULUAN Latar Belakang

STUDI AWAL KLASIFIKASI ARTIKEL WIKIPEDIA BAHASA INDONESIA DENGAN MENGGUNAKAN METODA K NEAREST NEIGHBOR

Keywords: information retrieval system, cosine similarity, mean average precision. Jurnal Ilmu Komputer - Volume 5 - No 2 September 2012

Implementasi Metode Document Oriented Index Pruning pada Information Retrieval System

SISTEM TEMU-KEMBALI INFORMASI DALAM DOKUMEN (PENCARIAN 10 KATA KUNCI DI EJOURNAL BSI)

BAB I PENDAHULUAN I.1. Latar Belakang Masalah

Pemrosesan Paralel Pada Model Komputasi Dokumen Ilmiah Elektronik. Setiadi Rachmat, Urip T. Setijohatmo

Sistem Rekomendasi Hasil Pencarian Artikel Menggunakan Metode Jaccard s Coefficient

Transkripsi:

PENENTUAN LIRIK LAGU BERDASARKAN EMOSI MENGGUNAKAN SISTEM TEMU KEMBALI INFORMASI DENGAN METODE LATENT SEMANTIC INDEXING (LSI) *Yuita Arum Sari, **Achmad Ridok, Marji *Teknik Informatika, Institut Teknologi Sepuluh Nopember (ITS), Surabaya **Program Teknik Informatika dan Ilmu Komputer, Universitas Brawijaya (UB), Malang E-mail: *yuita.sari12@mhs.if.its.ac.id, **acridokb@ub.ac.id, marji@ub.ac.id Abstrak Lirik lagu merupakan salah satu elemen yang paling berpengaruh dalam menentukan emosi. Jika dibandingkan dengan elemen yang bersifat audio, representasi makna yang menggambarkan emosi, tampak lebih kuat dalam lirik lagu. Fokus penelitian ini terletak pada lirik lagu yang sifatnya berupa teks, dan dapat diselesaikan dengan proses text mining. Pada paper ini, sistem temu kembali informasi yang digunakan untuk menentukan lirik lagu adalah Latent Semantic Indexing (LSI). Teknik dalam LSI mengadopsi proses matematis reduksi dimensi Singular Value Decomposition (SVD). Walaupun dimensi data direduksi, proses tersebut tidak mengganggu keterkaitan makna antara lirik lagu pada corpus dan query. Pada masing-masing lirik lagu dalam corpus dan query, diberi label emosi secara otomatis yaitu, label religius, sedih, marah, semangat, takut, dan cinta. Sistem akan menentukan relevansi berdasarkan kecocokan label emosi antara query dan corpus. Sistem dikatakan dapat bekerja dengan baik, ditunjukkan dengan adanya hasil pengujian berupa nilai Mean Average Precision (MAP) pada masing-masing k-rank 300, 200, 100, 50, dan 10 mendekati nilai 1. Kata kunci : Information Retrieval, Latent Semantic Indexing, Singular Value Decomposition, Natural Language Processing, Text Mining Abstract Song lyrics is one of the most influential elements in determining emotion. Compared to audio, lyric can represent meaning of emotion deeper and stronger. This research focuses in song lyrics which use text and text mining can be implemented. In this paper, Latent Semantic Indexing was used as a technique to determine song lyrics. LSI technique adopts Singular Value Decomposition (SVD), which is a mathematics technique to reduce dimension. Although data dimension is reduced, this process does not affect meaning linkage of song lyrics in corpus and query. Each song lyric in corpus and query is labeled automatically with these categories: religious, sad, angry, cheer, fear, and love. This system will determine relevance based on emotion label match between query and corpus. The system run well and it was shown by the result of Mean Average Precision (MAP) in each k-rank 300, 200, 100, 50, and 10 which were almost 1. Keywords : Information Retrieval, Latent Semantic Indexing, Singular Value Decomposition, Natural Language Processing, Text Mining CI-73

PENDAHULUAN Sistem temu kembali informasi merupakan salah satu teknik pencarian untuk mencari informasi yang relevan antara query dan corpus. [1]. Kasus yang paling sering banyak diteliti dalam proses sistem temu kembali adalah teks [2]. Lirik lagu merupakan salah satu betuk teks yang dapat digunakan sebagai objek dalam penelitian sistem temu kembali berdasarkan emosi. Dalam penentuan emosi, lirik lagu merupakan elemen yang memiliki makna yang paling kuat dalam menggambarkan emosi [3]. Pada sebuah dimensi data yang besar, dibutuhkan reduksi dimensi untuk mengurangi adanya proses komputasi. Penelitian dilakukan oleh Kleedorfer, Knees, dan Pohle (2008) [3] menggunakan proses reduksi dimensi matriks Nonnegative Matrix Factorization (NMF), dan penelitian Samat, Murad, Abdullah dan Atan (2005) [4] menggunakan metode reduksi matriks Singular Value Decomposition (SVD) untuk proses clustering data. Pada penelitian Peter, Shivapratap, Dyva, dan Soman (2009) [5] melakukan analisis terhadap evaluasi SVD dan NMF untuk proses Latent Semantic Analysis (LSA) dan menyebutkan rata-rata nilai interpolated average precission SVD memiliki nilai lebih tinggi dibanding dengan menggunakan NMF dan Vector Space Model (VSM). Proses temu kembali dengan menggunakan konsep SVD disebut dengan LSI [5]. Pada penelitian ini, digunakan proses temu kembali LSI yang memanfaatkan reduksi dimensi SVD dengan menggunakan obyek lirik lagu berbahasa Indonesia dan mengabaikan bahasa yang sifatnya tidak resmi. Proses pengolahan yang pertama dilakukan adalah menggunakan teknik preprocessing pada text mining yang merupakan salah satu cabang ilmu dari Natural Language Processing (NLP). Dalam proses prepocessing, stemming yang digunakan menggunakan algoritma Nazief-Andriani, karena stemming tersebut mempunyai hasil kebenaran sekitar 93% [6]. Hasil numerik dari proses pembobotan setelah di-prepocessing diolah menggunakan Latent Semantic Indexing (LSI). Hasil dari sistem ini untuk mengetahui akurasi dari LSI dalam proses penentuan lirik lagu berdasarkan emosi. TINJAUAN PUSTAKA 2.1.Lirik Lagu dalam Menentukan Emosi Menurut Kamus Besar Bahasa Indonesia Online (KBBI online) lirik merupakan karya sastra (puisi) yang berisi curahan perasaan pribadi, atau susunan kata sebuah nyanyian, dan lagu merupakan ragam suara yang berirama. Lirik lagu merupakan salah satu komponen yang ada dalam musik, selain audio. Lirik lagu mempunyai makna emosi yang kental, karena jika menggunakan representasi audio saja terkadang kurang bisa mengetahui makna dari lagu tersebut, sehingga lirik digunakan untuk penelitian ini. 2.2.Proses Temu Kembali Teks Proses temu kembali teks yang lebih dikenal dengan nama text information retrieval, merupakan sebuah teknik pencarian dengan menggunakan algoritma tertentu untuk mendapatkan hasil pencarian yang relevan berdasarkan kumpulan (corpus) informasi yang besar. Sebagian besar penggunaan sistem temu kembali adalah pada teks. Pengguna memasukkan kata kunci berupa teks, dan kemudian sistem mengolahnya hingga mendapatkan informasi semantik yang diinginkan oleh pengguna [1]. 2.3.Text Mining Teknik text mining merupakan sebuah teknik dimana data yang berupa teks dikumpulkan dan diolah, untuk dapat diidentifikasi dengan pola-pola tertentu. Proses text mining termasuk dalam salah satu bidang Natural Language Processing (NLP), karena di dalam text mining, teks akan diolah sehingga dapat dikomputasi dan dapat menghasilkan informasi yang relevan satu dengan yang lainnya. Pengolahan dalam teks mining tahap awal dikenal dengan nama preprocessing [7]. Teknik yang terdapat dalam preprocessing yaitu case folding, stopword removal, tokenizing, dan stemming. Case foding merupakan proses untuk membuat semua teks menjadi pola yang seragam (uppercase atau lowercase). Stopword removal menghilangkan kata-kata yang dianggap tidak mempunyai kata penting. Tokenizing atau teknik parsing digunakan untuk memecah kalimat menjadi kata-kata. Selanjutnya, katakata tersebut diolah sehingga hanya CI - 74

didapatkan kata-dasar saja. Teknik tersebut dinamakan dengan stemming. Stemming yang 2.4.Inverted Index Inverted Index merupakan struktur data berbentuk matriks, yang digunakan untuk mempermudah dalam merepresentasikan banyaknya kata yang muncul dalam dokumen teks [7]. Tabel 1. Contoh penerapan inverted index Token TF(i,j) Lirik1 Lirik2 Lirik3 Lirik4 Lirik5 berdiri 1 0 0 0 0 nila 0 0 0 0 1 panjat 0 0 1 0 0 dosa 0 1 0 0 0 nyamai 0 0 0 0 1 suci 0 1 0 0 0 allah 0 0 1 0 0 tunjuk 1 0 0 0 0 lebur 0 1 0 0 0 ribu 0 0 0 0 1 tang 0 0 0 1 0 tuk 0 1 0 0 0 sahabat 1 0 0 0 0 sehat 0 0 0 1 0 dunia 1 0 0 1 0 doa 0 0 1 0 0 hadap 0 0 0 1 0 teman 0 0 0 2 0 malam 0 0 0 0 1 genggam 0 0 0 1 0 sejati 0 0 0 1 0 indah 0 1 1 0 0 ramadhan 0 1 1 0 1 2.5.Pembobotan TF-IDF ternormalisasi Terdapat tiga cara untuk menghitung nilai term frequency (TF), yaitu dengan menghitung frekuensi sebagai bobot, menghitung peluang kemunculan sebagai bobot (TF tanpa ternormalisasi), dan menghitung logaritma dari banyaknya kemunculan term (TF ternormalisasi). Dari ketiga fungsi tersebut, menurut Garcia [8], TF dengan normalisasi menghasilkan nilai pembobotan yang baik, karena dapat mengurangi efek panjang dari dokumen. TF ternormalisasi dihitung sebagai berikut [8] : f tf i,j (1) i,j = max tf i,j dimana f i,j adalah frekuensi ternormalisasi, tf i,j adalah frekuensi kata i pada dokumen j, max tf i,j adalah frekuensi maksimum kata i pada dokumen j. Untuk normalisasi frekuensi dalam query diberikan rumus : digunakan pada penelitian ini adalah algoritma Nazief-Andriani. f tf Q,i (2) Q,i =0,5+ 0.5 max tf Q,i dimana f i,j adalah frekuensi ternormalisasi, tf i,j adalah frekuensi kata i pada dokumen j, dan max tf i,j adalah frekuensi maksimum kata i pada dokumen j. Sehingga, pembobotan TF-IDF pada kata i dan dokumen j dapat ditulis sebagai berikut : (3) W i,j = tf i,j max tf i,j x log 2 ( D df i ) dimana W i,j adalah bobot kata i pada dokumen j, f i,j adalah frekuensi ternormalisasi, tf i,j adalah frekuensi kata i pada dokumen j, max tf i,j adalah frekuensi maksimum kata i pada dokumen j, D adalah banyaknya dokumen yang diinputkan/ banyaknya dokumen dalam corpus, dan df i adalah banyaknya dokumen yang mengandung kata i. Pembobotan tersebut digunakan untuk pembobotan pada corpus. Pembobotan pada query dapat ditulis sebagai berikut : (4) W Q,i =0.5+0.5 tf Q,i max tf Q,i x log 2 ( D df i ) dimana W i,j adalah bobot kata i pada dokumen j, f i,j adalah frekuensi ternormalisasi, tf i,j adalah frekuensi kata i pada dokumen j, max tf i,j adalah frekuensi maksimum kata i pada dokumen j, D adalah banyaknya dokumen yang diinputkan/ banyaknya dokumen dalam corpus, dan df i adalah banyaknya dokumen yang mengandung kata i. 2.6.Singular Value Decomposition (SVD) Singular Value Decomposition (SVD) merupakan model matematis yang digunakan untuk reduksi dimensi data. Proses SVD dilakukan dengan mendekomposisi matriks menjadi tiga bagian [5], seperti pada gambar 1. CI - 75

Gambar 1. Ilustrasi matriks SVD Matriks U dan V adalah matriks othonormal, dimana baris pada matriks U menggambarkan banyaknya baris pada matriks A, sementara kolom pada matriks V menggambarkan banyaknya kolom pada matriks A. k-rank digunakan untuk mereduksi dimensi dari matriks A. Matriks S merupakan matriks simetris yang berisi nilai positif di sepanjang diagonal, daerah selain diagonal berisi 0. 2.7.Latent Semantic Indexing (LSI) Penggunaan SVD digunakan dalam LSI. LSI merupakan salah satu bentuk teknik proses temu kembali dengan menggunakan Vector Space Model (VSM), untuk menemukan informasi yang relevan. Keterkaitan makna di dalam LSI sifatnya tersembunyi. Fungsi matematis di dalam LSI mampu menemukan hubungan semantik antar kata [4],[9],[10]. Representasi dari LSI adalah q = q T 1. U k. S k (5) dimana q adalah query vector representasi dari LSI, q T adalah transpose TDM dari pembobotan ternormalisasi TF- IDF query, U k adalah reduksi dimensi k 1 dari matriks U, dan Sk adalah inverse dari reduksi dimensi k matriks S 2.8.Vector Space Model (VSM) VSM adalah cara konvensional yang biasa digunakan dalam proses temu kembali informasi. Prosesnya dengan menghitung kemiripan dua buah vektor, yaitu antara vektor dari corpus dan vektor dari query [10],[11]. Penghitungan kemiripan dihitungdengan menggunakan rumus cosine similarity [12]. similarity = cos(θ) = q.d (6) = n i=1 q i x d i n q2 i=1 i x n d2 i=1 i q d Dari persamaan 6 nilai q merupakan nilai matriks hasil query SVD. d merupakan nilai dari matriks V, dimana nilai dimensi dari matriks V merupakan hasil input k sesuai dengan nilai reduksi dengan k min(m x n), dimana m adalah banyaknya kata-kata dan n adalah banyaknya dokumen lirik. 2.9.Tipe Evaluasi Precision, recall, dan F-Measure merupakan kumpulan evaluasi untuk mengetahui keakuratan sistem temu kembali secara unranked retrieval, atau dengan pengembalian dokumen tanpa perangkingan. Tipe evaluasi yang digunakan untuk mengevaluasi sistem temu kembali dengan ranked retrieval pada penelitian ini digunakan Mean Average Precission (MAP). Dalam konteks sistem temu kembali, dokumen yang dikembalikan dengan memasukkan top-k dokumen yang retrieved. Average Precission (AP) hanya mengambil nilai presisi dari dokumen-dokumen yang relevan dan kemudian hasilnya dibagi dengan jumlah dokumen yang dilibatkan [13]. Pengukuran dari MAP merupakan hasil perhitungan rata-rata dokumen relevan yang retrieved dari setiap query yang terlibat di dalam sistem, sedangkan dokumen yang tidak relevan nilainya adalah 0 [14]. Rumus dari Mean Average Precission adalah sebagai berikut [15]: MAP(Q) = 1 Q 1 m j Precision R jk Q j=1 m k=1 (7) CI - 76

dimana nilai Q merupakan kumpulan query atau menyatakan banyaknya query yang diinputkan q j Q {d 1, d mj } dan R jk adalah nilai precission dari kumpulan file lirik lagu retrieved dan relevan yang telah diranking. Nilai MAP mempunyai rentang nilai 0 sampai 1, dan dalam sebuah system dikatakan baik jika nilai MAP mendekati 1 [15]. METODE PENELITIAN Kumpulan lirik lagu bahasa Indonesia didapatkan dari berbagai sumber yang ada di internet dan kemudian ditentukan emosi-emosi apa saja yang terdapat di dalam sebuah lirik lagu. Label emosi yang digunakan diantaranya religius, sedih, marah, semangat, takut, dan cinta. Penelitian dilakukan melalui langkahlangkah sebagai berikut: a. Mengumpulkan lirik lagu berbahasa Indonesia. Kumpulan lirik lagu tersebut disebut sebagai corpus. Inputan sistem terdiri atas corpus dan query yang berupa lirik. b. Preprocessing file corpus dan query. c. Membentuk struktur data inverted index pada corpus. d. Membentuk matriks pembobotan TF- IDF ternormalisasi pada corpus dan query. e. Mendekomposisi matriks pembobotan corpus dengan SVD. f. Reduksi dimensi dari hasil dekomposisi matriks SVD. g. Menghitung query vector yang merupakan representasi dari LSI. h. Mencari kemiripan antara corpus dan query dengan cosine similarity. i. Pengurutan nilai cosine similarity secara descending order. j. Pengambilan top-n teratas nilai cosine similarity hasil pengurutan. k. Melakukan evaluasi dari hasil penelitian dengan Mean Average Precission (MAP). Hasil yang relevan antara query dan corpus adalah yang memiliki label emosi yang sama. HASIL PENELITIAN Analisis hasil secara kesuluruhan dapat dikatakan sistem dapat bekerja dengan baik, dibuktikan dengan nilai MAP yang rata-rata mendekati nilai 1, karena hal tersebut menujukkan sistem dapat mendeteksi kemiripan makna antara query dan corpus lirik lagu. Tabel 2 menujukkan hasil dari evaluasi MAP pada masing-masing k-rank 300, 200, 100, 50, dan 10. Data yang digunakan adalah lirik lagu berbahasa Indonesia dengan julah lirik lagu pada corpus 370 lirik dan pada query terdapat 5 lirik. Data interpolated average precission dihasilkan dari penghitungan nilai precission dan recall pada masingmasing lirik lagu yang dikembalikan oleh sistem secara terurut. Nilai recall dari masing-masing average precission semakin naik sesuai dengan hasil relevansi lirik lagu yang dikembalikan sistem, jika data lirik musik yang dikembalikan tidak relevan maka nilai recall dan precission adalah 0. Nilai recall berbanding lurus dengan posisi data yang relevan dibagi dengan jumlah keseluruhan data yang relevan. Nilai recall akan semakin baik jika sistem dapat mengenali kerelevanan sebuah lirik lagu dari seluruh hasil kerelevanan yang seharusnya dikenali. Nilai relevan pada proses pengembalian ditentukan berdasarkan adanya label emosi dalam yang sama pada query maupun corpus. Nilai Mean Average Precission (MAP) pada masing-masing k-rank 300, 200, 100, 50, dan 10. Terlihat bahwa hasil MAP cenderung menurun pada k-rank =100, dengan nilai MAP=0.827 dari nilai MAP=0.831 ketika pada k-rank=200. Sistem menujukkan peningkatan MAP ketika k-rank=50 yaitu dihasilkan MAP=0.870, dan mengalami peningkatan nilai MAP kembali saat nilai k-rank dikecilkan menjadi k-rank=10 dengan MAP=0.899. Dapat disimpulkan bahwa pada k-rank=10 sistem dapat CI-77

mengembalikan dengan baik kebutuhan informasi yang dibutuhkan. Tabel 2.MAP pada masing-masing k-rank Query k-rank 300 200 100 50 10 Q1 0.961 0.977 0.943 0.961 0.992 Q2 0.907 0.921 0.938 0.983 0.998 Q3 0.911 0.902 0.904 0.920 0.988 Q4 0.672 0.721 0.730 0.807 0.787 Q5 0.586 0.633 0.621 0.676 0.728 MAP 0.807 0.831 0.827 0.870 0.899 Hasil nilai Average Precission (AP) dari masing-masing pengujian, tergantung dari nilai k-rank. Hasil penelitian ini menunjukkan bahwa rata-rata akurasi sistem akan baik jika input k rank yang dimasukkan semakin kecil. Gambar 2 menunjukkan hasil MAP pada masingmasing k-rank, yang mengalami peningkatan ketika k-rank semakin kecil. Gambar 2. Grafik hasil MAP pada tiap k- rank SIMPULAN Sistem yang digunakan dalam penentuan lirik lagu berdasarkan emosi pada penelitian ini menunjukkan hasil yang cukup baik, dimana nilai MAP yang dihasilkan mendekati nilai 1. Pada penelitian ini digunakan lirik lagu berbahasa Indonesia, dimana dalam proses stemming, sistem ini mengabaikan penggunaan bahasa yang kurang resmi (bahasa gaul), yang mengakibatkan banyaknya kata yang dihasilkan proses tokenizing semakin banyak. Jika dimensi antara jumlah kata dan banyaknya lirik lagu semakin besar maka waktu komputasi yang dihasilkan juga cukup lama. Sehingga, digunakan proses reduksi dimensi SVD yang dapat mengurangi jumlah dimensi. Proses LSI menggunakan SVD juga digunakan untuk mencari keterkaitan makna antar kata yang tersembunyi. Proses matematis dalam SVD mampu menunjukkan hubungan semantik antar kata. Pemilihan k-rank yang optimal tidak dapat ditentukan secara pasti karena banyaknya jumlah kata dan dokumen yang berbeda akan memungkinkan untuk menghasilkan k- rank optimal yang berbeda pula. SARAN Beberapa saran yang dari hasil penelitian ini diantaranya yaitu banyaknya jumlah kata yang terdapat dalam file lirik lagu berpengaruh dalam proses pembobotan TF-IDF, yang menyebabkan dimensi data tidak dapat diminimalkan, sehingga dibutuhkan pemangkasan frekuensi kata sebelum proses pembobotan dilakukan. Selain itu, penggunaan frasa dalam penentuan makna sangat berpengaruh, misalkan untuk kata air mata, sistem ini belum bisa mengenali bahwa air mata itu satu buah makna (frasa), akan lebih baik dan menghasilkan presisi yang cukup baik jika penggunaan frasa dilibatkan. Penggunaan frasa dapat diletakkan sebelum menghitung pembobotan dengan menggunakan TF-IDF ternormalisasi. ACKNOWLEDGEMENTS Ucapan terima kasih kepada Drs.Achmad Ridok, M.Kom dan Drs.Marji M.T yang telah membantu dan membimbing penulis dalam melakukan penelitian ini di Universitas Brawijaya Malang. CI - 78

DAFTAR PUSTAKA [1] Fuhr, N. 2002. Information Retrieval- Introduction and Survey. Germany. University of Disburg-Essen [2] Manning, Christoper.D, Raghavan, Prabhakar, dan Schutze, H. 2007. An Introduction to Information Retrieval. Cambridge.England.Cambridge University Press [3] Kleedofer,F,dkk.2008. Oh Oh Oh Whoah! Towards Automatic Topic Detection in Song Lyrics.Austria. Studio Smart Agent Tecnologies. [4] Samat,N.Ab, Murad, M.A.A, Abdullah, M.T, dan Atan, R.2009. Malay Document Clustering Algorithm Based on Singular Value Decomposition. Malaysia. Fakultas Ilmu Komputer dan Teknologi Informasi, Universitas Putra Malaysia. [5] Peter,Rakesh, G, Shivapratap, Dvya G,dan Soman KP. 2009. Evaluation of SVD and NMF Fungsis for Latent Semantic Analysis. India. Amrita University. [6] Asian,Jelita, Wiliams, Hugh E, dan Tahaghoghi S.M.M..2005. Stemming Indonesian. Australia : School of Computer Science and Information Technology. [7] Feldman,R dan James S. 2007. The Text Mining Handbook. England.Cambridge University Press. [8] Garcia,E.2006.Vector Models Based on Normalized Frequencies : Improving Word Weights with Normalized Frequencies. http://www.miislita.com/wordvector/word-vector-4.html. Diakses tanggal 25 Mei 2011. [9] Sriyasa,W. 2009. Temu Kembali Informasi : Rekonstruksi Inverted Index dan Inplementasi Stopwords. Departemen Ilmu Komputer.IPB [10] Garcia,E.2006. SVD and LSI Tutorial 3: Computing the Full SVD of a Matrix. http://www.miislita.com/informationretrieval-tutorial/svd-lsi-tutorial-3-fullsvd.html. Diakses tanggal 7 Mei 2011. [11] Kontostathis, April. 2007. Essential Dimensions of Latent Semantic Indexing (LSI). Departemen Matematika dan Ilmu Komputer Universitas Ursinus.USA. [12] Parsons,Kathryn, McCormac, A., Butavicius, M, Dennis*,S, dan Ferguson, L. 2009. The Use of Context-Based Information Retrieval Technique. Australia. Defence Science and Technology Organization. [13] Strehl,A,et al.2000.impact of Similarity Measures on Web-Page Clustering. Proceeding of the Workshop of Artificial Intelligent for Web Search, 17th National Conference on Artificial Intelligence,2000. [14] Blanken,H, Vries,Arjen P.de, Blok, Henk Ernst, dan Feng, Ling,.2007.Multimedia Retrieval.Springer Berlin Heidelberg New York [15] Manning, Christoper.D, Raghavan, Prabhakar, dan Schutze, H. 2009. An Introduction to Information Retrieval. Cambridge.England.Cambridge University Press CI-79