BAB 2 TINJAUAN PUSTAKA 2.1 Tes Secara harfiah kata tes berasal dari kata bahasa prancis kuno: testum yang berarti piring untuk menyisihkan logam-logam mulia, dalam bahasa Indonesia diterjemahkan dengan tes yang berarti ujian atau percobaan. Dari segi istilah, secara umum tes dapat diartikan sebagai alat yang digunakan untuk mengukur atau penguasaan objek ukur terhadap seperangkat isi atau materi tertentu. Selain itu tes juga dapat diartikan sebagai alat atau prosedur yang digunakan dalam rangka pengukuran dan penilaian.[9] 2.2 Tes Esai Tes esai adalah bentuk tes yang terdiri dari satu atau beberapa pertanyaan yang menuntut jawaban tertentu dari mahasiswa secara individu berdasarkan pendapatnya sendiri yang berbeda dengan jawaban mahasiswa lainnya. Selain itu, tes esai juga diartikan sebagai kebebasan menjawab pertanyaan yang ditujukan pada seseorang, yang menuntutnya agar memberikan jawaban sendiri, relatif bebas, bagaimana mendekati masalahnya, informasi apa yang akan digunakan, bagaimana mengorganisasi jawabannya, dan berapa besar tekanan yang diberikan kepada setiap aspek jawaban.[9]
7 2.3 Information Retrieval (IR) Information Retrieval (IR) merupakan bagian dari computer science yang berhubungan dengan pengambilan informasi dari dokumen-dokumen yang didasarkan pada isi dan konteks dari dokumen-dokumen itu sendiri. Berdasarkan referensi dijelaskan bahwa Information Retrieval merupakan suatu pencarian informasi (biasanya berupa dokumen) yang didasarkan pada suatu query (inputan user) yang diharapkan dapat memenuhi keinginan user dari kumpulan dokumen yang ada. Sedangkan, definisi query dalam Information Retrieval menurut referensi merupakan sebuah formula yang digunakan untuk mencari informasi yang dibutuhkan oleh user, dalam bentuk yang paling sederhana, sebuah query merupakan suatu keywords (kata kunci) dan dokumen yang mengandung keywords merupakan dokumen yang dicari dalam Information Retrieval System (IRS).[4] Penerapan pengarsipan informasi tertulis (IR) dapat ditelusurui sekitar tahun 3000 SM oleh Bangsa Sumeria. Mereka mengilustrasikan tempat khusus untuk menyimpan tablet berupa tanah liat dengan tulisan yang dipahat. Sampai akhirnya bangsa Sumeria menyadari akan pentingnya pengorganisasian dan pengaksesan terhadap arsip tersebut. Mereka mengembangkan metode klasifikasi khusus untuk mengidentifikasi setiap tablet beserta isinya. Kebutuhan akan penyimpanan dan pengambilan informasi bertambah penting selama berabad-abad, terutama dengan adanya penemuan kertas dan mesin cetak sederhana. Setelah computer ditemukan, mulai disadari bahwa dapat dilakukan penyimpanan dan mengambil sejumlah besar informasi mengunakan mesin. Pada tahun 1945, Vannevar Bush mempublikasikan sebuah artikel berjudul As We May Think melahirkan ide pengaksesan sejumlah besar pengetahuan yang tersimpan secara otomatis. Pada tahun 1950, ide ini terwujud menjadi lebih konkret bagaimana arsip teks bisa dicari secara otomatis. Beberapa karya muncul pada pertengahan tahun 1950-an yang diuraikan atas ide dasar dari pencarian teks dengan komputer. Salah satu metode yang paling berpengaruh dijelaskan oleh HP Luhn pada tahun 1957, di mana (secara sederhana) ia mengusulkan menggunakan kata-kata sebagai unit
8 pengindeksan untuk dokumen dan mengukur kata sebagai kriteria untuk pencarian. Beberapa perkembangan penting di lapangan yang terjadi pada 1960-an. Perkembangan yang paling penting adalah pengembangan System for the Mechanical Analysis and Retrieval of Text (SMART) oleh Gerard Salton dan murid-muridnya yang pertama kali dilakukan di Harvard University dan kemudian di Cornell University dan Cranfield, sedangkan evaluasi dilakukan oleh Cyril Cleverdon dan kelompoknya di Sekolah Tinggi Penerbangan di Cranfield.[7] Evaluasi tersebut mengembangkan sebuah metodologi untuk sistem pencarian yang masih digunakan oleh sistem IR saat ini. Sistem SMART, di sisi lain, memungkinkan peneliti untuk bereksperimen dengan ide-ide untuk meningkatkan kualitas pencarian. Melihat pesatnya perkembangan IR pada 1970-an dan 1980-an, berbagai metode untuk melakukan pengambilan informasi dikembangkan sampai saat ini. Salah satu metode tersebut adalah Term Frequency/Inverse Document Frequency (TF/IDF). Pada tahun 1972, Karen Spark Jones mempublikasikan sebuah Jurnal berjudul A Statistical Interpretation of Term Specificity and Its Application in Retrieval. Pengukuran dan pembobotan kata pertama kali diusulkan dalam tulisan tersebut yang kemudian dikenal sebagai Term Frequency/Inverse Document Frequency (TF/IDF).[6] 2.4. Term Frequency/ Inverse Document Frequency (TF/IDF) Metode TF/IDF merupakan suatu cara untuk memberikan bobot hubungan suatu kata (term) terhadap dokumen. Metode ini menggabungkan dua konsep untuk perhitungan bobot yaitu, frekuensi kemunculan sebuah kata di dalam sebuah dokumen tertentu yang disebut Term Frequency (TF) dan inverse frekuensi dokumen yang mengandung kata yang disebut Inverse Document Frequency (IDF). Frekuensi kemunculan kata di dalam dokumen yang diberikan menunjukkan seberapa penting kata tersebut di dalam dokumen. Sehingga bobot hubungan antara sebuah kata dan sebuah dokumen akan tinggi apabila frekuensi kata tinggi di dalam dokumen dan frekuensi keseluruhan dokumen yang mengandung kata tersebut akan rendah pada kumpulan dokumen. Rumus umum untuk Tf-Idf :
9 W ij = tf ij * Idf W ij = tf ij * log(n/n) Keterangan : W ij tf ij N n = bobot kata/term t j terhadap dokumen d i = jumlah kemunculan kata/term t j dalam d i = jumlah semua dokumen yang ada dalam database = jumlah dokumen yang mengandung kata/term t j Berdasarkan rumus diatas, berapapun besarnya nilai tfij, apabila N = n maka akan didapatkan hasil 0 (nol) untuk perhitungan Idf. Untuk itu dapat ditambahkan nilai 1 pada sisi Idf, sehingga perhitungan bobotnya menjadi sbb: W ij = tf ij * (log(n/n)+1) Beberapa contoh sistem yang menggunakan menggunakan metode TF/IDF atau LSA adalah sebagai berikut : a. Penelitian pada subject based search engine. TF/IDF pada sistem ini memberikan bobot pada seluruh dokumen yang terdapat pada basis data dokumen sesuai dengan kata pencarian (kueri) yang diberikan oleh pengguna.[3] b. Penelitian dari Laboratoire des Usages en Technologies d Information Num eriques (LUTIN). Penelitian ini menggunakan algoritma LSA untuk mengklasifikasi dokumen. [2] 2.5 Algoritma Latent Semantic Analysis (LSA) Selain metode TF/IDF, pada tahun 1990 melalui jurnal berjudul Indexing by Latent Semantic Analysis oleh Scott Deerwester, Susan Dumais, George Furnas, Richard Harshman, Thomas Landauer, Karen Lochbaum dan Lynn Streeter, diperkenalkan sebuah algoritma untuk melakukan indexing kata pada dokumen dan mem-plot ke basis vektor yang dinamakan Latent Semantic Analysis (LSA).[8] Algoritma LSA
10 merupakan salah satu algoritma pengembangan dari bidang ilmu Information Retrieval, yang mampu menghimpun sejumlah besar dokumen dalam basis data dan menghubungkan relasi antar dokumen dengan mencocokkan kueri (query) yang diberikan. Lebih spesifik lagi, algoritma LSA merupakan suatu metode pembuatan representasi istilah (term) berbasis vektor yang dianggap mampu menangkap inti sari (semantic) dari suatu dokumen maupun kalimat.[10] Fungsi utama LSA ini adalah menghitung kemiripan (similarity) dokumen dengan membandingkan representasi vektor tiap dokumen tersebut. Dalam pembentukan representasi istilah berbasis vektor, LSA akan membentuk matriks yang merepresentasikan hubungan antar term dan dokumen yang dinamakan semantic space, yaitu kata-kata dan dokumen yang berasosiasi dekat akan ditempatkan dekat satu sama lain yang direpresentasikan melalui vektor. LSA dalam perhitungannya menggunakan SVD (Singular Value Decomposition). SVD merepresentasikan semantic space ke dalam bentuk matriks yang memiliki orde lebih kecil dibandingkan ordo matriks aslinya, namun perhitungan matriks tetap menghasilkan matriks yang bernilai hamper sama. SVD merupakan teorema aljabar linear yang dikatakan mampu memecah blok suatu matriks A menjadi tiga matriks baru, yaitu sebuah matriks orthogonal U, Matriks diagonal S, dan Transpose Matriks orthogonal V. Teorema SVD adalah sebagai berikut : A mn = U mm x S mn x V T nn Dimana U T U=I, V T V=I. Kolom matriks U merupakan Eigenvektor Orthonormal dari AA T, sedangkan kolom matriks V merupakan Eigenvektor Orthonormal dari ATA, dan S merupakan matriks diagonal akar dari nilai eigen dari matriks U atau V dalam urutan dari yang terbesar (Descending order). Contoh berikut didefinisikan sebuah matriks ordo kecil A yang digunakan untuk menghitung nilai SVD. Adapun contoh perhitungannya adalah sebagai berikut: 1. Ditentukan Matriks A berordo 2x3
11 2. Dihitung nilai Matriks U yang diawali dengan menghitung AA T Selanjutnya dihitung nilai eigen dan vector eigen dari AA T. Rumus yang digunakan untuk menghitung vector eigen adalah Av = λv yang diimplementasikan ke AA T sebagai berikut : Kemudian pisahkan tiap set rumus menjadi : Selanjutnya diubah ke dalam bentuk sebagai berikut : terhadap nol. Ditentukan nilai λ dengan menghitung nilai determinan dari rumus diatas Hasilnya adalah sebagai berikut : Nilai eigen telah diperoleh yaitu, λ = 10 dan λ = 12. Selanjutnya ganti nilai λ pada rumus perhitungan sebelumnya untuk memperoleh vector eigen. Untuk λ = 10 diperoleh :
12 Sehingga diperoleh vector eigen [1,-1]. Kemudian untuk λ = 12 diperoleh: Dan diperoleh vector eigen [1,1]. Vektor eigen tersebut menjadi kolom vector pada matriks diurut berdasarkan nilai eigen. Dengan kata lain, vector eigen dari nilai eigen yang terbesar menjadi kolom pertama, sedangkan kolom berikutnya ditempati oleh vector eigen yang memiliki nilai eigen yang lebih kecil berikutnya. Kemudian, matriks tersebut dikonversi ke dalam bentuk matriks orthogonal dengan menggunakan normalisasi Gram-Schmidt terhadap kolom vector. Perhitungannya adalah sebagai berikut : 3. Dihitung nilai matriks V, seperti perhitungan untuk memperoleh matriks U dari A T A.
13 Rumus nilai eigen adalah sebagai berikut : Perhitungan determinan terhadap nol adalah sebagai berikut : Jadi nilai eigen value yang diperoleh adalah λ = 0, λ = 10, dan λ = 12. Lalu ganti nilai & pada rumus sebelumnya untuk menentukan vector eigen. Untuk λ = 12 : Diperoleh v1 = [1,2,1]. Untuk λ = 10 :
14 Diperoleh v2 = [2,-1,0]. Untuk λ = 0 : Diperoleh v3 = [1,2,-5]. Kemudian urutan v1, v2, v3 sebagai vector kolom pada sebuah matriks sesuai nilai eigen terbesar adalah sebagai berikut : Normalisasi matriks tersebut adalah sebagai berikut : Matriks V adalah sebagai berikut : Sedangkan Matriks V T : 4. Dihitung matriks S berordo m x n dari akar nilai eigen bukan nol dan posisikan tiap nilai tersebut membentuk matriks diagonal. Nilai eigen terbesar akan ditempatkan di baris matriks S yang lebih kecil. Jadi akar nilai eigen
15 terbesar akan ditempatkan di baris pertama matriks S, kemudian diikuti dengan akar nilai eigen terbesar berikutnya. Sesuai dengan rumus SVD akan diperoleh kembali nilai yang sama ataupun hampir sama dengan matriks A sebagai berikut : Beberapa contoh sistem penilaian tes esai berbahasa indonesia adalah sebagai berikut : a. Peneletian menggunakan metode SVM-LSA dengan fitur Generik. Dalam sistem, metode Support Vector Machine (SVM) berbasis jaringan syaraf tiruan dan berfungsi untuk memberikan bobot kepada tiap kata dalam esai. Sedangkan algoritma LSA berfungsi untuk menganalisis kemiripan makna (similarity) antara jawaban esai dengan jawaban kunci serta antar jawaban esai serta mem-plot kunci jawaban dan jawaban-jawaban esai ke koordinat Cartesius yang kemudian akan dihitung nilai cosinus sudut yang dibentuk antara plot kunci jawaban dengan plot tiap jawaban esai.[1] b. Peneletian menggunakan metode Latent Semantic Analysis dengan penambahan kata bobot. Sistem ini secara manual memilih kata-kata yang memiliki bobot untuk digunakan sebagai kata-kata kunci. Bobot yang diberikan untuk semua katakata kunci bernilai sama. Sedangkan algoritma LSA berfungsi untuk menganalisis kemiripan makna (similarity) antara jawaban esai dengan jawaban kunci serta antar jawaban esai serta mem-plot kunci jawaban dan jawaban-jawaban esai ke koordinat Cartesius yang kemudian akan dihitung nilai cosinus sudut yang dibentuk antara plot kunci jawaban dengan plot tiap jawaban esai.[5]