EKSTRAKSI FITUR PRODUK DENGAN MENGGALI ULASAN PENGGUNA

Transkripsi

1 EKSTRAKSI FITUR PRODUK DENGAN MENGGALI ULASAN PENGGUNA Faza Nailul Maziya 1, Rully A Hendrawan 2, Renny P Kusumawardani 3 1,2,3 Jurusan Sistem Informasi, Fakultas Teknologi Informasi, Institut Teknologi Sepuluh Nopember (ITS) Surabaya, 60111, Indonesia Telp: (031) , Fax : (031) fazazaza@gmail.com 1, eraha_id@yahoo.com 2, renny.pradina@gmail.com 3 Abstrak Seiring dengan berkembangnya e-commerce saat ini, semakin meningkat pula jumlah review pengguna tentang produk yang mereka konsumsi. Bahkan, untuk sebuah produk yang terkenal, angka review bisa mencapai ratusan. Hal ini membuat pelanggan yang berpotensi sulit untuk menentukan produk mana yang harus dibeli karena terlalu banyak komentar yang dibaca. Pada tugas akhir ini, penulis akan melakukan ekstraksi fitur produk dari review pengguna pada website. Disini, penulis menggunakan teknik Association Rule Mining untuk mencari fitur fitur yang frequent dan juga Natural Language Processing yakni Parsing untuk memecah kata atau frase dalam kalimat dan mengidentifikasi jenis kata atau frase tersebut. Selain itu, penulis juga akan melakukan penggalian opini untuk mencari fiturfitur beserta sifatnya. Dan untuk memperbaiki precision dan recall serta teknik pruning yang juga akan dieksplorasi yakni teknik compactness pruning dan Redundancy pruning. Tugas akhir ini akan menghasilkan sebuah tool pengekstraksi fitur produk dari ulasan pengguna yang mana nantinya dapat membantu pengembang dalam menyimpulkan apakah review tersebut positif atau negative berdasarkan fitur. Dan dapat bermanfaat bagi pelanggan dalam pengambilan keputusan atas sebuah produk dengan melihat fitur dari produk. Key Words: penggalian opini, ekstraksi fitur review, association rule mining, NLP 1. Pendahuluan Perkembangan e-commerce saat ini sangatlah cepat. Banyak sekali produk yang dijual melalui web, dan banyak pula orang yang membeli produk di web. Untuk meningkatkan kepuasan pelanggan dan pengalaman belanja mereka, telah menjadi keharusan bagi pedagang online untuk memberikan kewenengan kepada pelanggan mereka untuk aktif dalam memberikan review atau umpan balik maupun mengekspresikan pendapat pada produk yang mereka beli. Dengan kenyamanan dan akses yang luas terhadap penggunaan internet saat ini, orang-orang pun semakin gemar menulis review. Konsekuensinya, jumlah review dari produk pun meningkat juga. Beberapa produk yang terkenal bisa mencapai ratusan review pada situs yang terkenal. Hal ini membuat pelanggan yang berpotensi kesulitan untuk membaca review yang dapat membantunya mengambil keputusan untuk membeli produk. Untuk itu diperlukan sebuah kemudahan akses bagi pelanggan untuk melihat review dengan mudah dan tepat guna [2]. Maka dari itu dalam tugas akhir kali ini, penulis akan melakukan extraksi fitur dengan menggunakan ulasan pengguna. Terdapat dua langkah yang seharusnya dilakukan dalam penelitian ini: 1. Mengidentifikasi fiturfitur dari produk diulas oleh pelanggan atau bisa disebut opinion features dan sekaligus menentukan fiturfitur yang memiliki frekuensi tinggi. 2. Untuk setiap fitur, kita identifikasi berapa banyak review pelanggan yang memiliki opini positif maupun opini negatif. Berikut ilustrasi sederhananya. Asumsikan kita akan meresume review kamera digital. Biasanya pada kamera digital pelanggan akan berkomentar tentang kualitas gambar, ukuran, blitz, dan lainnya. Misalnya, terdapat 300 review pelanggan yang memberikan opini positif mengenai kualitas gambar, dan hanya 7 yang mengekspresikan opini negatif. Tabel 1 Contoh List Fitur Positif- Negatif Kualitas Gambar Positif 300 Negatif 7 Size Positif 124 Negatif 14 Dengan mengekstrak setiap fitur pada review, pelanggan yang ingin membeli produk menjadi lebih mudah melihat kesan pelanggan sebelumnya terhadap produk tersebut.

2 Namun pada TA ini, penulis hanya akan melakukan langkah pertama, yakni mengidentifikasi fiturfitur yang direview pelanggan yaitu mengekstrak fiturfitur tersebut dengan menggunakan beberapa metode yakni Association Rule dan NLP (Natural Language Processing). 3.1 Parsing Kalimat untuk Mendapatkan Tree Untuk memparsing kalimat, digunakan Stanford parser. hasil dari parsing kalimat tersebut berupa tree. 2. Sistem Ekstraksi Fitur Ekstraksi fitur merupakan sebagian langkah dari sistem penyimpulan ulasan berdasarkan fiturfitur yang diulas pada ulasan produk oleh pengguna. Sistem ekstraksi dibangun dengan beberapa langkah dan metode. Inputan dari sistem berupa ulasan pengguna berdasarkan produk yang diulas. Dari data tersebut, dicari mana yang merupakan fitur yang sering muncul digunakan metode ARM untuk mendapatkan fitur yang sering muncul dalam ulasan. Setelah mendapatkan fitur yang sering muncul, dilakukan pruning karena fitur yang didapat dari ARM tidak semua benar. Untuk melakukan pruning, digunakan metode redundancy pruning yakni menggunakan p- support dimana jika fitur memilki nilai kurang dari p- support yang telah ditentukan maka fitur akan dibuang. Setelah mendapatkan fitur yang sudah dipruning, selanjutnya mencari fiturfitur yang tidak sering muncul, namun diperbincangan di ulasan. Untuk mendapatkannya, dicari kata- kata sifat yang menyertai fitur yang sering muncul. Fitur- fitur yang tidak sering muncul diekstrak melalui pendekatan kata sifat tersebut. Jika terdapat fitur di sekitar kalimat yang tidak mengandung frequent feature maka fitur tersebut merupakan infrequent feature. Gambar 2 Parsing Tree Kalimat 3.2 Mendapatkan Noun Phrase dari Tree Dari hasil parsing berupa tree, selanjutnya adalah mendapatkan noun phrase, atau dari label postag berupa /NP. Jadi semua kata atau kalimat yang berlabel NP akan disimpan dalam sebuah databes. Dalam project ini adalah disimpan dalam Arraylist. Parsing Frequent Feature Generation Feature Pruning Opinion Word Extraction Infrequent Feature Identification Gambar 3 Parsing Tree Frase 3. Parsing Gambar 1 Alur Sistem Untuk mendapatkan kata benda atau frase dari review tersebut maka dilakukan parsing kalimat menggunakan Stanford Parser. library yang digunakan adalah stanfordparser jar[9] yang mana menghasilkan sebuah tree dari sebuah kalimat. Dari tree tersebut, akan dilakukan rekursi untuk mendapatkan frase, dan dari frase tersebut diekstrak untuk mendapatkan kata- kata. 3.3 Mendapatkan List Kata- kata dari Frase Setelah mendapatkan frase, dilakukan pemecahan frase untuk mendapatkan list kata- kata yang nantinya dari kata- kata tersebut akan dilakukan association rule mining dengan algoritma FP- Growth untuk mendapatkan frequent feature atau fitur yang sering muncul. Tabel 2 Hasil Pecah Frase digital G3 artistic cameras 5mp photographic Nikon lot needs

3 CP5700 just mind Olympus Megapixel fiance C5050 power main CP5000 camera focus Canon 15casual Fuji 4. Frequent Feature Setelah melakukan proses Parsing dan stemming, akan didapatkan banyak sekali kata- kata. Untuk mendapatkan hasil yang sesuai dengan tujuan tugas akhir ini maka perlu dilakukan pengidentifikasian fitur yang sering muncul pada review dengan menggunakan Association Rule Mining dan dengan algoritma FP- Growth. Dari hasil parsing yang menghasilkan list kata, selanjutnya adalah mencari kata- kata yang sering muncul dan juga kandidat frase menggunakan Association Rule Mining(ARM). Algoritma yang digunakan adalah algoritma FP- Growth. Dengan rincian: Tabel 3 Parameter generate rule dengan Algoritma FP- Growth DeltaValue 0.05 findallrulesforsupportlevel True lowerboundminsupport maxnumberofitems -1 metrictype Confidence minmetric numrulestofind 100 positiveindex 2 rulesmustcontain transactionsmustcontain upperboundminsupport 1.0 useorformustcontainlist True Dari beberapa kali uji coba nilai support. Nilai dari table diatas yang paling efisien untuk mendapatkan frequent feature. untuk menjalankan ARM dibutuhkan library weka yakni weka.lib. 5. Feature Pruning Setelah mendapatkan fitur yang sering muncul dari hasil Association Rule Mining, dipastikan terdapat fitur yang kurang berguna walaupun fitur tersebut sering muncul. Fitur fitur tersebut kita anggap sebagai kandidat fitur. Maka dari itu diperlukan teknik pruning untuk mendapatkan fitur yang sebenarnya. Teknik pruning yang digunakan dalam tugas akhir ini adalah teknik redundancy pruning, dimana dihitung p- support dari masing- masing kandidat. Kandidat yang memiliki P- support yang tidak memenuhi nilai p- support yang ditentukan akan dihilangkan. Redundancy pruning merupakan teknik pruning yakni menghilangkan fiturfitur yang redundan. Dalam hal ini redundan didefinisikan menggunakan perhitungan p- support atau pure support. p- support dari fitur adalah sejumlah kalimat yang memiliki fitur dan pada kalimat tersebut tidak mengandung fitur yang memiliki superset. Maka dari itu dihilangkan fiturfitur yang memiliki p- support kurang dari 3. Misalnya, terdapat fitur manual, yang mana memiliki support sebanyak 10 kalimat. Dan fitur manual tersebut merupakan subset dari fitur manual mode dan manual setting. Yang mana masing- masing dari fitur tersebut memilki support 3, dan 4. Maka fitur tersebut tidak dihilangkan karena p-support dari masing- masing fitur lebih dari Opinion Words Extraction Untuk mendapatkan fiturfitur yang tidak sering muncul namun dibahas di review dilakukan pencarian fitur dengan pendekatan kata- kata sifat. Maka dilakukan ekstraksi kata- kata sifat yang terdapat pada review. Namun dalam tugas akhir ini tidak menggenerate semua kata sifat yang ada pada review namun diambil kata- kata sifat yang menyertai fitur yang sering muncul. sebagai contoh, lihat dua kalimat di bawah ini: Kalimat 1: the butterfly is beautiful and gets honey in that flower. Kalimat 2: I take an incredible pictures. Pada kalimat pertama terdapat fitur : butterfly yang mana dekat dengan kata sifat: beautiful. Dan pada kalimat kedua terdapat fitur :pictures yang mana dekat dengan kata sifat incredible. Dari kalimat itu kita dapat mengekstrak atau mendapatkan kata sifat dengan melihat fitur yang sebelumnya sudah kita dapatkan dan mencari kata sifat yang dekat dengan fitur. Hasil dari kata sifat dapat kita simpan di database dan digunakan untuk mencari infrequent feature. 7. Infrequent Feature Untuk mendapatkan kata- kata sifat digunakan frequent feature. dan kata- kata sifat tersebut digunakan untuk mendapatkan infrequent feature atau fitur yang tidak sering muncul namun diperbincangankan dalam ulasan pengguna. Langkah untuk mendapatkan infrequent feature adalah dengan mencari fiturfitur yang terdekat dengan kata sifat yang sudah didapat di dalam kalimat. Jadi untuk setiap kalimat yang sudah disimpan di database ulasan dicari yang tidak mengandung fitur yang sering muncul tetapi mengandung kata sifat. Kemudian dicari

4 kata benda atau frase dan disimpan sebagai fitur yang tidak sering muncul. sebagai contoh: Kalimat 1: the camera is absolutely amazing Kalimat 2: the software is amazing. Pada kalimat 1 dan 2 sama-sama memiliki kata sifat amazing. Dari kalimat 1 membicarakan tentang camera, dan pada kalimat 2 adalah software. Asumsikan bahwa camera merupakan sebuah frequent feature. maka dari itu, fitur software dapat dikatakan berupa infrequent feature, karena memiliki sifat yang dimiliki oleh frequent feature.. Uji Coba Ekstraksi Hasil terakhir sistem ekstraksi berupa list fiturfitur hasil ekstraksi yang diperoleh dari pendekatan metode- metode yang telah dilakukan. Hasil fitur berupa fitur frekuen ditambah dengan fitur infrekuen. Hasil dari ekstraksi ini akan dibandingkan dengan hasil ekstraksi yang telah dilakukan jurnal[6]. Tabel 4 Uji Coba Ekstraksi Produk Uji Coba Ekstraksi Jumlah Jumlah produk yang produk dihasilkan yang sama Jumlah produk yang tidak sama %produk sistem terhadap produk jurnal Kamera DVD MP Kamera Handphone Rata- rata Dibandingkan dengan jumlah hasil ekstraksi fitur oleh jurnal (dapat dilihat di table 5.9), selisih dari hasil ekstraksi sekitar 11 fitur. Namun untuk ketepatan fitur masih kurang. Selisih dari fitur yang sama masih tinggi, yakni sekitar 30%.. akan tetapi, setelah dilakukan pengecekan fitur. Fitur yang dihasilkan oleh sistem masih relevan bagi produk yang diekstrak. Sehingga dapat dikatakan sistem masih bisa diterima..1 Uji Performa Sistem Uji performa sistem untuk tugas akhir adalah menggunakan ukuran precision dan recall[11]. Precision adalah perbandingan jumlah data yang berhasil ditemukembalikan (information retrieval) terhadap jumlah data hasil dari sistem. Sedangkan recall adalah perbandingan jumlah data yang ditemukembalikan terhadap data yang relevan atau data yang benar. Performa sistem dilakukan dengan membandingkan nilai precision dan recall dari sistem dengan nilai precision recall yang dihasilkan dari jurnal. Performa dilakukan untuk setiap langkah dalam proses pengekstrakan. Hasil dari perrhitungan performa sistem dapat dilihat pada table 5. Tampak bahwa nilai perhitungan hasil system dibandingkan dengan jurnal tampak memilih selisih besar. Hal tersebut dikarenakan sistem menghasilkan frequent feature melalui ARM yang kurang maksimal. Minimum support yang digunakan pada jurnal sebesar ketika jurnal melakukan ARM dengan minimum support sebesar 0.01, hasil recall yang dihasilkan sebesar sedangkan hasil precision dari sistem hanya sebesar Hal ini kemungkinan disebabkan oleh atribut dan instance sebagai inputan dari ARM sangat berbeda. Sistem mendapatkan data atribut dan instance dari katakata yang dihasilkan oleh sistem parser. sedangkan jurnal menggunakan postag NLP 2000[4]. Dari hasil analisa data yang diteliti memang masih terdapat kata- kata yang bukan kata benda namun masuk sebagai kata benda. Hal ini disebabkan pada saat mencari kata benda didapat dengan melakukan parsing kalimat. Selain itu sistem menggunakan bantuan Weka untuk melakukan proses ARM. Sedangkan jurnal menggunakan ARM Miner. Dari uji coba yang dilakukan beberapa kali dengan minimum support berbeda terdapat perbedaan dari hasil ARM. Pada jurnal mendapat nilai 0.6 pada precision karena hasil fitur yang didapat dari sistem jurnal yaitu ARM Miner memilki hasil dengan jumlah kecil, sehingga Tabel 5 Hasil Perbandingan Precaision dan Recall

5 mendapatkan precision yang cukup bagus. Sedangkan pada sistem ini hasil ARM Weka dengan minimum support 0.01 mendapatkan fitur yang banyak. Sehingga nilai precision menjadi kecil. Hal tersebut berpengaruh pada nilai precision di setiap metode. Memang terlihat precision semakin meningkat setelah dilakukan pruning. Namun untuk sistem ini nilai precision masih tergolong rendah. Sedangkan untuk recall dari sistem ini juga masih rendah dibandingkan dengan jurnal namun masih terlihat tinggi secara umum. Kenaikan recall dari sebelum dilakukan pruning dan setelah dilakukan pruning sama dengan jurnal, yakni sekitar 0.1 %. Namun, pada tahap infrequent fitur, sistem mengalami penurunan performa. Hal itu disebabkan fitur bertambah,sehingga pembagi pun bertambah. Seperti telah dijelaskan diatas, salah satu hal yang menyebabkan performa adalah nilai minimum support dan confiden yang ditentukan. Pada sistem ini dilakukan beberapa kali ujicoba dengasn minimum support dan confident yang berbeda namun hanya tiga yang didokumentasikan. Berikut merupakan table hasil perbandingan precision recall berdasarkan minimum support yang ditentukan. Tabel 6 Perbandingan Precision Recall berdasarkan minimum support produ Minimum support k prec recall preci recall preci recall isio n sion sion Cano n G3 5 DVD Mp Nikon Nokia Ratarata Tampak bahwa terdapat selisih ketikan minimum support ditentukan sebesar 0.01, 0.03, dan ratarata selisih sebesar Terbukti bahwa minimum support dan confiden mempengaruhi nilai precision dan recall. Dan untuk nilai terbaik ada pada saat minimum support sebesar 0.05 dan confiden sebesar Dari nilai precision didapat bahwa ketepatan tebakan sistem untuk mengekstraksi fitur masih sedikit tepat jika dibandingkan dengan hasil jurnal. Begitu juga performa berapa banyak yang berhasil ditebak berdasarkan recall yang masih kurang jika dibandingkan dengan jurnal. Namun dari sistem menghasilkan fitur yang masih relevan terhadap produk yang diekstrak..2 Analisis Hasil Ekstraksi Dari hasil ekstraksi terlihat bahwa hasil ekstraksi dari sistem dibandingkan dengan hasil jurnal masih kurang. Masih banyak fitur yang diekstrak jurnal tidak terdapat pada hasil sistem. Seperti yang sudah dijelaskan sebelumnya, hal ini dikarenakan hasil dari ARM yang kurang sehingga fitur yang diolah di langkah atau metode selanjutnya-pun kurang. Pemecahan kata dari kalimat dengan menggunakan standford parser juga menjadi salah satu penyebab hasil yang didapat kurang, sehingga berpengaruh pada precision dan recall. Setelah melakukan uji coba sistem, sebenranya terdapat satu lagi yang mempengaruhi ekstraksi. Yaitu pada instance untuk inputan weka. Apabila intansce berdasarkan kata frase seperti the digital camera, the picture quality, atau a big hug. Maka instance yang dihasilkan banyak, sehingga hasil fitur yang diekstrak tidak maksimal. Dan menghasilkan recall dan precision sangat rendah. Namun jika instance berdasarkan pada kalimat, instance yang dihasilkan lebih sedikit. Namun kemungkinan fitur yang diekstrak besar. Hal ini dipengaruhi dengan support dan confidence. Support merupakan kumunculan fitur yang bersama dibagikan dengan jumlah instance atau transaksi. Sebagai contoh fitur: digital camera. Nilai support dapat dihitung dengan jumlah digital camera dibagikan dengan jumlah transaksi yang mengandung fitur digital camera. Sehingga hasil fitur lebih baik karena seperti yang dijelaskan sebelumnya kemungkinan fitur terjadi bersama dalam kalimat dibandingkan dengan frase lebih besar. Dan nilai recall lebih baik daripada recall dari instance berdasarkan frase. Namun nilai precision lebih rendah. Hal ini dikarenakan sistem yang masih kurang optimal dalam pengekstrakan dibandingkan dengan jurnal. Dari uji coba sistem, hasil ekstraksi dari sistem tidak semua sama dengan hasil ekstraksi dari jurnal. Hal tersebut dikarenakan beberapa tools metode yang berbeda dengan jurnal. Pada jurnal yang diacu, tools yang digunakan untuk mencari kata benda dari kalimat menggunakan pos-tagger NLP 2000[5]. Sedangkan untuk sistem ini menggunakan Standford Parser[6] Tabel 7 Perbandingan Data Arff

6 Perbandingan Data arff berdasarkan Frase dan Sentence produk Berdasarkan Frase Berdasarkan Sentence Jumlah Jumlah Precision Recall Jumlah Jumlah Precision Recall Atribut Instance Atribut Instance Kamera DVD MP Kamera Handphone Kesimpulan Saran Berikut adalah beberapa saran yang diajukan untuk perbaikan dan pengembangan lebih lanjut: 1. Disarankan untuk menggunakan tools ARM selain Weka, dapat dicoba menggunakan ARM- Miner atau tool ARM lain. Hal ini dikarenakan memori dari Weka yang terbatas. Sehingga untuk data besar Weka akan mengalami Heap Space Memory. 2. Dalam sistem ini masih belum menggunakan database. Namun hanya memanfaatkan database pada memori sehingga dapat terjadi over memori sewaktu- waktu jika algoritma yang dijalankan salah atau overloop. 3. Tidak semua hasil dari parsing yang diketahui sebagai kata benda adalah kata benda. Namun ada kata- kata yang terdeteksi sebagai kata benda. Hal ini dikarenakan proses parsing per kalimat. Maka dari itu, perlu ketelitian dan kesabaran dalam pengecekan kata. Saran saya, dilakukan pengecekan dalam kamus atau melakukan postagging ualng. 4. Karena masih terdapat banyak kata- kata yang tidak bersih seperti stopword dan yang lain, disarankan untuk lebih bersih dalam melakukan preprosesing data. Dapat menggunakan stemming, stopword removal, atau fuzzy matching untuk melakukan preprosesing. Setelah dilakukan uji coba dan analisis terhadap sistem yang dibuat, maka dapat diambil kesimpulan sebagai berikut: 1. Language Parser digunakan untuk mencari kata benda atau frase dengan melakukan parsing dalam ekstraksi fitur menggunakan ulasan pengguna. Dalam Tugas Akhir ini yang digunakan adalah Standford Parser. 2. Semua hasil parsing yang didefinisikan sebagai kata benda sudah sesuai, yakni yang memiliki format postag NN/ NNP/ NNS. 3. Metode morphologi yang diambil dari Weka dilakukan untuk mendapatkan kata-kata dasar dari kata-kata yang berimbuhan yang disebut dengan proses stemming 4. Metode stopword removal dengan menggunakan weka melalui fungsi stopword() dilakukan untuk menghapus kata-kata yang merupakan stopword. Seperti or, and, at, dan lainnya. 5. Metode Association Rule Mining dilakukan untuk mendapatkan kata-kata benda dan sifat yang sering muncul bersamaan. Hasil dari ARM dianggap sebagai kandidat fitur. Minimum support dan confidence yang digunakan untuk sistem ini adalah Hasil yang didapat dari metode infrequent feature sangat sedikit dan memang tidak signifikan. Hal ini juga diungkapkan pada jurnal [2] 7. Setelah dilakukan metode pruning dari hasil kandidat fitur, hasil precision dan recall menjadi lebih baik.. Walaupun hasil dari sistem memiliki recall dan precision lebih rendah dari jurnal, hasil ekstraksi yang dihasilkan cukup baik dan cukup relevan. Sistem ini memiliki kekurangan; proses pengekstrakan cukup lama, yaitu sekitar 4-5 menit. Hal ini disebabkan oleh proses parsing yang komputasinya memakan waktu cukup lama (2-3 menit). 11. Daftar Pustaka [1] Agrawal, R. and Srikant, R Fast algorithm for mining association rules. VLDB 94, Covington, Michael.Fundamental Algorithm for Dependency Parsing.2001.Artificial Intelligence Center, The University of Georgia. [2] Hu, M., and Liu, B Mining Opinion Features in Customer Reviews. To appear in AAAI 04. [3] Jokinen P., and Ukkonen, E Two algorithms for approximate string matching in static texts. In A. Tarlecki, (ed.),

7 Mathematical Foundations of Computer Science. [4] NLP Enciclopedia LIS S.Encyclopedia.pdf [5] NLProcessor Text Analysis Toolkit l [6] Opinion Mining, Sentiment Analysis, and Opinion Spam Detection Data Set Hu and Liu [7] Soelaiman, R., and Arini, Ni Made.Analisis Kinerja Algoritma Fold- Growth dan FP- Growth Pada Penggalian Pola Asosiasi.Seminar Nasional Aplikasi Teknologi Informasi 2006 ISSN: [] Tan, Pang- Ning; Michael, Steinbach; Kumar, Vipin (2005). Chapter 6. Association Analysis: Basic Concept and Algorithms. Introduction to Data Mining [9] The Stanford Natural Language Processing Group Stanford Log- linear Part- Of- Speech Tagger [10] Measuring Search Effectiveness /Recall-Precision.html [11] Manning, Raghavan, Schutze.200. Chapter Evaluation and Result Summaries. Introduction to Information Retrieval.