Penggunaan Prinsip Apriori untuk Outlier Cleaning pada Process Mining dengan Algoritma α

dokumen-dokumen yang mirip
Analisis dan Implementasi Process Mining Menggunakan Fuzzy Mining (Studi Kasus: Data BPI Challenge 2014)

Analisis dan Implementasi Process Mining Menggunakan Fuzzy Mining (Studi Kasus: Data BPI Challenge 2014)

e-proceeding of Engineering : Vol.2, No.1 April 2015 Page 1517

Timor Setiyaningsih, Nur Syamsiah Teknik Informatika Universitas Darma Persada. Abstrak

PENERAPAN DATA MINING UNTUK REKOMENDASI BEASISWA PADA SMA MUHAMMADIYAH GUBUG MENGGUNAKAN ALGORITMA C4.5

PEMANFAATAN PROCESS MINING PADA E-COMMERCE

PENERAPAN ALGORITMA C5.0 DALAM PENGKLASIFIKASIAN DATA MAHASISWA UNIVERSITAS NEGERI GORONTALO

DATA MINING ANALISA POLA PEMBELIAN PRODUK DENGAN MENGGUNAKAN METODE ALGORITMA APRIORI

DATA MINING UNTUK REKOMENDASI KERJA BAGI ALUMI DENGAN ALGORITMA GARC(GAIN BASED ASSOCIATION RULE CLASSIFICTION)

Heuristics Miner. A. Proses Bisnis Pada Pengadaan Barang dan Jasa 'Establish the goods and services that will be

PENERAPAN ALGORITMA APRIORI ASSOCIATION RULE UNTUK ANALISA NILAI MAHASISWA DI UNIVERSITAS GUNADARMA

SISTEM REKOMENDASI PEMESANAN SPAREPART DENGAN ALGORITMA FP-GROWTH (STUDI KASUS PT. ROSALIA SURAKARTA)

REKOMENDASI SOLUSI PADA COMPUTER MAINTENANCE MANAGEMENT SYSTEM MENGGUNAKAN ASSOCIATION RULE, KOEFISEN KORELASI PHI DAN CHI-SQUARE

RENCANA PEMBELAJARAN SEMESTER (RPS)

ANALISA POLA PEMILIHAN PROGRAM STUDI BAGI CALON MAHASISWA DI UNIVERSITAS ABDURRAB MENGGUNAKAN ASSOCIATION RULE

SYLLABUS, KEBUTUHAN DAN KONSEP DATA WAREHOUSE. Astrid Lestari Tungadi, S.Kom., MTI.

SATUAN ACARA PERKULIAHAN UNIVERSITAS GUNADARMA

PREDIKSI OUTLIER MENGGUNAKAN DATA TEPI CLUSTER UNTUK MENINGKATKAN KUALITAS PENGETAHUAN HASIL DATA MINING

APLIKASI PENGGALIAN POLA SEKUENSIAL INTERVAL WAKTU FUZZY PADA PROSES BISNIS ERP MENGGUNAKAN ALGORITMA FP-GROWTH-PREFIXSPAN

ANALISA KONSISTENSI POLA PEMINJAMAN BUKU MENGGUNAKAN ALGORITMA FP-GROWTH (Studi Kasus: UPT Perpustakaan Universitas Sebelas Maret)

ANALISA PENCARIAN FREQUENT ITEMSETS MENGGUNAKAN ALGORITMA FP-MAX

Analisa Data Mining Menggunakan Algoritma Frequent Pattern Growth Pada Data Transaksi Penjualan Restoran Joglo Kampoeng Doeloe Semarang

PENERAPAN METODE ASOSIASI GSP DAN APRIORI UNTUK STOK DAN REKOMENDASI PRODUK

PENERAPAN ALGORITMA NAÏVE BAYES UNTUK DETEKSI BAKTERI E-COLI

KLASIFIKASI PENENTUAN TIM UTAMA OLAHRAGA HOCKEY MENGGUNAKAN ALGORITMA C4.5 (Study Kasus : Hockey Kabupaten Kendal)

ANALISA POLA PEMILIHAN PROGRAM STUDI BAGI CALON MAHASISWA DI UNIVERSITAS ABDURRAB MENGGUNAKAN ASSOCIATION RULE

ANALISIS KETERKAITAN DATA TRANSAKSI PENJUALAN BUKU MENGGUNAKAN ALGORITMA APRIORI DAN ALGORITMA CENTROID LINKAGE HIERARCHICAL METHOD (CLHM)

JURNAL TEKNIK, (2014) APLIKASI DATA MINING UNTUK MEMPREDIKSI PERFORMANSI MAHASISWA DENGAN METODE KLASIFIKASI DECISION TREE

BAB I PENDAHULUAN 1.1 Latar Belakang

PENGELOMPOKAN DAN ANALISIS PELANGGAN DENGAN MENGGUNAKAN FUZZY C-MEANS CLUSTERING

BAB I PENDAHULUAN. Data mining memungkinkan penemuan pola-pola yang menarik, informasi yang

CLUSTERING DATA KATEGORIK MENGGUNAKAN K-MODES DENGAN WEIGHTED DISSIMILARITY MEASURE

PENERAPAN ALGORITMA KLASIFIKASI BERBASIS ATURAN ASOSIASI UNTUK DATA METEOROLOGI ( CUACA )

ALGORITMA ATURAN ASOSIASI APRIORI-TID DENGAN METODE KLASTERISASI HIERARKI AGLOMERATIF. Tri Khairul I.A 1 ABSTRAK

PENGEMBANGAN APLIKASI PENENTUAN TINGKAT KEUNTUNGAN PADA E- COMMERCE DENGAN MENGGUNAKAN ALGORITMA K-MEANS DAN APRIORI

TINJAUAN PUSTAKA. Definisi Data Mining

ANALISIS DAN IMPLEMENTASI DATA MINING DENGAN CONTINUOUS ASSOCIATION RULE MINING ALGORITHM (CARMA) UNTUK REKOMENDASI MATA KULIAH PADA PERWALIAN

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

Pengolahan Data. Algoritma C4.5 Menghitung entropi : Data Training (75%) = 220 data Data Testing (25%) = 73 data

ANALISIS DAN IMPLEMENTASI ALGORITMA FP-GROWTH PADA APLIKASI SMART UNTUK MENENTUKAN MARKET BASKET ANALYSIS PADA USAHA RETAIL (STUDI KASUS : PT.

Pola Kompetensi Mahasiswa Program Studi Informatika Menggunakan FP-Growth

Nusantara of Engginering (NoE)/Vol. 1/No. 2/ISSN:

BAB 2 LANDASAN TEORI. Pada bab ini akan dibahas tentang konsep dasar dan teori-teori pendukung yang berhubungan dengan sistem yang akan dibangun.

Penerapan Metode Association Rule Menggunakan Algoritma Apriori pada Simulasi Prediksi Hujan Wilayah Kota Bandung

Analisis asosiasi Penguasaan ICT Mahasiswa Baru dan Pencapaian Prestasi Akademik Mahasiswa dengan Algoritma Apriori.

PENERAPAN DATA MINING UNTUK MENGETAHUI POLA ASOSIASI ANTARA DATA MAHASISWA DAN TINGKAT KELULUSAN MENGGUNAKAN ALGORITMA FOLD-GROWTH

BAB I PENDAHULUAN 1.1. Latar Belakang

BAB 2 TINJAUAN PUSTAKA

Pemanfaatan Educational Data Mining (EDM)...

BAB II TINJAUAN PUSTAKA. pengetahuan di dalam database. Data mining adalah proses yang menggunakan

BAB I PENDAHULUAN 1.1 Latar Belakang Masalah

PENDAHULUAN. Latar Belakang

PEMBENTUKAN DECISION TREE DATA LAMA STUDI MAHASISWA MENGGUNAKAN ALGORITMA NBTREE DAN C4.5

PENERAPAN DATA MINING UNTUK RENCANA SUKSESI SUMBER DAYA MANUSIA MENGGUNAKAN ALGORITMA K-NEAREST NEIGHBOUR DI PT POS INDONESIA

Association Rule Mining Data Peminjaman Perpustakaan Menggunakan Apriori dan Jaccard Similarity

PREDIKSI KEBANGKRUTAN PERUSAHAAN MENGGUNAKAN ALGORITMA C4.5 BERBASIS FORWARD SELECTION

PENERAPAN DECISION TREE UNTUK PENENTUAN POLA DATA PENERIMAAN MAHASISWA BARU

KLASIFIKASI NASABAH ASURANSI JIWA MENGGUNAKAN ALGORITMA NAIVE BAYES BERBASIS BACKWARD ELIMINATION

KLASIFIKASI DATA MENGGUNAKAN JST BACKPROPAGATION MOMENTUM DENGAN ADAPTIVE LEARNING RATE

BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI

BAB 2 TINJAUAN PUSTAKA DAN DASAR TEORI. yang akan diteliti. Pemanfaatan algoritma apriori sudah cukup banyak digunakan, antara lain

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

PENERAPAN DATA MINING UNTUK EVALUASI KINERJA AKADEMIK MAHASISWA MENGGUNAKAN ALGORITMA NAÏVE BAYES CLASSIFIER

IMPLEMENTASI JARINGAN SYARAF TIRUAN KOHONEN PADA DATA MINING OUTLIER DETECTION IMPLEMENTATION KOHONEN NEURAL NETWORK FOR DATA MINING OUTLIER DETECTION

ASSOCIATION RULE MINING UNTUK PENENTUAN REKOMENDASI PROMOSI PRODUK

Analisis Algoritma Decision Tree untuk Prediksi Mahasiswa Non Aktif

BAB 2 TINJAUAN PUSTAKA

Implementasi Rocchio s Classification dalam Mengkategorikan Renungan Harian Kristen

BAB IV METODOLOGI PENELITIAN. Penelitian ini dilakukan dengan melalui empat tahap utama, dimana

Handling Imbalanced Data pada Prediksi Churn menggunakan metode SMOTE dan KNN Based on Kernel

WEIGHT K-SUPPORT VECTOR NEAREST NEIGHBOR

PENERAPAN TEKNIK DATA MINING UNTUK MENENTUKAN HASIL SELEKSI MASUK SMAN 1 GIBEBER UNTUK SISWA BARU MENGGUNAKAN DECISION TREE

ANALISIS PEMANFAATAN SEQUENTIAL PATTERN UNTUK MENENTUKAN NODE ORDERING PADA ALGORITMA KONSTRUKSI STRUKTUR BAYESIAN NETWORK

APLIKASI DATA MINING ANALISIS DATA TRANSAKSI PENJUALAN OBAT MENGGUNAKAN ALGORITMA APRIORI (Studi Kasus di Apotek Setya Sehat Semarang)

KLASIFIKASI PENENTUAN TIM UTAMA OLAHRAGA HOCKEY MENGGUNAKAN ALGORITMA C4.5 (STUDI KASUS : HOCKEY KABUPATEN KENDAL)

BAB III METODOLOGI PENELITIAN. Dataset

BAB II TINJAUAN PUSTAKA Indeks Prestasi Kumulatif dan Lama Studi. menggunakan dokumen/format resmi hasil penilaian studi mahasiswa yang sudah

PENERAPAN METODE ASSOCIATION RULE MENGGUNAKAN ALGORITMA APRIORI PADA SIMULASI PREDIKSI HUJAN WILAYAH KOTA BANDUNG

Pembuatan Aplikasi Pendeteksi Anomali Pada Pola Konsumsi Listrik Pelanggan Kota Surabaya Menggunakan Algoritma Klasterisasi Berbasis Densitas

Evaluasi Proses Bisnis ERP dengan Menggunakan Process Mining (Studi Kasus : Goods Receipt (GR) Lotte Mart Bandung)

Jurnal Ilmiah Komputer dan Informatika (KOMPUTA) PENERAPAN IMPROVED APRIORI PADA APLIKASI DATA MINING DI PERUSAHAAN KALVIN SOCKS PRODUCTION

PERBANDINGAN DECISION TREE

RENCANA PROGRAM KEGIATAN PERKULIAHAN SEMESTER (RPKPS)

IMPLEMENTASI TEKNIK DATA MINING UNTUK MEMPREDIKSI TINGKAT KELULUSAN MAHASISWA PADA UNIVERSITAS BINA DARMA PALEMBANG

RENCANA PROGRAM KEGIATAN PERKULIAHAN SEMESTER (RPKPS)

IMPLEMENTASI DATA MINING MENGGUNAKAN ALGORITMA APRIORI

RENCANA PEMBELAJARAN SEMESTER (RPS)

ABSTRACT Market basket analysis is a way to know the shopping habits of people in one place on goods purchased. Market basket analysis to produce an a

Ekstraksi Pola Kesalahan Jawaban Siswa Menggunakan Algoritma Apriori

2.2 Data Mining. Universitas Sumatera Utara

IMPLEMENTASI ALGORITMA APRIORI UNTUK MENGANALISA POLA PEMBELIAN PRODUK PADA DATA TRANSAKSI PENJUALAN

Penggunaan Struktur FP-Tree dan Algoritma FP- Growth dalam Rekomendasi Promosi Produk pada Situs Belanja Online

BAB II LANDASAN TEORI

BAB II TINJAUAN PUSTAKA

1 BAB I 2 PENDAHULUAN

Student Clustering Based on Academic Using K-Means Algoritms

ANALISIS DAN IMPLEMENTASI ALGORITMA RELIEFF UNTUK FEATURE SELECTION PADA KLASIFIKASI DATASET MULTICLASS

Implementasi Algoritme Modified-Apriori Untuk Menentukan Pola Penjualan Sebagai Strategi Penempatan Barang Dan Promo

ANALISIS PEMANFAATAN SMALL DISJUNCT PADA DECISION TREE DENGAN ALGORITMA GENETIKA

ABSTRAKSI Analisis keranjang pasar merupakan suatu cara untuk mengetahui kebiasaan berbelanja masyarakat disuatau tempat terhadap barang yang dibeli.

Transkripsi:

Seminar Nasional Sistem Informasi Indonesia, 2-3 November 2015 Penggunaan Prinsip Apriori untuk Outlier Cleaning pada Process Mining dengan Algoritma α Zainiyah Rizkita Arief 1, Imelda Atastina 2, Angelina Prima K 3 1 Program Studi Magister Teknik dan Manajemen Industri, Fakultas Teknologi Industri, Institut Teknologi Bandung. E-mail : 1 zrizkita.arief@gmail.com Abstrak Process mining telah digunakan untuk membantu dalam penyelesaian masalah pada kehidupan sehari-hari. Discovery adalah salah satu tipe process mining yang membentuk model proses dari event log yang ada. Algortima α adalah salah satu algoritma yang dapat digunakan untuk melakukan discovery process. Algoritma α melakukan pengurutan proses yang terjadi pada event log dan membandingkan semua keterurutan tersebut. Maka dari itu, akan didapatkan informasi proses mana yang merupakan kausalitas dan proses mana yang bersifat paralel. Pada kenyataannya, kesederhanaan konsep ini memberikan masalah pada penerapannya pada data real life. Data reallife memiliki keragaman yang tinggi sehingga mengandung banyak outlier yang akan menjadi data yang mengganggu. Maka dari itu, data outlier tersebut perlu dihilangkan. Salah satu metode yang dapat menghilangkan outlier pada data mining, adalah dengan mengadopsi prinsip apriori. Sehingga kasus dan hubungan aktivitas yang tidak memenuhi syarat batas yang telah ditentukan tidak merusak model secara keseluruhan. Pengujian dilakukan pada data registrasi yang tersimpan dalam event log pada sistem informasi. Kata kunci: registrasi mahasiswa, process mining, discovery, algoritma α, apriori 1. Pendahuluan Proses registrasi merupakan proses yang selalu dilaksanakan pada awal setiap semester. Pada saat itu, mahasiswa membuat rencana studi selama satu semester ke depan. Proses registrasi yang tidak dilaksanakan dengan serius akan berakibat kurang baik terhadap mahasiswa. Mahasiswa tersebut tidak akan maksimal menjalankan studinya satu semester ke depan. Maka dari itu, proses registrasi merupakan proses yang penting. Institut Teknologi Telkom (IT Telkom) telah melakukan proses registrasi sejak IT Telkom berdiri. IT Telkom memiliki mekanisme standar yang harus dijalani setiap mahasiswa dan institusi. Namun, mekanisme tersebut tidak selalu dijalankan sesuai dengan aturan yang berlaku. Maka dari itu, perlu dilakukan permodelan terhadap proses yang sebenarnya terjadi. Institusi dapat melakukan evaluasi terhadap proses registrasi berdasarkan model tersebut. Algoritma α akan menentukan hubungan dua aktivitas kausalitas antara satu aktivitas dengan aktivitas lainnya. Misalnya, suatu event log memiliki dua kasus dengan urutan {a, b, c, d} dan {a, b, d, c}. Algoritma α akan menentukan bahwa a dan b memiliki hubungan kausalitas. Selanjutnya, algoritma α akan mnentukan b dengan c atau d tidak miliki hubungan kausalitas. Hubungan tersebut ditentukan tanpa mempedulikan berapa kali c atau d saling bertukar urutan. Kesederhanaan konsep tersebut menyebabkan algoritma α memiliki keterbatasan. Keterbatasan tersebut meliputi kelemahan algoritma α dalam penerapannya pada data yang mengandung noise, incompleteness dan hubungan antar transisi yang kompleks (van der Aaslt, 2011). Algoritma α telah digunakan untuk melakukan discovery model proses pada kasus student registrastion sebuah universitas di Thailand. Data yang digunakan merupakan data student registration event log yang telah dilakukan data preprocessing. Pada penelitian tersebut tidak menjelaskan berapa akurasi dari model proses yang dihasilkan. Akan tetapi, diterangkan bahwa algoritma α dapat menghasilkan model yang mampu menunjukkan semua hubungan antar aktivitas yang ada (Weerapong 2012). Oleh karena itu, proses registrasi merupakan proses yang cukup sederhana sehingga dapat diproses menggunakan algortima α. 1. Process Mining Van der Aalst menyatakan bahwa perkembangan sistem informasi dari hari ke hari semakin pesat. Organisasi akan memilih untuk menyimpan datanya dalam bentuk digital. Data yang disimpan bisa mencapai satuan terrabyte. Data yang banyak menyebabkan organisasi kesulitan untuk mendapatkan informasi yang terdapat dalam data

350 tersebut. Process mining memiliki keterkaitan yang cukup erat dengan data mining. Buku yang sama juga mengatakan bahwa process mining adalah data mining yang diterapkan pada event log. Hal ini dilakukan untuk mengetahui pola aktivitas yang terjadi pada suatu proses. Perbedaan mendasar antara process mining dan data mining jenis asosiasi terletak pada perhatian process mining terhadap urutan kejadian (van der Aaslt, 2011). Process mining memiliki tiga tipe, yaitu discovery, conformance dan enhancement. Discovery akan membentuk sebuah model proses dari event log yang ada. Conformance akan membandingkan model proses dengan event log yang ada. Sementara enhancement dapat memperbaiki model proses yang sudah ada dengan membandingkannya dengan event log yang ada. 2. Algoritma α Gambar 1. Gambaran Umum Process Mining Algoritma α adalah salah satu algoritma pertama yang memadai menangani konkurensi. Algoritma ini dapat mengenerate model dari proses yang memiliki terjadi dua aktivitas yang terjadi bersamaan. Algoritma α ini sangat sederhana. Algoritma α hanya memeriksa hubungan antar dua aktivitas. Terdapat empat macam hubungan, yaitu follow (> L), dimana event a > L b, jika dan hanya jika t i=a dan t i+1=b, causal ( L), dimana event a L b, jika dan hanya jika a > L b dan b > L a, paralel ( L), dimana event a # L b, jika dan hanya jika a > L b dan b > L a, dan unrelated (# L), dimana event a L b, jika dan hanya jika a > L b dan b > L a. Secara matematis algoritma α dituliskan dalam rumus-rumus berikut, 1) T L = {t T Э oc L t ơ } 2) T I = {t T Э oc L t = first(ơ)} 3) T O = {t T Э oc L t = last(ơ)} 4) X L = {(A,B) A C T L A Ø B C TL ʌ A Ø a C A b C B a L b a1,a2 C A a 1 # L a 2 b1,b2 C B b 1 # L b 2 5) Y L = {(A,B) X L (A,B ) C XL, A C A, B C B (A,B) = (A,B ) } 6) P L = {p (A,B) (A,B) Y L} {i L, o L} 7) FL = {(a, p (A,B)) (A,B) Y L a A} {(p (A,B),b) (A,B) Y L b B} {(i L, t) t T i} {(t, o L) t T o} α(l) = {P L, T L, F L} (Weerapong, 2012) Algoritma α merupakan metode yang sangat sederhana sehingga memiliki keterbatasan dalam penerapannya dalam kehidupan sehari-hari. Keterbatasan algoritma ini adalah sebagai berikut, tidak bisa menangani data dengan noise, kemungkinan aktivitas yang incomplete dan data dengan hubungan antar transisi yang kompleks. (van der Aaslt, 2011). 3. Prinsip Apriori Kelemahan yang dimiliki oleh algoritma α menyebabkan data yang dimasukkan ke dalam algoritma harus sudah bersih dari noise. Outlier bisa pula memiliki sifat-sifat noise yang mengganggu data. Outlier sulit dibedakan dengan data yang bukan outlier. Bahkan, untuk menentukan outlier diperlukan metode tersendiri. Infrequent

351 pattern adalah salah satu representasi dari outlier. Salah satu metode yang efisien untuk menghilangkan infrequent pattern adalah metode apriori (Nadimi-Shahraki,2009). Tujuan dari penggunaan prinsip apriori ini adalah menghasilkan rule association yang optimal (Tan, 2006). Hal ini dilakukan dengan memangkas rule yang tergambar dalam infrequent itemset. Infrequent itemset ini dapat dilihat dari nilai support dan confidence yang rendah. Maka dari itu, prinsip apriori ini juga bisa digunakan untuk melakukan cleaning outlier (Nadimi-Shahraki,2009). Langkah-langkah yang dilakukan pada implementasi prinsip apriori adalah sebagai berikut, 1) Generate frequent itemset sampai jumlah maksimal itemset yang diinginkan. 2) Generate rule dari frequent itemset tersebut. 3) Hitung support dan confidence setiap rule dari frequent itemset. 4) Hilangkan frequent itemset dengan nilai support dan nilai confidence dibawah threshold yang telah ditentukan (Han, 2001; Tan, 2006). 4. Pengolahan Data Data yang tercatat dalam event log proses registrasi adalah aktivitas siap ACC, ACC dan cetak KSM. Selain itu juga tercatat aktivitas tersebut dilakukan oleh mahasiswa atau institusi. Untuk memudahkan mengolahan data dilakukan transformasi data berupa perubahan data aktivitas sebagai berikut Tabel 1: Singkatan Data Aktivitas Singkatan Siap ACC dilakukan oleh mahasiswa SM ACC dilakukan oleh mahasiswa AM Cetak KSM dilakukan oleh mahasiwa CM Siap ACC dilakukan oleh institusi SI ACC dilakukan oleh institusi AI Cetak KSM dilakukan oleh institusi CI Tabel 2 : Contoh Data Training NIM Tanggal Jam Aktivitas BGfffdcd13f 2013-02-05 9:19:23 SM BGfffdcd13f 2013-02-05 16:36:12 AI BGfffdcd13f 2013-02-06 9:33:59 CM BGfffdcd13f 2013-02-06 9:34:59 CM BG139871 2013-02-06 15:31:39 SM BG139871 2013-02-06 17:31:50 RI BG139871 2013-02-07 14:47:27 SM BG139871 2013-02-07 20:02:04 AI BG139871 2013-02-07 22:23:43 CM Event log tersebut diolah dengan algoritma alpha. Sebelum dioleh oleh algoritma alpha, data outlier telah dihilangkan oleh prinsip apriori. Berikut adalah contoh model proses yang dihasilkan. Gambar 2 : Ilustrasi Model Proses yang Dihasilkan

352 5. Pengujian Pengujian dilakukan untuk mengetahui berapa banyak outlier yang harus disingkirkan untuk mendapatkan model proses yang optimal. Maka dari itu, pengujian dilakukan dengan mengubah nilai minimal support dan confidence untuk selanjutnya model proses dilakukan penghitungan perfomansi. Perhitungan performasi dihitung dengan F- measure, precision dan recall. Terdapat dua jenis data yaitu data aktual dan data prediktif. Data aktual merupakan data kausalitas dari data latih atau data testing yang belum diolah sedangkan data prediktif adalah data kausalitas urut menurut model yang telah dihasilkan. Selain itu, aktivitas pun terdiri dari dua jenis aktivitas yaitu, aktivitas positif dan aktivitas negatif. Aktivitas positif adalah aktivitas yang benar apabila ada pada posisi tersebut berdasarkan acuannya. Maka, aktivitas negatif adalah aktivitas yang tidak benar apabila ada di posisi tersebut berdasarkan acuannya. Aktivitas negatif tersebut didapatkan dari generate ANE (artificial negative event). Tabel 3 : Pengelompokan Data ACTUAL POSITIVE ACTUAL NEGATIVE PREDICTIVE POSITIVE TRUE POSITIVE (TP) FALSE POSITIVE (FP) PREDICTIVE NEGATIVE FALSE NEGATIVE (FN) TRUE NEGATVE (TN) Perhitungan performansi model proses dapat dilakukan dengan menghitung F-Measure dengan cara berikut, 2 precision recall FMeasure = precision + recall TP Precision = TP + FP TP Recall = TP + FN ( De Weerdt). 6. Hasil Pengujian dan Analisis Nilai F-Measure menurun seiring bertambahnya nilai minimum confidence. Penurunan ini disebabkan oleh menurunnya nilai recall, sementara nilai precision yang relatif stabil. Gambar 3 : hasil pengujian pengubahan nilai confidence Nilai minimum confidence yang semakin besar akan menyebabkan hilangnya hubungan yang seharusnya digambarkan pada model. Apabila nilainya terlalu tinggi tidak akan ada hubungan yang dapat digambarkan. Namun, nilai confidence yang terlalu rendah juga dapat menyebabkan kompleksitas hubungan antar transisi yang juga berakibat hilangnya hubungan sehingga menyebabkan adanya transisi yang tidak dapat mencapai finish. Nilai F-Measure menurun seiring bertambahnya nilai minimum support. Penurunan ini disebabkan oleh menurunnya nilai recall, sementara nilai precision yang relatif stabil.

353 Gambar 4 : Hasil pengujian pengubahan nilai support Nilai minimum support yang semakin besar akan menyebabkan hilangnya hubungan yang seharusnya digambarkan pada model. Apabila nilainya terlalu tinggi model tidak dapat digambarkan. Hal ini disebabkan data training yang mengalami incompleteness. Namun, nilai minimum support yang terlalu rendah akan meningkatkan keragaman kasus yang menyebabkan hubungan antar transisi menjadi kompleks sehingga tidak ada model yang dapat dihasilkan. Nilai maksimum F-Measure yang dicapai pada setiap kelompok data yang berbeda jumlah ini tidak jauh berbeda. Hal ini disebabkan oleh kasus yang terjadi pada setiap semester hampir serupa sehingga tidak berpengaruh terhadap keragaman data. Maka dari itu, data yang berjumlah satu semester pun tidak mengalami incompleteness. Tabel 3 : Jumlah data Data Jumlah Kasus reg1 1994 reg2 6734 reg3 7909 reg4 7163 reg5 8636 reg12 8728 reg23 14643 reg34 15072 reg45 15799 reg123 16637 reg234 21806 reg345 23708 reg1234 23800 reg2345 30442 reg12345 32436 Gambar 5 : Hasil pengujian pengubahan jumlah data training

354 Oleh karena itu, model yang dihasilkan oleh data training yang terdiri dari satu semester pun memiliki kemampuan yang tinggi dalam me-replay data yang berjumlah empat semester. Kesamaan model yang dihasilkan oleh data yang lebih sedikit juga disebabkan oleh sifat algoritma α yang tidak memperdulikan berapa kali suatu kasus terjadi hubungan relasi yang dihasilkan akan tetap sama. Namun, terdapat beberapa pengecualian pada model yang dihasilkan oleh kelompok data reg1 dan kelompok data yang mengandung data reg1. Model yang dihasilkan oleh semua kelompok data yang mengandung reg1 tidak memenuhi aturan. F-Measure model yang dihasilkan oleh kelompok data yang mengandung kelompok data reg1 memiliki nilai yang lebih rendah daripada kelompok data lainnya dengan jumlah data yang sama. Maka dari itu, hal tersebut semakin menunjukkan bahwa data reg1 adalah data yang mengalami incompleteness. 7. Kesimpulan Berdasarkan analisis yang telah dilakukan, terdapat beberapa hal penting yang dapat disimpulkan. Pertama, pada kelompok data yang berbeda akan memiliki nilai minimum support dan nilai minimum confidence optimal yang berbeda. Parameter nilai minimum confidence yang tinggi, akan menurunkan performansi model. Parameter nilai minimum support meningkat akan menyebabkan performansi turun. Namun, ketika nilai minimum support dan minimum confidence yang terlalu rendah, performansi model yang dihasilkan akan bernilai 0. Selain itu, algortima α akan menghasilkan model dengan performansi yang tinggi pada data training yang complete, walaupun jumlah data training yang digunakan sedikit. 8. Saran Untuk penelitian selanjutnya, akan lebih baik apabila melakukan penerapan algoritma α+ pada proses registrasi agar hubungan a-b-a dapat digambarkan dalam model. Running time evaluasi model sangat kompleks sehingga dibutuhkan metode lain yang lebih efektif dari segi kompleksitas waktu. Selain itu, akan lebih baik apabila pencarian nilai minimum support dan nilai minimum confidence optimal dilakukan dengan metode evolutionary computation, khususnya dengan menggunakan genetic algorithm atau evolution strategies. Hal ini dilakukan agar proses pencarian menjadi lebih cepat. 9. Referensi [1] Weerapong, Sawitree, Parham Porouhan, Wichian Premchaiswadi. 2012. Process Mining Using α- Algorithm as a Tool (A case study of Student Registration). IEEE Tenth International Conference on ICT and Knowledge Engineering : 213 220. [2] van der Aalst, Wil M.P. 2011. Process Mining : Discovery, Confermance and Enhancement of Bussiness Processes. New York : Springer. [3] Nadimi-Shahraki, M.H, Norwati Mustapha, Md Nasir B Sulaiman, Ali B Mamat. 2009. Efficient Candidacy Reduction For Frequent Pattern Mining. International Journal of Computer Science and Information Security 2009, 6 : 230-237. [4] Tan, Pang-Ning, Micheal Steinbach, Vipin Kumar. 2006. Introduction to Data Mining. Boston : Pearson Education. [5] Han, Jiawei, Micheline Kamber. 2001. Data Mining : Concept and Technique. San Fransisco : Morgan Kaufmann Publisherss. [6] De Weerdt, Jochen, Manu De Backer, Jan Vanthienen, and Bart Baesens. A Robust F-Measure for Evaluating Discovered Process Models. Computational Intelligence and Data Mining (CIDM), 2011 IEEE Symposium. [7] Buijs, J.C.A.M, van Dongen, W.M.P van der Aaslt. 2012. On the Role of Fitness, Precision, Generalization and Simplicity in Process Discovery. Lecture Notes in Computer Science, 7565 : 305-322. [8] van der Aalst, Wil, Arya Ardiansyah, Boudenwijn van Dongen. Replaying Histroy on Process Model for Confermance Checking and Performance Analysis. 2012. WIREs Data Mining Knowledge Discovery 2012, 2 : 182-192. [9] Rozinat, A., W.M.P. van der Aaslt. 2008. Confermance Checking of Processes Based on Monitoring Real Behaviour. Information Systems, 33(1) : 64-95.