Business Objective Determination (#1) Mendefinisikan permasalahan atau tantangan bisnis dengan jelas. Hal ini merupakan aspek yang sangat esensial dalam setiap proyek data mining. (Oleh beberapa peneliti KDD lainnya -- bahkan yang terkenal -- tahapan ini cenderung diabaikan! dan jarang disebut) Jika tanpa sasaran bisnis yang jelas, orang berkata: "Here is the data, please mine it.". Tetapi jika mining dilakukan dan pengetahuan diperoleh, bagaimana dapat diketahui bahwa solusi tersebut benar-benar dibutuhkan?
Business Objective Determination (#2) Contoh sasaran bisnis: Mengembangkan suatu strategi marketing untuk mempertahankan loyalitas customer di Jawa Tengah dan Jawa Timur untuk produk soft drink dengan brand dan ukuran tertentu (200ml dalam kotak alumunium) selama bulan Nopember, Desember dan Januari yang akan datang. Perusahaan akan menggunakan kombinasi dari berbagai strategi marketing (mixed marketing), yang salah satunya adalah direct mail campaign kepada customer yang tampaknya "mudah rusak" loyalitasnya.
Business Objective Determination (#3) Pertanyaan kuncinya: Rumah mana yang akan dikirimi surat supaya usaha ini berhasil?
Business Objective Determination (#4) Dampak pada keseluruhan proses KDD: Data Selection: dipilih customers yang membeli produk soft drink 200 ml dalam kotak alumunium di Jawa Tengah dan Jawa Timur. Data Transformation: customers yang membeli produk soft drink 200 ml dalam kotak alumunium disorting dalam 10 kategori, yang masing-masing membedakan tingkat loyalitasnya: membeli produk tersebut 0-10%, 11-20%,..., 81-90%, 91-100% sepanjang waktu pembeliannya. Selanjutnya data inilah yang akan dibawa ke tahap data mining.
Data Preparation (#1) Mempersiapkan data yang diperlukan untuk proses data mining. Tujuannya: agar data yang digunakan benar-benar sesuai dengan permasalahan yang akan dipecahkan, dapat dijamin kebenarannya, dan dalam format yang sesuai/tepat.
Data Preparation (#2) Tahap yang paling banyak mengkonsumsi resources (manusia, biaya, waktu) yang tersedia. Biasanya mencapai 60% keseluruhan proyek KDD. Menurut Cabena: Secara berurutan untuk 5 fase Cabena membutuhkan: 20% (fase 1) + 60% (fase 2)+ 10% (fase 3) + 10% (untuk kedua fase 4 dan 5).
Data Preparation (#3) Data Selection Mengidentifikasi semua sumber informasi internal dan eksternal dan memilih sebagian saja dari data yang diperlukan untuk aplikasi data mining. Data Preprocessing Meyakinkan kualitas dari data yang telah dipilih pada tahapan sebelumnya. 2 issue yang paling sering dihadapkan pada tahap ini: Noisy Data Missing Values
Data Preparation (#4) Data Transformation (#1) Mengubah data ke dalam model analitis. Memodelkan data agar sesuai dengan analisa yang diharapkan dan format data yang diperlukan oleh algoritma data mining. Data Transformation (#2) Perlu diperhatikan terlebih dahulu 2 tipe utama data yang digunakan: Categorical: semua nilai yang mungkin ada, bersifat terbatas nominal: tanpa urutan, seperti status perkawinan (single, kawin, duda/janda, unknown) atau jenis kelamin (laki-laki, perempuan) ordinal: dengan urutan, seperti rating loyalitas customer (sangat baik, baik, cukup, kurang atau vulnerable atau mudah dirusak loyalitasnya).
Data Preparation (#5) Data Transformation (#3) Quantitative: semua nilai yang mungkin dapat diukur perbedaannya continuous (nilai-nilai bilangan real): gaji bulanan, rata-rata transaksi dalam satu periode waktu (bulan, kuartal atau tahun). discrete (nilai-nilai bilangan bulat): seperti jumlah pegawai, jumlah transaksi dalam satu periode waktu.
Data Preparation (#5) Data Transformation (#4) Contoh Discretization: Pendapatan sampai Rp. 500.000,-- dikodekan 1, Rp. 500.000 s.d. 1 juta dikodekan 2 dan seterusnya. Normalization: Jika proses data mining menggunakan ANN, karena sebagian besar ANN hanya menerima input dalam range 0 s.d. 1 (binary) atau -1 s.d. +1 (bipolar), maka parameter continuous yang di luar range tersebut harus dinormalisasi.
Data Mining (#1) Melakukan proses pencarian pengetahuan terhadap data yang ditransformasikan pada tahap sebelumnya. Contoh Pengetahuan berbentuk Association Rule untuk kasus "Soft Drink : IF soft drink sejenis dengan ukuran yang lebih besar (bukan botol kecil) dibeli dalam lebih dari 58% sejarah pembelian soft drink seorang consumer THEN consumer tersebut diprediksi Loyal.
Data Mining (#2) Contoh Pengetahuan berbentuk Association Rule untuk kasus "Soft Drink : IF seorang consumer cenderung lebih banyak membeli soft drink merk "X" THEN consumer tersebut diprediksi Mudah Rusak Loyalitasnya. IF lebih dari 11% sejarah pembelian soft drink seorang consumer dilakukan pada sebuah gudang rabat / pusat grosir THEN consumer tersebut diprediksi Mudah Rusak Loyalitasnya. IF dihitung secara rata-rata seorang consumer ternyata membeli lebih dari 345,67ml setiap kali belanja AND dengan harga rata-rata soft drink per 100ml >= Rp. 550,-- THEN consumer tersebut diprediksi Loyal.