BAB II DASAR TEORI. 2.1 DNA (Deoxy-Ribonucleic Acid)

dokumen-dokumen yang mirip
BAB III ANALISIS DAN PERANCANGAN

PENGKLASTERAN PASIEN KANKER LEUKEMIA BERDASARKAN DATA EKSPRESI GEN DENGAN MENGGUNAKAN DEKOMPOSISI NILAI SINGULAR

PENERAPAN ALGORITMA K-MEANS UNTUK PENGELOMPOKAN DATA EKSPRESI GEN

ketebalan yang berbeda-beda dan kadang sangat sulit ditemukan dengan mikroskop. Namun, ada bukti secara kimiawi bahwa lamina inti benar-benar ada di

BAB II LANDASAN TEORI

Bimbingan Olimpiade SMA. Paramita Cahyaningrum Kuswandi ( FMIPA UNY 2012

BAB I PENDAHULUAN. I.1. Latar Belakang

REKAYASA GENETIKA. By: Ace Baehaki, S.Pi, M.Si

Adalah asam nukleat yang mengandung informasi genetik yang terdapat dalam semua makluk hidup kecuali virus.

EKSPRESI GEN. Dyah Ayu Widyastuti

Polimerase DNA : enzim yang berfungsi mempolimerisasi nukleotidanukleotida. Ligase DNA : enzim yang berperan menyambung DNA utas lagging

CLUSTERING MENGGUNAKAN K-MEANS ALGORITHM (K-MEANS ALGORITHM CLUSTERING)

BIOTEKNOLOGI PERTANIAN TEORI DASAR BIOTEKNOLOGI

REGULASI EKSPRESI GEN. Dr. rer. nat. Kartika Senjarini

PERBEDAAN SEL EUKARIOTIK DAN PROKARIOTIK

Kasus Penderita Diabetes

Bab 2 Tinjauan Pustaka

adalah proses DNA yang mengarahkan sintesis protein. ekspresi gen yang mengodekan protein mencakup dua tahap : transkripsi dan translasi.

Kromosom, gen,dna, sinthesis protein dan regulasi

Makalah Biokimia Komponen Penyusun Sel Tumbuhan NUKLEUS. Oleh :

BAB 1 PENDAHULUAN 1.1. Latar Belakang

DAFTAR ISI. KATA PENGANTAR... i DAFTAR ISI... ii I. Pendahuluan...1 II. Tinjauan Pustaka...4 III. Kesimpulan...10 DAFTAR PUSTAKA...

M A T E R I G E N E T I K

PENGENALAN BIOINFORMATIKA

SINTESIS PROTEIN. Yessy Andriani Siti Mawardah Tessa Devitya

Gambar 1. Contoh Double helix

RNA (Ribonucleic acid)

BIOTEKNOLOGI. Struktur dan Komponen Sel

Proses biologis dalam sel Prokariot (Replikasi) By Lina Elfita

BAB I PENDAHULUAN 1.1. Latar Belakang

JURNAL TEKNOLOGI INFORMASI & PENDIDIKAN ISSN : VOL. 2 NO. 1 SEPTEMBER 2010

IMPLEMENTASI METODE HIERARCHICAL CLUSTERING PADA DATA GENETIK MIKROARRAY

MATERI GENETIK A. KROMOSOM

Struktur. Ingat: basa nitrogen, gula pentosa, gugus fosfat

NUCLEAR GENOME & CHROMOSOME PACKAGING

Lampiran 2. Rubrik Penilaian Jawaban Esai Genetika. 1. Hubungan antara DNA, gen, dan kromosom:

Representasi Himpunan Barisan Kodon ke dalam Struktur Modul

METODE CLUSTERING DENGAN ALGORITMA K-MEANS. Oleh : Nengah Widya Utami

1. BAB I PENDAHULUAN 1.1. Latar Belakang

R DNA (3.1.1) k 1. DNA NTP k 3. k 2

PENYAJIAN SECARA GEOMETRI HIMPUNAN PEMBENTUK DNA

BAB I PENDAHULUAN. Seiring makin pesatnya perkembangan internet, dokumen-dokumen dari

MAKALAH BIOLOGI PERBEDAAN DNA DAN RNA

BAB II DASAR TEORI. 2.1 Meter Air. Gambar 2.1 Meter Air. Meter air merupakan alat untuk mengukur banyaknya aliran air secara terus

IMPLEMENTASI DETEKSI OUTLIER PADA ALGORITMA HIERARCHICAL CLUSTERING

Aulia Dwita Pangestika A2A Fakultas Kesehatan Masyarakat. DNA dan RNA

BIO306. Prinsip Bioteknologi

BIOTEKNOLOGI. Perubahan Genetik, Replikasi DNA, dan Ekspresi Gen

POKOK BAHASAN I PENDAHULUAN Tujuan Instruksional Khusus Setelah mengikuti kuliah pokok bahasan pendahuluan mahasiswa dapat: 1. Memahami ruang lingkup

KOMPUTASI EVOLUSIONER Algoritma Genetik, Pemrograman Genetik, dan Pemrograman Evolusioner Oleh : Thomas Sri Widodo

Ada 2 kelompok basa nitrogen yang berikatan pada DNA yaitu

REPRESENTASI GEOMETRI DARI HIMPUNAN KODON

Tidak ada tepat satu teori untuk menyelesaikan problem pengenalan pola Terdapat model standar yang dapat dijadikan teori acuan

Paramita Cahyaningrum Kuswandi* FMIPA UNY 2012

FUZZY-NEURO LEARNING VECTOR QUANTIZATION (FNLVQ)

BAB IV IMPLEMENTASI DAN PENGUJIAN

UNIVERSITAS NEGERI YOGYAKARTA FAKULTAS MIPA

Ciri Khas Materi Genetik

Organisasi DNA dan kode genetik

STRUKTUR DAN FUNGSI SEL 28 SEPTEMBER 2015

BAB I PENDAHULUAN Latar Belakang

AKTIVITAS GEN DAN PENGATURANNYA: SINTESIS PROTEIN. dr. Arfianti, M.Biomed, M.Sc

Pengertian Mitokondria

19/10/2016. The Central Dogma

Dr. Dwi Suryanto Prof. Dr. Erman Munir Nunuk Priyani, M.Sc.

BAB III METODOLOGI PENELITIAN

EKSPRESI GEN. Kuliah ke 5 Biologi molekuler Erlindha Gangga

BAB I PENDAHULUAN. Gambar I-1 Jaringan Regulatori Genetik

XII. Pengaturan Expresi Gen (Regulation of Gene Expression) Diambil dari Campbell et al (2009), Biology 8th

PENDAHULUAN. 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang

Tabel Perbedaan Sel Prokariotik dan Sel Eukariotik Perbedaan Sel Prokariotik Sel Eukariotik Ukuran Sel

BAHAN PENYUSUN GENETIK

Sintesa protein (ekspresi gen)

Pengelompokan Bakteri Berdasarkan Alat Geraknya

DNA FINGERPRINT. SPU MPKT B khusus untuk UI

DAFTAR ISI... HALAMAN JUDUL... HALAMAN PENGESAHAN... HALAMAN PERNYATAAN... HALAMAN PERSEMBAHAN... PRAKATA... DAFTAR LAMBANG... DAFTAR GAMBAR...

BAB 2 LANDASAN TEORI

yang menunjang dalam pengembangan program cluster. Aplikasi cluster ini dikembangkan pada laptop, dengan spesifikasi terdapat

BAB 3 PENGENALAN WAJAH

BIO306. Prinsip Bioteknologi

Indikator 30. Urutan yang sesuai dengan sintesis protein adalah

KLONING. dari kata clone yang diturunkan dari bahasa Yunani klon, artinya potongan yang digunakan untuk memperbanyak tanaman.

Tugas Ujian Tengah Semester (UTS) Data Mining Lanjut ABSTRAK

REGULASI EKSPRESI GEN PADA ORGANISME EUKARYOT

I. PENGENALAN NATIONAL CENTRE FOR BIOTECHNOLOGY INFORMATION (NCBI)

MATERI GENETIK. Oleh : TITTA NOVIANTI, S.Si., M. Biomed.

XI. Expresi Gen (From Gene to Protein) Diambil dari Campbell et al (2009), Biology 8th

II. MATERI A. NUKLEUS

REVERSE TRANSKRIPSI. RESUME UNTUK MEMENUHI TUGAS MATAKULIAH Genetika I Yang dibina oleh Prof. Dr. A. Duran Corebima, M.Pd. Oleh

BAB I PENDAHULUAN. Saat ini, konsep data mining semakin dikenal sebagai tools penting dalam

Algoritma Dasar. 4.1 Naive Bayes

5. Kerja enzim dipengaruhi oleh faktor-faktor berikut, kecuali. a. karbohidrat b. suhu c. inhibitor d. ph e. kofaktor

K-Means Clustering. Tim Asprak Metkuan. What is Clustering?

Proses mengelompokkan suatu set objek ke dalam kelompok-kelompok objek yang sejenis. Bentuk yang paling umum digunakan adalah unsupervised learning

BAB 2 TINJAUAN PUSTAKA Klasifikasi Data Mahasiswa Menggunakan Metode K-Means Untuk Menunjang Pemilihan Strategi Pemasaran

Struktur Gen Manusia Secara Menyeluruh

PENGGUNAAN METODE PENGKLASTERAN UNTUK MENENTUKAN BIDANG TUGAS AKHIR MAHASISWA TEKNIK INFORMATIKA PENS BERDASARKAN NILAI

STRUKTUR KIMIAWI MATERI GENETIK

APLIKASI ALGORITMA FUZZY C-MEANS CLUSTERING UNTUK PENGELOMPOKKAN LULUSAN

Transkripsi:

BAB II DASAR TEORI Pada bagian ini dijelaskan mengenai teori-teori yang mendukung pengelompokan data ekspresi gen, bentuk data ekspresi gen dan jenis analisis dari data ekspresi gen tersebut. Dasar-dasar teori ini digunakan untuk menyelesaikan tugas akhir. Dasar teori ini didapat dari studi literatur. 2.1 DNA (Deoxy-Ribonucleic Acid) Sel adalah bagian terkecil dari makhluk hidup. Setiap sel merupakan suatu sistem kompleks yang terdiri dari berbagai macam struktur pembangun yang dibungkus oleh membran [BRA01]. Pada setiap sel ini berbagai aktifitas sel, seperti metabolisme, pembelahan sel, ekspresi gen dilakukan secara teratur dan terkontrol. Pada umumnya makhluk hidup terbagi menjadi dua macam, prokariota dan eukariota, sehingga terdapat dua macam sel sesuai jenisnya. Perbedaan mendasar terletak pada ukuran dan struktur penyusun tubuhnya. Sel prokariota pada umumnya lebih kecil dan memiliki struktur yang lebih sederhana dibandingkan sel eukariota, misalnya: sel prokariota tidak memiliki membran dalam sel. Sel eukariota memiliki nukleus atau inti sel yang dipisahkan dari bagian sel lainnya dengan membran dalam. Pada inti sel eukariota ini terdapat rangkaian DNA (Deoxy-Ribonucleic Acid) yang menyimpan rangkaian instruksi untuk mengatur berbagai aktifitas sel. DNA merupakan pembawa informasi utama di suatu sel [BRA01]. Rangkaian instruksi yang tersimpan didalamnya mengatur aktifitas sel seperti metabolisme, pembelahan sel, dan ekspresi gen. Rangkaian instruksi pada DNA juga akan diturunkan kepada setiap sel anak yang dihasilkan, sehingga pada suatu makhluk hidup, setiap sel memiliki rangkaian DNA yang sama. DNA tersusun dari molekul kecil yang bernama nukleotida. Terdapat empat macam nukleotida yang berbeda yaitu: Adenosin, Guanien, Cytosine dan Thymine yang dilambangkan dengan A, C, G, dan T. Nukelotida ini membentuk suatu rangkaian DNA yang panjang dan memiliki struktur double helix. II-1

II-2 Rangkaian DNA tersebut memiliki kode-kode yang merepresentasikan ciri fisik makhluk hidup, bagaimana sel harus bekerja dan sebagainya. Pada dasarnya DNA akan mengalami transkripsi menjadi RNA (Ribo-nucleic Acid), yaitu rangkaian nukleotida mirip DNA dimana nukleotida Thymine diganti dengan Uracil (U). Pada proses transkripsi, molekul DNA pada salah satu benang disalin menjadi pre mrna. Proses selanjutnya adalah splicing, yaitu membuang potongan rangkaian DNA yang tidak perlu (introns) dan menyambung semua potongan rangkaian yang akan dikodekan (exons) menjadi satu rangkaian mrna. Setelah ini, dilakukan proses translasi, yaitu proses pembentukan protein dengan menyatukan asam amino yang terkodekan dengan urut pada mrna. Asam amino dikodekan dengan tiga nukleotida yang urut pada DNA (disebut dengan triplet). Setiap triplet disebut dengan codon dan memiliki arti sebuah asam amino. Protein yang telah dibentuk memiliki fungsi yang berbeda-beda yang berkaitan dengan fungsi sel itu sendiri. Proses pengubahan DNA menjadi protein dapat dilihat pada gambar II-1. Gambar II-1 Proses perubahan DNA menjadi protein [BRA01] 2.2 Data Ekspresi Gen Ekspresi gen merupakan proses biologi dimana sekuen DNA diterjemahkan menghasilkan protein. Seiring perkembangan teknologi, telah ditemukan metode untuk menemukan urutan rangkaian DNA secara lengkap pada suatu makhluk hidup. Selain itu, perkembangan teknologi juga membawa penemuan teknologi cdna dan microarray yang dapat mengukur tingkat ekspresi gen dalam skala besar. Microarray adalah perkembangan teknologi terakhir dalam biologi molekul, yang dapat mengukur tingkat ekspresi gen dari puluhan ribu gen secara paralel dan menghasilkan data yang sangat besar dan berharga [BRA00]. Dengan adanya data sebesar ini maka masalah utama yang muncul adalah menganalisis dan menangani data tersebut.

II-3 Gambar II-2 Contoh microarray [AND06] Microarray pada dasarnya adalah suatu representasi pada sebuah bidang kaca (atau material lainnya), dimana molekul DNA diikatkan pada titik (spot) tertentu. Terdapat puluhan ribu titik pada sebuah array, masing-masing mengandung sejumlah besar molekul DNA atau fragmen dari molekul yang identik, yang panjangnya berkisar antara puluhan hingga ratusan nukloetida. Contoh cuplikan microarray dapat dilihat pada gambar II-2, dimana baris merepresentasikan gen dari suatu organisme dan kolom merepresentasikan sampel. Data mentah pada eksperimen microarray berbentuk gambar. Untuk mendapatkan data mengenai tingkat ekspresi gen, gambar tersebut harus dianalisis, masing-masing titik diidentifikasi, diukur intensitasnya dan dibandingkan dengan latar belakangnya. Data tersebut kemudian dimasukkan kedalam sebuah hasil akhir berupa matriks ekspresi gen, matriks inilah yang nantinya dianalisis untuk proses lebih lanjut. Pada matriks ini, baris merepresentasikan gen, dan kolom merepresentasikan berbagai macam sampel seperti tisu atau kondisi eksperimen. Angka pada baris dan kolom

II-4 yang bersesuaian merepresentasikan tingkat ekspresi gen tertentu pada sampel tertentu. Tabel II-1 Matriks Ekspresi Gen Saccharomyces cerevisiae [EIS05] YORF Cell-cycle Alpha-Factor 1 Cell-cycle Alpha-Factor 2 YHR051W 0.03 0.3 YKL181W 0.33-0.2 YHR124W 0.36 0.08 YHL020C -0.01-0.03 YGR072W 0.2-0.43 Contoh matriks ekspresi gen dapat dilihat pada tabel II-1. Matriks tersebut diambil dari organisme yeast (Saccharomyces cerevisiae). Baris pertama merupakan nama sampel pada kolom tersebut dan kolom pertama merupakan nama gen pada baris tersebut. Selain baris dan kolom yang telah disebutkan berisi tingkat ekspresi gen pada sampel tertentu (kolom) dan gen yang bersangkutan (baris). Contoh matriks ekspresi gen ini telah diperkecil, ukuran aslinya mencapai kurang lebih 6000 gen dan 80 sampel. 2.3 Analisis Data Ekspresi Gen Terdapat dua macam sisi bagaimana data ekspresi gen dianalisis [BRA00]: 1. membandingkan tingkat ekspresi dari masing-masing gen dengan membandingkan baris pada matriks ekspresi gen. 2. membandingkan tingkat ekspresi gen dari masing-masing sampel dengan membandingkan kolom pada matriks ekspresi gen. Dua metode di atas dapat dikombinasikan jika data sudah dinormalkan terlebih dahulu. Pada saat membandingkan baris ataupun kolom, dapat dicari kesamaan maupun perbedaan dari data yang ada. Misalnya, jika ditemukan bahwa ada dua baris yang mirip, maka dapat disimpulkan bahwa kedua gen yang bersangkutan mungkin memiliki fungsi yang mirip dalam sel. Jika yang dibandingkan adalah kolom, dapat dilihat gen mana yang dipengaruhi oleh kondisi sampel tertentu.

II-5 Sebelum data dibandingkan, perlu ditemukan cara untuk menghitung kedekatan atau jarak dari dua buah objek yang dibandingkan. Objek objek tersebut dapat dianggap sebagai sebuah titik pada dimensi n, atau sebuah vektor berdimensi n, dimana n adalah jumlah sampel untuk perbandingan gen, atau jumlah gen untuk perbandingan sampel. Metode yang biasa dipakai adalah penghitungan dengan jarak Euclidean. Jarak Euclidean dihitung dengan mencari akar dari jumlah kuadrat selisih masingmasing dimensi dari dua buah titik. Jika dituliskan sebagai rumus adalah sebagai berikut: d ( x, y) = E n i= 1 ( x y ) i i 2 Metode ini cukup valid untuk dipakai sebagai perhitungan kesamaan atau jarak dua buah objek yang dibandingkan pada matriks ekspresi gen. Meskipun menurut Alvis Brazma dan Jaak Vilo, tidak ada metode penghitungan jarak yang benar-benar valid [BRA00]. Gambar II-3 Analisis unsupervised (kiri) dan supervised (kanan) [BRA00] Setelah memilih metode penghitungan jarak yang sesuai, data ekspresi gen dapat dianalisis dengan cara supervised atau unsupervised. Pendekatan supervised dilakukan jika untuk beberapa atau semua data, ada informasi tambahan berupa fungsi utama dari gen atau kondisi sakit atau normal pada sampel yang ada. Informasi tambahan ini dapat dimasukkan pada matriks sebagai baris atau kolom tambahan. Dengan adanya informasi ini, tujuan utama analisis adalah membangun sebuah penggolong (classifier) yang mampu memprediksi informasi tambahan dari data baru yang diberikan. Sedangkan tujuan utama analisis unsupervised adalah mengelompokkan data untuk menemukan gen gen atau sampel sampel yang saling

II-6 berkaitan. Sebagai perbandingan kedua analisis dapat dilihat pada gambar II-3. Misalkan data ekspresi gen digambarkan pada ruang berdimensi 2. Pada gambar di sebelah kiri, titik-titik yang memiliki kemiripan dicoba untuk dikelompokkan, sebagai contoh terdapat 3 cluster pada gambar, masing-masing terdiri dari beberapa titik yang saling berdekatan. Sebuah algoritma untuk analisis unsupervised harus dapat menemukan cluster tersebut. Pada gambar di sebelah kanan, sebagai contoh terdapat titik berisi dan titik berlobang, tujuan dari analisis unsupervised adalah menemukan sebuah aturan untuk menggolongkan titik-titik setepat mungkin. Sebagai contoh, garis putus-putus merupakan garis pemisah antara titik berisi dan titik berlobang. Selanjutnya dibahas satu persatu mengenai analisis supervised dan unsupervised. 2.3.1 Unsupervised Analysis Tujuan utama dari analisis ini adalah mengelompokkan (clustering) objek yang memiliki kesamaan. Pada umumnya, clustering dibagi menjadi 4 model [BRY05]: 1. Exclusive clustering Pada clustering ini, suatu objek hanya termasuk pada satu cluster saja. 2. Overlapping clustering Model clustering ini dapat memasukkan suatu objek pada beberapa cluster sekaligus. 3. Probabilistic clustering Suatu objek pada model clustering ini termasuk pada masing-masing cluster dengan probabilitas tertentu. 4. Hierarchical clustering Pada model clustering ini, semua objek secara kasar dibagi menjadi cluster pada tingkat tertinggi. Untuk setiap cluster, dilakukan pembagian lagi untuk level selanjutnya, hal ini dilakukan hingga cluster beranggotakan sebuah objek saja. Clustering bukan merupakan teknik baru, sudah banyak algoritma dikembangkan dan banyak yang sudah menerapkan algoritma tersebut untuk analisis data ekspresi gen. Untuk clustering data ekspresi gen, model yang umum digunakan adalah exclusive clustering dan hierarchical clustering. Algoritma yang telah digunakan antara lain:

II-7 hierarchical, K-means dan self-organizing maps. Seperti pada paper DeRisi, yang menggunakan DNA untuk mempelajari metabolisme yeast. Beberapa penelitian lain dilakukan oleh Brazma, dan Van Helden untuk mempelajari regulasi sel [BRA00]. Algoritma hierarchical berjalan secara iteratif dengan menggabungkan dua cluster terdekat dimulai dengan cluster beranggotakan satu objek. Setelah menggabungkan dua cluster, jarak antara semua cluster yang ada dengan cluster yang baru dihitung ulang. Perlu dicatat bahwa untuk clustering yang lebih baik, perlu ditambahkan batas jarak yang ideal antar cluster yang merupakan masukan dari pengguna. Algoritma II-1 Algoritma K-means [HOO04] 1. Choose k initial center points randomly 2. Cluster data using Euclidean distance (or other distance metric) 3. Calculate new center points for each cluster using only points within the cluster 4. Re-Cluster all data using the new center points 1. This step could cause data points to be placed in a different cluster 5. Repeat steps 3 & 4 until the center points have moved such that in step 4 no data points are moved from one cluster to another or some other convergence criteria is met Algoritma pengelompokan K-means, dapat dilihat pada algoritma II-1, secara khusus menggunakan metode jarak Euclidean untuk menghitung jarak dua objek pada ruang berdimensi n. Pada awalnya, pengguna menentukan berapa banyaknya cluster yang diinginkan. Untuk menentukan jumlah cluster, belum ada teori atau algoritma yang baku [BRY05]. Setelah itu ruang dimensi dibagi menjadi sejumlah cluster sesuai masukan pengguna. Algoritma berjalan secara iteratif dengan menghitung ulang titik tengah masing-masing cluster dan menyesuaikan diri dengan setiap objek yang dimasukkan ke cluster terdekat. Proses ini terus berjalan hingga mencapai keadaan stabil atau batas maksimal iterasi terlampaui. Penentuan cluster awal sebelum algoritma berjalan dapat bermacam-macam, salah satunya ditentukan secara acak.

II-8 Analisis unsupervised ini telah digunakan untuk clustering gen maupun sampel. Proses clustering gen untuk menemukan gen-gen yang saling berkaitan fungsinya bisa dilakukan jika terdapat sekumpulan data gen lengkap dari suatu organisme. Beberapa penelitian telah dilakukan untuk menemukan gen-gen yang saling berkaitan dalam fungsi metabolisme sel [BRA00]. Sedangkan untuk mengelompokkan sampel tidak diperlukan data gen lengkap dari suatu organisme, karena dengan hanya sedikit gen dapat dicari nilai kedekatan atau kesamaan dari dua buah sampel. Cluster yang telah dihasilkan dapat diperiksa keabsahannya melalui beberapa cara [HOO04]: 1. ukuran (diameter) cluster dibandingkan dengan jarak antar cluster 2. jarak antara masing-masing anggota cluster dengan pusat cluster 3. diameter dari cluster terkecil 2.3.2 Supervised Analysis Tujuan utama dari analisis supervised dari data ekspresi gen adalah membentuk classifier seperti garis pemisah lanjar, pohon keputusan atau support vector machines (SVM) yang memetakan objek-objek ke suatu kelas tertentu. Sebagai contoh, jika sebuah classifier dapat dibangun dari sejumlah data yang dapat memisahkan sampel yang terkena tumor dan tidak, maka dapat dipakai untuk diagnosa tumor lebih dini. Lebih lanjut lagi, jika classifier tersebut berdasar pada aturan yang sederhana, dapat dipelajari mekanisme dalam pembentukan tumor. Pembentukan classifier didasari pada teori pembelajaran mesin. Sebuah classifier dilatih dengan sejumlah data latih yang sudah diketahui kelasnya. Kemudian, classifier tersebut, dapat berupa aturan atau yang lainnya, diuji dengan sejumlah data uji untuk memeriksa keabsahannya. Jika memenuhi kualitas ketelitian tertentu, classifier dapat digunakan untuk sejumlah data yang belum diketahui kelasnya. Perlu dicatat bahwa, untuk menggolongkan sampel, terdapat masalah dimana atribut data (gen) jauh lebih banyak daripada objek (sampel) yang digolongkan. Hal ini menyebabkan mudahnya menemukan pemisah yang sempurna jika tidak hati-hati dalam membatasi keruwetan classifier yang dibuat. Untuk menghindari masalah

II-9 tersebut harus dicari classifier yang sangat sederhana, sambil tetap menjaga akurasi classifier. Kedua analisis di atas dapat digunakan bersama, dengan pada awalnya menggunakan analisis unsupervised untuk mencari cluster dengan keterkaitan tinggi. Kemudian, digunakan analisis supervised pada salah satu cluster saja untuk membatasi jumlah atribut yang terlalu banyak.