Pendahuluan II. Kajian Pustaka

I. Pendahuluan Cuaca merupakan suatu kondisi dimana udara akan berubah pada saat tertentu dan di wilayah tertentu. Aktivitas manusia sangat dipengaruhi oleh keadaan cuaca, terlebih jika aktivitas tersebut dilakukan di luar ruangan atau outdoor [1]. Salah satu faktor cuaca dalam kehidupan manusia yaitu dalam pemilihan tempat tinggal, hal ini sangat berkaitan dengan kenyamanan dalam melakukan aktivitas sehari-hari. Terjadi peningkatan bencana alam yang dikarenakan anomali iklim seperti fenomena iklim El Nino yang umumnya terjadi pada musim kemarau menimbulkan dampak penurunan curah hujan, musim kemarau yang lebih panjang dan penurunan ketersediaan air irigasi. Sebaliknya anomali iklim La Nina yang umumnya terjadi saat musim hujan, walaupun kejadian fenomena La Nina dapat meninmbulkan bencana banjir, merangsang peningkatan serangan hama serta peningkatan penyakit di daerah yang sensitif, tetapi pada tataran nasional fenomena iklim La Nina cenderung dapat meningkatkan produksi pangan (padi dan palawija). Pada penelitan tersebut menghasilkan salah satu cara untuk dapat mengantisipasi fenomena iklim terutama El Nino, dimana salah satu cara tersebut yaitu mengembangkan sistem deteksi dini anomali iklim yang meliputi waktu kejadian, lama kejadian, tingkat anomali, potensi dampak terhadap ketersediaan air dan produksi pangan serta sebaran wilayah rawan. Seperti yang telah utarakan oleh kepala BMKG jika Indonesia yang berada digaris khatulistiwa memiliki kerumitan dan ketidakpastian lebih jika dibandingkan dengan negara-negara yang letaknya tidak digaris khatulistiwa. Fenomena atmosfer dan cuaca di Indonesia termasuk sangat kompleks dikarenakan Indonesia adalah negara kepulauan yang lebih luas dari daratan dan diapit oleh Samudera Pasifik dan Samudera Hindia. Untuk dapat memprediksi kemungkinan anomali pada cuaca maka data historis tentang suhu dan kelembapan akan dipelajari hingga dapat dikenali pola-pola anomali cuaca dalam suatu daerah[2]. Oleh karena itu, penelitian ini dibuat dengan tujuan mengetahui kapan terjadi anomali di daerah Jawa Tengah tepatnya di kota Semarang dengan menggunakan data dari tahun 2017 sampai 2020. Pengolahan data dalam penelitian ini menggunakan bahasa pemrograman Python dengan arsitektur LSTM (Long Short Term Memory) dan metode Autoencoder untuk pengolahannya. Proses untuk melakukan pengenalan pola-pola dapat menggunakan jaringan saraf berulang atau Recurrent Neural Network (RNN). RNN adalah jenis arsitektur jaringan saraf tiruan yang pemrosesannya dipanggil secara berulang untuk memproses masukan yang biasanya menggunakan data sekuensial [3]. Long Short Term Memory (LSTM) merupakan salah satu jenis dari Recurrent Neural Network (RNN) dimana dilakukan modifikasi pada RNN dengan menambahkan memory cell yang dapat menyimpan informasi untuk jangka waktu yang lama [4]. LSTM banyak digunakan untuk pemrosesan teks, video dan data time series. II. Kajian Pustaka Penelitian terkait sebelumnya dilakukan oleh Wendy Winata [5] yang melakukan pemantauan suhu udara rata-rata berdasarkan letak geografis lokasi dengan menggunakan metode Long Short Term Memory. Dalam penelitian tersebut penulis melakukan mendapatkan nilai yang baik saat melakukan pernghitungan, Dilihat dari penelitian tersebut diperoleh akurasi dengan nilai 91,848416% pada perhitungan Prakira suhu udara rata-rata pada kota-kota besar di dunia. Penentuan akurasi penelitian tersebut didasari beserta penghitungan error rate dengan

menggunakan 3 metode, yaitu RMSE, MAPE dan Correlation. Penghitungan error rate mendapat nilai sebesar 1,881693 untuk penghitungan metode RMSE, lalu 8,151584% untuk MAPE dan 0,872803 untuk penghitungan menggunakan metode Correlation. Tingkat akurasi yang sangat baik tentunya didukung juga dengan penghitungan error rate yang baik, dengan nilai RMSE dan MAPE yang rendah, nilai akurasi yang tinggi serta nilai correlation antara menunjukan keterkaitan antara data awal dan data prediksi maka metode LSTM bisa dikatakan terbukti sesuai dalam memprakirakan data suhu udara rata-rata. Laras Wiranda dan Mujiono Sadikit [6] melakukan penghitungan tentang memprediksi penjualan produk untuk industri farmasi PT. Metiska Farma. Pada penelitian tersebut penulis mendapatkan hasil persentase rata rata kesalahan model antara nilai prediksi dengan nilai aktual perhari dengan menggunakan MAPE adalah 12% dari bentuk rupiah sebesar 13,762,154.00. Muhammad Idham Habibie [7] mengimplementasikan LSTM untuk Forecasting didalam variabel temperature dan kelembaban kedalam Rasberry Pi untuk IoT sistem. Dalam penelitiannya, LSTM memiliki mendapatkan hasil yang sangat baik, dilihat dari rata-rata RMS = 0.032, Loss = 0.001, MAE = 0.007, dan R2 Square = 0.68. Peneliti juga tidak menggunakan epoch yang besar dikarenakan epoch yang besar tidak menurunkan error rate dan juga menghabiskan memori yang berlebihan. Teguh Wahyono [8] melakukan deteksi anomali menggunakan LSTM dengan deteksi anomali temporal menggunakan stack and densely connected, hasil dari penghitungan mendapat hasil terbaik dengan rata-rata RMSE training = 0.3015 dan RMSE Testing = 0.2606 menggunakan Epoch = 100. Data anomali cuaca merupakah salah satu fitur penting yang dipertimbangkan dalam melakukan prediksi. Muhammad Wildan Putra Adi, Jondri dan Annisa Aditsania [9] mendapatkan hasil yang terbaik untuk memprediksi harga Bitcoin yaitu dengan data training 70% dan data testing 30%, jumlah 25 neuron hidden dan max epoch 100 dengan akurasi rata-rata pada data training 95.36% dan data testing 93.5%. Tifa Ayu Praditya dan Muhammad Naufal Alfareza [10] menggunakan metode prediksi berdasarkan rerata yang menggunakan metode simple average, moving average dan metode LSTM untuk membandingkan nilai RMSE. Peneliti menyimpulkan bahwa prediksi dengan metode machine learning lebih akurat dikarenakan memiliki nilai error lebih kecil dibandingkan dengan menggunakan metode rerata. Muhammad Rizki, Setio Basuki dan Yufis Azhar [11] peneliti berhasil memprediksi curah hujan kota Malang dengan parameter curah hujan. Dalam pengolahan data, peneliti membagi data training 50% dna data testing 50%. Peneliti menggunakan 150 epoch dikarenakan epoch 150 memiliki tingkat error paling rendah. Recurrent Neural Network (RNN) adalah jenis arsitektur dari jaringan saraf tiruan yang pemrosessannya dipanggil secara berulang-ulang untuk memroses masukan berupa data sekuensial. RNN termasuk dalam kategori deep learning, karena data yang diproses melewati banyak lapisan (layer) [12].

Gambar 1 Konsep RNN Long Short Term Memory (LSTM) merupakansalah satu jenis dari RNN dimana dalam pemrosessan modifikasi pada RNN dengan menambahkan memory cell yang dapat menyimpan informasi untuk jangka waktu yang lama. LSTM menjadi salah satu rekomendasi dari beberapa metode deep learning untuk mengatasi jikat terjadi vanishing gradient pada RNN saat memproses data sequential yang banyak [13]. Gambar 2 Ilustrasi LSTM Rumus LSTM terdapat 4 bagian, yaitu sebagai berikut: 1. Forget Gate ft = σ(wf. [ht-1, xt] + bf Pada Forget Gate nilai pada setiap data masukan akan diolah dan diseleksi, dimana data mana saja yang akan disimpan atau dibuang pada memory cells. 2. Input Gate it = σ(wi. [ht-1, xt] + bi) Pada Input Gate terdapat dua gerbang yang akan dilakukan, pertama data akan ditentukan mana saja yang akan diperbaharui menggunakan fungsi aktivasi sigmoid. Selanjutnya fungi aktivasi tanh akan membuat nilai baru yang akan digunakan dan disimpan pada memory cell.

3. Memory Update Ct= tanh(wc. [ht-1, xt] + bc) Pada memory update atau Cell State, gerbang ini akan mengganti nilai pada memory cell sebelumnya dengan nilai memory cell yang baru. Pada proses ini nilai memory cell akan didapatkan dari menggabungkan nilai yang dihasilkan dari forget gate dan input gate. 4. Output Gate ot = σ(wo. [ht-1, xt] + bo) ht = ot tanh(ct) Pada Output Gate terdapat dua gerbang dimana yang akan dilaksanakan pertama akan diputuskan nilai pada bagian memory cell mana yang akan dikeluarkan dengan menggunakan fungsi aktivasi sigmoid. Selanjutnya data akan ditempatkan pada memory cell dengan menggunakan fungsi aktivasi tanh. Pada tahap terakhirnya kedua gerbang tersebut akan dikalikan sehingga menghasilkan nilai yang akan dikeluarkan.. Autoencoder adalah salah satu dari jenis Jaringan Saraf Tiruan (RNN). Secara umum Autoencoder digunakan untuk meng-encode suatu data. Autoencoder dibuat untuk dapat menghasilkan nilai output yang sama dengan nilai inputnya, bisa dikatan Autoencoder termasuk pada kategori Unsupervised Learning karena dilatih untuk dapat menerima data tanpa label [14]. Gambar 3 Traditional Neural Network vs Autoencoder[14] Pada gambar diatas merupakan perbedaan antara tradisional neural network dan Arsitektur Autoencoder. Hal yang perlu diperhatikan saat membangunan konsep arsitektur Autoencoder adalah pada bagian fungsi aktivasi, karena fungsi aktivasi menentukan nilai akhir dari masing-masing model.

No. Tahun Penulis Metode 1. 2018 1. Wendy Winata Long Short Term Memory 2. 2019 1. Laras Wiranda Long Short Term 2. Mujiono Sadikit Memory 3. 2020 1. Muhammad Idham Habibie Long Short Term Memory 4. 2020 1. Teguh Wahyono Long Short Term Memory 5. 2018 1. Muhammad Wildan Putra Adi 2. Jondri 3. Annisa Aditsania 6. 2020 1. Tifa Ayu Praditya 2. Muhammad Naufal Alfareza 7. 2020 Long Short Term Memory Neural Network Metode Forecast dan Long Short Term Memory 1. Muhammad Rizki Deep Learning Long 2. Setio Basuki Short Term Memory 3. Yufiz Azhar Tabel 1. Penelitian Terdahulu

III. Metode Penelitian Gambar 4 Metodologi Penelitian Tahapan-tahapan yang akan dilakukan dalam penelitian ini adalah sebagai berikut, 3.1 Pengumpulan Data Data diambil dari situs resmi https://dataonline.bmkg.go.id/home BMKG (Badan Meteorologi, Klimatologi, dan Geofisika). Data yang diambil yaitu data dari tahun 2017 sampai tahun 2020. Dari beberapa atribut yang ada dalam data tersebut, peneliti mengambil atribut waktu dan suhu rata-rata disetiap bulannya. 3.2 Normalisasi Data Pada data yang berhasil diinputkan, Peneliti akan melakukan normalisasi data, beberapa kolom akan digabungkan dan beberapa akan dihilangkan untuk menyesuaikan data yang dibutuhkan dalam proses training. Peneliti akan menggabungkan data selama 4 tahun seperti atribut waktu dan suhu rata-rata menjadi satu file dengan format csv. 3.3 Memisah Data Set Pada tahap ini data akan dibagi menjadi 2 (dua) yaitu data training sebesar 80% dan data testing sebesar 20%. Jumlah data yang didapatkan penulis sebanyak 1.644 data. Data dibagi menjadi 1.330 data training dan 314 data testing. Data yang telah dibagi menjadi data training nantinya akan diolah menggunakan LSTM dan akan disesuikan agar hasilnya akan mendekati dengan nilai data testing. 3.4 Mengurutkan dan Mengelompokan Data Gambar 5 Data yang telah di kelompokan Data yang telah dibagi menjadi data training dan testing, kemudian dikelompokan menjadi per 30 hari data training dan data testing. Pada prosess ini data akan dibuat Sequence dimana 1 Sequence terdapat 30 data. Pada tahap ini Autoencoder harus mengambil urutan sebagai input dan output dengan bentuk yang sama, pada data yang telah dikumpulkan, sebanyak 1330 data akan diprediksi dimana saja letak anomali

yang dapat dideteksi. Pada kondisi ini kita akan memprediksi data pada waktu t berdasarkan data historis yang telah dikumpulkan hingga t-1. 3.5 Pengolahan Data Gambar 6 Gradient Descent Epoch Pada proses ini, peneliti menggunakan adam optimizer dan mean squared error sebagai fungsi untuk melihat berapa banyak kerugaian yang akan di dapat. Setelah data dibagi menjadi 2, data akan diolah menggunakan model LSTM Autoencoder time series, Jumlah epoch ditentukan dari berapa banyak data yang akan digunakan, pada penelitian ini [15]. Data akan di training sebanyak 50 epoch yang artinya data akan diolah berulang sebanyak 50 kali. Penentuan epoch juga harus tepat, jika tidak maka akan terjadi overfitting pada data. Didalam program yang telah dibuat, penulis menggunakan 50 epoch dikarenakan tingkat error yang dihasilkan lebih kecil yang artinya epoch 50 adalah epoch yang paling relevan agar data dapat memprediksi dengan tepat, selanjutnya dalam pengolahan ini, data akan menggunakan batch_size sejumlah 128, batch_size adalah jumlah sampel data yang disebarkan ke neural network. Batch_size ini akan melakukan pembagian data set dimana data pada sampel pertama akan dibagi menjadi (ke1, ke2, ke3, dst) sesuai nilai batch_size lalu disebarkan atau di-training oleh neural network sampai selesai, kemudian LSTM akan mengambil kembali data kedua lalu dibagi menjadi data (ke4, ke5, ke6, dst) hingga sejumlah nilai batch_size yang sudah peneliti deklarasikan sejumlah 128 batch_size [15]. 3.6 Testing Data Pada tahap terakhir ini, data training yang diolah akan diimplementasikan kepada data testing, sehingga program dapat mendeteksi adanya anomali cuaca pada data yang di-testing. IV. Hasil dan Pembahasan 4.1 Implementasi LSTM (Long Short Term Memory) Implementasi LSTM pada penelitian ini dimulai dengan pembuatan model LSTM. Model yang dibuat dikelompokkan per 30 hari. Kemudian data dibagi menjadi 2 (dua)

yaitu data training sebesar 80% dan data testing sebesar 20%. Jumlah data yang didapatkan penulis sebanyak 1.644 data. Data dibagi menjadi 1.330 data training dan 314 data testing. Kode Program 1. Pembuatan Model LSTM TIME_STEPS=30 def create_sequences(x, y, time_steps=time_steps): Xs, ys = [], [] for i in range(len(x)-time_steps): Xs.append(X.iloc[i:(i+time_steps)].values) ys.append(y.iloc[i+time_steps]) return np.array(xs), np.array(ys) X_train, y_train = create_sequences(train[['suhu']], train['suhu']) X_test, y_test = create_sequences(test[['suhu']], test['suhu']) print(f'training shape: {X_train.shape}') print(f'testing shape: {X_test.shape}') model = Sequential() model.add(lstm(128, input_shape=(x_train.shape[1], X_train.shape[2]))) model.add(dropout(rate=0.2)) model.add(repeatvector(x_train.shape[1])) model.add(lstm(128, return_sequences=true)) model.add(dropout(rate=0.2)) model.add(timedistributed(dense(x_train.shape[2]))) model.compile(optimizer='adam', loss='mae') model.summary() history = model.fit(x_train, y_train, epochs=50, batch_size=128, valida tion_split=0.5, callbacks=[keras.callbacks.earlystopping(monitor='v al_loss', patience=50, mode='min')], shuffle=false) Data di training sebanyak 50 epoch yang artinya data akan diolah berulang sebanyak 50 kali. Penentuan epoch juga harus tepat, jika tidak maka akan terjadi overfitting pada data. Didalam program yang telah dibuat, peneliti menggunakan 50 epoch dikarenakan tingkat error yang dihasilkan lebih kecil yang artinya epoch 50 adalah epoch yang paling relevan agar data dapat memprediksi dengan tepat. Gambar 7 Grafik Training Loss dan Validation Loss Grafik diatas merupakan hasil dari pengolahan menggunakan model LSTM. Dalam grafik tersebut bisa diketahui bahwa data training dan data validation loss tingkat errornya kecil. Semakin kecil error maka prediksi yang didapat semakin mendekati. Grafik antara training loss dan validation loss menunjukkan adanya bentuk dan jarak

yang hampir sama. Itu menandakan bahwa data training yang di tes dan data testing prediksinya mendekati. 4.2 MAE (Mean Absolute Error) Loss MAE merupakan pengukuran prediksi error pada analisis data time series. Dalam program ini perhitungan MAE loss menghasilkan nilai 0,59, artinya epoch 50 dalam perhitungan ini tingkat errornya kecil dibanding menggunakan epoch 100. Hal ini bisa dikatakan bahwa epoch 50 adalah epoch yang paling relevan agar data dapat memprediksi dengan tepat. Jika semakin rendah tingkat error maka performance model semakin baik, tetapi sebaliknya jika tingkat error semakin besar maka performance model semakin buruk. Kode Program 2. Perhitungan MAE Loss X_train_pred = model.predict(x_train, verbose=0) train_mae_loss = np.mean(np.abs(x_train_pred - X_train), axis=1) plt.hist(train_mae_loss, bins=50) plt.xlabel('train MAE loss') plt.ylabel('number of Samples'); Gambar 8 Hasil Pemrosesan MAE Loss 4.3 Output LSTM (Long Short Term Memory) Kode Program 3. Penentuan Threshold X_train_pred = model.predict(x_train, verbose=0) train_mae_loss = np.mean(np.abs(x_train_pred - X_train), axis=1) plt.hist(train_mae_loss, bins=50) plt.xlabel('train MAE loss') plt.ylabel('number of Samples'); threshold = np.median(train_mae_loss) print(f'reconstruction error threshold: {threshold}')

Source code diatas merupakan pemrosesan untuk menentukan apakah data tersebut termasuk dalam anomali cuaca atau bukan. Gambar 9 Hasil Pemrosesan Threshold Didalam visualisasi tabel, penentuan adanya anomali cuaca atau tidak ditentukan oleh suhu, loss (tingkat error) dan threshold (nilai ambang). Anomali terjadi apabila nilai data suhu lebih besar daripada nilai threshold. Dimana jika data tersebut false maka pada hari itu tidak terjadi anomali, sebaliknya apabila data tersebut true maka pada hari itu terjadi anomali cuaca. Gambar 10 Grafik Pemrosesan Threshold Pada grafik diatas menunjukan nilai threshold menjadi acuan apakah data tersebut termasuk kedalam anomali cuaca atau tidak. Anomali cuaca terjadi apabila nilai testing lebih besar daripada nilai threshold. Nilai threshold didapatkan dari perhitungan nilai median pada data suhu yang digunakan untuk mengolah data. Penghitungan threshold

menggunakan median dikarenakan median seringkali digunakan sebagai kebalikan dari mean saat terdapat titik data yang terpaut jauh dari titik data lainnya dimana urutan data yang mungkin merusak dari perhitungan nilai mean. Median termasuk solusi suatu urutan data yang bisa menimimalisir pengaruh dari titik data yang nilainya terpaut jauh. Gambar 11 Deteksi Anomali Cuaca Pada grafik diatas merupakan deteksi adanya anomali cuaca. Anomali cuaca disimbolkan dengan titik merah dan bisa diketahui tanggal berapa dan disuhu berapa data tersebut mendeteksi adanya anomali cuaca. Bisa dilihat pada gambar 10 terdapat data diluar garis ambang di bulan Agustus-September dimana threshold menemukan ada 14 titik anomali pada gambar 11. Anomali tersebut ditemukan karena terdapat perubahan yang mendadak pada data yang telah di training. Pada pengolahan LSTM ini, data yang dikelompokkan per 30 hari menimbulkan adanya beberapa anomali yang datanya berbeda dengan data 30 hari sebelum dan sesudahnya. Oleh karena itu terdapat data suhu ekstrem yang tidak terdeteksi adanya anomali dan ada juga suhu di area ratarata yang terdeteksi adanya anomali dikarenakan penghitungan data per 30 hari selalu berubah-ubah. V. Simpulan Dari penelitian yang telah dilakukan, dapat diambil kesimpulan bahwa pada bulan November yang seharusnya musim hujan terdapat titik dimana suhu di Semarang tiba-tiba sangat panas menyentuh suhu 32, lalu suhu beberapa hari kemudian turun drastis sampai ke suhu 26. Disini anomali LaNina jangka pendek terjadi dan terbukti dari berita banjir disitus berita Kompas pada tanggal 20 November 2020 banjir bandang menerjang perumahaan di daerah Mijen Kota Semarang[16]. Anomali cuaca diketahui jika nilai data lebih tinggi dari threshold. Threshold atau proses penentuan ambang/batas nilai data diperolah dari nilai median data yang digunakan. Dalam melakukan setting epoch, peneliti menggunakan epoch 50 yang artinya data akan diolah berulang sebanyak 50 kali. Dengan menggunakan epoch 50 maka dihasilkan MAE Loss sebesar 0,59 yang artinya tingkat error dalam program ini rendah. Dalam penentuan nilai epoch harus tepat, jika tidak maka akan terjadi overfitting dalam pengolahan data. Setelah melakukan pemrosesan model LSTM (Long Short Term Memory) dapat diketahui bahwa data training dan data validation loss tingkat errornya kecil. Semakin kecil error maka prediksi yang didapat semakin mendekati. Grafik antara training loss dan validation loss menunjukkan adanya bentuk dan jarak yang hampir sama. Itu menandakan bahwa data training yang di tes dan data testing prediksinya mendekati. Setelah melakukan pengolahan data pada data training, bisa

diketahui dari data testing bahwa anomali terjadi sebanyak 81 kali pada bulan Agustus 2020 Desember 2020. Dari grafik yang telah tebentuk, anomali cuaca juga bisa dilihat berdasarkan tanggal berapa dan disuhu berapa. VI. Saran Untuk penelitian selanjutnya, peneliti dapat menggunakan beberapa atribut, tidak hanya dua atribut. Peneliti juga bisa membandingkan menggunakan metode lain untuk mendapatkan hasil yang paling sesuai.