Perbandingan Generator danDiscriminator pada Conditional Generative Adversarial Network (cGAN) untuk Estimasi Kedalaman Relatif dari Citra Bawah Air
Reynaldo Wijaya Hendry
Disupervisi oleh Dr. Eng. Laksmita Rahadianti S.Kom., M.Sc. dan Aruni Yasmin Azizah S.Kom M.Comp.Sc
Perbandingan peta kedalaman relatif untuk setiap model pada data uji yang digunakan
Abstract
Citra bawah air tergolong ke dalam citra yang sulit diproses secara digital. Hal ini disebabkan citra bawah air mengalami degradasi gabungan berupa scattering dan absorption. Sedangkan permasalahan estimasi kedalaman relatif adalah salah satu permasalahan yang masih menjadi riset dalam bidang computer vision saat ini. Permasalahan ini digolongkan sebagai permasalahan image-to-image translation. Salah satu model yang sering digunakan untuk menyelesaikan permasalahan image-to-image translation adalah dengan menggunakan conditional generative adversarial network (cGAN) yang merupakan salah satu varian dari generative adversarial network (GAN). Komponen penting dari cGAN terdiri dari generator dan discriminator yang berpengaruh terhadap keefektifan model. Pada penelitian ini akan diuji kombinasi generator yang terdiri dari U-net, Resnet-6, dan Resnet-9 dan discriminator yang terdiri dari PatchGAN serta ImageGAN dalam menyelesaikan permasalahan estimasi kedalaman relatif dari citra bawah air. Keoptimalan model diuji dengan menggunakan metrik structural index similarity (SSIM) dan root mean square error (RMSE). Didapatkan hasil bahwa model dengan generator U-net dan discriminator PatchGAN memberikan hasil terbaik pada metrik SSIM dan RMSE.

Model
Model yang digunakan pada penelitian ini adalah Conditional GAN (cGAN) (Isola et al., 2016) yang merupakan varian dari Generative Adversarial Network (GAN) (Goodfellow et al., 2014). Perbandingan model cGAN dan GAN dapat dilihat pada gambar di bawah.
Perbandingan arsitektur model GAN dan cGAN
Model GAN maupun cGAN terdiri dari 2 buah komponen utama yaitu generator dan discriminator. Kedua komponen ini sangat memengaruhi hasil yang diperoleh kedua buah model. Oleh karena itu dilakukan percobaan terhadap penggunaan generator dan discriminator yang berbeda.
Generator
Generator yang akan diuji terdiri dari U-net (Ronneberger et al., 2015), Resnet-6 (Johnson, et al., 2016), dan Resnet-9.
U-net
U-net yang digunakan pada generator ini bukanlah model yang sama persis dengan model U-net milik Ronneberger melainkan model U-net yang dibuat oleh Isola pada paper cGAN yang memiliki properti yang mirip dengan U-net milik Ronneberger tetapi memiliki layer yang lebih banyak. Arsitektur U-net yang digunakan dapat dilihat pada gambar di bawah.
Arsitektur model U-net yang digunakan
Resnet-6
Resnet-6 adalah model yang terinspirasi dari penggunaan residual layer (He et al., 2015). Pada Resnet-6 digunakan enam buah residual layer. Model ini sendiri terinspirasi dari model Resnet buatan Johnson. Arsitektur model Resnet-6 dapat dilihat pada gambar di bawah. Arsitektur Resnet-6 yang digunakan dapat dilihat pada gambar di bawah.
Arsitektur model Resnet-6 yang digunakan
Resnet-9
Resnet-9 adalah model yang sama dengan Resnet-6 dimana perbedaanya hanya terdapat pada jumlah residual layer yang digunakan. Arsitektur Resnet-9 yang digunakan dapat dilihat pada gambar di bawah.
Arsitektur model Resnet-9 yang digunakan
Discriminator
Discriminator yang akan diuji terdiri dari PatchGAN dan ImageGAN
PatchGAN
PatchGAN adalah jenis discriminator yang digunakan oleh Isola pada paper yang ia buat mengenai cGAN. PatchGAN mengambil N × N potongan kecil untuk mengklasifikasikan citra. PatchGAN sendiri memiliki banyak variasi tergantung ukuran patch yang digunakan. PatchGAN yang digunakan pada penelitian kali ini adalah menggunakan patch berukuran 70 × 70 atau dikenal juga dengan 70 × 70 PatchGAN. Arsitektur PatchGAN yang digunakan dapat dilihat pada gambar di bawah.
Arsitektur model PatchGAN yang digunakan
ImageGAN
PatchGAN adalah jenis discriminator yang digunakan oleh Isola pada paper yang ia buat mengenai cGAN. PatchGAN mengambil N × N potongan kecil untuk mengklasifikasikan citra. PatchGAN sendiri memiliki banyak variasi tergantung ukuran patch yang digunakan. PatchGAN yang digunakan pada penelitian kali ini adalah menggunakan patch berukuran 70 × 70 atau dikenal juga dengan 70 × 70 PatchGAN. Arsitektur ImageGAN yang digunakan dapat dilihat pada gambar di bawah.
Arsitektur model ImageGAN yang digunakan

Dataset
Pada penelitian ini, digunakan dua buah dataset citra bawah air berupa dataset SQUID (Berman et al., 2020) dan Sea-thru (Akkaynak & Treibitz, 2019).
Stereo Quantitative Underwater Image Dataset (SQUID)
SQUID merupakan dataset citra bawah air yang diambil pada musim, kedalaman, dan tipe air yang berbeda-beda. Dataset ini diambil pada empat tempat berbeda di Israel. Penjelasan lebih lanjut mengenai dataset ini dapat diakses pada website berikut ini. Beberapa contoh citra pada dataset SQUID dapat dilihat pada gambar di bawah.
Contoh citra pada dataset SQUID
Sea-thru
Sea-thru merupakan kumpulan citra bawah air yang terdiri dari 5 buah subdataset. Dari ke-5 buah subdataset ini, diambil 2 subdataset yaitu D3 dan D5 dikarenakan sesuai dengan konsiderasi Penulis yang menginginkan sudut pengambilan citra menghadap ke depan. Penjelasan lebih lanjut mengenai dataset ini dapat diakses pada website berikut ini. Beberapa contoh citra pada dataset Sea-thru dapat dilihat pada gambar di bawah.
Contoh citra pada dataset Sea-thru

Hasil
Masing-masing model diuji ke dataset uji yang telah disiapkan dan dievaluasi dengan dua buah metrik berupa Structural Similarity Index (SSIM) dan Root Mean Squared Error (RMSE). Hasil evaluasi masing-masing model dapat dilihat sdi bawah.
GeneratorDiscriminatorSSIMRMSE
U-netPatchGAN0,836960,15886
Resnet-6PatchGAN0,833760,15136
Resnet-9PatchGAN0,854930,14306
U-netImageGAN0,847350,14732
Resnet-6ImageGAN0,842760,14924
Resnet-9ImageGAN0,842280,14751
Tabel hasil evaluasi masing-masing model
Perbandingan peta kedalaman relatif untuk setiap model pada data uji yang digunakan
Selain itu masing-masing model diujikan juga ke citra bawah air sesungguhnya yang diambil dari kumpulan dataset bawah air yang tersedia di internet. Hasil masing-masing model dapat dilihat pada gambar di bawah.
Perbandingan peta kedalaman relatif untuk setiap model pada data citra bawah air sesungguhnya

Tambahan
Untuk Source code dari penelitian ini dapat diunduh di sini. Sedangkan untuk tulisan penelitian ini sendiri mungkin dapat dibaca dengan meminjam di perpusatakan Fakultas Ilmu Komputer Universitas Indonesia (Fasilkom UI).

Daftar Pustaka
Akkaynak, D., & Treibitz, T. (2019). Sea-thru: A method for removing water from underwater images.

Berman, D., Levy, D., Avidan, S., & Treibitz, T. (2020). Underwater single image color restoration using haze-lines and a new quantitative dataset. IEEE Transactions on Pattern Analysis and Machine Intelligence.

Goodfellow, I. J., Pouget-Abadie, J., Mirza, M., Xu, B., Warde-Farley, D., Ozair, S., . . . Bengio, Y. (2014). Generative adversarial networks.

He, K., Zhang, X., Ren, S., & Sun, J. (2015). Deep residual learning for image recogni- tion. CoRR, abs/1512.03385. Retrieved from http://arxiv.org/abs/1512.03385

Isola, P., Zhu, J., Zhou, T., & Efros, A. A. (2016). Image-to-image translation with conditional adversarial networks. CoRR, abs/1611.07004. Retrieved from http:// arxiv.org/abs/1611.07004

Johnson, J., Alahi, A., Fei-Fei, L. (2016) Perceptual losses for real-time style transfer and super-resolution.

Ronneberger, O., Fischer, P., & Brox, T. (2015). U-net: Convolutional networks for biomedical image segmentation. CoRR, abs/1505.04597. Retrieved from http:// arxiv.org/abs/1505.04597