Data Science dalam Machine Learning pada Penerapan Image Captioning
Seiring dengan perkembangan teknologi, terdapat penemuan baru khususnya dalam bidang data science. Salah satu metode machine learning yang diterapkan dalam data science adalah image processing alias pemrosesan gambar. Penerapan image processing erat kaitannya dengan kehidupan sehari-hari.
Contoh sederhana dalam image processing adalah fitur deteksi wajah (face recognition) yang ada di ponsel kita, deteksi objek untuk melabelkan suatu produk (product detection), deteksi plat nomor kendaraan bermotor (text extraction), dan lainnya. Contoh penerapan pemrosesan bahasa alami yang biasa kita gunakan adalah mesin penerjemah (machine translation) seperti di Google Translate.
Namun selain adanya image processing, ada juga penerapan data science yang berhubungan dengan pemrosesan gambar. Salah satu implementasinya adalah image captioning atau deskripsi pada gambar. Image captioning adalah kemampuan mendeskripsikan isi sebuah gambar dalam bentuk kalimat.
Image captioning memerlukan kemampuan dari dua bidang artificial intelligence, yaitu computer vision untuk memahami isi gambar yang diberikan dan natural language processing untuk mengubah isi pada gambar menjadi bentuk kalimat yang natural.
Artikel ini akan mengulas terkait data science dan penerapannya dalam machine learning pada image captioning, simak sampai akhir artikel ya Sahabat DQ!
1. Mengenal Image Captioning
Image captioning adalah kemampuan mendeskripsikan isi sebuah ganbar dalam bentuk kalimat. Image captioning sudah memiliki dampak positif dalam banyak bidang, contohnya analisis gambar (contoh: pencarian gambar) dan membantu orang yang memiliki masalah penglihatan atau tuna netra untuk dapat berinteraksi dengan konten visual pada situs media social.
Image captioning juga memiliki potensi untuk memberikan perubahan positif dalam hal lain misalnya interaksi manusia dengan computer dan keamanan.
Pendekatan image captioning baru-baru ini menggunakan framework deep encoder decoder, yang terinspirasi dari pengembangan neural machine translation. Contohnya framework end-to-end digunakan dengan CNN mengkodekan gambar ke fitur vektor dan LSTM mendekodekannya menjadi kalimat.
Dalam Hierarchical Attention Network diperkenalkan yang membuat attention dapat dihitung dalam hierarkhi piramida dari fitur secara sinkronus. Dalam adaptive attention mechanism diperkenalkan untuk memutuskan kapan mengaktifkan visual attention.
Baca juga: Algoritma Data Science & Contohnya Dalam Kehidupan Sehari-hari
2. Tahap Image Processing
Image processing adalah suatu bentuk pemrosesan sinyal dengan input berupa gambar sebagai outputnya dengan teknik tertentu. Perlakuan image processing ditujukan untuk memperbaiki kesalahan data sinyal gambar yang terjadi akibat transmisi, meningkatkan kualitas penampakan gambar agar lebih mudah untuk diinterpretasikan oleh sistem penglihatan manusia.
Dalam operasi image processing dapat dikelompokkan berdasarkan tujuan transformasinya:
Image Enhancement (Peningkatan Kualitas Gambar)
Image Restoration (Pemulihan Gambar)
Image Compression (Kompresi Gambar)
Image Refresention & Modelling (Representasi dan Permodelan Gambar)
3. Image Enhancement
Tahap pertama adalah image enhancement atau peningkatan kualitas gambar. Dalam tahap ini, peningkatan kualitas gambar berfungsi unuk meningkatkan fitur tertentu pada citra sehingga tingkat keberhasilan dalam pengolahan gambar mencapai resolusi tinggi. Peningkatan kualitas gambar dapat dilakukan secara manual dengan penggunaan software.
Ada beberapa proses yang dilakukan dalam tahap image enhancement:
Operasi Titik
Operasi titik dalam image enhancement dilakukan dengan memodifikasi histogram citra masukan agar sesuai dengan karakteristik yang diharapkan. Histogram dari suatu citra adalah grafik yang menunjukkan distribusi frekuensi dari nilai intensitas piksel dalam citra tersebut. Teknik enhancement berdasarkan operasi titik dibagi tiga, yaitu:
Intensity Adjustment
Intensity adjusment bekerja dengan cara melakukan pemetaan linear terhadap nilai intensitas pada histogram awal menjadi nilai intensitas pada histogram yang baru.
Histogram Equalization
Teknik histogram equalization bertujuan untuk menghasilkan suatu citra keluaran yang memiliki nilai histogram yang relatif sama.
Thresholding
Thresholding merupakan proses pemisahan piksel-piksel berdasarkan derajat keabuan yang dimilikinya. Piksel yang memiliki derajat keabuan lebih kecil dari nilai batas yang ditentukan akan diberikan nilai 0, sementara piksel yang memiliki derajat keabuan yang lebih besar dari batas akan diubah menjadi bernilai 1 .
Operasi Spasial
Operasi spasial dalam pengolahan citra digital dilakukan melalui penggunaan suatu kernel konvolusi 2-dimensi. Teknik enhancement berdasarkan operasi titik dibagi tiga, yaitu:
Neighborhood Averaging
Pada prinsipnya, filter yang digunakan dalam neighborhood averaging merupakan salah satu jenis low-pass filter, yang bekerja dengan cara mengganti nilai suatu piksel pada citra asal dengan nilai rata-rata dari piksel tersebut dan lingkungan tetangganya.
Median Filtering
Median filter merupakan salah satu jenis low-pass filter, yang bekerja dengan mengganti nilai suatu piksel pada citra asal dengan nilai median dari piksel tersebut dan lingkungan tetangganya.
High-Pass Filtering
Sebagaimana pada proses pengolahan sinyal satu dimensi, high-pass filter dua dimensi akan melewatkan komponen citra frekuensi tinggi dan meredam komponen citra frekuensi rendah.
Operasi Transformasi
Operasi transformasi ini dilakukan dengan cara mentransformasi citra asal ke dalam domain yang sesuai bagi proses enhancement, melakukan proses enhancement pada domain tersebut, mengembalikan citra ke dalam domain spasial untuk ditampilkan/diproses lebih lanjut
Fast Fourier Transform (FFT)
Transformasi ini memindahkan informasi citra dari domain spasial ke dalam domain frekuensi, yaitu dengan merepresentasikan citra spasial sebagai suatu penjumlahan eksponensial kompleks dari beragam frekuensi, magnituda, dan fasa.
4. Image Restoration
Setelah dilakukan peningkatan kualitas gambar oleh sistem, langkah selanjutnya adalah image restoration. Pada tahap ini gambar dipulihkan dari versi yang terdegradasi. Biasanya gambar yang buram dan memiliki noise.
Operasi image restoration digunakan untuk mengembalikan kondisi citra pada kondisi yang diketahui sebelumnya akibat adanya pengganggu yang menyebabkan penurunan kualitas citra pada kondisi yang diketahui sebelumnya akibat adanya pengganggu yang menyebabkan penurunan kualitas citra.
Ada beberapa jenis noise yang dapat kita modelkan, misalkan noise yang berasal dari sensor yang kurang sempurna, noise yang berasal dari sinyal transmisi yang kurang baik sehingga pada saat transimisi data citra tidak diterima dengan baik. Salah satu contoh noise yang terkenal adalah salt-and-pepper noise (garam dan merica)
5. Image Compression
Image compression atau yang disebut juga kompresi citra adalah proses untuk meminimalisasi jumlah bit yang merepresentasikan suatu citra sehingga ukuran data citra menjadi lebih kecil. Pada dasarnya teknik kompresi citra digunakan pada proses transmisi data (data transmission) dan penyimpanan data (data storage).
Kompresi citra banyak diaplikasikan pada penyiaran televisi, penginderaan jarak jauh (remote sensing), komunikasi militer, radar, telekonferensi, pencitraan kedokteran, dan lain-lain.
Dalam teknik kompresi data, redundansi dari data menjadi masalah utama. Redudansi yaitu kejadian berulangnya data atau kumpulan data yang sama dalam sebuah database yang berujung pemborosan pada media penyimpanan.
Kompresi data ditujukan untuk mereduksi penyimpanan data yang redundan. Atau dalam istilah lain kompresi citra digital dilakukan untuk dengan cara meminimalkan jumlah bit yang diperlukan untuk merepresentasikan suatu data citra, namun seringkali kualitas gambar yang dihasilkan jauh lebih buruk dari aslinya karena keinginan kita untuk memperoleh rasio kompresi yang tinggi.
6. Image Refresention & Modelling
Representasi mengacu pada data konversi dari hasil segmentasi ke bentuk yang lebih sesuai untuk proses pengolahan pada komputer. Keputusan pertama yang harus sudah dihasilkan pada tahap ini adalah data yang akan diproses dalam batasan-batasan atau daerah yang lengkap.
Batas representasi digunakan ketika penekanannya pada karakteristik bentuk luar, dan area representasi digunakan ketika penekanannya pada karakteristik dalam, sebagai contoh tekstur. Setelah data telah direpresentasikan ke bentuk tipe yang lebih sesuai, tahap selanjutnya adalah menguraikan data. Salah satu contoh pengaplikasian dari image processing adalah face recognition atau sistem pendeteksi wajah.
Baca juga: Memahami Keunggulan dan Manfaat Data Science dalam Dunia Bisnis
Setelah memahami penerapan data science dalam bidang machine learning dan artificial intelligence, kini saatnya kamu sahabat DQ untuk upskill kemampuan data analysis kamu. Kamu bisa langsung mulai untuk curi start dengan signup di DQLa.id.
Kamu juga bisa cobain beragam modul-modul yang terupdate dari DQLab. Mulai dari yang gratis (free module) maupun yang premium. Kalian juga bisa mencoba studi kasus penerapan real case industry dan kamu juga diberikan kesempatan mendapatkan job connector dari perusahaan ternama di ranah industri data.
Tunggu apa lagi? yuk, signup sekarang untuk mulai belajar data science bersama DQLab!
Penulis: Reyvan Maulid