Yuk Cari Tahu Algoritma Supervised Learning yang Paling Banyak Digunakan
Algoritma supervised learning merupakan salah satu bagian dari machine learning yang menggunakan kumpulan data berlabel untuk melatih model, membuat prediksi output, dan membandingkan output tersebut dengan output yang diinginkan. Algoritma machine learning dibagi menjadi tiga jenis, yaitu supervised learning, unsupervised learning, dan reinforcement learning. Algoritma supervised learning akan melatih algoritma dengan memberikan label pada data secara eksplisit. Jenis algoritma ini menggunakan kumpulan data yang telah tersedia untuk melatih model yang secara umum dapat ditulis dengan y = f(x). x adalah variabel input, y adalah variabel output dan f(x) adalah hipotesis.
Tujuan dari algoritma supervised learning adalah untuk menemukan hipotesis sebagai perkiraan seakurat mungkin sehingga jika ada data input baru, maka variabel y dapat diprediksi. Salah satu contoh pengaplikasian algoritma machine learning adalah pada sistem spam pada email. Didunia ini ada banyak jenis-jenis algoritma supervised learning, namun dua algoritma yang paling sering digunakan adalah regresi dan klasifikasi. Apa itu regresi dan klasifikasi? Apa perbedaan kedua algoritma ini? Pada artikel kali ini DQLab akan menjelaskannya khusus untukmu. Jadi tunggu apa lagi? Yuk simak artikel ini sampai akhir!
1. Apa itu Regresi?
Dalam regresi, variabel output berjenis numerik (kontinu). Algoritma ini akan melatih hipotesis f(x) untuk mendapatkan output kontinu (y) dengan data input (x). Beberapa algoritma regresi yang populer adalah regresi linear, dan regresi poisson.
Regresi linier merupakan bentuk algoritma regresi yang paling sederhana. Algoritma ini hanya memiliki dua variabel, yaitu satu variabel dependen (y) dan satu variabel independen (x). Pada algoritma regresi linier, hubungan antara kedua variabel ini diasumsikan linier yang dipisahkan oleh garis lurus. Tujuan algoritma ini adalah untuk mendapatkan garis yang membagi ke dua variabel ini dengan error sekecil mungkin.
Regresi poisson bekerja berdasarkan prinsip distribusi poisson karena nilai variabel dependen (y) adalah bilangan bulat non-negatif kecil seperti 0,1,2,3, dan seterusnya dengan asumsi bahwa perhitungan besar tidak akan sering terjadi. Regresi poisson mirip dengan regresi logistik, hanya saja variabel dependennya tidak terbatas pada nilai tertentu.
Baca juga : 3 Jenis Algoritma Machine Learning yang Dapat Digunakan di Dunia Perbankan
2. Apa itu Klasifikasi?
Dalam algoritma klasifikasi, variabel output merupakan data berjenis diskrit. Algoritma akan melatih hipotesis f(x) untuk mendapatkan output berjenis diskrit (y) dengan data input (x). Output ini juga biasa dikenal dengan kelas. Di era modern dengan teknologi canggih seperti saat ini, klasifikasi banyak digunakan dalam teknologi pengenalan ucapan, klasifikasi gambar, NLP, dan lain sebagainya. Beberapa algoritma klasifikasi yang populer adalah jaringan syaraf (neural network), pohon keputusan (decision tree), dan naive bayes classifier.
Jaringan syaraf tiruan adalah algoritma klasifikasi yang memiliki minimal tiga layer, yaitu layer input, hidden layer (layer tersembunyi), dan layer output. Jumlah hidden layer dapat bervariasi tergantung dengan masalah yang ingin diselesaikan. Setiap hidden layer akan mencoba mendeteksi pola dari data input. Saat pola terdeteksi, pola akan diteruskan ke hidden layer selanjutnya dan terus berjalan hingga layer output.
Algoritma decision tree atau pohon keputusan merupakan algoritma yang menggabungkan model klasifikasi dan regresi dalam bentuk struktur pohon. Algoritma ini akan memecah data set menjadi subset yang lebih kecil dan menginput keputusan ke dalam subset tersebut. Decision tree terbagi menjadi dua simpul, yaitu simpul keputusan dan simpul daun. Simpul keputusan dapat memiliki dua atau lebih cabang dan akan mengarahkan ke simpul daun. Simpul daun digunakan untuk mewakili klasifikasi atau keputusan. Untuk memperkirakan hasil, kita bisa menggunakan aturan keputusan jika-maka-lainnya. Semakin panjang turunan simpul, maka semakin kompleks aturan yang akan kita gunakan, namun hasil keputusan yang didapat akan lebih baik.
Algoritma naive bayes merupakan kumpulan algoritma klasifikasi berdasarkan teorema bayes. Variabel pada algoritma naive bayes tidak ada yang bergantung satu sama lain, artinya variabel-variabel ini bersifat independen. Persamaan umum naive bayes adalah P (A, B) = P (A) P (B).
3. Perbedaan Algoritma Regresi dan Klasifikasi
Pada algoritma regresi, variabel yang akan diprediksi berupa angka sedangkan pada algoritma klasifikasi variabel yang akan diprediksi adalah kelas. Output pada algoritma regresi adalah data berjenis kontinu sedangkan output dari algoritma klasifikasi merupakan data berjenis diskrit. Algoritma regresi dan klasifikasi sama-sama menghasilkan model, bedanya algoritma regresi menghasilkan model berdasarkan best fit line, sedangkan algoritma klasifikasi menghasilkan model berdasarkan decision boundary. Kedua algoritma ini juga membutuhkan evaluasi. Metode evaluasi pada algoritma regresi menggunakan metode RMSE sedangkan metode evaluasi pada algoritma klasifikasi menggunakan metode akurasi.
Machine learning merupakan bagian dari data science. Kedua ilmu ini dapat diterapkan di berbagai bidang industri dan saat ini mulai banyak diaplikasikan oleh perusahaan, terutama perusahaan yang sudah "melek data". Di era berbasis data, data science sangat dibutuhkan oleh perusahaan untuk mengekstrak dan mengolah data untuk mendapatkan insight yang bermanfaat bagi perusahaan. Oleh karena itu, lapangan pekerjaan sebagai data scientist terus meningkat dari tahun ke tahun. Fakta uniknya, data science ini dapat dipelajari oleh siapapun, mulai dari pelajar hingga kalangan profesional.
Baca juga : Belajar Data Science: Pahami Penggunaan Machine Learning pada Python
4. Yuk, BELAJAR DATA SCIENCE GRATIS DI DQLAB SELAMA 1 BULAN!
Gunakan Kode Voucher "DQTRIAL", dan simak informasi di bawah ini mendapatkan 30 Hari FREE TRIAL:
Buat Akun Gratis dengan Signup di DQLab.id/signup
Buka academy.dqlab.id dan pilih menu redeem voucher
Redeem voucher "DQTRIAL" dan check menu my profile untuk melihat masa subscription yang sudah terakumulasi.
Selamat, akun kamu sudah terupgrade, dan kamu bisa mulai Belajar Data Science GRATIS 1 bulan.
Penulis: Galuh Nurvinda Kurniawati
Editor: Annissa Widya Davita