Buat Akun DQLab & Akses Kelas Data Science Python, R, SQL, Excel GRATIS!

Mengenal Naive Bayes Sebagai Salah Satu Algoritma Data Science

Belajar Data Science di Rumah 23-Mei-2022
https://dqlab.id/files/dqlab/cache/5a39b56610610796d6f924abad1d7e68_x_Thumbnail800.jpg

Algoritma adalah serangkaian instruksi yang digunakan agar komputer dapat memecahkan masalah berdasarkan inputan tertentu dalam waktu yang terbatas. Algoritma digunakan di semua permasalahan yang membutuhkan komputers untuk memecahkan ppermasalahan tersebut termasuk dalam bidang data science. Dengan menggunakan algoritma data science kamu dapat memecahkan pola-pola dibalik suatu data. Terdapat 3 jenis algoritma dalam data science antara lain supervised learning, unsupervised learning, dan reinforcement learning.


Salah satu yang akan kami bahas adalah algoritma naive bayes yang merupakan jenis algoritma supervised learning, dimana algoritma tidak bisa belajar sendiri tetapi harus diberi contoh terlebih dahulu dengan cara memberi label pada dataset yang kita punya. Memberi label disini artinya adalah dataset kita telah diberikan nilai kebenarannya yang akan dijadikan sebagai nilai target atau nilai acuan. Untuk lebih lanjut tentang algoritma naive bayes mari simak artikel dibawah ini sampai selesai.


1. Definisi Algoritma Naive Bayes


Naive bayes merupakan metode pengklasifikasian paling populer digunakan dengan tingkat keakuratan yang baik. Banyak penelitian tentang pengklasifikasian yang telah dilakukan dengan menggunakan algoritma ini. Berbeda dengan metode pengklasifikasian dengan logistic regression ordinal maupun nominal, pada algoritma naive bayes pengklasifikasian tidak membutuhkan adanya pemodelan maupun uji statistik.  


Naive bayes merupakan metode pengklasifikasian berdasarkan probabilitas sederhana dan dirancang agar dapat dipergunakan dengan asumsi antar variabel penjelas saling bebas (independen). Pada algoritma ini pembelajaran lebih ditekankan pada pengestimasian probabilitas. Keuntungan algoritma naive bayes adalah tingkat nilai error yang didapat lebih rendah ketika dataset berjumlah besar, selain itu akurasi naive bayes dan kecepatannya lebih tinggi pada saat diaplikasikan ke dalam dataset yang jumlahnya lebih besar.


Baca juga: Memahami Keunggulan dan Manfaat Data Science dalam Dunia Bisnis


2. Tipe Algoritma Naive Bayes


Algoritma ini memiliki beberapa tipe antara lain sebagai berikut:

  • Bernoulli Naive Bayes

    Dimana prediktornya adalah variabel boolean. Oleh karena itu satu-satunya yang ada hanya benar atau salah. Biasanya algoritma ini digunakan ketika data sesuai dengan distribusi bernoulli multivariat.


  • Naive Bayes Multinomial

    Dimana algoritma ini sering digunakan untuk memecahkan masalah klasifikasi dokumen. Contohnya, jika ingin menentukan apakah suatu dokumen termasuk dalam suatu kategori dan algoritma ini digunakan untuk memilahnya. Naive bayes menggunakan frekuensi kata-kata sekarang sebagai fitur.


  • Gaussian Naive Bayes

    Digunakan jika prediktor tidak diskrit namun memiliki nilai kontinu dan prediktor tersebut diasumsikan sebagai sampel dari distribusi gaussian.


3. Manfaat Naive Bayes


Algoritma naive bayes memiliki banyak manfaat sehingga banyak digunakan di berbagai aspek kehidupan. Antara lain sebagai berikut:

  • Real time prediction

  • Multiclass prediction, disini naive bayes dapat memprediksi probabilitas beberapa kelas variabel target

  • Text classification, selain itu naive bayes juga sering digunakan utnuk membuat text classification karena memiliki tingkat keberhasilan yang lebih tinggi dibandingkan dengan algoritma lain

  • Recommendation system, naive bayes juga langganan digunakan untuk proyek data mining untuk menyaring informasi yang tidak terlihat dan memprediksi apakah pengguna menginginkan sumber daya yang diberikan atau tidak.


Baca juga: Beasiswa Data Science yang Bisa Diikuti untuk Upgrade Skill Datamu


4. Cara Optimalkan Algoritma Naive Bayes

Berikut beberapa tips untuk mengoptimalkan kekuatan model naive bayes: Jika fitur kontinu tidak memiliki distribusi normal, maka harus menggunakan transformasi atau metode yang berbeda untuk mengubahnya menjadi distribusi normal, hapus beberapa fitur yang berkorelasi. Dikarenakan fitur fitur yang sangat berkorelasi dipilih dua kali dalam model dan dapat menyebabkan kepentingan yang berlebihan, dan jangan menggabungkan teknik kombinasi pengklasifikasi lain seperti boosting karena tidak membantu. Dikarenakan naive bayes tidak memiliki varians untuk diminimalkan.


Source: https://scikit-learn.org/


Dengan modul dan materi yang update, belajar data science menjadi lebih mudah dan terstruktur dan menyenangkan bersama DQLab. Karena terdiri dari modul-modul up-to-date dan sesuai dengan penerapan industri yang disusun oleh mentor-mentor professional. Yuk, belajar terstruktur dan lebih interaktif caranya dengan Sign Up sekarang untuk #MulaiBelajarData di DQLab:


  • Buat Akun Gratis dengan Signup di DQLab.id/signup atau isi form dibawah ini ya!

  • Selesaikan modulenya, dapatkan sertifikat & reward menarik dari DQLab

Subscribe DQLab.id untuk Akses Semua Module Premium! cukup dengan Sign up sekarang di DQLab.id untuk nikmati pengalaman belajar yang seru dan menyenangkan!


Penulis: Rian Tineges

Editor: Annissa Widya Davita

 

 


Mulai Karier
sebagai Praktisi
Data Bersama
DQLab

Daftar sekarang dan ambil langkah
pertamamu untuk mengenal
Data Science.

Buat Akun


Atau

Sudah punya akun? Login