Yuk Pahami Algoritma Machine Learning yang Cocok untuk Penelitianmu!

Yovita 23-November-2020 Blog Blog & Events

https://dqlab.id/files/dqlab/cache/1056d02f377128f2545637eabf9f5ff1_x_Thumbnail800.jpg

Algoritma machine learning adalah bagian dari data dan seni. Tidak ada ilmu atau pendekatan yang pasti dalam untuk mencari sebuah solusi dari suatu permasalahan menggunakan algoritma machine learning. Beberapa permasalahan sangat kompleks sehingga membutuhkan pendekatan yang unik. Beberapa permasalahan membutuhkan proses trial and error sebelum akhirnya mendapatkan solusi terbaik. Pada dasarnya, cara kerja machine learning adalah komputer memproses dan belajar karakteristik dari kumpulan data sehingga komputer dapat melakukan suatu pekerjaan tanpa diprogram ulang oleh manusia.

Sebelum memahami algoritma machine learning, kita harus memahami data yang kita punya terlebih dahulu. Jenis data yang kita punya merupakan "kunci" untuk memilih algoritma machine learning yang akan kita gunakan. Ukuran data pun juga harus diperhatikan karena tidak semua algoritma machine learning dapat bekerja menggunakan satu sampel data saja. Terkadang, ada algoritma machine learning yang membutuhkan beberapa sampel data. Selain itu, kita juga harus melakukan cleaning data terlebih dahulu. Tujuan data cleaning adalah untuk menangani missing value dan outlier (pencilan). Setelah memahami data yang kita punya, kita bisa mulai mengidentifikasi algoritma machine learning mana yang cocok untuk penelitian kita. Algoritma machine learning sangat beragam, agar tidak salah pilih, yuk pahami dulu macam-macam dan fungsi algoritma machine learning! Simak artikelnya sampai selesai ya!

1. Regresi Linier, Regresi Logistik, dan Pohon Keputusan

Regresi linier merupakan algoritma yang paling sederhana dalam machine learning. Beberapa contoh penggunaan regresi linier adalah untuk memprediksi penjualan produk tertentu bulan depan, menganalisis dampak kandungan alkohol dalam darah pada saraf manusia, memprediksi penjualan dan meningkatkan proyeksi pendapatan tahunan, dan lain sebagainya. Regresi linier memiliki beberapa asumsi yang harus dipenuhi. Asumsi tersebut adalah asumsi normalitas, multikolinearitas, homoskedastisitas, dan autokorelasi.

Regresi logistik merupakan algoritma untuk mengklasifikasi data biner dengan output data biner juga. Cara kerja regresi logistik adalah dengan mengkombinasi fitur linier dan fungsi non linear (sigmoid). Regresi logistik menghasilkan banyak cara untuk mengatur model sehingga kita tidak perlu terlalu mengkhawatirkan korelasi data. Algoritma ini juga menghasilkan interpretasi probabilitas yang bagus yang akan mempermudah kita untuk memperbarui model dan mengambil data baru. Beberapa contoh penggunaan regresi logistik adalah untuk memprediksi pelanggan, penilaian kredit dan mendeteksi penipuan, mengukur efektivitas iklan pemasaran, dan lain sebagainya.

Pohon keputusan atau lebih dikenal dengan decision trees merupakan algoritma yang jarang digunakan sendirian. Tetapi, decision tree dalam jumlah banyak dapat digunakan untuk membangun algoritma yang efisien seperti random forest atau gradient tree boosting. Decision tree termasuk ke dalam statistik non parametrik sehingga kita tidak perlu mengkhawatirkan outlier. Algoritma ini dapat digunakan untuk menganalisis keputusan investasi, menganalisis masalah bank yang tidak membayar pinjaman, analisis keputusan buy and build, kualifikasi prospek penjualan, dan lain sebagainya. Namun, algoritma ini juga memiliki beberapa kelemahan, antara lain tidak bisa digunakan untuk data baru. Jadi, jika kita ingin menggunakan decision tree untuk data baru, kita harus membuat ulang algoritma tersebut. Selain itu algoritma ini juga membutuhkan banyak memori. Semakin banyak cabang dari pohonnya, maka semakin besar juga memori yang dibutuhkan.

2. K-means, Principal component analysis (PCA), dan Support Vector Machines

K-means adalah algoritma pengelompokan untuk memberikan label pada objek yang belum ada contoh atribut labelnya. Contoh penggunaan K-means clustering adalah untuk mengelompokkan pelanggan berdasarkan karakteristik tertentu, misalnya jenis kelamin, barang belanjaan, lama berkunjung ke toko, dan lain sebagainya. Dalam menggunakan k-means clustering, kita harus menentukan banyaknya cluster terlebih dahulu sehingga mungkin kita memerlukan beberapa uji coba untuk menentukan jumlah cluster terbaiknya.

Principal component analysis atau disingkat dengan PCA adalah algoritma untuk mengurangi dimensi. Algoritma PCA tepat digunakan jika kita memiliki berbagai fitur yang mungkin sangat berkorelasi antara satu sama lain dan membutuhkan hasil model yang mudah beradaptasi dengan data berukuran besar. Kelebihan dari principal component analysis adalah menghasilkan representasi sampel yang sinkron dengan variabel. Variabel ini merupakan karakteristik dari kelompok sampel.

Support Vector Machine yang disingkat dengan SVM adalah teknik supervised machine learning yang banyak digunakan dalam masalah pengenalan pola dan klasifikasi. Algoritma ini memiliki akurasi yang tinggi apabila didukung dengan kernel yang sesuai. Algoritma ini sangat populer untuk klasifikasi data berjenis teks yang membutuhkan ruang dimensi matriks yang sangat besar. Algoritma support machine learning ini juga dapat digunakan untuk mendeteksi orang dengan penyakit umum seperti diabetes, pengenalan karakter tulisan tangan, kategorisasi teks dan artikel berita berdasarkan topik tertentu, prediksi harga pasar saham, dan lain sebagainya. Kelemahan algoritma SVM adalah membutuhkan banyak memori, sulit untuk diinterpretasikan, dan sulit untuk di-setting.

3. Naive Bayes, Random Forest, dan Neural Network

Naive bayes merupakan teknik klasifikasi berdasarkan teorema Bayes yang sangat mudah dibuat dan sangat berguna untuk kumpulan data yang berukuran sangat besar. Jika kita memiliki kendala spesifikasi CPU dan memori, maka algoritma ini adalah pilihan terbaik karena algoritma ini tidak membutuhkan banyak memori. Algoritma naive bayes memiliki beberapa asumsi. Jika asumsi independensi terpenuhi, maka proses pengklasifikasian akan berjalan lebih cepat jika dibandingkan dengan algoritma regresi logistik sehingga kita tidak membutuhkan banyak data latihan (data training). Namun terkadang, jika asumsi tidak terpenuhi pun, algoritma ini tetap bisa digunakan. Contoh penggunaan algoritma naive bayes adalah untuk analisis sentimen dan klasifikasi teks, sistem rekomendasi seperti pada Netflix dan Amazon, klasifikasi email sebagai spam atau bukan spam, pengenalan wajah, dan lain sebagainya.

Random Forest adalah kumpulan pohon keputusan (decision tree). Algoritma ini dapat digunakan untuk masalah regresi dan klasifikasi dengan kumpulan data yang berukuran besar. Algoritma random forest ini dapat digunakan untuk banyak dimensi dengan berbagai skala dan performa yang powerful. Kegunaan dari algoritma ini adalah memprediksi pasien dengan resiko penyakit tinggi, memprediksi kegagalan suku cadang dalam produksi, memprediksi kegagalan pembayaran pinjaman, dan lain sebagainya. Kelemahan algoritma random forest adalah pembelajaran bisa berjalan lambat, tergantung pada parameter yang digunakan dan tidak bisa memperbaiki model yang dihasilkan secara berulang.

Neural Network merupakan algoritma yang bekerja dengan memperhitungkan bobot koneksi antar neuron. Algoritma ini dapat digunakan untuk memprediksi kelas dengan melatih semua bobot. Kombinasi algoritma neural network dan deep approach dapat menghasilkan model lain untuk mendapatkan kemungkinan baru seperti pengenalan objek baru. Kombinasi ini dikenal dengan Deep Neural Networks. Kelebihan algoritma yang termasuk ke unsupervised learning ini dapat digunakan untuk mengekstrak informasi dari suatu gambar mentah.

Dalam proses machine learning, terdapat ilmu data science. Ilmu ini merupakan ilmu yang dapat diterapkan dan diimplementasikan ke segala sektor dan teknologi. Oleh karena itu, ilmu data science sangat penting untuk dipelajari di era serba modern seperti saat ini.

4. Yuk, Mulai Belajar Data Science bersama DQLab secara GRATIS!

Tidak memiliki background IT? Jangan khawatir, kamu tetap bisa menguasai Ilmu Data Science untuk siap berkarir di revolusi industri 4.0. Bangun proyek dan portofolio datamu bersama DQLab untuk mulai berkarir di industi! Sign up sekarang untuk #MulaiBelajarData di DQLab!

Simak informasi di bawah ini untuk mengakses gratis module "Introduction to Data Science":

Buat Akun Gratis dengan Signup di DQLab.id/signup
Akses module Introduction to Data Science
Selesaikan modulenya, dapatkan sertifikat & reward menarik dari DQLab
Subscribe DQLab.id untuk Akses Semua Module Premium!

Penulis: Galuh Nurvinda Kurniawati

Editor: Annissa Widya Davita

Yuk Pahami Algoritma Machine Learning yang Cocok untuk Penelitianmu!

1. Regresi Linier, Regresi Logistik, dan Pohon Keputusan

2. K-means, Principal component analysis (PCA), dan Support Vector Machines

3. Naive Bayes, Random Forest, dan Neural Network

4. Yuk, Mulai Belajar Data Science bersama DQLab secara GRATIS!

Tags

Mulai Karier
sebagai Praktisi
Data Bersama
DQLab

Buat Akun

Yuk Pahami Algoritma Machine Learning yang Cocok untuk Penelitianmu!

1. Regresi Linier, Regresi Logistik, dan Pohon Keputusan

2. K-means, Principal component analysis (PCA), dan Support Vector Machines

3. Naive Bayes, Random Forest, dan Neural Network

4. Yuk, Mulai Belajar Data Science bersama DQLab secara GRATIS!

Tags

Mulai Kariersebagai PraktisiData BersamaDQLab

Buat Akun

Mulai Karier
sebagai Praktisi
Data Bersama
DQLab