Buat Akun DQLab & Akses Kelas Data Science Python, R, SQL, Excel GRATIS!

6 Jenis Machine Learning Wajib Diketahui dalam Data Science

Belajar Data Science di Rumah 21-Juli-2022
https://dqlab.id/files/dqlab/cache/c522b9e7ce3b6c06014447a037cc3aa6_x_Thumbnail800.jpg

Kecepatan dan kompleksitas data yang tidak terkendali memerlukan tools khusus yang bisa digunakan untuk menghandle data tersebut namun tetap ramah untuk pemula. Salah satu tools tersebut adalah Machine Learning dan Data Science.


Data Science bukanlah bidang ilmu yang berdiri dengan sendirinya, melainkan kombinasi dari berbagai bidang ilmu yang sama-sama berperan penting. Beberapa diantaranya yaitu matematika, statistika, Machine Learning, bahasa pemrograman, pemahaman bisnis dan soft skills pendukung lainnya.


Machine Learning merupakan suatu cabang ilmu yang dikenal dalam Data Science. Metode Machine Learning banyak digunakan oleh Data Scientist untuk mengekstrak informasi berharga yang tersembunyi di dalam Big Data. Dengan bantuan Machine Learning, pekerjaan analisis data menjadi lebih mudah karena tidak perlu menghitung secara manual.


Salah satu manfaat penggunaan Machine Learning dalam Data Science adalah untuk melakukan proses training data sesuai dengan apa yang ia pelajari dan menemukan pola pada data untuk melakukan prediksi. Machine Learning mampu mempelajari data dengan sendirinya dan tidak perlu diprogram ulang secara berkala.


Setidaknya ada tiga teknik atau metode Machine Learning yang banyak dikenal dalam Data Science. Ada Supervised Learning, Unsupervised Learning dan Reinforcement Learning. Ketiganya memiliki karakteristik dan penggunaan yang berbeda-beda.


Saat ini ada banyak metode Machine Learning yang bisa dimanfaatkan oleh Data Scientist. Sebagai calon Data Scientist handal, sudah semestinya kamu memahami metode Machine Learning yang harus kamu pahami, bukan?


Nah yuk simak artikel ini sampai akhir untuk memahami metode Machine Learning apa saja yang wajib dikuasai oleh Data Scientist.


1. Decision Tree

data science 

 

Decision Tree merupakan salah satu algoritma yang sangat mudah dipahami dalam klasifikasi objek. Algoritma ini adalah salah satu algoritma Supervised Learning. Decision Tree membagi data menjadi himpunan bagian berdasarkan variabel inputnya.


Algoritma ini merupakan jenis diagram alir yang membantu dalam proses pengambilan keputusan. Decision Tree ini menjadi alat pendukung keputusan yang menggunakan grafik atau model seperti pohon. 


Pada dasarnya, Decision Tree dimulai dengan satu node atau simpul. Kemudian, node tersebut bercabang untuk menyatakan pilihan-pilihan yang ada. Selanjutnya, setiap cabang tersebut akan memiliki cabang-cabang baru. Maka dari itu, metode ini disebut "tree" karena bentuknya menyerupai pohon yang memiliki banyak cabang.


Mengutip dari Venngage, Decision Tree memiliki tiga elemen di dalamnya, yaitu:

  • Root node (akar), Tujuan akhir atau keputusan besar yang ingin diambil.

  • Branches (ranting), Berbagai pilihan tindakan.

  • Leaf node (daun), Kemungkinan hasil atas setiap tindakan.


Grafik ini terdiri dari jumlah minimum ya/tidak pertanyaan dari sebuah pertanyaan, untuk menilai masing-masing probabilitasnya. Nilai probabilitas ini akan menjadi sebuah metode pengambilan keputusan dengan cara yang terstruktur dan sistematis untuk sampai pada kesimpulan yang tepat.


Baca juga: Kenali Penggunaan Algoritma Data Science dalam Face Recognition


2. Random Forest

data science 

 

Dalam Machine Learning kita akan sering mendengar tentang metode Random Forest yang digunakan untuk menyelesaikan permasalahan. Metode Random Forest merupakan salah satu metode dalam Decision Tree.


Random Forest adalah kombinasi dari  masing-masing tree yang baik kemudian dikombinasikan  ke dalam satu model. Random Forest bergantung pada sebuah nilai vector random dengan distribusi yang sama pada semua pohon yang masing masing Decision Tree memiliki kedalaman yang maksimal. 


Oleh karena itu, prinsip dasar random forest mirip dengan Decision Tree. Masing-masing Decision Tree akan menghasilkan output yang bisa saja berbeda-beda. Nah, Random Forest ini akan melakukan voting untuk menentukan hasil mayoritas dari semua Decision Tree. Sederhananya, Random Forest akan memberikan output berupa mayoritas hasil dari semua Decision Tree. 


3. K-Nearest Neighbor Classifier (KNN)

data science 

K-Nearest Neighbor merupakan salah satu metode Machine Learning yang berfungsi untuk mengambil keputusan menggunakan Supervised Learning dimana hasil dari data masukan yang baru diklasifikasi berdasarkan terdekat dalam data nilai.


Cara kerja algoritma K-Nearest Neighbor (KNN) adalah melakukan klasifikasi terhadap objek yang berdasarkan dari data pembelajaran yang jaraknya paling dekat dengan objek tersebut. Dimana kelas yang paling banyak muncul yang nantinya akan menjadi kelas hasil dari klasifikasi.


4. Hierarchical Clustering

data science 

Hierarchical Clustering adalah teknik clustering dengan algoritma Machine Learning yang membentuk hirarki atau berdasarkan tingkatan tertentu sehingga menyerupai struktur pohon. Dengan demikian proses pengelompokannya dilakukan secara bertingkat atau bertahap. Biasanya, metode ini digunakan pada data yang jumlahnya tidak terlalu banyak dan jumlah cluster yang akan dibentuk belum diketahui.


Secara prinsip, Hierarchical Clustering ini akan melakukan clustering secara berjenjang berdasarkan kemiripan tiap data. Sehingga pada akhirnya, pada ujung hierarki akan terbentuk cluster-cluster yang karakteristiknya berbeda satu sama lain, dan objek di satu cluster yang sama memiliki kemiripan satu sama lain.


Di dalam metode hirarki, terdapat dua jenis strategi pengelompokan yaitu Agglomerative dan Divisive. Agglomerative Clustering (metode penggabungan) adalah strategi pengelompokan hirarki yang dimulai dengan setiap objek dalam satu cluster yang terpisah kemudian membentuk cluster yang semakin membesar.


Jadi, banyaknya cluster awal adalah sama dengan banyaknya objek. Sedangkan Divisive Clustering (metode pembagian) adalah strategi pengelompokan hirarki yang dimulai dari semua objek dikelompokkan menjadi cluster tunggal kemudian dipisah sampai setiap objek berada dalam cluster yang terpisah.


5. Naïve Bayes

data science 

 

Naïve Bayes merupakan algoritma Machine Learning untuk klasifikasi dengan efisiensi komputasi dan akurasi yang baik, khususnya untuk dimensi dan jumlah data yang besar. Akan tetapi performa algoritma ini akan menurun jika antar atribut tidak memiliki keterkaitan satu sama lain. 

 

Beberapa solusi untuk memecahkan permasalahan tersebut seperti pemilihan atribut, structure extension, atau pembobotan masing-masing atribut. Beberapa contoh nyata Klasifikasi Naive Bayes yaitu sebagai penanda email spam atau tidak, Mengklasifikasikan kategori sebuah artikel berita, bahkan digunakan untuk perangkat lunak pengenalan wajah.


6. Support Vector Machine

data science 

 

SVM merupakan algoritma yang umumnya digunakan untuk klasifikasi dan juga regresi. Dalam Machine Learning, SVM termasuk dalam model supervised learning yang berhubungan dengan analisis data dan pengenalan pola. Metode dasar SVM adalah mengambil satu set data input lalu memperkirakan untuk setiap input yang diberikan dari dua kelas yang memungkinan untuk membuat output. 


Dalam pemodelan klasifikasi, SVM mempunyai konsep yang lebih matang serta lebih jelas secara matematis dibanding dengan teknik-teknik klasifikasi yang lain.SVM juga bisa menanggulangi permasalahan klasifikasi serta regresi dengan linear maupun non linear.


Baca juga: Memahami Keunggulan dan Manfaat Data Science dalam Dunia Bisnis


Penerapan dari berbagai metode Machine Learning ini sering digunakan dalam keseharian kita, seperti fitur face unlock dan sidik jari dalam smartphone. Nah, dibalik kecanggihan teknologi itulah Machine Learning berperan. Oleh karena itu, kita perlu mempelajari Machine Learning dari dasar di DQLab.


Modul DQLab dilengkapi dengan data yang mencerminkan data real di dunia industri sehingga kita bisa mempraktekkannya secara langsung tanpa tools tambahan. Nikmati pengalaman belajar Data Science yang menarik dan cobain berlangganan bersama DQLab yang seru dan menyenangkan dengan Live Code Editor. 


Klik button di bawah ini atau Sign Up melalui DQLab.id untuk mengakses FREE modul "Introduction to Data Science" sebagai pengenalan sebelum praktik menggunakan data asli. Selamat mencoba!


Penulis : Salsabila MR

Editor : Annisa Widya Davita


Mulai Karier
sebagai Praktisi
Data Bersama
DQLab

Daftar sekarang dan ambil langkah
pertamamu untuk mengenal
Data Science.

Buat Akun


Atau

Sudah punya akun? Login