Tahapan Singkat Membangun Machine Learning Python
Machine learning mungkin sudah tidak asing pada era saat ini. Machine learning adalah suatu mesin yang dikembangkan khusus untuk belajar sendiri tanpa perlu diprogram ulang atau tanpa arahan user. Jika kalian pernah mendengar kata AI (Artificial Intelligence), nah AI ini juga bagian dari machine learning.
Machine learning diterapkan pada pekerjaan kita agar pekerjaan kita lebih mudah sehingga penggunaan machine learning ini bisa lebih efektif dan akurat.
Bahasa yang sangat populer untuk membuat machine learning adalah bahasa Python yang menjadi bahasa pemrograman tingkat tinggi yang hanya berfokus pada pembacaan kode. Bahasa ini termasuk bahasa yang open source juga jadi siapa pun bisa mengakses dan mengembangkan programnya. Nah berikut adalah panduan singkat tentang machine learning Python. Apa saja? Yuk, simak pembahasannya diartikel ini!
1. Identifikasi data
Proses awal yang kamu harus lakukan dalam membuat rancangan machine learning adalah mengidentifikasi datanya. Mengidentifikasi datanya bisa dilakukan dengan cara membuat pertanyaan mendasar dan juga dengan pendekatan logis dan matematis. Ini difungsikan agar alur yang kita buat tidak keluar dari topik awal pembahasan. Jenis data yang diidentifikasikan biasanya berupa Excel ataupun file-file lainnya.
Identifikasi data ini juga memiliki permasalahan yang ada dan bisa memecahnya dengan beberapa pertanyaan seperti:
Apa tujuanmu? Apa yang ingin diprediksi?
Bobot(feature) seperti apa yang ingin kamu gunakan?
Masalah seperti apa yang sedah kita hadapi?Binnary classification?Clustering?
Bagaimana cara kita mengukur bobot(feature) dalam data kita?
Machine learning juga hanya bisa mengenali apa yang telah kita lihat dan ketika kita sedang menggunakan machine learning, kita bisa mengasumsikan jika masa depan bisa akan berjalan seperti halnya masa lalu, hal ini juga tidak selalu benar.
Baca juga : Yuk Kenali Macam-Macam Algoritma Machine Learning!
2. Mempersiapkan data
Proses yang kedua ini difungsikan untuk mempersiapkan banyak data yang berkualitas yang nantinya akan membantu performa dari machine learning semakin baik dan juga semakin valid output yang dihasilkannya. Dalam emtode pengumpulannya ada 2 yaitu metode data mining dan juga web scrapping.
Dalam tahapan pemilahan data terbagi menjadi tiga bagian, yaitu training data (data yang dilatih), validation data (data yang digunakan untuk memvalidasi) dan yang ketiga ada test data (data yang digunakan untuk percobaan prediksi). Sebelum tahapan pemilihan data, pada gambar diatas merupakan contoh persiapan data dengan mengubah data NaN (atau null) menjadi nilai rata-rata.
3. Train (Latihan)
Proses ini dilakukan untuk melatih tubuh dari machine learning dengan cara mengisikan data yang sudah diproses. Dalam proses train ini machine learning akan dilatih untuk proses mengidentifikasi, mempersiapkan data yang akan dilatih dan yang terakhir dalam latihan ini adalah memilih algoritma yang tepat.
Machine learning juga dilatih untuk membagi data-data yang sudah diproses pada tahap latihan sebelumnya yang tujuannya adalah menentukan data yang masuk sesuai dengan klasifikasinya apa tidak. Pada contoh dibawah ini, kita akan mencoba menggunakan Decision Tree.
Kita hanya perlu mengimport library sklearn.tree diikuti dengan fungsi DecisionTreeClassifier() yang kita namakan dengan “model”. Kemudian menggunakan fungsi .fit() dengan input berupa X_Train dan y_train untuk melatih data tersebut dengna menggunakan training dataset seperti berikut:
Baca juga : Kenali Algoritma Klasifikasi Machine Learning Terpopuler di Tahun 2021
4. Evaluasi
Proses ini cukup dibutuhkan dalam machine learning karena proses ini adalah untuk mengevaluasi data yang diproses oleh machine learning. Hal ini dilakukan untuk menguji keakuratan dan juga performa dari model yang digunakan untuk data testing (data uji).
Cara yang biasa dipakai adalah membaca error metrics yang nantinya akan muncul permasalahan yang berbeda-beda. Suatu model akan dikatakan bagus jika model tersebut memiliki akurasi yang cukup tinggi dan bagus untuk data out of sample, hal ini dikarena tujuan utama dibuatnya model adalah untuk memprediksi data yang benar sebelum diketahui outcomenya
.
True Positive (TP): Jika user diprediksi (Positif) membeli ([Revenue] = 1]), dan memang benar(True) membeli.
True Negative (TN): Jika user diprediksi tidak (Negatif) membeli dan aktualnya user tersebut memang (True) membeli.
False Positive (FP): Jika user diprediksi Positif membeli, tetapi ternyata tidak membeli (False).
False Negatif (FN): Jika user diprediksi tidak membeli (Negatif), tetapi ternyata sebenarnya membeli.
Gimana sahabat DQ? Ngga perlu khawatir jika kamu belum memiliki pengalaman tentang machine learning sebelumnya, kamu tetap bisa mengasah pemahaman mendasar kamu tentang machine learning, kamu bisa bergabung dalam modul DQLab yang berjudul “Basic Feature Discovering for Machine Learning” Caranya gimana? Mudah banget kok cukup signup sekarang ke DQLab.id lalu pilih menu learn.
Setelah itu kamu sudah bisa menikmati pembelajaran yang praktis dan aplikatif dan jago machine learning bersama DQLab! Tunggu apa lagi? Yuk, signup sekarang dan mulai belajar Module Premium di DQLab!