Buat Akun DQLab & Akses Kelas Data Science Python, R, SQL, Excel GRATIS!

5 Metode Machine Learning yang Sering Digunakan Data Engineer

Belajar Data Science di Rumah 13-Mei-2022
https://dqlab.id/files/dqlab/cache/5bddc98940e7badaa290d1971ce12923_x_Thumbnail800.jpg


Dalam ilmu data science dikenal dengan istilah machine learning. Machine learning merupakan suatu cabang dari Artificial Intelligence atau kecerdasan buatan yang dikembangkan untuk bisa bekerja sendiri tanpa menunggu perintah dari si penggunanya. Berbicara mengenai machine learning dalam data science tidak terlepas dari peranan praktisi data dibaliknya. Salah satunya adalah role data engineer. Penggunaan machine learning dalam data science sangat bermanfaat untuk melakukan proses training data sesuai dengan apa yang ia pelajari dan menemukan pola pada data untuk melakukan prediksi. 


Setidaknya ada tiga teknik atau metode machine learning yang digunakan dalam data science. Ada supervised learning, unsupervised learning dan reinforcement learning. Ketiganya memiliki karakteristik dan penggunaan yang berbeda-beda. Metode machine learning yang dipilih juga tergantung dari apa yang diinginkan oleh si pembuatnya. Misalnya ketika kita ingin mendapatkan rekomendasi dari suatu layanan maka teknik yang tepat yaitu supervised learning. Seorang data engineer bisa menggunakan ketiga metode machine learning tersebut atau salah satu dari ketiganya.


Dalam memilih metode machine learning yang tepat perlu diketahui juga kasus apa yang ingin diselesaikan. Begitupun seorang data engineer yang berkutat dengan teknik ETL alias Extract, Transform dan Load pada data. Kali ini kita akan bahas dan kupas terkait metode machine learning apa saja yang digunakan oleh data engineer.


1. Metode Machine Learning dalam Data Science 

Seperti yang telah dijelaskan sebelumnya bahwa ada tiga tipe atau metode machine learning yang seringkali digunakan dalam data science. Dimulai dari supervised learning, unsupervised learning dan reinforced learning. Berikut adalah masing-masing penjelasannya:

data science

  • Supervised Learning: Supervised Learning adalah sebuah pembelajaran dengan menggunakan Algoritma yang bertipe klasifikasi dengan kata lain datanya harus memiliki Label atau Tujuan akhir. Dalam prosesnya supervised learning memerlukan bantuan data yang dikumpulkan dari masa sebelumnya untuk melatih dan ditentukan sebuah model dari Algoritma yang dipilih. Dengan melakukan pelatihan data tersebut, maka model akan membantu hasil input dalam memprediksi hasil yang lebih akurat.

  • Unsupervised Learning: Pada unsupervised learning maka dalam proses tidak memerlukan data sebelumnya sebagai input. Dalam metode ini memungkinkan model untuk belajar sendiri menggunakan data yang telah diberikan. Data tersebut juga tidak memerlukan label atau tujuan, tetapi algoritma membantu model dalam membentuk klaster dari jenis data yang serupa.

  • Reinforcement Learning: Reinforcement Learning adalah proses membuat model untuk belajar bagaimana membuat suatu keputusan. Teknik ini sebenarnya banyak diteliti pada machine learning karena Algoritma metode ini membantu model belajar berdasarkan umpan balik. Namun, faktanya, pembelajaran ini biasa digunakan dengan variasi dari teknik learning lainnya. Dalam hal reinforcement learning digunakan untuk menguatkan sebuah learning diatas jika tidak bisa memberikan akurasi yang akurat


Baca juga: Implementasi Algoritma Data Science untuk SEO Specialist


2. Naive Bayes Classification

Metode machine learning yang pertama adalah Naive Bayes Classification. Naive Bayes merupakan salah satu metode supervised learning dalam data science. Naive Bayes Classification adalah kumpulan algoritma klasifikasi berdasarkan Teorema Bayes. Metode Naive bukan algoritma tunggal tetapi sama halnya dengan algoritma lainnya. Dimana semuanya memiliki prinsip yang sama, yaitu setiap pasangan fitur yang diklasifikasikan independen satu sama lain. 

data science

Penerapan Naive Bayes bersumber dari analisis statistik dimana probabilitas awal diestimasi dari data training. Untuk setiap parameter probabilitas ditentukan dari probabilitas awal yang berada pada hasil data training tadi. Algoritma ini biasanya digunakan dalam penyaringan spam email, analisis sentimen media sosial, dan masalah klasifikasi berbasis teks lainnya


3. Support Vector Machine

Masih dalam golongan supervised learning ada Support Vector Machine. Model SVM digunakan untuk memisahkan set data ke dalam kelas dengan batas margin yang jelas dan tinggi sebanyak mungkin. Kumpulan data dalam ruang dimensi-N akan dipisahkan oleh pengklasifikasi dalam dimensi N-1 untuk memungkinkan perbedaan yang jelas antara kumpulan data terpisah di seluruh hyperplane.

data science

Klasifikasi biner seperti itu biasanya digunakan dalam perbandingan relatif kinerja saham. Misalnya. Model SVM akan mengenali parameter yang berdampak pada kinerja saham seperti waktu, peristiwa geopolitik, jenis bisnis, dan lain-lain. dan memprediksi kinerja untuk kinerja saham di masa depan sebagai data yang tidak berlabel (unlabeled).


4. Principal Component Analysis

Beranjak ke jenis machine learning unsupervised learning diwakili oleh Principal Component Analysis atau PCA. Principal Component Analysis adalah suatu teknik analisis statistik multivariat. PCA merupakan salah satu dasar dari analisis data multivariat yang menerapkan metode proyeksi. Teknik analisis ini biasanya digunakan untuk meringkas tabel data multivariat dalam skala besar hingga bisa dijadikan kumpulan variabel yang lebih kecil atau indeks ringkasan. Dari situ, kemudian variabel dianalisis untuk mengetahui tren tertentu, klaster variabel, hingga outlier.

data science

Ada beberapa cara yang bisa dilakukan untuk menyusun komponen utama dalam PCA, di antaranya:

  • Kriteria Apriori

    Dalam kriteria ini, analis data harus sudah mengetahui berapa banyak komponen utama yang akan disusun.

  • Kriteria Nilai Eigen

    Ditentukan dengan melihat besaran nilai eigen. Jika komponen lebih kecil atau kurang dari satu, maka akan langsung dikeluarkan.

  • Kriteria Persentase Varian

    Ditentukan dengan melihat persentase kumulatif varian atau pembahasan sebelumnya. Komponen yang lebih besar persentase variannya akan diambil.


5. Singular Value Decomposition

Masih dalam kategori Unsupervised Learning, ada SVD atau Singular Value Decomposition. Sesuai namanya, Singular Value Decomposition adalah suatu teknik untuk mendekomposisi matriks berukuran apa saja (biasanya diaplikasikan untuk matriks dengan ukuran sangat besar) untuk mempermudah pengolahan data. Hasil dari SVD ini adalah singular value yang disimpan dalam sebuah matriks diagonal D. 


Dalam urutan yang sesuai dengan koresponding singular vectornya. Dimana nilai singular value menyimpan informasi yang sangat penting tentang data, yaitu data yang berkontribusi paling besar terhadap variasi data secara keseluruhan, yang disimpan pada singular value yang pertama. 


data science

Model yang menguraikan kumpulan data matriks kompleks menjadi bagian-bagian fundamentalnya. Data yang berlebihan dihilangkan sedemikian rupa sehingga daftar N vektor unik dari matriks dapat didefinisikan sebagai kombinasi linier dari dimensi vektor unik yang lebih sedikit. Kompresi data file gambar adalah contoh umum SVD, yang menyaring informasi berlebih yang tidak perlu tanpa menurunkan kualitas gambar secara signifikan


6. Q-Learning

Jenis terakhir dalam metode machine learning adalah Q-Learning. Q-Learning merupakan salah satu algoritma yang berada pada kategori Reinforcement Learning alias Reinforced Learning. Model yang digunakan untuk mengidentifikasi kebijakan pemilihan tindakan untuk mengontrol domain Markovian secara optimal, atau kumpulan data grafis tak terarah dari bidang acak. Algoritma secara iteratif mendekati utilitas yang diharapkan dari tindakan saat ini dan mengembangkan kebijakan dengan imbalan tertinggi (akurasi nilai yang diharapkan) untuk status fungsi Q di masa mendatang.

data science

Teknik ini banyak digunakan dalam perencanaan gerak dan aplikasi berbasis navigasi di robotika, mobil dan video game. Kelayakan setiap algoritma tergantung pada beberapa pertimbangan, termasuk akurasi dan linieritas klasifikasi yang diperlukan, waktu pelatihan dan jumlah parameter yang digunakan untuk menghasilkan hasil yang sesuai. 


Setiap model juga dapat membuat asumsi khusus untuk mempercepat kinerja atau memberikan hasil yang bermanfaat. Pengorbanannya paling baik dikembangkan setelah pemahaman yang mendetail dan menyeluruh tentang cara kerja setiap model dan persyaratan pembelajaran mesin dari kumpulan data Anda.


Baca juga: Memahami Keunggulan dan Manfaat Data Science dalam Dunia Bisnis


Dari sekian banyak jenis algoritma dan tipe-tipe machine learning yang telah dijelaskan diatas tentunya kita jadi tahu metode mana saja yang dipakai oleh data engineer. Pastinya mereka menggunakan metode tersebut ada tujuan dan maksud tertentu. 


Bagi Sahabat DQ kalian yang penasaran dan ingin mengenali lebih dalam seputar machine learning, yuk belajar bareng bersama DQLab! Disini kamu akan dikenalkan dengan banyak banget modul yang berkaitan dengan belajar machine learning. 


Nikmati pengalaman belajar data science yang menarik dan cobain berlangganan bersama DQLab yang seru dan menyenangkan dengan live code editor. Kalian juga bisa mendapatkan kesempatan untuk mengikuti webinar dari pembicara yaitu data expert yang akan ngobrolin seputar data science. 


Penulis: Reyvan Maulid

Mulai Karier
sebagai Praktisi
Data Bersama
DQLab

Daftar sekarang dan ambil langkah
pertamamu untuk mengenal
Data Science.

Buat Akun


Atau

Sudah punya akun? Login