Belajar Algoritma Data Science Analisis Keterkaitan dengan Analisis Regresi!
Kenali algoritma data science dengan mempelajari regresi linier. Regresi linier adalah salah satu teknik analisis data dan pemodelan prediktif yang paling sederhana dan paling umum digunakan. Regresi linier bertujuan untuk menemukan persamaan untuk variabel respon kontinu yang dikenal sebagai Y yang akan menjadi fungsi dari satu atau lebih variabel (X).
Oleh karena itu, regresi linier dapat memprediksi nilai Y jika hanya X yang diketahui. Itu tidak tergantung pada faktor lain. Y dikenal sebagai variabel kriteria sedangkan X dikenal sebagai variabel prediktor. Tujuan dari regresi linier adalah untuk menemukan garis yang paling cocok, yang disebut garis regresi, melalui titik-titik.
‹‹Ketika sahabat data mulai melihat ke dalam regresi linier, segalanya bisa menjadi sangat membingungkan. Alasannya karena regresi linier sudah ada sejak lama (lebih dari 200 tahun). Ini telah dipelajari dari setiap sudut yang mungkin dan seringkali setiap sudut memiliki nama baru dan berbeda.
Regresi linier adalah model linier, mis. model yang mengasumsikan hubungan linier antara variabel input (x) dan variabel output tunggal (y). Lebih khusus lagi, bahwa y dapat dihitung dari kombinasi linier dari variabel input (x). Ketika ada variabel input tunggal (x), metode ini disebut sebagai regresi linier sederhana. Ketika ada beberapa variabel input, literatur dari statistik sering mengacu pada metode sebagai regresi linier berganda.
Teknik yang berbeda dapat digunakan untuk menyiapkan atau melatih persamaan regresi linier dari data, yang paling umum disebut Kuadrat Terkecil Biasa. Oleh karena itu, biasanya merujuk pada model yang disiapkan dengan cara ini sebagai Regresi Linier Kuadrat Terkecil Biasa atau hanya Regresi Kuadrat Terkecil. Sekarang setelah kita mengetahui beberapa nama yang digunakan untuk menggambarkan regresi linier, mari kita lihat lebih dekat pada representasi yang digunakan.
Lebih jauh DQLab akan membahas terkait dengan Regresi Linear. Yuk kenali secara detail!
1. Regresi Linier Sederhana
Dengan regresi linier sederhana ketika kita memiliki satu input, kita dapat menggunakan statistik untuk memperkirakan koefisien. Ini mengharuskan sahabat data menghitung properti statistik dari data seperti rata-rata, deviasi standar, korelasi, dan kovarians. Semua data harus tersedia untuk melintasi dan menghitung statistik.
Baca juga : Belajar Data Science Secara Otodidak? Berikut langkah-langkahnya!
2. Kuadrat Terkecil Biasa
Ketika kita memiliki lebih dari satu input, kita dapat menggunakan Kuadrat Terkecil Biasa untuk memperkirakan nilai koefisien. Prosedur Kuadrat Terkecil Biasa berusaha meminimalkan jumlah residu kuadrat. Ini berarti bahwa dengan memberikan garis regresi melalui data, kami menghitung jarak dari setiap titik data ke garis regresi, kuadratkan, dan jumlahkan semua kesalahan kuadrat bersama-sama. Ini adalah kuantitas yang ingin diminimalkan oleh kuadrat terkecil biasa.
Pendekatan ini memperlakukan data sebagai matriks dan menggunakan operasi aljabar linier untuk memperkirakan nilai optimal untuk koefisien. Ini berarti bahwa semua data harus tersedia dan sahabat data harus memiliki memori yang cukup untuk memuat data dan melakukan operasi matriks. Adalah tidak biasa untuk menerapkan sendiri prosedur Kuadrat Terkecil Biasa kecuali sebagai latihan dalam aljabar linier. Kemungkinan besar sahabat data akan memanggil prosedur dalam pustaka aljabar linier. Prosedur ini sangat cepat untuk dihitung.
3. Gradien
Ketika ada satu atau lebih input, sahabat data dapat menggunakan proses pengoptimalan nilai koefisien dengan meminimalkan kesalahan model pada data pelatihan sahabat data secara iteratif.
Operasi ini disebut Gradient Descent dan bekerja dengan memulai dengan nilai acak untuk setiap koefisien. Jumlah kesalahan kuadrat dihitung untuk setiap pasangan nilai input dan output. Tingkat pembelajaran digunakan sebagai faktor skala dan koefisien diperbarui ke arah meminimalkan kesalahan. Proses ini diulang sampai kesalahan jumlah kuadrat minimum tercapai atau tidak ada perbaikan lebih lanjut yang mungkin.
Saat menggunakan metode ini, sahabat data harus memilih parameter kecepatan pembelajaran (alfa) yang menentukan ukuran langkah peningkatan yang akan diambil pada setiap iterasi prosedur.
Penurunan gradien sering diajarkan menggunakan model regresi linier karena relatif mudah dipahami. Dalam praktiknya, ini berguna ketika sahabat data memiliki kumpulan data yang sangat besar baik dalam jumlah baris atau jumlah kolom yang mungkin tidak muat ke dalam memori.
4. Regularisasi
Ada ekstensi dari pelatihan model linier yang disebut metode regularisasi. Ini berusaha untuk meminimalkan jumlah kesalahan kuadrat model pada data pelatihan (menggunakan kuadrat terkecil biasa) tetapi juga untuk mengurangi kompleksitas model (seperti jumlah atau ukuran absolut dari jumlah semua koefisien dalam model) . Dua contoh populer dari prosedur regularisasi untuk regresi linier adalah:
Regresi Lasso: di mana Kuadrat Terkecil Biasa dimodifikasi untuk juga meminimalkan jumlah absolut dari koefisien (disebut regularisasi L1).
Regresi Ridge: di mana Kuadrat Terkecil Biasa dimodifikasi untuk juga meminimalkan jumlah kuadrat mutlak dari koefisien (disebut regularisasi L2).
Metode ini efektif digunakan ketika ada kolinearitas dalam nilai input sahabat data dan kuadrat terkecil biasa akan memenuhi data pelatihan.
Sekarang setelah sahabat data mengetahui beberapa teknik untuk mempelajari koefisien dalam model regresi linier, mari kita lihat bagaimana kita dapat menggunakan model untuk membuat prediksi pada data baru.
Baca juga : Mulai Belajar Data Science GRATIS bersama DQLab selama 1 Bulan Sekarang!
5. Kenali Algoritma Data Science bersama DQLab!
Halo sahabat data, DQLab menyediakan berbagai pilihan kelas mulai dari data engineer, data analyst, sampai data analyst. Sahabat data dapat mempelajari mulai dari hal yang basic sampai ke hal yang cukup complicated. Penasaran yuk coba subscribe kelasnya dan nikmati belajar anti ribet dengan environment DQLab sekarang! Waktunya kamu berperan di era industri 4.0 dengan data.