Perbedaan Regresi Linear dan Regresi Logistik dalam Machine Learning

Kalau kamu baru mulai belajar machine learning, dua algoritma yang hampir pasti kamu temui pertama kali adalah regresi linear dan regresi logistik. Keduanya sama-sama termasuk ke dalam algoritma supervised learning yang digunakan untuk membuat prediksi berbasis data. Tapi, walau namanya mirip, fungsi dan penerapannya sangat berbeda.
Menariknya, menurut survei Kaggle Machine Learning & Data Science 2023, lebih dari 70% praktisi data menggunakan regresi (baik linear maupun logistik) dalam proyek mereka karena kemudahan interpretasi dan keandalannya sebagai model dasar sebelum menggunakan algoritma yang lebih kompleks.
Nah, biar kamu nggak bingung membedakan keduanya, yuk bahas satu per satu secara sederhana!
1. Apa itu Regresi Linear?
Regresi linear digunakan untuk memprediksi nilai numerik kontinu berdasarkan hubungan antara satu atau lebih variabel input (independen) dan satu variabel target (dependen). Model ini berusaha menemukan garis lurus terbaik yang mewakili hubungan antar data.
Contohnya, kamu bisa menggunakan regresi linear untuk memprediksi harga rumah berdasarkan luas bangunan, jumlah kamar, dan lokasi. Regresi linear sering digunakan dalam analisis bisnis, ekonomi, hingga forecasting penjualan karena hasilnya mudah diinterpretasikan.
Baca juga: Bootcamp Machine Learning & AI for Beginner
2. Apa itu Regresi Logistik?
Berbeda dengan regresi linear, regresi logistik digunakan untuk memprediksi variabel kategorikal, biasanya berupa dua kelas seperti ya/tidak, 0/1, atau churn/tidak churn. Model ini menggunakan fungsi logistik (atau sigmoid) untuk mengubah output menjadi nilai antara 0 dan 1, yang bisa diinterpretasikan sebagai probabilitas.
Contohnya, kamu bisa menggunakan regresi logistik untuk memprediksi apakah pelanggan akan berhenti berlangganan atau tidak berdasarkan pola penggunaan dan demografi. Regresi logistik banyak digunakan di bidang pemasaran, kesehatan, dan keuangan untuk klasifikasi risiko, diagnosis penyakit, atau analisis perilaku pelanggan.
3. Perbedaan Utama antara Regresi Linear dan Regresi Logistik
Walaupun terlihat mirip, perbedaan keduanya cukup signifikan. Mari kita bahas beberapa aspek kuncinya:
a. Jenis Output
Regresi linear menghasilkan nilai kontinu seperti harga, suhu, atau pendapatan. Sementara regresi logistik menghasilkan nilai probabilitas yang kemudian dikategorikan menjadi dua kelas, seperti 0 dan 1.
b. Fungsi Aktivasi
Regresi linear tidak menggunakan fungsi aktivasi karena output-nya bisa berupa nilai real tanpa batas. Sebaliknya, regresi logistik menggunakan fungsi sigmoid untuk memastikan output berada di rentang 0–1.
c. Distribusi Error
Regresi linear mengasumsikan bahwa error terdistribusi normal, sedangkan regresi logistik menggunakan distribusi binomial, karena bekerja dengan data kategori.
d. Tujuan
Tujuan regresi linear adalah meminimalkan selisih kuadrat (Mean Squared Error) antara hasil prediksi dan nilai aktual. Sedangkan regresi logistik bertujuan memaksimalkan likelihood agar prediksi probabilitasnya mendekati hasil sebenarnya.
e. Contoh Kasus
Sebagai gambaran, regresi linear diperlukan untuk memprediksi jumlah penjualan bulan depan. Sedangkan regresi logistik untuk memprediksi apakah pelanggan akan membeli produk atau tidak.
Baca juga: Mengenal NLP, Salah Satu Produk Machine Learning
4. Kapan Menggunakan Masing-Masing?
Kuncinya sederhana, perhatikan jenis data target kamu. Gunakan regresi linear jika kamu ingin memprediksi nilai numerik, misalnya omzet, harga, atau tingkat konversi. Gunakan regresi logistik kalau kamu ingin mengklasifikasikan sesuatu, seperti apakah pelanggan akan churn, apakah email termasuk spam, atau apakah transaksi termasuk penipuan.
Bahkan dalam banyak kasus, analis data sering kali memulai dengan regresi karena model ini bisa menjadi “baseline” yang mudah diinterpretasikan sebelum beralih ke model machine learning yang lebih kompleks seperti random forest atau XGBoost.
Baik regresi linear maupun logistik punya peran penting dalam machine learning. Bedanya hanya di jenis masalah yang ingin kamu pecahkan, kontinu atau kategorikal. Keduanya juga menjadi dasar untuk memahami model yang lebih canggih seperti neural network atau gradient boosting.
Kalau kamu ingin belajar cara menerapkan kedua model ini secara langsung dengan proyek nyata, kamu bisa mulai di Bootcamp Machine Learning and AI for Beginner dari DQLab.
Kamu akan belajar dari dasar, mulai dari regresi linear, klasifikasi logistik, hingga model prediktif yang lebih kompleks dengan bimbingan mentor dan dataset industri.
FAQ:
1. Apa perbedaan utama antara regresi linear dan regresi logistik?
Perbedaan utamanya terletak pada jenis output yang dihasilkan. Regresi linear digunakan untuk memperkirakan nilai numerik kontinu seperti harga atau jumlah penjualan, sedangkan regresi logistik digunakan untuk mengklasifikasikan data ke dalam kategori, misalnya “ya/tidak” atau “0/1”.
2. Kapan sebaiknya saya menggunakan regresi linear dibanding logistik?
Gunakan regresi linear saat kamu ingin memprediksi nilai numerik seperti pendapatan, harga rumah, atau total penjualan. Gunakan regresi logistik ketika kamu ingin mengklasifikasikan hasil seperti apakah pelanggan akan churn, apakah transaksi terindikasi penipuan, dan sebagainya.