Teknik Pengolahan Data : Implementasi Data Decision Tree dalam Berbagai Kasus

Belajar Data Science di Rumah 09-November-2021

https://dqlab.id/files/dqlab/cache/c82ff0e871560b148cfa74404bf1491a_x_Thumbnail800.png

Pengenalan Pohon Keputusan adalah jenis Pembelajaran Mesin Terbimbing (yaitu Anda menjelaskan apa input dan apa output yang sesuai dalam data pelatihan) di mana data terus-menerus dibagi menurut parameter tertentu. Pohon dapat dijelaskan oleh dua entitas, yaitu simpul keputusan dan daun. Daun adalah keputusan atau hasil akhir. Dan simpul keputusan adalah tempat data dibagi. Pohon keputusan adalah struktur seperti diagram alur di mana setiap simpul mewakili pengujian pada fitur (misalnya apakah flip koin muncul kepala atau ekor), setiap simpul daun mewakili label kelas (Keputusan diambil setelah menghitung semua fitur) dan cabang mewakili konjungsi fitur yang mengarah ke label kelas tersebut. Jalur dari akar ke daun mewakili aturan klasifikasi.

Decision Tree adalah teknik pembelajaran Supervised yang dapat digunakan untuk masalah klasifikasi dan Regresi, tetapi sebagian besar lebih disukai untuk menyelesaikan masalah Klasifikasi. Ini adalah pengklasifikasi terstruktur pohon, di mana simpul internal mewakili fitur dari kumpulan data, cabang mewakili aturan keputusan dan setiap simpul daun mewakili hasilnya. Dalam pohon keputusan, untuk memprediksi kelas dari kumpulan data yang diberikan, algoritma dimulai dari simpul akar pohon. Algoritma ini membandingkan nilai atribut root dengan atribut record (dataset nyata) dan, berdasarkan perbandingan, mengikuti cabang dan melompat ke node berikutnya. Untuk node berikutnya, algoritma kembali membandingkan nilai atribut dengan sub-node lainnya dan bergerak lebih jauh. Ini melanjutkan proses sampai mencapai simpul daun pohon.

Keputusan membuat pemisahan strategis sangat mempengaruhi akurasi pohon. Kriteria keputusan berbeda untuk klasifikasi dan pohon regresi. Pohon keputusan menggunakan beberapa algoritma untuk memutuskan untuk membagi sebuah node menjadi dua atau lebih sub-node. Penciptaan sub-node meningkatkan homogenitas resultan sub-node. Dengan kata lain, kita dapat mengatakan bahwa kemurnian node meningkat sehubungan dengan variabel target. Pohon keputusan membagi node pada semua variabel yang tersedia dan kemudian memilih pemisahan yang menghasilkan sub-node yang paling homogen.

Bagaimana detail dari Konsep Decision Tree? Berikut lengkapnya

1. Jenis Pohon Keputusan

Jenis pohon keputusan didasarkan pada jenis variabel target yang kita miliki. Ini dapat terdiri dari dua jenis:

Pohon Keputusan Variabel Kategoris: Pohon Keputusan yang memiliki variabel target kategoris maka disebut pohon keputusan variabel kategoris.
Pohon Keputusan Variabel Kontinu: Pohon Keputusan memiliki variabel target kontinu maka disebut Pohon Keputusan Variabel Kontinu.

Contoh:- Katakanlah kita memiliki masalah untuk memprediksi apakah pelanggan akan membayar premi perpanjangannya dengan perusahaan asuransi (ya/tidak). Di sini kita tahu bahwa pendapatan pelanggan adalah variabel yang signifikan tetapi perusahaan asuransi tidak memiliki rincian pendapatan untuk semua pelanggan. Sekarang, seperti yang kita ketahui bahwa ini adalah variabel penting, maka kita dapat membangun pohon keputusan untuk memprediksi pendapatan pelanggan berdasarkan pekerjaan, produk, dan berbagai variabel lainnya. Dalam hal ini, kami memprediksi nilai untuk variabel kontinu.

2. Information Gain

Perolehan informasi digunakan untuk memutuskan fitur mana yang akan dibagi pada setiap langkah dalam membangun pohon. Kesederhanaan adalah yang terbaik, jadi kami ingin pohon kami tetap kecil. Untuk melakukannya, pada setiap langkah kita harus memilih pemisahan yang menghasilkan node anak yang paling murni. Ukuran kemurnian yang umum digunakan disebut informasi. Untuk setiap simpul pohon, nilai informasi mengukur seberapa banyak informasi yang diberikan fitur kepada kita tentang kelas. Pemisahan dengan information gain tertinggi akan diambil sebagai split pertama dan proses akan berlanjut sampai semua node anak menjadi murni, atau sampai information gain 0.

3. Keuntungan dari Pohon Keputusan

Ini mudah dipahami karena mengikuti proses yang sama yang diikuti manusia saat membuat keputusan apapun dalam kehidupan nyata.

Ini bisa sangat berguna untuk memecahkan masalah terkait keputusan.
Ini membantu untuk memikirkan semua kemungkinan hasil untuk suatu masalah.
Ada lebih sedikit persyaratan pembersihan data dibandingkan dengan algoritma lain.

Kekurangan Pohon Keputusan

Pohon keputusan mengandung banyak lapisan, yang membuatnya rumit.
Ini mungkin memiliki masalah overfitting, yang dapat diselesaikan dengan menggunakan algoritma Random Forest.
Untuk lebih banyak label kelas, kompleksitas komputasi dari pohon keputusan dapat meningkat.

4. Pohon regresi (tipe data berkelanjutan)

Di sini keputusan atau variabel hasil Berkelanjutan, mis. angka seperti 123. Bekerja Sekarang setelah kita mengetahui apa itu Pohon Keputusan, kita akan melihat cara kerjanya secara internal. Ada banyak algoritma di luar sana yang membangun Pohon Keputusan, tetapi salah satu yang terbaik disebut sebagai Algoritma ID3. ID3 Singkatan dari Iterative Dichotomiser 3. Sebelum membahas algoritma ID3, kita akan membahas beberapa definisi. Entropi Entropi, juga disebut sebagai Shannon Entropy dilambangkan dengan H(S) untuk himpunan hingga S, adalah ukuran jumlah ketidakpastian atau keacakan dalam data. Pohon Keputusan dimodifikasi Secara intuitif, ini memberitahu kita tentang prediktabilitas suatu peristiwa tertentu. Contoh, pertimbangkan sebuah lemparan koin yang probabilitas munculnya kepala adalah 0,5 dan probabilitas munculnya ekor adalah 0,5. Di sini entropi adalah yang tertinggi, karena tidak ada cara untuk menentukan seperti apa hasilnya. Sebagai alternatif, pertimbangkan koin yang memiliki kepala di kedua sisinya, entropi dari peristiwa semacam itu dapat diprediksi dengan sempurna karena kita tahu sebelumnya bahwa itu akan selalu menjadi kepala. Dengan kata lain, peristiwa ini tidak memiliki keacakan sehingga entropinya adalah nol. Secara khusus, nilai yang lebih rendah menyiratkan ketidakpastian yang lebih sedikit sementara nilai yang lebih tinggi menyiratkan ketidakpastian yang tinggi. Perolehan Informasi Perolehan informasi juga disebut sebagai divergensi Kullback-Leibler yang dilambangkan dengan IG(S,A) untuk himpunan S adalah perubahan entropi efektif setelah memutuskan atribut tertentu A. Ini mengukur perubahan relatif entropi terhadap independen variabel. Pohon Keputusan dimodifikasi Atau, Pohon Keputusan dimodifikasi di mana IG(S, A) adalah perolehan informasi dengan menerapkan fitur A. H(S) adalah Entropi dari seluruh himpunan, sedangkan suku kedua menghitung Entropi setelah menerapkan fitur A, di mana P(x) adalah peluang kejadian x.

5. Nikmati belajar penuhi demand Praktisi data 2021!

Halo sahabat data, yuk perdalam keilmuan statistik kamu dengan perdalam kemampuan belajar statistik bersama DQLab! Nikmati treatment belajar anti ribet dengan live code editor dan diarahkan bersama Senja dan Aksara. Yuk belajar data bersama DQLab dan penuhi demand praktisi data sekarang!

Postingan Terkait

Kombinasikan Teknik Pengolahan Data untuk Bangun Insight dan Visualisasi Data Agar Semakin Menarik

20 Oktober 2020

Dataset Machine Learning : Yuk, Kombinasikan Teknik Pengolahan Dataset untuk Bangun Insight Bisnismu!

09 Oktober 2020

Mulai Karier
sebagai Praktisi
Data Bersama
DQLab

Daftar sekarang dan ambil langkah
pertamamu untuk mengenal
Data Science.