Buat Akun DQLab & Akses Kelas Data Science Python, R, SQL, Excel GRATIS!

Implementasi Framework OSEMN dalam Data Science

Belajar Data Science di Rumah 31-Agustus-2022
https://dqlab.id/files/dqlab/cache/1cc1664610594353d6ac489390fa1bd3_x_Thumbnail800.jpg

CRISP-DM adalah singkatan dari cross-industry process for data mining. Metodologi CRISP-DM menyediakan pendekatan terstruktur untuk merencanakan proyek penambangan data. Ini adalah metodologi yang kuat dan terbukti dengan baik. Kami tidak mengklaim kepemilikan apa pun di atasnya. Kami tidak menciptakannya. 


Namun kami adalah penginjil dari kepraktisan yang kuat, fleksibilitas dan kegunaannya saat menggunakan analitik untuk memecahkan masalah bisnis yang sulit. Ini adalah benang emas yang berjalan melalui hampir setiap keterlibatan klien. Model CRISP-DM ditampilkan di sebelah kanan.

teknik analisis data

Model ini adalah urutan kejadian yang diidealkan. Dalam praktiknya, banyak tugas dapat dilakukan dalam urutan yang berbeda dan seringkali diperlukan untuk mundur ke tugas sebelumnya dan mengulangi tindakan tertentu. Model tidak mencoba untuk menangkap semua rute yang mungkin melalui proses data mining.


Tahap pertama dari proses CRISP-DM adalah memahami apa yang ingin Sahabat DQ capai dari perspektif bisnis. Organisasi Sahabat DQ mungkin memiliki tujuan dan kendala yang bersaing yang harus seimbang dengan baik.


Tujuan dari tahap proses ini adalah untuk mengungkap faktor-faktor penting yang dapat mempengaruhi hasil proyek. Mengabaikan langkah ini dapat berarti bahwa banyak upaya dilakukan untuk menghasilkan jawaban yang benar atas pertanyaan yang salah.


Lalu, bagaimana tahapan dalam setiap proses yang ada di CRISP-DM ini? Simak selengkapnya sekarang!


1. Business Understanding

Fase Pemahaman Bisnis berfokus pada pemahaman tujuan dan persyaratan proyek. Selain tugas ketiga, tiga tugas lain dalam fase ini adalah aktivitas manajemen proyek dasar yang bersifat universal untuk sebagian besar proyek:

  • Tentukan tujuan bisnis: Pertama-tama Sahabat DQ harus “memahami secara menyeluruh, dari perspektif bisnis, apa yang benar-benar ingin dicapai pelanggan.” (CRISP-DM Guide) dan kemudian tentukan kriteria keberhasilan bisnis.

  • Menilai situasi: Menentukan ketersediaan sumber daya, persyaratan proyek, menilai risiko dan kontinjensi, dan melakukan analisis biaya-manfaat.

  • Tentukan tujuan penambangan data: Selain menentukan tujuan bisnis, Sahabat DQ juga harus menentukan seperti apa kesuksesan dari perspektif penambangan data teknis.

  • Menghasilkan rencana proyek: Pilih teknologi dan alat dan tentukan rencana terperinci untuk setiap fase proyek.

  • Sementara banyak tim terburu-buru melalui fase ini, membangun pemahaman bisnis yang kuat seperti membangun fondasi rumah – sangat penting.


Baca juga : Langkah-Langkah Menggunakan Teknik Analisis Data Kualitatif


2. Pemahaman Data

Selanjutnya adalah fase Data Understanding. Menambah dasar Pemahaman Bisnis, ini mendorong fokus untuk mengidentifikasi, mengumpulkan, dan menganalisis kumpulan data yang dapat membantu Sahabat DQ mencapai tujuan proyek. Fase ini juga memiliki empat tugas:

  • Kumpulkan data awal: Dapatkan data yang diperlukan dan (jika perlu) masukkan ke dalam alat analisis Sahabat DQ.

  • Jelaskan data: Periksa data dan dokumentasikan properti permukaannya seperti format data, jumlah catatan, atau identitas bidang.

  • Jelajahi data: Gali data lebih dalam. Query, visualisasikan, dan identifikasi hubungan antar data.

  • Verifikasi kualitas data: Seberapa bersih/kotor datanya? Dokumentasikan masalah kualitas apa pun.


3. Data Preparation

Fase ini, yang sering disebut sebagai “data munging”, menyiapkan kumpulan data akhir untuk pemodelan. Ini memiliki lima tugas:

  • Pilih data: Tentukan kumpulan data mana yang akan digunakan dan dokumentasikan alasan penyertaan/pengecualian.

  • Bersihkan data: Seringkali ini adalah tugas terlama. Tanpa itu, Sahabat DQ mungkin akan menjadi korban sampah-masuk, sampah-keluar. Praktik umum selama tugas ini adalah mengoreksi, mengaitkan, atau menghapus nilai yang salah.

  • Membangun data: Dapatkan atribut baru yang akan membantu. Misalnya, dapatkan indeks massa tubuh seseorang dari bidang tinggi dan berat badan.

  • Integrasikan data: Buat kumpulan data baru dengan menggabungkan data dari berbagai sumber.

  • Format data: Format ulang data seperlunya. Misalnya, Sahabat DQ dapat mengonversi nilai string yang menyimpan angka menjadi nilai numerik sehingga Sahabat DQ dapat melakukan operasi matematika.


4. Modeling Process

Di sini Sahabat DQ mungkin akan membangun dan menilai berbagai model berdasarkan beberapa teknik pemodelan yang berbeda. Fase ini memiliki empat tugas:

  • Pilih teknik pemodelan: Tentukan algoritme mana yang akan dicoba (misalnya regresi, jaring saraf).

  • Hasilkan desain pengujian: Sambil menunggu pendekatan pemodelan, Sahabat DQ mungkin perlu membagi data menjadi set pelatihan, pengujian, dan validasi.

  • Model build: Meski terdengar glamor, ini mungkin hanya mengeksekusi beberapa baris kode seperti “reg = LinearRegression().fit(X, y)”.

  • Menilai model: Umumnya, beberapa model bersaing satu sama lain, dan ilmuwan data perlu menginterpretasikan hasil model berdasarkan pengetahuan domain, kriteria keberhasilan yang telah ditentukan sebelumnya, dan desain pengujian.

  • Meskipun Panduan CRISP-DM menyarankan untuk "mengulangi pembuatan model dan penilaian sampai Sahabat DQ sangat yakin bahwa Sahabat DQ telah menemukan model terbaik", dalam praktiknya tim harus terus mengulangi sampai mereka menemukan model yang "cukup baik", lanjutkan melalui CRISP -DM siklus hidup, kemudian lebih meningkatkan model di iterasi mendatang.


5. Evaluasi

Sementara tugas Menilai Model dari fase Modeling berfokus pada penilaian model teknis, fase Evaluasi melihat secara lebih luas model mana yang paling sesuai dengan bisnis dan apa yang harus dilakukan selanjutnya. Fase ini memiliki tiga tugas:

  • Evaluasi hasil: Apakah model memenuhi kriteria keberhasilan bisnis? Yang mana yang harus kami setujui untuk bisnis ini?

  • Proses peninjauan: Tinjau pekerjaan yang diselesaikan. Apakah ada yang terlewatkan? Apakah semua langkah dijalankan dengan benar? Ringkas temuan dan perbaiki apa pun jika diperlukan.

  • Tentukan langkah selanjutnya: Berdasarkan tiga tugas sebelumnya, tentukan apakah akan melanjutkan penerapan, mengulangi lebih lanjut, atau memulai proyek baru.


6. Deployment

Sebuah model tidak terlalu berguna kecuali pelanggan dapat mengakses hasilnya. Kompleksitas fase ini sangat bervariasi. Fase terakhir ini memiliki empat tugas:

  • Merencanakan penyebaran: Kembangkan dan dokumentasikan rencana untuk menerapkan model.

  • Merencanakan pemantauan dan pemeliharaan: Kembangkan rencana pemantauan dan pemeliharaan yang menyeluruh untuk menghindari masalah selama fase operasional (atau fase pasca proyek) suatu model.

  • Menghasilkan laporan akhir: Tim proyek mendokumentasikan ringkasan proyek yang mungkin mencakup presentasi akhir hasil penambangan data.

  • Tinjau proyek: Lakukan retrospektif proyek tentang apa yang berjalan dengan baik, apa yang bisa lebih baik, dan bagaimana meningkatkannya di masa depan.

  • Pekerjaan organisasi Sahabat DQ mungkin tidak berakhir di situ. Sebagai kerangka kerja proyek, CRISP-DM tidak menguraikan apa yang harus dilakukan setelah proyek (juga dikenal sebagai “operasi”). Tetapi jika model akan diproduksi, pastikan Sahabat DQ mempertahankan model dalam produksi. Pemantauan konstan dan penyetelan model sesekali sering diperlukan.


Baca juga : Contoh Teknik Analisis Data Dalam Penelitian Kuantitatif



Belajar memulai karir sebagai praktisi data science dengan menggunakan Python, R dan SQL sederhana dengan sign up dan login melalui DQLab Academy! Yuk nikmati kemudahan belajar tanpa ribet melalui live code editor DQLab. Belajar sambil buat portfolio dengan modul DQLab! 


Signup sekarang atau isi form dibawah ini ya Sahabat DQ!



Mulai Karier
sebagai Praktisi
Data Bersama
DQLab

Daftar sekarang dan ambil langkah
pertamamu untuk mengenal
Data Science.

Buat Akun


Atau

Sudah punya akun? Login