3 Kesalahan Umum Belajar Data Scientist
Data Scientist diibaratkan sebagai seorang detektif jika diperankan dalam sebuah film. Sepanjang perjalanannya, terkadang mereka seakan terperosok jatuh ke dalam sebuah perangkap (pitfall). Kondisi ini biasanya dirasakan baik pemula yang ingin belajar data scientist maupun yang sudah berkarir menjadi seorang data scientist. Seperti sebuah kata bijak yang dipopulerkan seorang novelis terkenal asal Irlandia, James Joyce bahwa "Mistakes are the portals of discovery". Memang hal ini sering terjadi dalam banyak kasus pada data scientist. Dengan adanya kesalahan tentu dapat membantu mereka menemukan tren data baru dan menemukan lebih banyak pola dalam data. Oleh karena itu, sangat penting untuk memahami bahwa data scientist harus dituntut memiliki margin kesalahan yang sangat kecil. Kesalahan dan praktik yang besar dalam ilmu data dapat merugikan kariernya. Sangat penting bagi data scientist untuk melacak semua eksperimen ilmu data, belajar dari kesalahan, dan menghindarinya dalam proyek ilmu data di masa mendatang.
Menjadi seorang data scientist bukanlah tugas yang mudah. Dibutuhkan perpaduan antara kemampuan problem solving yang baik, berpikir kritis dan terstruktur, pemahaman coding yang kuat serta berbagai keterampilan teknis lainnya untuk benar-benar sukses dalam karirnya. Agar bisnis dan operasional dapat berjalan dengan baik, perlu mementingkan juga kualitas data yang mereka miliki. Dapat dipastikan, data scientist harus jeli untuk meminimalisir tingkat kesalahan yang terjadi seminimal mungkin. Bisa-bisa akan terjadi pada hasil dan kesimpulan akhirnya menjadi salah kaprah dan tidak terarah. Pada artikel DQLab kali ini, kita akan membahas 3 kesalahan yang paling umum terjadi di kalangan data scientist. Pasti penasaran kan apa saja kesalahan-kesalahan tersebut yang seringkali dialami? Bagi kalian yang masih belajar mengenai basic data scientist, pastikan disimak baik-baik artikelnya dan jangan sampai terjadi di kalian ya.
1.Bingung Membedakan Antara Korelasi dengan Penyebab
Kesalahan korelasi dengan penyebab dapat menyebabkan masalah yang besar bagi seorang data scientist. Contohnya adalah analisis Freakonomics yang sempat booming di Amerika Serikat dimana mendapatkan korelasi untuk penyebab yang salah. Pasalnya, negara bagian Illinois mengirim buku ke setiap siswa di daerah tersebut karena analisis mengungkapkan bahwa buku yang tersedia di rumah berkorelasi langsung dengan nilai tes yang tinggi. Analisis lebih lanjut menunjukkan, bahwa siswa dari rumah yang memiliki beberapa buku cenderung berprestasi lebih baik di bidang akademik mereka meskipun mereka belum pernah membaca buku tersebut. Hal ini membantu membuat koreksi pada asumsi sebelumnya dengan pemahaman bahwa siswa yang tinggal dengan orang tua kerap kali biasanya membeli buku memiliki lingkungan belajar yang menyenangkan.
Sebagian besar data scientist saat bekerja dengan data besar berasumsi bahwa korelasi secara langsung menyatakan sebab akibat. Sering kali merupakan praktik yang baik untuk menggunakan data besar untuk memahami korelasi antara dua variabel. Namun, terkadang selalu menggunakan analogi "sebab dan akibat" dapat membuat prediksi yang salah dan keputusan yang tidak produktif. Untuk memanfaatkan data besar untuk hasil terbaik, Data Scientist perlu memahami perbedaan antara korelasi dan penyebab. Artinya korelasi X dan Y cenderung diamati pada waktu yang sama sedangkan kausalitas berarti X menyebabkan Y. Ini adalah dua hal yang sama sekali berbeda dalam ilmu data, namun perbedaan tersebut sering diabaikan oleh banyak ilmuwan data. Keputusan berdasarkan korelasi mungkin cukup baik untuk diambil tindakan, tanpa harus mengetahui penyebabnya. Tetapi ini sepenuhnya tergantung pada jenis data dan masalah yang diselesaikan. Pelajaran yang harus dipelajari oleh setiap data scientist adalah bahwa- "Korelasi bukanlah penyebab dalam ilmu data". Jika dua item tampak berhubungan satu sama lain, itu tidak berarti bahwa yang satu menyebabkan yang lain.
Baca juga : Mengenal Profesi Data Scientist
2.Salah Dalam Memilih Bentuk Visualisasi Yang Tepat
Sebagian besar data scientist berkonsentrasi pada mempelajari aspek teknis analisis. Mereka terkadang abai untuk fokus pada pemahaman data menggunakan teknik visualisasi. Teknik inilah yang sebenarnya dapat membuat mereka memperoleh wawasan lebih cepat dan mudah ditangkap. Nilai dari pemilihan model machine learning terbaik sekalipun akan berkurang jika data scientist tidak memilih jenis visualisasi yang tepat untuk pengembangan model. Baik untuk memantau analisis data eksplorasi maupun untuk merepresentasikan hasil. Faktanya, banyak data scientist memilih jenis grafik berdasarkan selera estetika mereka daripada mempertimbangkan karakteristik kumpulan data mereka. Hal ini dapat dihindari dengan menetapkan tujuan visualisasi sebagai langkah pertama.
Bahkan jika seorang data scientist mengembangkan model machine learning yang optimal dan terbaik, ia tidak akan berteriak "Eureka" - yang diperlukan hanyalah visualisasi hasil yang efektif untuk memahami perbedaan antara pola data dan menyadari keberadaannya untuk digunakan untuk bisnis hasil. Seperti pepatah populer yang mengatakan "Sebuah gambar bernilai 1000 kata." - Para ilmuwan data tidak hanya perlu membiasakan diri dengan alat visualisasi data tetapi juga memahami prinsip visualisasi data yang efektif untuk memberikan hasil dengan cara yang menarik. Langkah penting untuk memecahkan masalah data science adalah mendapatkan wawasan tentang apa data itu, dengan merepresentasikannya melalui visual yang kaya yang dapat membentuk dasar untuk analisis dan pemodelannya.
Baca juga : Yuk Kenal Role Data Scientist, Profesi Menarik Dengan Gaji Besar
3.Analisis Tanpa Perencanaan/Dasar Pertanyaan
"Salah satu kegunaan tertinggi dari data science adalah untuk merancang eksperimen, mengajukan pertanyaan yang tepat dan mengumpulkan kumpulan data yang tepat, dan melakukan semuanya sesuai standar ilmiah. Kemudian Anda mengumpulkan hasilnya dan menafsirkannya. "- kata Michael Walker, President of Data Science Association.
Data science adalah proses terstruktur yang dimulai dengan tujuan dan pertanyaan yang didefinisikan dengan baik diikuti oleh beberapa hipotesis untuk memenuhi tujuan. Data science sering cenderung melompat pada data tanpa memikirkan pertanyaan yang perlu mereka jawab melalui analisis. Sangat penting untuk setiap proyek ilmu data untuk memiliki tujuan proyek dan tujuan model yang sempurna. Bahkan, kecenderungan yang terjadi adalah mereka tidak tahu apa yang mereka inginkan dan berujung pada hasil analisis yang tidak mereka inginkan.
Sebagian besar proyek ilmu data akhirnya menjawab pertanyaan "apa" karena data scientist tidak mengikuti jalur ideal dalam melakukan analisis dengan memiliki pertanyaan yang ada. Data science berbicara tentang menjawab pertanyaan jenis "mengapa" menggunakan big data. Data scientist harus menganalisis kumpulan data tertentu dengan motif untuk menjawab pertanyaan yang belum pernah dijawab sebelumnya dengan menggabungkan kumpulan data yang belum pernah digabungkan. Untuk menghindari hal ini, data scientist harus fokus untuk mendapatkan hasil analisis yang benar dengan mendefinisikan desain, variabel, dan data secara akurat dan jelas memahami apa yang ingin mereka pelajari dari analisis ini. Ini akan memudahkan proses menjawab pertanyaan bisnis melalui metode statistik yang memenuhi asumsi. Seperti kutipan populer dari Voltaire - "Menilai seseorang dari pertanyaannya daripada jawabannya." - Memiliki pertanyaan yang jelas sebelumnya sangat penting untuk mencapai tujuan data science untuk organisasi mana pun.
4.Yuk Mulai Belajar Data Science Sekarang!
Tidak memiliki background IT? Jangan khawatir, kamu tetap bisa menguasai Ilmu Data Science untuk siap berkarir di revolusi industri 4.0. Bangun proyek dan portofolio datamu bersama DQLab untuk mulai berkarir di industri data yang sebenarnya! Sign up sekarang untuk #MulaiBelajarData di DQLab!
Simak informasi di bawah ini untuk mengakses gratis module "Introduction to Data Science":
1.Buat Akun Gratis dengan Signup di DQLab.id/signup
2.Akses module Introduction to Data Science
3.Selesaikan modulenya, dapatkan sertifikat & reward menarik dari DQLab
4.Subscribe DQLab.id untuk Akses Semua Module Premium!
Penulis: Reyvan Maulid Pradistya
Editor : Annissa Widya