Pakai Roadmap Ini untuk Persiapkan Diri Menjadi Data Scientist
Roadmap adalah bagian dari kurikulum ketika kita belajar data science. Roadmap berisi skill yang lebih spesifik dengan tahapan-tahapan tertentu untuk mencapai sebuah tujuan. Skills yang disebutkan dalam roadmaps adalah skill multi-level yang lebih rinci yang perlu kita asah untuk mejadi data scientist.
Selain berisi skills, roadmaps juga berisi cara untuk mengukur hasil di setiap level dan teknik yang harus dikuasai pada setiap levelnya. Seseorang membutuhkan waktu yang berbeda untuk menyelesaikan semua level dari sebuah roadmaps. Ada banyak hal yang mempengaruhi, seperti konsistensi, kemampuan memahami dan menguasai suatu skills, waktu yang digunakan dalam belajar setiap harinya, dan lain sebagainya.
Roadmap data science bisa menjadi framework ketika kita belajar untuk mempersiapkan diri berkarir menjadi data scientist. Setiap step dalam roadmap memiliki strategi yang berbeda-beda untuk menyelesaikannya. Setiap step dalam roadmap berisi hal detail yang lebih spesifik dan terukur dan memiliki topik kritis yang berbeda-beda tergantung kebutuhan.
Pada artikel kali ini DQLab akan menjelaskan roadmap data scientist yang bisa kamu jadikan pedoman untuk meningkatkan skills data science. Kamu juga bisa memodifikasi atau menambahkan steps yang kamu rasa perlu dalam mempersiapkan diri untuk berkarir di bidang data. Jadi tunggu apa lagi? Yuk kita simak bersama!
1. Belajar Bahasa Pemrograman dan Rekayasa Software
Hal pertama yang harus dikuasai oleh seorang calon data scientist adalah bahasa pemrograman. Tidak harus semua bahasa, minimal kamu menguasai satu bahasa. Perkiraan waktu step pertama ini memakan waktu 2 sampai 3 bulan. Namun waktu ini bersifat relatif, ya! Kamu bisa saja memerlukan waktu lebih sedikit atau bahkan lebih banyak.
Topik pemrograman pada step satu ini meliputi struktur data secara umum seperti tipe data, list, librari, set, tuple, fungsi penulisan, logika, algoritma, pemrograman orientasi objek, dan library eksternal. Kemudian kamu harus mulai mempelajari skrip SQL. Tools manajemen basis data ini sangat penting karena kamu akan banyak bekerja menggunakan data berukuran besar yang tidak bisa disimpan dalam excel. Hal yang perlu kamu pelajari dalam SQL adalah membuat kueri database menggunakan join, agregasi, dan sub kueri.
Baca juga : Mengenal Profesi Data Scientist
2. Data Collection dan Wrangling
Bagian terpenting dari pekerjaan data scientist adalah bagaimana cara menemukan data yang tepat yang dapat digunakan untuk problem solving. Kamu bisa mulai belajar mengumpulkan data dari sumber open source melalui scraping, API, basis data, dan repositori yang tersedia untuk umum.
Setelah data berhasil dikumpulkan, maka saatnya untuk membersihkan data sebelum data diolah oleh data analyst. Jika kamu menggunakan bahasa pemrograman Python, maka kamu bisa mulai belajar menggunakan library pandas dan numpy untuk data cleaning. Waktu yang dibutuhkan untuk menyelesaikan step kedua ini kira-kira dua bulan, namun kembali lagi dengan keadaan kamu, bisa saja waktu yang kamu butuhkan untuk menguasai steps ini kurang dari dua bulan atau bahkan bisa lebih.
3. Eksplorasi Data
Steps selanjutnya yang harus dikuasai oleh calon data scientist adalah analisis data dan storytelling. Agar storytelling lebih mudah, maka kamu harus menguasai teknik visualisasi data agar bisa mengkomunikasikan hasil analisis dengan lebih mudah. Perkiraan waktu yang dibutuhkan untuk menyelesaikan steps ini adalah dua sampai tiga bulan.
Hal yang dihilight dalam steps ini adalah analisis dan eksplorasi untuk mendefinisikan pertanyaan, menangani missing value, outlier, pemformatan, pemfilteran, analisis univariat dan multivariat, kemudian visualisasi data, mengembangkan dashboard, dan ketajaman bisnis.
4. Machine Learning dan Artificial Intelligence
Seorang data scientist tidak akan lepas dari algoritma machine learning dan artificial intelligence. Ada 3 jenis learning yang harus kamu pelajari, yaitu supervised learning, unsupervised learning, dan reinforcement learning.
Supervised learning mencakup materi regresi dan klasifikasi, seperti regresi linier sederhana, regresi berganda, regresi polinomial, naive bayer, regresi logistik, KNN, decision tree, model ensemble, dan lain sebagainya. Unsupervised learning terdiri dari clustering dan dimension reduction.
Beberapa contoh clustering adalah PCA, K-Means, hierarki clustering, gaussian, dan lain sebagainya. Reinforcement learning bersifat opsional ya, jadi kamu bisa sesuaikan dengan kebutuhanmu. Waktu yang dibutuhkan untuk menyelesaikan step ini cukup lama, yaitu sekitar 4 sampai 5 bulan. Hal ini karena ada banyak algoritma yang harus dipelajari.
Baca juga : Yuk Kenal Role Data Scientist, Profesi Menarik Dengan Gaji Besar
Setelah kamu memiliki roadmap, maka hal selanjutnya yang perlu dipikirkan adalah dari mana sumber belajar yang tepat dan terpercaya untuk menyelesaikan setiap stepnya. Jangan khawatir, yuk belajar dengan modul dari DQLab!
Setiap modul DQLab dirancang dan disesuaikan dengan materi yang dibutuhkan oleh calon data scientist sehingga kita bisa belajar dengan berbagai modul dari DQLab untuk menyelesaikan setiap step dalam roadmap tersebut.
Penasaran bagaimana isi modul DQLab? Yuk klik button di bawah ini atau kunjungi DQLab.id untuk mengakses free modul "Introduce to Data Science" dengan bahasa pemrograman R dan Python dan nikmati experience menarik menggunakan live code editor DQLab. Selamat belajar!
Penulis: Galuh Nurvinda K
Editor: Annissa Widya Davita