Portfolio Data Analyst : Modul Comparison Kasus Covid dari DQLab
Secara sederhana, portofolio data analyst adalah platform yang memberi tahu recruiter secara singkat mengenai kita dan project yang telah kita kerjakan. Jadi, sebelum bingung memikirkan apa project yang akan kita kerjakan, langkah pertama dalam membangun portofolio adalah memutuskan dimana kita akan menyimpan project kita.
Di bidang praktis seperti analisis data, tidak cukup hanya memberitahu recruiter project apa yang telah kita selesaikan. Kita perlu memberikan bukti mengenai project yang telah kita kerjakan.
Oleh karena itu, resume atau CV terkadang tidak cukup untuk menjelaskan keahlian kita sehingga kita membutuhkan platform atau media lain untuk menjelaskan skill kita secara singkat namun detail. Portofolio akan menunjukkan keterampilan keterampilan teknis kita kepada recruiter.
Tahukah kamu jika belakangan ini kasus Covid global sedang meningkat kembali? COVID-19 adalah pandemi yang sudah mewabah ke seluruh dunia. sebagian besar negara-negara di dunia sudah terjangkit.
Penanganan tiap-tiap negara pun berbeda, sesuai dengan kebijakan pemerintah. Hal ini mengakibatkan perbedaan tren kenaikan atau penurunan kasus COVID-19 yang berbeda-beda di setiap negara. Data COVID-19 merupakan data yang "empuk" untuk dijadikan portfolio data analyst. Bagaimana caranya? Yuk simak bocoran cara menggunakan data COVID-19 dengan modul dari DQLab!
1. Import Library dan Memanggil API data COVID-19
Pertama-tama, kita akan meng-import terlebih dahulu library yang akan digunakan. Kali ini kita akan menggunakan library json, numpy, panda, dan request. Buat fungsi python get_json dengan parameter api_url. Fungsi ini akan mengembalikan nilai berupa python dictionary jika status_code yang dihasilkan adalah 200. Jika tidak, maka nilai yang dikembalikan adalah None.
Rekapitulasi data COVID-19 global berada di https://covid19-api.org/. Gunakan parameter record_date untuk mengambil data COVID-19 di seluruh negara pada tanggal tertentu. Untuk kasus ini, kita akan menggunakan record_date "2020“08“17", dan masukkan hasil respons api ke variabel df_covid_worldwide.
Untuk mendapatkan data frame COVID-19, kita akan menggunakan fungsi pd.io.json.json_normalize dan panggil function yang sudah dibuat sebelumnya, yaitu get_json(). Print sampel data COVID-19 dengan menggunakan fungsi head().
Baca juga : Kenali Perbedaan Data Scientist, Data Analyst dan Data Engineer
2. Mengambil Data Country
Karena pada artikel ini kita akan membahas perbandingan kasus COVID-19 di berbagai negara, maka kita harus mengambil data COVID-19 dari berbagai negara. Kita akan membuat dataframe countries dengan memanggil variable countries_url ke api covid19-api.org.
Lalu ambil kolom name dan country saja. Nah, ini dia output yang berisi nama negara dan inisialnya. Tapi, lima negara yang muncul diurutkan berdasarkan huruf abjad dari A sampai Z ya.
Step selanjutnya adalah pemetaan data COVID-19 dan data negara. Pada modul DQLab ini kita akan menggunakan fungsi merge pada pandas untuk menggabungkan df_covid_worldwide dan df_countries. Untuk menggabungkan dua dataframe, gunakan kolom country. Lalu print sample data dengan menggunakan head().
3. Visualisasi Fatality Ratio Tertinggi
Untuk menghitung fatality ratio, kita harus menambahkan satu kolom yang merupakan pembagian antara jumlah kematian dengan banyaknya kasus yang terjadi. Untuk memvisualisasikan negara-negara dengan kasus fatality rate tertinggi akibat COVID-19 ini dapat dilakukan dengan menggunakan bar chart.
Variabel x axis adalah kolom name (nama negara) dan kolom y atau value nya adalah kolom fatality_ratio yang telah kita buat, lalu buat bar chartnya menggunakan fungsi plt.bar([value x axis, value y axis]).
4. Visualisasi Kasus COVID-19 di ASEAN
Selanjutnya kita akan membandingkan kasus COVID-19 di Indonesia (ID) dengan negara-negara tetangga, yaitu MY (Malaysia), SG (Singapura), TH (Thailand), dan VN (Vietnam). Untuk itu, kita perlu memanggil api negara sebanyak negara yang akan kita bandingkan.
Kita akan menggunakan fungsi pd.io.json.json_normalize dan panggil fungsi yang sudah dibuat sebelumnya, yaitu get_json(). Terakhir, buat variabel x dan y dimana x adalah tanggal (last_update) pada tiap-tiap negara dan y adalah jumlah kasus pada tiap-tiap negara. Lalu buat diagram garis untuk membandingkan data lima negara.
Baca juga : Data Analyst vs Data Scientist, Yuk Kenali Perbedaannya
5. Yuk Akses Modulnya!
Nah setelah membaca rangkuman dari modul DQLab ini, tertarik untuk mencoba projectnya dan praktik langsung? Yuk coba dulu modul pembuka dari DQLab yang bisa diakses secara GRATIS! Klik button di bawah ini atau sign up melalui DQLab.id untuk mengakses modul pembuka "Introduction to Data Science" sebagai awalan sebelum mengerjakan project yang lebih besar. Selamat membangun portfolio bersama DQLab!
Penulis: Galuh Nurvinda K
Editor: Annissa Widya Davita