Buat Akun DQLab & Akses Kelas Data Science Python, R, SQL, Excel GRATIS!

Wrangling Python: Mengenal Library Pandas Dan Penggunaannya Dalam Data Wrangling

Belajar Data Science 18-Januari-2021
https://dqlab.id/files/dqlab/cache/0ac7c154add3d90628daf0bb3b88399b_x_Thumbnail800.jpg

Wrangling data adalah salah satu langkah penting ketika bekerja dengan data. Wrangling merupakan proses dimana data di manajemen dan dibentuk menjadi lebih tertata. Proses ini cukup krusial karena diperlukan ketelitian dan harus bisa menjawab permasalahan yang ingin diselesaikan. Untuk kamu yang sedang belajar data science, ada baiknya memperdalam skill ini.


Python merupakan bahasa pemrograman yang bersifat open source, artinya semua orang dapat menggunakannya untuk keperluan mengembangkan program yang ingin dibuat. Python menyediakan banyak library dan method yang dapat dimanfaatkan untuk membuat program, memproses data, maupun analisis data. Salah satunya yang biasa digunakan untuk analisis data adalah Pandas. Apa itu Pandas dan apa saja yang bisa dilakukan dengan Pandas ketika melakukan data wrangling? Yuk, simak dibawah ini. 


1. Library Pandas Untuk Data Wrangling 

Dalam melakukan data wrangling, Python menyediakan beberapa library yang dapat digunakan, salah satunya adalah Pandas yaitu library yang dibangun diatas Numpy yang berguna untuk melakukan preprocessing dan analisis data. Library Pandas dapat mengolah data berbentuk csv, txt, excel, html, dan sebagainya. Komponen dasar dari Pandas adalah series dan dataframe. Series merupakan struktur dasar dari Pandas yang berbentuk array 1-dimensi yang mampu menyimpan data integer, float, boolean, dan lainnya. Sedangkan dataframe adalah struktur data yang berbentuk tabel 2-dimensi. Penggunaan Pandas umumnya disingkat menjadi pd. Format penulisan saat akan memanggil library Pandas adalah import pandas as pd. Ingat untuk selalu import library yang akan digunakan terlebih dahulu. 

Baca juga : Python Array : Memahami Kegunaan Array Dalam Python


2. Merge Dan Grouping Database 

Semakin banyak data maka semakin luas informasi yang didapatkan. Untuk itu ketika akan melakukan analisis data, alangkah baiknya memperoleh data dari banyak sumber. Data dari berbagai sumber ini perlu dilakukan manajemen data agar memudahkan proses selanjutnya. Pandas menyediakan fungsi merge dan grouping database untuk memudahkan proses manipulasi data. Merge dilakukan ketika akan menggabungkan atau join database yang berasal dari berbagai sumber tersebut. Seperti pada SQL, merge pada Pandas juga dapat melakukan berbagai jenis merge yaitu inner merge, left merge, right merge, dan outer merge. Sedangkan grouping merupakan proses dimana dataset dikelompokkan lebih spesifik. Fungsi yang digunakan yaitu groupby(). Misalnya kita akan mengelompokkan data penjualan berdasarkan tahun, kita bisa menuliskan groupby("Year"). Dengan ini kita bisa tahu hasil penjualan per tahunnya dan mempermudah analisis demi meningkatkan strategi marketing di masa mendatang. 


3. Mengkombinasikan Data

Pandas pada Python juga menyediakan fungsi yang bisa digunakan untuk mengkombinasikan series dan dataframe yaitu dengan fungsi concat. Beberapa parameter penting dalam menggunakan fungsi concat yaitu axis, keys, dan ignore_index. Ketika mengkombinasikan dataframe kita perlu mendefinisikan axis seperti axis=0 ketika akan mengkombinasikan baris data, dan axis=1 untuk mengkombinasikan kolom data.  

Baca juga : 3 Metode Numpy Array Python Sebagai Dasar Proses Manipulasi Data

4. Yuk Mulai Belajar Data Wrangling Dengan Python Bersama DQLab Sekarang!

Tidak memiliki background IT? Jangan khawatir, kamu tetap bisa menguasai Ilmu Data Science untuk siap berkarir di revolusi industri 4.0. Bangun proyek dan portofolio datamu bersama DQLab untuk mulai berkarir di industri data yang sebenarnya! Sign up sekarang untuk #MulaiBelajarData di DQLab!


Penulis : Dita Kurniasari

Editor : Annissa Widya


Mulai Karier
sebagai Praktisi
Data Bersama
DQLab

Daftar sekarang dan ambil langkah
pertamamu untuk mengenal
Data Science.

Buat Akun


Atau

Sudah punya akun? Login