Kenali Library Pandas dalam Python Bersama DQLab, Yuk!
Python dikenal sebagai salah satu bahasa pemrograman yang bersifat general purpose programming, sehingga Python bisa mengerjakan banyak pekerjaan, mulai dari manipulasi dan cleansing data, analisis data, hingga penggunaan Machine Learning dan Deep Learning. Tidak heran meskipun telah dirilis sejak tahun 1991, hingga hari ini Python masih menjadi salah satu bahasa pemrograman para praktisi data.
Tentunya untuk bisa mengerjakan banyak pekerjaan, Python juga memiliki banyak library yang bisa mendukung pekerjaan-pekerjaan tersebut. Diantara banyaknya library yang dimiliki oleh Python, Pandas merupakan salah satu library yang paling dasar dan paling sering digunakan.
Bahkan Pandas dan data Science memiliki hubungan yang cukup erat. Hal ini karena Pandas dapat digunakan secara bersamaan dengan library lainnya yang berhubungan erat dengan Data Science, seperti NumPy, SciPy, Matplotlib, Scikit Learn, dan masih banyak lagi.
Dalam artikel ini, kita akan membahas mengenai Pandas secara mendalam. Penasaran dengan artikelnya? Yuk, simak pembahasannya!
1. Kelebihan Pandas
Pandas bisa dikatakan sebagai salah satu library utama yang digunakan oleh praktisi data untuk memproses datanya. Hal ini tentu saja karena pandas memiliki beberapa kelebihan, diantaranya adalah:
Proses manipulasi dan analisis data dapat dilakukan dengan cepat dan efisien.
Dapat mengatasi data yang berasal dari objek file yang berbeda, karena dapat dimuat secara bersamaan.
Penanganan data yang hilang dengan mudah (diwakili sebagai NaN) dalam data floating point maupun non-floating point.
Perubahan ukuran data dengan mudah, dimana kolom dapat dimasukkan dan dihapus dari Data Frame dan objek dimensi yang lebih tinggi.
Dapat digunakan untuk melakukan join dan merge dataset.
Mampu untuk melakukan reshaping dan pivoting dataset
Menyediakan fungsionalitas time series.
Grup yang kuat berdasarkan fungsionalitas untuk melakukan operasi split-apply-combine pada kumpulan data..
Dapat memuat data yang berasal dari objek file yang berbeda.
Penanganan data yang hilang dengan mudah (diwakili sebagai NaN) dalam data floating point maupun non-floating point.
Perubahan ukuran data dengan mudah, dimana kolom dapat dimasukkan dan dihapus dari Data Frame dan objek dimensi yang lebih tinggi.
Dapat digunakan untuk melakukan join dan merge dataset.
Mampu untuk melakukan reshaping dan pivoting dataset
Menyediakan fungsionalitas time series.
Grup yang kuat berdasarkan fungsionalitas untuk melakukan operasi split-apply-combine pada kumpulan data.
Baca juga: Belajar Python List, Tuples, Set, dan Dictionary
2. Cara untuk menggunakan Pandas
Untuk menggunakan library Pandas, kita harus memastikan apakah library tersebut telah terinstall di komputer yang kita gunakan atau belum. Karena jika belum terinstall, kita tidak akan bisa memanggil library tersebut yang akan berdampak pada tidak bisa digunakannya library Pandas ini.
Jika belum terinstall, maka kita bisa mengetik perintah cmd di kotak pencarian dan cari folder menggunakan perintah cd tempat file python-pip telah diinstal. Setelah menemukannya, ketik perintah:
pip install pandas
Jika sudah berhasil terinstall dan ditempatkan dalam folder Python, maka kita bisa mencoba untuk memanggil library ini. Setiap library yang ingin digunakan harus dipanggil terlebih dahulu. Berikut perintah yang bisa digunakan untuk memanggil library Pandas:
import pandas as pd
3. Modul Data Manipulation with Pandas - Part 1
DQLab juga menyediakan modul yang berhubungan dengan Pandas untuk memanipulasi data. Modul ini akan sangat cocok bagi kalian yang tidak pernah menggunakan Pandas sama sekali karena isi dari modul ini sangatlah fundamental dan akan terus digunakan.
Modul ini terdiri dari 5 bab, dimana pada bab pertama akan berisi perkenalan Pandas yang bisa digunakan untuk membuat series dan dataframe. Di bab kedua, kita akan belajar untuk membaca dan menyimpan dataset ke beberapa tipe file dengan memanfaatkan Pandas.
Bab ketiga, Sahabat DQ akan belajar tentang indexing, slicing, serta transforming. Di bab keempat, kita akan belajar mengatasi missing value. Baru lah di bab terakhir, akan ada mini project yang digunakan untuk mengukur seberapa jauh hasil belajar yang telah dilakukan.
4. Modul Data Manipulation with Pandas - Part 2
Setelah selesai dengan modul Data Manipulation with Pandas - Part 1, DQLab kembali memberikan modul lanjutan untuk kamu yang tertarik mempelajari Pandas. Modul Data Manipulation with Pandas - Part 2 juga terdiri dari 5 bab, dimana pada bab pertama akan langsung membahas cara menggabungkan dua atau lebih series/dataframe.
Di bab kedua, kita akan belajar tentang Pivot, Melt, Stack dan Unstack untuk memformat ulang dataset yang digunakan. Bab ketiga kita akan mempelajari Aggregation & Group By. Selanjutnya di bab keempat akan dibahas tentang Time Series dengan Menggunakan Pandas.
Sama seperti modul sebelumnya, di bab terakhir juga berisi mini project yang bisa digunakan untuk mengukur kemampuanmu.
Baca juga: Belajar Python: Mengenal Array pada Bahasa Pemrograman Python
Selain free modul yang disediakan oleh DQLab, Sahabat DQ juga bisa mempelajari coding Python yang lebih mendalam dan detail dengan mengakses modul Premium yang tersedia di DQLab. Ada banyak sekali pembahasan yang dituang dalam berbagai modul dengan menggunakan bahasa pemrograman Python.
Tidak hanya itu, begitu Sahabat DQ berlangganan modul premium, maka kalian juga bisa menikmati modul pembelajaran dengan menggunakan bahasa pemrograman lainnya, seperti R dan SQL.
Yuk, tunggu apa lagi? Buruan sign up di DQLab!
Penulis : Gifa Delyani Nursyafitri