3 Trik Pandas Python yang Akan Memudahkan Pekerjaanmu Sebagai Data Scientist
Sebagai Data Scientist, pekerjaan sehari-hari kita terdiri dari menarik data, memahami data, membersihkan data, mengubah data, dan membuat fitur atau variabel baru. Apabila kamu perhatikan, tidak disertakan pembuatan model pembelajaran mesin barusan, kenapa? Karena membuat model akan menjadi hal terakhir yang kita lakukan sebagai Data Scientist, dan itu belum tentu pekerjaan yang kita lakukan sehari-hari. Membersihkan data, bagaimanapun, adalah pekerjaan sehari-hari.
Untuk alasan di atas, pada artikel kali ini DQLab ingin menyajikan kepada sahabat data sekalian tentang tiga trik cantik dari Pandas untuk membuat data yang kita miliki bekerja sedikit lebih mudah. Mengapa harus trik Pandas? Sebab, sebagaimana yang sudah beberapa kali dibahas pada artikel DQLab sebelumnya, salah satu Library yang sangat kuat untuk menuntaskan pekerjaan Data Cleaning adalah Pandas. Penasaran apa saja ke-3 trik tersebut? Mari kita kupas satu persatu!
1. Menggunakan Query Untuk Pemilihan Data
Pemilihan data adalah aktivitas paling penting yang akan kita lakukan sebagai Data Scientist. Namun pemilihan data atau Data Selection adalah salah satu hal yang paling merepotkan untuk dilakukan, terutama bila dilakukan berulang kali. Perhatikan contoh berikut!
Di atas adalah contoh data yang akan kita gunakan. Katakanlah semisal kita ingin memilih baris yang memiliki mpg kurang dari 11 atau tenaga kuda kurang dari 50 dan model_year sama dengan 73. Artinya kita perlu menulis kode seperti di bawah ini.
Ini adalah cara yang biasa dilakukan untuk memilih data, tetapi terkadang merepotkan karena kondisinya yang bertele-tele. Dalam kasus ini, kita bisa menggunakan metode query dari objek Pandas Data Frame. Jadi, apa yang dimaksud dengan metode query ini? Metode query adalah metode pemilihan dari Pandas Data Frame dengan kata yang lebih manusiawi. Mari saya tunjukkan contoh di bawah ini.
Hasilnya persis sama dengan metode seleksi biasa, bukan? Satu-satunya perbedaan adalah dengan kueri, kita memiliki kondisi yang tidak bertele-tele, dan kita menuliskannya dalam string di mana metode query menerima string kata-kata bahasa Inggris seperti pada contoh.
Baca Juga : Belajar Python : 3 Fungsi Pandas Python yang Jarang Diketahui
2. Menyembunyikan Indeks dan / atau Kolom yang Tidak Dibutuhkan
Akan ada saat di mana Anda ingin mempresentasikan Data Frame Anda, dan Anda tidak ingin konten mengganggu audiens (sering terjadi pada saya, terutama nilai indeks). Misalnya, saya ingin menunjukkan lima teratas dari kumpulan data mpg.
Hasil di atas menunjukkan kepada kita seluruh tabel, dengan indeks yang ada di tabel. Ada saatnya saya mempresentasikan tabel seperti diatas dan ditanya tentang nomor disamping tabel dan perlu waktu untuk menjelaskannya kepada semua orang. Hal ini tentunya membuang-buang waktu saja. Itulah mengapa kami dapat mencoba menyembunyikan indeks dengan kode berikut
3. Mengganti Nilai Dengan Replace, Mask dan Where
Saat kita bekerja dengan data, saya yakin ada saat di mana kita perlu mengganti beberapa nilai di kolom pada data yang kita miliki dengan nilai spesifik lainnya. Bisa sangat merepotkan jika kita melakukannya secara manual. Katakanlah dalam dataset mpg kita sebelumnya kita ingin mengganti semua nilai bilangan bulat silinder menjadi nilai string kata. Izinkan saya memberi Anda contoh cara menggantinya secara manual.
Dalam kasus yang paling sederhana, kita perlu menggunakan metode apply dari objek Pandas Data Frame, atau mungkin kita bisa melakukannya secara manual dengan menggunakan metode for loop. Dengan cara apa pun, akan merepotkan untuk melakukannya setiap kali kita perlu mengganti nilai.
Dalam kasus ini, kita bisa menggunakan metode replace dari objek Pandas Data Frame. Ini adalah metode yang secara khusus digunakan untuk membantu kita mengganti nilai-nilai tertentu di Data Frame. Perhatikan contoh di bawah ini.
Hasilnya sama, satu-satunya perbedaan adalah seberapa pendek garis yang kita gunakan untuk mengganti nilai. Dalam contoh saya di atas, saya menggunakan objek dictionary untuk menentukan kolom mana yang ingin saya ganti nilainya dan dictionary lain di dalam kamus untuk memilih nilai mana yang ingin saya ganti dan nilai pengganti. Dengan kata lain, ini bisa diringkas seperti {nama kolom: {nilai dalam kolom: nilai pengganti}}.
Baca Juga : Sudah Install Python? Kenali 3 Lingkungan Pengembangan Terpadu (IDE) Berikut Untuk Digunakan
4. Kenali Pandas dengan Mengakses Module GRATIS Python
Kamu ingin memperdalam bahasa pemrograman Python? yuk kamu bisa mulai dengan mengakses module gratis Introduction Data Science with Python bersama DQLab. Kamu bisa sign up di DQLab.id sekarang!
Penulis : Jihar Gifari
Editor : Annissa Widya Davita