Membangun Portofolio Data Analyst dengan Library Python
Portofolio Data Analyst adalah salah satu media yang kita gunakan untuk menunjukkan karya dan project yang sudah kita kerjakan. Portofolio juga bisa digunakan sebagai nilai tambah untuk melamar suatu pekerjaan di bidang data. Saat ini portofolio bisa di-publish di platform apapun khususnya platform elektronik yang mudah diakses oleh siapapun. Project-project yang akan diunggah pun bisa menyangkut apapun. Kita bisa mengangkat masalah yang ada di sekitar kita, mencari data di platform open source, bahkan mengikuti bootcamp dan menyelesaikan project atau challengenya.
Salah satu cara yang bisa kalian lakukan untuk bisa mendapatkan portofolio Data Analyst yaitu bergabung di DQLab. DQLab menyediakan banyak modul-modul yang berkaitan dengan real case industry sehingga dapat digunakan sebagai latihan untuk kamu mulai berkarir di posisi data analyst. Sebelumnya kamu mulai belajar untuk menyelesaikan modul-modul yang ada di DQLab.
Kalian akan mendapatkan sertifikat di akhir pembelajaran. Nantinya sertifikat ini bisa kamu gunakan sebagai bukti kalau kamu pernah mengikuti pelatihan ilmu Data Science. Itu membuktikan bahwa setidaknya ada beberapa ilmu yang kamu upgrade di diri kamu.
Pada artikel kali ini kita akan membahas bocoran membangun portofolio untuk Data Analyst dengan memanfaatkan fitur library yang dimiliki oleh bahasa pemrograman Python. Dimana library-library ini akan dipelajari di modul-modul yang disediakan di DQLab. Penasaran bagaimana cara membuat portofolio dengan modul ini? Yuk simak artikel ini hingga akhir!
1. Library NumPy
Library yang pertama ini merupakan singkatan dari Numerical Python. NumPy merupakan salah satu library terpenting dalam bahasa pemrograman Python. Fungsi dari modul ini untuk membantu para Data Scientist menangani permasalahan angka-angka dengan manipulasi data pada Python.
Beberapa manipulasi NumPy Array dasar adalah atribut array, pengindeksan array, pembentukan baris, dan penggabungan-pemisahan array. Berfokus pada Scientific Computing, NumPy memiliki kemampuan dalam membentuk objek N-dimensional array yang mirip dengan MATLAB. NumPy memudahkan penggunanya dalam operasi Aljabar Linear seperti vektor dan matriks.
Langkah pertama saat ingin menggunakan library NumPy adalah melakukan import dengan menggunakan coding library "numpy as np". Penggunaan as disini, artinya kita menggantikan pemanggilan numpy dengan prefix np untuk proses berikutnya.
Berikut merupakan contoh penggunaan library NumPy pada operasi aritmatika:
Baca juga : Kenali Perbedaan Data Scientist, Data Analyst dan Data Engineer
2. Library Pandas
Pandas adalah library kedua yang wajib dipelajari pemula dalam belajar Python. Dengan berdasarkan sistem dataframe, modul ini dapat memuat sebuah file ke dalam tabel virtual menyerupai spreadsheet. Pandas juga berfungsi mengolah suatu data seperti teknik join, distinct, group by, agregasi, dan teknik lainnya seperti pada SQL. Bedanya, ini dilakukan pada tabel. Kelebihan dari library ini juga dapat membaca file dari berbagai format seperti .txt, .csv, dan .tsv.
Pada dasarnya ada tiga jenis struktur data di library Pandas ini, yaitu Series (satu dimensi dan merupakan array homogen), DataFrame (dua dimensi dengan kolom yang bersifat heterogen), serta Panel (tiga dimensi, array size mutable). Untuk menggunakan library ini, kita perlu mengimport nya terlebih dahulu. Biasanya library Pandas disingkat dengan "pd".
Contoh penggunaan library Pandas adalah seperti berikut,
3. Library Scikit-Learn
Library Scikit-Learn atau disingkat dengan Sklearn adalah library Python yang khusus untuk Machine Learning. Sklearn menyediakan berbagai fungsi yang banyak digunakan algoritma Supervised Learning dan Unsupervised Learning. Adapun fungsionalitas yang tersedia di Sklearn meliputi Regresi, Klasifikasi, Klasterisasi, model selection dan evaluasi, preprocessing termasuk mix-max normalization, visualization, dan data transformations. Berikut ini contoh bagaimana cara mengakses library Sklearn dalam pengklasifikasian dengan algoritma Naive Bayes:
from sklearn.naive_bayes import MultinomialNB
Dalam contoh diatas kita mengimplementasikan MultinomialNB algoritma Naive Bayes terhadap data yang didistribusikan secara multinomial. Sekaligus merupakan Naive Bayes klasik yang digunakan dalam klasifikasi teks. Menjadi salah satu library Python yang berisi fitur-fitur lengkap, tak heran jika Scikit-Learn menjadi library Python yang paling populer untuk membuat pemodelan Machine Learning, pengolahan data numerik, vektorisasi, dan sebagainya.
4. Library Matplotlib
Matplotlib juga termasuk salah satu library yang umum digunakan untuk menyelesaikan masalah Data Science. Library ini juga merupakan library yang bersifat open source dan berada di bawah lisensi BSD. Matplotlib berfungsi untuk membantu dalam menampilkan hasil analisis berupa grafik berwarna dengan lebih rapi dan menarik.
Berbicara tentang Data Science tentu tidak akan jauh-jauh dari analisis data dan visualisasi. Jika analisis data telah dibantu menggunakan Pandas dan Scikit-learn, maka visualisasinya seperti grafik, chart, histogram dan sejenisnya bisa kamu dapatkan dari library ini. Untuk mulai menggunakan library ini, jangan lupa import terlebih dahulu.
Baca juga : Data Analyst vs Data Scientist, Yuk Kenali Perbedaannya
Selain 4 library di atas, masih banyak library lain yang bisa kita gunakan untuk membangun portofolio. Tidak hanya Python, kita juga bisa mengembangkan project lain menggunakan bahasa R, SQL, bahkan Excel. Bagaimana caranya?
Yuk sign up di DQLab.id atau Sahabat DQ bisa klik button di bawah ini akses modul gratis "Introduce to Data Science" menggunakan R dan Python.
Selain itu, kita juga bisa mengakses e-book gratis sebagai sumber informasi tambahan yang kita butuhkan untuk membangun portofolio data. Selamat berjuang calon Data Analyst!