Cara Implementasi Teknik Analisis Data dengan Metode NLP
Sebelum lebih jauh membahas cara implementasi teknik analisis data sahabat DQ tahu ngga sih, apa itu analisis data? Analisis data adalah proses pengumpulan, pemodelan, dan menganalisis data untuk mengekstraksi wawasan yang mendukung pengambilan keputusan. Ada beberapa metode dan teknik untuk melakukan analisis tergantung pada industri dan tujuan analisis datanya. NLP (Natural Language Processing) adalah cabang dari bidang keilmuan Artificial Intelligence yang berhubungan dengan interaksi manusia dengan mesin. Sebagai contoh ketika sahabat DQ memesan makanan menggunakan aplikasi ojek online, sahabat DQ biasanya harus memilih titik peta sesuai dengan lokasi kamu. Nah, dengan bantuan NLP, pemilihan titik lokasi menjadi lebih sesuai dan tepat.
NLP menggunakan bahasa yang tidak terstruktur atau tidak bersifat tabular, yakni data teks.
Jadi, jika kamu memiliki kumpulan data berupa teks tapi bingung bagaimana cara implementasinya mengingat untuk mengolah data dengan machine learning saja biasanya dalam bentuk angka-angka. Jawabannya dari permasalahan tersebut adalah dengan menggunakan teknik analisis data dengan metode NLP. So, penasaran kan? Yuk, simak artikel ini sampai selesai. Jangan lupa siapkan camilan dan notebook kamu.
1. Tokenizing
Tokenizing atau tokenisasi adalah langkah pertama dalam analisis teks. Proses memecah paragraf teks menjadi potongan-potongan yang lebih kecil seperti kata-kata disebut tokenizing. Token adalah entitas tunggal yang membangun blok untuk kalimat atau paragraf. Sebagian proyek NLP (Natural Language Processing) menggunakan tahap tokenizing sebagai langkah pertama karena ini adalah dasar untuk mengembangkan atau membangun pemodelan dengan menggunakan algoritma machine learning yang paling baik dan membantu lebih memahami dataset teks yang kamu miliki.
Pada python sudah tersedia library NLP, kamu hanya perlu menginstalnya saja di environment kamu caranya adalah dengan cara dibawah ini
Jika proses sudah selesai kamu bisa melanjutkan untuk mengimport library nltk sebagai berikut:
Kemudian kamu bisa menginputkan sample paragraf apapun ke dalam sebuah variabel, dalam hal ini DQLab akan menginputkan paragraf tersebut ke dalam variabel teks sebagai berikut:
Selanjutnya kamu bisa melakukan tokenizing dengan memanggil variabel teks tadi disertai fungsi word_tokenize seperti pada gambar dibawah ini.
Baca Juga : Langkah-Langkah Menggunakan Teknik Analisis Data Kualitatif
2. Stopwords
Stopwords adalah kata-kata umum yang sering muncul dan tidak memberikan informasi penting yang biasanya tidak diacuhkan atau dibuang misalnya dalam membuat indeks atau daftar kata. Stopwords juga sering dianggap sebagai noise dalam teks. Teks mungkin berisi kata-kata seperti œdi, œke,yang, dan lain sebagainya. Di NLTK untuk menghapus stopwords, sahabat DQ perlu membuat list stopwords dan memfilter dari token kamu berdasarkan list tersebut seperti pada gambar dibawah ini.
Untuk teks bahasa indonesia kamu bisa menggunakan stopword sastrawi.
3. Stemming
Stemming adalah proses normalisasi linguistik yang mengurangi kata-kata dengan melibatkan pemotongan akhir atau awal kata yang diubah ke bentuk akarnya dengan tujuan menghilangkan imbuhan seperti œbi di awal kata œbicycle, œer di akhir kata œlighter. Algoritma yang paling umum untuk membendung bahasa inggris, dan salah satu yang telah berulang kali terbukti secara empiris sangat efektif adalah algoritma porter.
4. Lemmatization
Lemmatization mengurangi kata-kata ke kata dasar mereka, yang secara linguistik benar sehingga lebih mudah untuk dianalisis. Contoh dari œswim, œswimming,swims adalah semua bentuk dari kata œswim. Nah berarti semua kata tersebut adalah sama yaitu œswim.
Baca Juga : Metode Pengolahan Data: Ketahui Proses Pengolahan Data Dengan Metode Analisis Deskriptif
5. Upgrade Skill Analisis Data di Tahun 2022 Bersama DQLab, Yuk!
Gabung dengan DQLab adalah solusi buat kamu yang ingin self learning tapi takut overdosis informasi. Kamu tidak akan bingung dengan urusan waktu, karena dengan kursus data science online waktu belajar kamu bisa lebih fleksibel dan dapat diakses dimanapun dan kapanpun.
Kamu bisa belajar materi dasar hingga kompleks meskipun kamu ngga punya basic IT, lho. Disini kamu akan belajar skill data analyst mulai dari tools-tools pengolahan data dasar hingga advanced seperti python, sql, R, bahkan excel juga ada, lho.
Dengan bermodalkan koneksi internet kamu bisa belajar secara fleksibel dan dapat diakses dimanapun dan kapanpun. Materinya pun disusun oleh mentor-mentor yang kompeten di bidangnya dari perusahaan unicorn dan startup.
Jadi, jangan khawatir, kamu bisa mulai kursus data science online bersama DQLab! Sign up sekarang di DQLab.id atau klik button dibawah ini untuk nikmati pengalaman belajar yang seru dan menyenangkan!
Penulis: Rian Tineges
Editor: Annissa Widya Davita