Implementasi Data Sekunder dengan Twitter Data Analytics
Perkembangan teknologi Web 2.0 menjadi titik awal bermunculannya jenis media sosial. Kemampuan kolaborasi, interaksi, komunikasi dua arah dan jejaring pertemanan dengan sesama pengguna media sosial serta kegiatan - kegiatan seperti, percakapan (chat), memberi komentar (comment/retweet) dan respon suka atau tidak suka terhadap sebuah posting, dll. menjadi salah satu penyebab lonjakan yang tinggi terhadap jumlah pengguna media sosial dan popularitas situs media sosial. Rilis hasil survei yang dilakukan oleh Pew Research Center dari tahun 2012 sampai tahun 2014 tentang jumlah pengguna media sosial, hasil tersebut menunjukkan bahwa media sosial yang paling yang paling populer digunakan oleh pengguna dengan umur diatas 18 tahun adalah Facebook (71%), Linkedin (28%), Pinterest (28%), Instagram (26%), dan Twitter (23%). Twitter merupakan salah satu media sosial yang populer digunakan. Dalam waktu yang tergolong singkat, Twitter sanggup memikat hati banyak pengguna internet. Saat ini, tercatat lebih dari 500 juta pengguna Twitter dari seluruh dunia, dan nama Indonesia masuk dalam peringkat kelima dengan jumlah user sebanyak 29 juta akun, sedangkan Amerika Serikat berada di peringkat pertama dengan jumlah pengguna mencapai 140 juta orang. Besarnya pertumbuhan pengguna twitter dari tahun ke tahun berdampak terhadap semakin banyaknya data yang dihasilkan, fenomena ini disebut dengan Big Data.
Fenomena Big Data yang dihasilkan oleh media sosial dapat berupa persepsi publik, perilaku sosial masyarakat, titik geospasial dari pengguna media sosial (location). Berbagai kejadian yang kita temui pada media sosial dapat dianalisis menggunakan Social Media Analytics. Gartner Research juga mendefinisikan Social Media Analytics merupakan proses pemantauan, analisis, mengukur dan memprediksi interaksi digital, relationships, topik, ide atau konten pada media sosial. Berdasarkan tweet yang dihasilkan setiap harinya oleh pengguna Twitter, dapat menjadi suatu sumber informasi sehingga dapat dilakukan proses Twitter Data Analytics. Shamanth Kumar, Fred Morstatter dan Huan Liu menyebutkan ada beberapa proses dalam melakukan Twitter Data Analytics yaitu Penarikan data Twitter (Crawling Twitter data), Penyimpanan data Twitter (Storing Twitter data), Analisis data Twitter (Analyzing Twitter data) dan Visualisasi data Twitter (Visualizing Twitter data). Mari kita cari tahu lebih dalam soal Twitter analytic. Pada artikel DQLab kali ini, kita akan membahas mengenai implementasi data sekunder dengan Twitter Data Analytic. Dengan harapan bisa menjadi tambahan insight dan rekomendasi bagi kalian calon praktisi data, peneliti maupun data enthusiast. Jangan lewatkan artikel berikut ini, pastikan simak baik-baik, stay tune and keep scrolling on this article guys!
1. Crawling Data
Proses penarikan (crawling) data Twitter dilakukan dengan memanfaatkan Application Programming Interface (API) yang telah disediakan oleh Twitter menghasilkan kumpulan data text berdasarkan update yang telah di unggah oleh pengguna Twitter. Selain itu proses penarikan ini juga menghasilkan data geospasial berupa titik koordinat yang bersumber dari lokasi pengguna Twitter pada saat melakukan proses check in location pada Twitter. Data vektor dan koordinat yang dihasilkan merupakan kebutuhan dari aplikasi yang dibangun dalam menentukan lokasi pengguna Twitter. Dari hasil data tersebut dapat dilihat sumber titik koordinat dari mana saja pengguna Twitter yang paling banyak membicarakan tentang fenomena atau peristiwa tersebut. Model data vektor menampilkan, menempatkan, dan menyimpan data spasial dengan menggunakan titik-titik, garis, atau poligon beserta atribut- atributnya. Bentuk- bentuk dasar representasi data spasial ini di dalam sistem model data vektor didefinisikan oleh sistem koordinat kartesian dua dimensi (x, y). Pada model data vektor terdapat tiga entitas yaitu entitas titik, entity garis, dan entity polygon.
Baca juga : Teknik Pengumpulan Data Sekunder, Apa Saja Sumber Data yang Bisa Digunakan?
2. Storing Data
Penyimpanan data merupakan tahap selanjutnya setelah melakukan proses penarikan data atau crawling data Twitter. Basis Data yang biasanya digunakan pada proses penyimpanan ini adalah MongoDB. Data yang berhasil disimpan kemudian dianalisis untuk mendapatkan data yang bersih yang bebas dari noise. Data yang telah bersih tersebut dapat dijadikan sebagai data untuk penelitian. Untuk mempermudah dalam melihat data yang telah dihasilkan sebagai informasi, maka data divisualisasikan ke dalam bentuk peta. Proses penyimpanan data harus dilakukan secara langsung atau direct storing. Hal ini dilakukan dikarenakan data yang ditarik merupakan real time data twitter. Sehingga diperlukan suatu database yang memungkinkan untuk menyimpan data secara langsung.
3. Analyzing Data
Analisis data merupakan tahap selanjutnya setelah selesai melakukan proses penyimpanan data atau storing data. Analisis data merupakan bagian penting, terutama dalam pengolahan data. Pengolahan data ini dilakukan agar data yang didapat tidak mengandung file kosong atau null, apabila terdapat file tersebut maka analisis data tidak mendapatkan hasil. Setelah data selesai dianalisis, selanjutnya dari hasil analisis tersebut bisa dilakukan tahapan visualisasi. Perangkat lunak yang digunakan pada tahapan analisis ini adalah textalytics untuk menganalisis data yang telah tersimpan ke dalam database. Textalytics berfungsi untuk menganalisis suatu data ke dalam beberapa bentuk kategori seperti text classification, sentiment analysis, language identification, user demographics, topic extraction. Dalam penelitian ini fungsi dari textalytics yang digunakan ialah language identification dan user demographics.
4. Visualizing Data
Visualisasi merupakan suatu cara untuk mengkonversi data ke dalam format visual atau tabel sehingga karakteristik dari data dan relasi di antara item data atau atribut dapat dianalisis atau dilaporkan. Visualisasi data merupakan salah satu dari teknik yang paling baik dan menarik di dalam hal mengeksplorasi data. Visualisasi juga dapat menggambarkan pola umum yang terjadi, trend yang sedang berkembang serta hal-hal yang tidak umum. Setelah proses analisis selesai maka tahapan selanjutnya adalah visualisasi data tersebut. Visualisasi data dimaksudkan agar data yang dihasilkan dari proses analisis terlihat lebih menarik serta dapat lebih mudah dipahami sebagai suatu informasi.
Baca juga : Metode Pengumpulan Data Sekunder, Bisa Menggunakan Apa Saja Sih?
5. Belajar Data Science Sampai Disalurkan Kerja? DQLab Tempatnya!
Data merupakan salah satu elemen pokok yang tidak dapat terpisahkan dari suatu penelitian. Sejalan dengan hal tersebut, penelitian membutuhkan data sebagai penguat untuk menjawab tujuan penelitian salah satunya dengan penggunaan data primer. Dengan adanya data kita dapat mampu menganalisis data dimanapun berada, kemampuan problem solving yang baik, dan skill di berbagai bidang ilmu lainnya. Salah satu penerapannya adalah data science yang terdiri dari bidang ilmu matematika, statistik, dan komputer. Dengan mempelajari Data Science, kamu akan terlatih dan terbiasa untuk menghasilkan informasi dari olahan data mentah dan insight yang valuable.
Jika kamu penasaran dengan data science dan ingin belajar data science secara langsung, caranya mudah banget. Kamu bisa loh untuk coba bikin akun gratisnya kesini di DQLab.id atau bisa klik button di bawah ini yap. Nikmati pengalaman belajar data science yang menarik bersama DQLab yang seru dan menyenangkan dengan live code editor. Tersedia berbagai macam modul-modul yang terupdate mulai dari free hingga platinum semua dapat diakses jika kamu ingin berlangganan buat akses seluruh modul lengkapnya. Kalian juga bisa mencoba studi kasus penerapan real case industry dan kamu juga diberikan kesempatan mendapatkan job connector dari perusahaan ternama. Ayo persiapkan dirimu untuk berkarir sebagai praktisi data yang kompeten!
Penulis: Reyvan Maulid