Buat Akun DQLab & Akses Kelas Data Science Python, R, SQL, Excel GRATIS!

Penerapan Metode Machine Learning dalam Pendeteksian Plagiasi

Belajar Data Science di Rumah 12-September-2022
https://dqlab.id/files/dqlab/cache/6d37a6cbdb4499068b14106c3f48748a_x_Thumbnail800.jpg

Data science adalah sebuah proses untuk memahami masalah dan membuat solusi berbasis pada data. Salah satu solusi yang bisa dipecahkan terkait dengan permasalahan di bidang akademik dengan menggunakan data science adalah plagiasi pada karya ilmiah. Plagiasi selalu menjadi sorotan apalagi dalam ranah akademis. Sering ditemui banyak kasus-kasus terkait plagiasi yang dampaknya bukan main-main. Mulai dari penurunan kepercayaan diri hingga pencabutan gelar akademis. Plagiasi sama sekali tidak dibenarkan dalam dunia kepenulisan. Hal ini merupakan tindakan yang dilarang keras karena akan merugikan penulis aslinya dan meragukan dirimu sendiri apabila dilakukan menjadi sebuah kebiasaan. 


Di era digital ini pastinya kita sangat diuntungkan dengan banyaknya publikasi berbasis online. Salah satunya adalah jurnal online yang bisa diakses oleh semua kalangan. Jurnal sendiri merupakan bagian dari karya ilmiah dengan terbitan berseri yang ada di perpustakaan. Keuntungan dari adanya jurnal online adalah mudah didapatkan dimana saja, mudah dibaca dan diakses baik menggunakan smartphone maupun PC. Namun dampak negatif yang seringkali ditimbulkan adalah bisa saja karyanya dijiplak dan memicu adanya perilaku plagiat maupun plagiasi.


Salah satu cara yang bisa dilakukan untuk mengurangi plagiasi adalah dengan melakukan pencegahan dan pendeteksian dini. Banyak perangkat lunak yang didesain untuk mendeteksi plagiasi. Mulai dari Turnitin, Eve2, CopyCatchGold, WordCheck, Glatt, Moss dan JPlag. Dalam data science, banyak algoritma machine learning yang bisa dimanfaatkan untuk mendeteksi plagiasi. Tentunya setiap metode yang dipakai punya kelebihan dan kekurangan masing-masing. Kira-kira bagaimanakah penerapan dari metode machine learning dalam deteksi plagiasi? Mari kita cari tahu lebih lanjut melalui artikel berikut ini.


1. Mengenal Apa itu Plagiasi

Berdasarkan Kamus Besar Bahasa Indonesia, plagiat merupakan pengambilan karangan (pendapat dan sebagainya) orang lain dan menjadikannya seolah-olah karangan atau pendapatnya sendiri. Ditambahkan juga dalam Peraturan Menteri Pendidikan Republik Indonesia Nomor 17 Tahun 2010 bahwa plagiat adalah perbuatan secara sengaja atau tidak sengaja dalam memperoleh atau mencoba memperoleh kredit atau nilai untuk suatu karya ilmiah dengan mengutip sebagian atau seluruh karya dan atau karya ilmiah pihak lain yang diakui sebagai karya ilmiahnya tanpa menyatakan sumber secara tepat dan memadai. 

Jadi dapat kita simpulkan bahwa plagiarisme dan apapun bentuknya sama sekali tidak dibenarkan.


Baca juga : Data Science Adalah: Yuk Kenali Lebih Jauh Tentang Data Science!


2. Ruang Lingkup Plagiasi

Berdasarkan uraian definisi diatas maka kita bisa pecahkan ruang lingkup terjadinya plagiarisme. 

Dilansir dari Situs Perpustakaan Universitas Gadjah Mada, berikut adalah penjelasannya:

  • Mengutip kata-kata atau kalimat orang lain tanpa menggunakan tanda kutip dan tanpa menyebutkan identitas sumbernya.

  • Menggunakan gagasan, pandangan atau teori orang lain tanpa menyebutkan identitas sumbernya

  • Menggunakan fakta (data, informasi) milik orang lain tanpa menyebutkan identitas sumbernya.

  • Mengakui tulisan orang lain sebagai tulisan sendiri

  • Melakukan parafrase (mengubah kalimat orang lain ke dalam susunan kalimat sendiri tanpa mengubah idenya tanpa menyebutkan identitas sumbernya

  • Menyerahkan suatu karya ilmiah yang dihasilkan dan telah dipublikasikan oleh pihak lain seolah-olah sebagai karya sendiri.


3. Jenis-Jenis Plagiasi

Berdasarkan cara yang digunakan maka praktik plagiat dalam diklasifikasikan sebagai berikut:

  • Plagiarisme kata demi kata, dimana penulis menggunakan kata-kata penulis lain benar-benar sama persis tanpa menyebutkan sumbernya

  • Plagiarisme sumber, dimana penulis menggunakan gagasan orang lain tanpa memberikan pengakuan yang cukup alias tidak menyebutkan sumbernya secara jelas.

  • Plagiarisme kepengarangan, dimana penulis mengakui sebagai pengarang karya tulis karya orang lain

  • Self-Plagiarism. Dimana penulis melakukan publikasi satu artikel pada lebih dari satu redaksi publikasi. Kemudian mendaur ulang karya tulis/ karya ilmiah. Paling tidak ketika penulis melakukan ini yang perlu diperhatikan adalah ketika mengambil karya sendiri maka ciptaan karya baru yang dihasilkan harus memiliki perubahan yang berarti. Jadi, pembaca akan merasakan karya baru yang memang penulis tuangkan pada karya tulis menggunakan karya lama.

  • Disguised plagiarism, tergolong kedalam praktek menutupi bagian yang disalin, teridentifikasi ke dalam empat teknik, yaitu shake & paste, expansive plagiarism, contractive plagiarism, dan mosaic plagiarism. 

  • Technical disguise, teknik meringkas untuk menyembunyikan konten plagiat dari deteksi otomatis dengan memanfaatkan kelemahan dari metode analisis teks dasar, misal dengan mengganti huruf dengan simbol huruf asing. 

  • Undue paraphrasing, sengaja menuliskan ulang pemikiran asing dengan pemilihan kata dan gaya plagiator dengan menyembunyikan sumber asli. 

  • Translated plagiarism, mengkonversi konten dari satu bahasa ke bahasa lain. 

  • Idea plagiarism, menggunakan ide asing tanpa menyatakan sumber.


Baca juga : 3 Contoh Penerapan Data Science yang Sangat Berguna di Dunia Perindustrian


4. Metode Machine Learning dalam Deteksi Plagiasi

Dilansir dari Salmuasih dan Sunyoto (2013); Pratama dkk. (2019) bahwa dalam algoritma data science, banyak metode machine learning yang dipakai dalam melakukan deteksi plagiasi. 

Similarity

Konsep similarity yang dipakai dalam deteksi plagiasi dibedakan menjadi tiga jenis yaitu Distance-based similarity measure, feature-based similarity measure, dan probabilistic-based similarity measure. Berikut adalah masing-masing penjelasannya:

Distance-based similarity measure

Distance-based similarity measure mengukur tingkat kesamaan dua buah objek dari segi jarak geometris dari variabel-variabel yang tercakup di dalam kedua objek tersebut. Metode Distance-based similarity ini meliputi Minkowski Distance, Manhattan/City block distance, Euclidean distance, Jaccard Distance, Dice’s Coefficient, Cosine similarity, Levenshtein Distance, Hamming Distance, dan Soundex distance.

Feature-based similarity measure

Feature-based similarity measure melakukan penghitungan tingkat kemiripan dengan merepresentasikan objek ke dalam bentuk feature-feature yang ingin diperbandingkan. Feature-based similarity measure banyak digunakan dalam melakukan pengklasifikasian atau pattern maching untuk gambar dan teks.

Probabilistic-based similarity measure

Probabilistic-based similarity measure menghitung tingkat kemiripan dua objek dengan merepresentasikan dua set objek yang dibandingkan dalam bentuk probability. Kullback Leibler Distance dan Posterior Probability termasuk dalam metode ini.

Algoritma Rubin Karp

String matching atau pencocokan string adalah subjek yang penting dalam kaitannya dengan text-processing. Penggunaan string matching mencakup pencarian pola dalam DNA sequence, search engine internet, menemukan halaman web. yang relevan pada query, dapat pula dimanfaatkan untuk mendeteksi adanya plagiarisme karya tulis. Termasuk dalam algoritma string matching diantaranya algoritma Naive, algoritma Rabin Karp, algoritma Finite Automaton, dan algoritma Knuth Morris Pratt. Algoritma Rabin Karp ditemukan oleh Michael O. Rabin dan Richard M. Karp. Algoritma ini menggunakan metode hash dalam mencari suatu kata. Teori ini jarang digunakan untuk mencari kata tunggal, namun cukup penting dan sangat efektif bila digunakan untuk pencarian jamak.


Cosine Similarity

Cosine similarity yaitu metode perhitungan antara dua buah dokumen yang bertujuan untuk mengetahui tingkat kemiripan antar dokumen tersebut. Perhitungan metode cosine similarity didasarkan pada dua buah vektor yang memiliki kemiripan jumlah kata pada dua dokumen yang dibandingkan. Peneliti menggunakan metode Cosine Similarity karena memiliki nilai keakuratan lebih tinggi dibandingkan dengan metode Jaccard Similarity. Hal tersebut dikarenakan metode Cosine Similarity mempunyai konsep normalisasi panjang vektor data dengan membandingkan N-gram yang sejajar satu sama lain dari 2 pembanding.


Sahabat DQ ingin berkarir di bidang data science tapi, tidak memiliki background pendidikan yang linier dengan itu? Sudah mencoba belajar otodidak tapi malahan overdosis materi? Mengingat skill data science terbilang cukup banyak yang wajib dikuasai salah satunya adalah memahami algoritma data science nya hingga tahap penerapannya pada dataset. Yuk, coba free module Introduction to Data Science with R dan python dari DQLab sekarang dengan sign up pada form dibawah ini ya!


Penulis: Reyvan Maulid


Mulai Karier
sebagai Praktisi
Data Bersama
DQLab

Daftar sekarang dan ambil langkah
pertamamu untuk mengenal
Data Science.

Buat Akun


Atau

Sudah punya akun? Login