Eksplorasi Data dengan 4 Fungsi Analisis Statistik di R
Sebagai dasar awal melakukan analisis statistik, istilah mean, median, mode, dan range menggambarkan sifat-sifat distribusi statistik. Dalam statistik, distribusi adalah himpunan semua nilai yang mungkin untuk istilah yang mewakili peristiwa yang ditentukan. Nilai suatu suku, bila dinyatakan sebagai variabel, disebut variabel acak.
Ada dua jenis utama distribusi statistik. Tipe pertama berisi variabel acak diskrit. Ini berarti bahwa setiap suku memiliki nilai numerik yang tepat dan terisolasi. Jenis distribusi utama kedua berisi variabel acak kontinu. Variabel acak kontinu adalah variabel acak di mana data dapat mengambil banyak nilai tak terhingga. Ketika suatu suku dapat memperoleh nilai apa pun dalam interval atau rentang yang tidak terputus, itu disebut fungsi kepadatan probabilitas.
Profesional TI perlu memahami definisi mean, median, mode, dan jangkauan untuk merencanakan kapasitas dan menyeimbangkan beban, mengelola sistem, melakukan pemeliharaan, dan memecahkan masalah. Selanjutnya, pemahaman istilah statistik penting dalam bidang ilmu data yang berkembang.
Memahami definisi mean, median, mode, dan range penting bagi profesional TI dalam manajemen pusat data. Banyak tugas yang relevan mengharuskan administrator untuk menghitung rata-rata, median, mode atau rentang, atau sering beberapa kombinasi, untuk menunjukkan kuantitas, tren, atau penyimpangan yang signifikan secara statistik dari norma. Menemukan mean, median, modus dan range hanyalah permulaan. Administrator kemudian perlu menerapkan informasi ini untuk menyelidiki akar penyebab masalah, memperkirakan kebutuhan masa depan secara akurat atau menetapkan parameter kerja yang dapat diterima untuk sistem TI.
Saat Sahabat DQ bekerja dengan kumpulan data besar, akan berguna untuk mewakili seluruh kumpulan data dengan satu nilai yang menjelaskan nilai "menengah" atau "rata-rata" dari seluruh kumpulan. Dalam statistik, nilai tunggal itu disebut tendensi sentral dan mean, median dan modus adalah semua cara untuk menggambarkannya.
Untuk menemukan mean, jumlahkan nilai dalam kumpulan data, lalu bagi dengan jumlah nilai yang sahabat data tambahkan. Untuk menemukan median, buat daftar nilai kumpulan data dalam urutan numerik dan identifikasi nilai mana yang muncul di tengah daftar. Untuk menemukan mode, identifikasi nilai mana dalam kumpulan data yang paling sering muncul.
Rentang, yang merupakan perbedaan antara nilai terbesar dan terkecil dalam kumpulan data, menggambarkan seberapa baik tendensi sentral merepresentasikan data. Jika rentangnya besar, tendensi sentralnya tidak mewakili data seperti jika rentangnya kecil.
Yuk kita coba olah data dengan R Programming menggunakan fungsi statistik sederhana!
1. Mean atau Rataan
Mean merupakan salah satu ekspresi yang paling umum untuk mean dari distribusi statistik dengan variabel acak diskrit adalah rata-rata matematis dari semua istilah. Untuk menghitungnya, jumlahkan nilai semua suku, lalu bagi dengan jumlah suku. Mean dari distribusi statistik dengan variabel acak kontinu, juga disebut nilai yang diharapkan, diperoleh dengan mengintegrasikan produk variabel dengan probabilitasnya seperti yang didefinisikan oleh distribusi.
Baca juga : Pengolahan Data Statistik Parametrik dan Non-Parametrik
2. Median
Median dari suatu distribusi dengan variabel acak diskrit tergantung pada apakah jumlah suku dalam distribusi tersebut genap atau ganjil. Jika jumlah suku ganjil, maka median adalah nilai suku di tengah. Ini adalah nilai sedemikian rupa sehingga jumlah suku yang memiliki nilai lebih besar atau sama dengannya sama dengan jumlah suku yang memiliki nilai lebih kecil atau sama dengannya. Jika banyaknya suku genap, maka median adalah rata-rata dari dua suku di tengah, sehingga banyaknya suku yang bernilai lebih besar atau sama dengan sama dengan banyaknya suku yang bernilai lebih kecil atau sama dengan untuk itu.
3. Mode atau Modus
Modus suatu distribusi dengan peubah acak diskrit adalah nilai suku yang paling sering muncul. Tidak jarang sebuah distribusi dengan variabel acak diskrit memiliki lebih dari satu mode, terutama jika jumlah sukunya tidak banyak. Ini terjadi ketika dua atau lebih istilah muncul dengan frekuensi yang sama, dan lebih sering daripada yang lain.
Distribusi dengan dua mode disebut bimodal. Distribusi dengan tiga mode disebut trimodal. Modus distribusi dengan variabel acak kontinu adalah nilai maksimum fungsi. Seperti halnya distribusi diskrit, mungkin ada lebih dari satu mode.
4. Range atau Jangkauan
Jangkauan suatu distribusi dengan peubah acak diskrit adalah selisih antara nilai maksimum dan nilai minimum. Untuk distribusi dengan variabel acak kontinu, rentang adalah selisih antara dua titik ekstrim pada kurva distribusi, di mana nilai fungsi turun menjadi nol. Untuk setiap nilai di luar rentang distribusi, nilai fungsi sama dengan 0.
Baca juga : Yuk Pelajari Macam-Macam Metode Analisis Statistika
5. Belajar Data Otodidak untuk Mahir Statistik pada R bersama DQLab!
Tertarik belajar statistik lebih dalam pada bahasa pemrograman R? Bisa!
Caranya mudah, sign up sekarang di DQLab.id untuk nikmati pengalaman belajar yang praktis dan aplikatif. Keunggulannya pada Live Code Editor memudahkan Sahabat DQ untuk belajar data science tanpa ribet harus instalasi software tambahan!
Materi yang tersedia sangat terstruktur berdasarkan studi kasus industri nyata. Sudah siap belajar data science untuk perdalam statistikmu? Sign up sekarang untuk coba module gratisnya, atau klik button dibawah ya!