Visualisasi Distribusi Peluang

Saat mendengar istilah peluang (Eng: Probability) mungkin bagi beberapa orang akan terbayang hal yang berbeda, bagi kalian yang pernah mengambil mata kuliah statistika dasar maka konsep ini seharusnya bukan hal yang asing lagi. Pada dasarnya peluang adalah kemungkinan sebuah kejadian terjadi, dapat dihitung dengan rasio sebuah kejadian terhadap seluruh kemungkinan kejadian.

Untuk memvisualisasikan munculnya semua kombinasi kejadian terhadap semesta kejadian kita memerlukan sebuah teknik visualisasi yang mudah untuk dimengerti. Pernah lihat grafik seperti ‘lonceng’ seperti ini?

student_t_density_plot_1

Grafik ini adalah grafik dari Probability Density Function (PDF). Grafik PDF ini mengikuti sifat dari PDF yakni antara lain:

  • Karena random variabel yang digunakan sifatnya kontinu maka grafik PDF yang ada juga merupakan kontinu sepanjang random variabel yang ada
  • Area yang berada di bawah kurva memiliki nilai maksimal 1
  • Jika kita memiliki 2 titik (a, b) dimana a<b, maka peluang untuk kejadian tersebut adalah luasan daerah dibawah kurva antara a dan b
  • Peluang P(X=a)=0, artinya peluang satu titik (contoh a) adalah 0 (nol).

Bagaimana membaca grafik PDF ini? Kita bisa ambil contoh dengan grafik dibawah ini. Pada grafik diatas menggambarkan PDF dari cacat produksi lampu. Sigma (σ) disini adalah nilai yang didapat dari  tingkat kecacatan produk yang dihasilkan dalam sebuah proses produksi. Untuk lebih jelas dapat dilihat tabel berikut:

six_sigma_normal_distribution_2

six_sigma_level_yield_table

Misalkan kita punya pertanyaan berapa peluang cacat produksi lampu tersebut lebih besar dari 690.000 ppm (part per million), maka kita mendapatkan sigma level nya adalah 1, dengan mengambil seluruh area dibawah kurva (dari -1σ sampai 1σ) dimana yield (success) 30.85% dan tingkat kecacatan 69.15%.

Dengan adanya penjelasan visualisasi fungsi peluang ini harapannya kita dapat mengaplikasikan konsep peluang kedalam aktifitas sehari-hari. Jika perusahaan anda mempunyai toleransi kecacatan produk sampai hanya 1 sigma, artinya anda mentolerir hampir 70% produk anda terbuang percuma. Namun jika anda ingin untung tentunya anda akan mengontrol proses produksi anda seefisien dan seefektif mungkin. Dengan menetapkan standar Qulaty Control (QC) yang baik, maka anda akan memperkecil kerugian dari terbuangnya bahan baku dari produk yang cacat.

Aplikasi penggunaan PDF ini sangat banyak, jika ada yang ingin share lebih banyak silahkan masukkan ke kolom komentar. 🙂

 

Advertisements

Market Basket Analysis

3648337-collection-of-shopping-carts-full-of-shopping-bags-and-a-sale-label-concept-of-discount-vector

Saya sering berbelanja bersama dengan istri dan anak saya, pada saat berbelanja kebutuhan anak saya utamanya popok dan susu, saya sering menemukan berbagai promo yang cukup menarik terutama di mata istri saya. Beli popok merk ini dapatkan harga spesial untuk tisu basah, wew… itu mata istri saya seperti mengeluarkan sinar laser dan secepat kilat otaknya berhitung berapa yang harus dibayar jika saya membeli popok sekian dan tisu basah sekian. Padahal dia sangat benci matematika sejak lahir, namun kalau masalah uang belanja ini hitungan rumit setara aljabar matriks ini selesai dalam hitungan detik..haha…

Mari kita tinggalkan istri saya yang sedang sibuk berhitung kebutuhan popok. Hal yang ingin saya tunjukkan adalah bagaimana caranya pemilik toko membuat penjualan dengan sistem paket seperti itu, pengalaman saya sebagai shopper di warung kelontong dekat rumah sejak usia saya 7 tahun tidak sekalipun ada penawaran atau bundling barang seperti tadi, mungkin saat saya beli minyak goreng curah siapa tahu ada penawaran ikan asin setengah harga… who knows…

Akhirnya semua misteri tersebut terjawab setelah saya meranatau ke barat (baca jawa barat) untuk mencari kitab suci statistika. Ternyata si toko ini mencatat setiap transaksi yang dilakukan oleh pembelinya, jadi selain data belanjaan kalian ada di dalam struk belanjaan, data yang sama disimpan dalam sebuah database. Data inilah yang kemudian diolah dan dianalisa untuk menghasilkann sebuah strategi pemasaran yang sering kali terlihat seperti membaca pikiran terutama para ibu-ibu yang hobi belanja (kadang2 bapak2 juga.. :P).

Di dunia praktisi data, teknik ini di namakan market basket analysis, sesuai dengan barang untuk menaruh belanjaan=keranjang=basket (english). Kalau bahasa Indonesianya sih analisa keranjang belanjaan di pasar, analisa ini dapat menghasilkan informasi mengenai produk-produk yang sering dibeli secara bersamaan oleh pelanggan. Dengan informasi ini lah pemilik toko seakan-akan mampu untuk membaca kenginan orang bahkan bisa mengaarahkan orang-orang untuk membeli barang-barang yang sebenarnya tidak ada di dalam daftar belanjaan mereka.

Thats the power of data, dengan menggunakan analisa yang benar kita dapat menemukan pola-pola yang tak terlihat dan menjadikannya sebagai senjata ampuh untuk meningkatkan bisnis kita.

Jika anda mendapatkan manfaat dr tulisan tersebut please share, untuk tulisan-tulisan saya yang lain dapat dilihat pada blog post di bawah ini.

Memahami korelasi dan kovarian bagi orang awam (kayak saya…)

Entah mengapa beberapa hal-hal yang saya pelajari selama hampir 4 tahun di dept statistika IPB baru saya pahami dengan cukup jelas setelah masuk dunia kerja. Mungkin penjelasan dosennya yg terlalu teknis atau saya nya yang masih bebal otaknya. Tapi ya sudahlah…

Salah satu hal yang baru saja saya pahami adalah konsep kovarian dan korelasi, padahal kedua konsep ini berulang kali digunakan pada semua mata kuliah statistika. Nah mari simak tulisan berikut, mudah-mudahan tidak membuat anda semakin bingung.. 😀

Korelasi dan kovarian banyak kita temui saat kita melakukan analisa regresi atau rancangan percobaan. Well, emang kedua analisa ini yang paling terkenal dan sering digunakan di oleh praktisi seperti saya.

By definition korelasi adalah adalah sebuah istilah yang menjelaskan kekuatan hubungan antara dua random variabel secara linear. Sedangkan kovarian adalah istilah yang menunjukkan seberapa besar perubahan dari dua random variabel secara bersama-sama. Nah loh, kok definisinya sama saja kayaknya?? ya emang mirip, hal ini disebabkan kedua istilah ini pada dasarnya adalah pembentuk dari istilah lainnya.

Coba kita lihat formula kovarian:

4f19531cf3f29392d6467830ce84df79

E(X) itu adalah nilai harapan atau expected value dari X, liat penjelasannya di buku masing-masing klo belum ngerti. Bentuk lain dari formula kovarian adalah sebagai berikut:

02edd85c292e8e5f8155f2d41dc62cb0

Liat baris paling bawah, ternyata kovarian itu adalah nilai harapan dari random variabel XY dikurangi perkalian dari nilai harapan X dan nilai harapan Y. Nah, disini sebagai catatan bahwa variabel X dan Y satuannya bisa saja berbeda satu sama lain, bener gak? jadi saat kita melakukan operasi matematika antara dua variabel ini semata-mata mengukur perubahan X dan Y secara bersama-sama. Apakah saat X nilainya besar berkoresponden dengan nilai Y yang besar atau sebaliknya.

Jadiiii… semakin besar (–>+ (positif)) nilai kovariannya menunjukkan bahwa nilai X yang besar berkoresponden dengan nilai-nilai Y yang besar juga. Sebaliknya jika nilainya semakin keciiil kearah negatif (- <—) maka nilai X yang besar berkoresponden dengan nilai Y yang kecil.

Berapa batas nilai kovarian?? Ya tidak ada jawabannya, itu tergantung dari nilai-nilai X dan Y. Gituuu… makanya nilai kovarian ini susah banget di interpretasikan.

Ok, cukup segitu untuk kovarian. Kita lanjutin dengan korelasi, kita tengok formula korelasi dibawah ini:

076d3820a46afe55ee680f3c85e34c76

Loh, kok ada cov (X,Y) sih?? Kayaknya pernah lihat rumus ini sebelumnya… bener banget, ini adalah kovarian.. cov(X,Y) adalah kovarian antara X dan Y. Jadiii… korelasi itu adalah bentuk normalisasi dari kovarian, jika kovarian gak punya batas maksimal dan minimal, korelasi punya batas yang membantu kita untuk membuat derajat hubungan antara satu variabel dengan variabel yang lain.

Batas dari korelasi adalah dari -1 sampai +1. Dengan membagi kovarian dengan perkalian dari variance X dan variance Y, kita melakukan standarisasi/ normalisasi derajat hubungan variabel X dan Y. Nah disini satuan dari masing-masing variabel jadi hilang. Mungkin teman-teman saya waktu kuliah udah lebih duluan ngerti tentang konsep ini dari pada saya, tapi lebih baik terlambat paham dari pada sok tau and gak pernah cari tahu… hehe

Tulisan ini terinspirasi dari status facebook prof Khairil pagi ini yang tiba-tiba kembali membuka luka lama (lhooo) salah satu konsep yang menurut saya paling penting di statistika. I hope you do find this explanation good enough as well as I did.

#There is no statitsics without variance..prok..prok..prok..