Korelasi tidak bermakna sebab-akibat

Anda mendatangi sebuah seminar, dimana anda disajikan berbagai macam informasi. Lalu anda terpaku pada sebuah grafik yang menurut anda cukup menarik. Coba anda lihat sendiri apakah grafik dibawah ini cukup menarik..

aaeaaqaaaaaaaanoaaaajdu3njk4mjvjltbmogqtndmwmi04mgjjltzkytaxnja0mjhkmw

Wow…ini sangat menarik. Apa hal pertama yang anda lihat? Lihatlah garis biru dan merah yang berdampingan dan saling mengikuti satu sama lain. Apakah anda sejenak berpikir kedua hal tersebut saling berpengaruh satu sama lain? Tunggu dulu! Coba anda perhatikan keterangan grafik diatas. Beneran nih??? Penjualan es krim dan kebakaran hutan?? Logika saya tiba-tiba macet dan berpikir ulang mengenai sebab-akibat, bagaimana mungkin es krim menyebabkan kebakaran hutan??.

Percaya atau tidak kita sering melakukan ini dalam kehidupan sehari-hari, kejadian banjir jakarta disebabkan oleh hujan di bogor, jalanan macet disebabkan oleh banyak angkot, hidup saya menderita karena jokowi jadi presiden. Cukup familiar?? Contoh-contoh diatas memang menggelitik rasa penasaran kita mengenai apa penyebab suatu hal terjadi. Logika jika ini terjadi maka itu terjadi adalah logika sebab akibat. Namun kita harus sangat berhati-hati untuk menghubungkan dua kejadian yang seakan-akan berhubungan namun kenyataannya keduanya hanya semata-mata akibat dari suatu SEBAB yang sama-sama tidak atau belum kita ketahui.

Kembali ke ES KRIM dan KEBAKARAN HUTAN, dengan menggunakan logika sederhana kita mengetahui bahwa keduanya tidak berhubungan, namun ada hal yang menghubungkannya. Kita bisa menggambarkannya sebagai berikut:

Kebakaran hutan—>Suhu tinggi–>Musim Kemarau–>Suhu tinggi—> Makan Es krim–>Penjualan es krim meningkat

Terlihat lebih masuk akal kan?

Kenyataannya memang antara penjualan es krim dan kebakaran hutan mempunyai korelasi yang sangat tinggi let’s say 90% namun demikian tidak serta merta kita bisa menyimpulkan  or berspekulasi bahwa penjualan es krim yang menyebabkan kebakaran hutan atau kebakaran hutan yang membuat penjualan es krim meningkat.

Lalu bagaimana membuktikan bahwa dua variabel punya hubungan sebab akibat? Nah disinilah anda membutuhkan pemodelan regresi dan rancangan percobaan.  Kemampuan metode ini dalam memisahkan faktor-faktor yang benar-benar berpengaruh (secara signifikan) terhadap faktor-faktor lain (termasuk didalamnya adalah error-galat) memberikan kita bantuan apakah sebuah faktor benar-benar memiliki hubungan berpengaruh atau hanya sekedar kebetulan semata.

Sepertinya berikutnya bagus juga untuk membedah rumus korelasi dan rumus anova/regresi untuk menemukan bagaimana metode ini dapat memisahkan faktor kebetulan ini. 🙂

Coba kita lihat rumus korelasi berikut:

korelasi-5

Jika kita bedah rumus korelasi diatas kita hanya melihat jika ada dua variabel X dan Y maka besarnya r hanya ditentukan seberapa besar perubahan X dan Y bergerak pada suatu rentang tertentu. Disini kita hanya dapat menyimpulkan bahwa X dan Y berubah searah (+) atau berlawanan (-) dan jika jarak antara data X dan Y cukup dekat maka korelasinya kuat sedangkan jika jarak antara X dan Y berjauhan maka korelasinya lemah. Jika pertanyaan kita adalah jika X bergerak satu satuan, berapa satuankah Y bergerak? Karena jika pergerakan X tidak membuat Y bergerak sama sekali artinya X tidak mempengaruhi Y.  Dengan perhitungan korelasi, kita tidak mendapatkan informasi pergerakan Y saat X bergerak. Jadi jelas sudah konsep korelasi tidak bisa menjawab kausalitas (Sebab- akibat). Sudah cukup jelas??

Like & share –>jika artikelnya cukup berguna

Komentar–> jika ada yang kurang jelas 🙂

 

Kotak ajaib bernama SPSS

Mas datanya mau diolah pake analisa apa? Pake spss aja mas… #zzz buat anak kuliahan yang sedang mengolah data skripsi nya..  Software yang satu ini memang paling ngetop dan sakti banget. Tinggal klak klik dikit trus run aja udah keluar outputnya…  Canggih banget..  Terus langsung pake langkah sakti ambil alpha 5% atau tinggal liat aja bintang2 nya… Analisanya pokoknya ikut skripsi yang lama aja… 

Pola ini adalah pola yg paling sering saya lihat saat ada klien baru atau teman yg minta bantuan utk menganalisis datanya. Seakan2 sebuah software dapat menjadi kotak ajaib yang mengerti kemauan sang mahasiswa. Jebakan inilah yg nantinya akan membuat skripsi anda beranak pinak di dalam folder komputer anda.  Mungkin namanya agak beda2 tapi yg paling umum skripsi_print.doc skripsi_revisi.doc skripsi_printlagi.doc atau skripsi_print_cbdl_mdh2n_diterima.doc.. Hehe

Maksud saya,  lebih baik anda coba sedikit membaca tulisan tentang how to nya menggunakan software tertentu bukan cm SPSS,  baca help nya,  yg paling penting baca dan pelajari buku basic statistik nya. Klo mau cepat ya cari orang yg ngerti. Trust me,  dari pada dengerin dosen ngomel krn kita ngasal mending belajar dikit..  Palingan revisi sekali dah sidang. Salam lulus cepat! 

Analisa data serahkan (belajar) pada ahlinya

find-mentor-moltz-open-forum-432

Bagi kalian yang menyusun tugas akhir dengan menggunakan pendekatan kuantitatif, maka tahap yang paling melelahkan adalah pemilihan metode penelitian dan tahap pengolahan data. Mengapa kedua tahap ini adalah tahap paling melelahkan dan paling memakan waktu? Jawaban yang paling sering saya temui adalah karena sang peneliti tidak familiar dengan istilah-istilah dan pendekatan kuantitatif/statistika.

Mereka yang merupakan lulusan statistika saja masih banyak yang kesusahaan dengan istilah-istilah statistika dan masih harus merujuk pada literatur-literatur yang ada. Namun demikian, bagaikan sebuah peta, untuk anda yang bukan dari jurusan statistika anda seakan masuk ke daerah yang sangat asing dan peta yang anda pegang adalah peta buta. Anda juga tidak pernah tahu bagaimana membaca peta. Lengkap sudah!

Oleh karena itu anda membutuhkan bantuan dari orang-orang yang sudah ahli dalam hal pengolahan data, sehingga anda mendapatkan bantuan untuk memilih peta yang sesuai dan mengajarkan anda bagaimana anda membaca peta. Saya rasa akan sangat masuk akal anda menghemat berbulan-bulan hanya untuk mempelajari satu analisis yang hanya dalam waktu 2-3 hari dapat anda kuasai dengan bimbingan mentor yang tepat.

Find your mentor here!

Skripsi Success Story 1: Survey Pelayanan Rumah Sakit 27 June 2016

istock_help

Ini adalah pengalaman awal saya mendampingi klien dalam pengolahan data untuk tugas akhir aka skripsi. Judul yang dia berikan ke saya adalah tentang survey kepuasan sebuah RS di Bogor. Untunglah saat itu survey belum dilaksanakan sehingga saya tidak bisa menyulap design survey saya menjadi cocok-cocokan dengan apa yang telah dia lakukan 😛 (untuk design survey ini bisa lihat tulisan saya di link Alat Penelitian (Research)-Non Probability Sampling Cont’d)

Metode yang saya gunakan adalah mendengar karena sejatinya statistician bukanlah orang yang tahu segalanya. Seperti halnya dokter yang melakukan diagnosa pasien.. Yeah more or less. Setelah melalui sesi konsultasi selama hampir setengah jam, saya mengajukan design survey yang mencakup metode survey, sample frame, perkiraan jumlah responden dan perkiraan analisisnya. Singkat cerita saya menjadi konsultan untuk project ini kira-kira satu buan sampai draft final siap maju untuk sidang skripsi :). We still  a good friends till now :).

Salah satu peran konsultan adalah memberikan gambaran lengkap dari sebuah riset/penelitian dari rencana riset, data yang akan dikumpulkan dan gambaran hasil yang akan didapatkan dari riset. Ingin tahu lebih banyak tentang pengolahan data untuk tugas akhir (skripsi, thesis dan disertasi)? Leave comment below 🙂

Mengolah jenis data numerik

Jenis data numerik adalah jenis data yang paling sering digunakan di dunia profesional, seperti yang telah saya pernah jelaskan pada posting saya sebelumnya pada jenis-jenis data, bahwa data numerik paling fleksibel untuk diolah dengan berbagai operasi matematika. Kita dapat mengurutkan, membandingkan dan membuat rasio dari dua data yang sifatnya numerik. Pada tulisan saya kali saya akan menampilkan beberapa penggunaan data numerik sehingga kita dapat mendapatkan  dan menyajikan informasi  dengan tepat.

Bagaimana menampilkan data numerik pada kalimat??

Saya sering membaca blog atau berita di surat kabar paling sering di skripsi/ thesis, dimana banyak sekali angka yang disebutkan. Jujur, saya terkadang merasa tenggelam didalam data yang begitu banyak. Saya tidak bisa menarik kesimpulan dari kalimat yang saya baca.

Salah satu cara untuk menyajikan data dalam sebuah narasi adalah gunakan maksimal dua data dalam satu narasi. Alasannya adalah sangat sederhana, karena otak sudah sangat terbiasa membandingkan dua hal (hitam-putih, panjang-pendek dll). Jika kita menyajikan tiga data pada satu narasi maka otak kita tetap akan membandingkannya dalam pasangan misalnya A, B dan C. Maka otak kita akan membuat perbandingan 3 kombinasi 2 (A-B, A-C, B-C). Jadi daripada membuat pembaca kita bingung, maka gunakan maksimal 2 data pada satu narasi.

Kapan menggunakan TABEL??

Sejak dulu sudah tak terhitung banyaknya data yang saya tampilkan menggunakan tabel, tapi belakangan saya berpikir kapan saat yang tepat menggunakan tabel?? Setelah membaca di beberapa tulisan master-master data, saya menyimpulkan bahwa jika kita:

  1. Anda mempunyai data yang relatif sedikit. lets say anda punya 100 data, dengan 2 dimensi. Maka lakukan pivot sederhana dengan excel, maka anda mendapatkan tabulasi yang mudah dan sederhana.
  2. Jika anda memperhatikan detail dari angka yang anda sajikan. Misalkan anda ingin menampilkan 3 angka dibelakang koma (2.596 dari pada dibulatkan menjadi 2.6), maka pilihan tabel akan memberikan fitur untuk menampilkan presisi angka tersebut.
  3. Salah satu teknik visualisasi data bukan hanya menunjukkan sesuatu tapi juga ‘tidak menunjukkan’. Salah satu contohnya adalah, jika anda tidak ingin menunjukkan secara jelas perbedaan profit perusahaan pertahun maka tabel akan menyamarkan perbedaan tersebut dengan sangat baik.

Menyajikan data dg Tabel tp Tetap sederhana?

Sering kali saya melihat penyajian presentasi data dengan menampilkan tabel, namun satu hal yang membuat saya tersiksa yakni TERLALU BANYAK ANGKA. Tidak adanya fokus pembahasan menyebabkan kita terjebak dalam persepsi bahwa semakin banyak data yang disampaikan maka semakin canggih dan sophisticated laporannya. Padahal TIDAK.

Pada kenyataannya para presenter handal dunia lebih suka menggunakan sedikit angka dan sedikit kata-kata dalam presentasinya. Adapun data yang disajikan lebih kepada CLUE untuk mempertajam STORY yang sedang mereka ceritakan.

Pertama. Identifikasi point penting yang ingin highlight.

Kedua. Identifikasi kecenderungan orang membaca data kolom atau baris?? Sebaiknya sih kategori letakkan di kolom sehingga lebih mudah dibandingkan (orang cenderung membandingkan kolom ke kolom).

Ketiga. Lakukan pembulatan sampai tingkat ketelitian yang dibutuhkan. Terlalu banyak angka dibelakang koma malahan akan menghilangkan makna sesungguhnya dari angka tersebut karena gagal fokus.

Keempat. Hindari penggunaan garis pemisah antara kolom dan garis secara berlebihan. Jangan sampai tabel anda benar-bener terlihat ‘excel-like’. Gunakan bold untuk highlight data yang anda ingin tekankan.

 

~• Peluang (“Probability”) •~

By prof khairil notodiputro
Guru besar statistika IPB

Dalam matematika, peluang (p) merupakan ukuran kemungkinan terjadinya suatu kejadian. Karena p merupakan ukuran kemungkinan suatu kejadian maka kisaran nilai p, yaitu dari 0 sampai dengan 1, akan mencerminkan seberapa besar kemungkinan kejadian itu untuk terjadi. Semakin besar niai p dari suatu kejadian maka semakin besar pula peluangnya untuk terjadi. Begitu pula sebaliknya jika nilai p semakin kecil. Selanjutnya, karena p berkisar dari 0 sampai dengan 1 maka kejadian dengan peluang p=0 merupakan kejadian yang mustahil terjadi. Misalnya mustahil sepeda akan berubah menjadi sapi. Demikian pula suatu kejadian dengan peluang p=1 merupakan kejadian yang pasti terjadi. Misalnya setiap mahluk yang bernyawa pasti mati pada suatu saat.

Pertanyaannya adalah, bagaimana kita bisa mengetahui besarnya peluang terjadinya suatu kejadian? Atau bagaimana kita bisa mengukur besarnya p?

Besarnya p bisa ditentukan berdasarkan frekuensi relatifnya (“relative frequency”). Misalnya jika dari pengalaman 1000 kali penerbangan yang dilakukan oleh maskapai X ternyata terjadi 700 kali keterlambatan “take off”.  Ini bermakna bahwa jika kita pada suatu saat akan terbang dengan maskapai X maka peluang untuk terlambat “take off” adalah sebesar p=0.7.

Selanjutnya karena frekuensi relatif itu dasarnya adalah pengalaman yang sudah terjadi maka wajar dipertanyakan “bagaimana menentukan peluang p jika belum ada pengalaman dengan kejadian itu?” Dalam hal ini kita bisa menggunakan peluang subjektif (“subjective probability”).

Sebagai misal, si A akan mencalonkan diri menjadi kepala daerah X di tahun 2017. Si A belum pernah bersaing dalam pilkada sehingga peluangnya untuk menang tidak dapat ditentukan berdasarkan frekuensi relatifnya. Kita hanya bisa menentukan peluang menang pilkada bagi si A menggunakan peluang subjektif. Jika si A memiliki prestasi bagus (misal mampu memberantas korupsi di lingkungannya, membebaskan daerahnya dari banjir dan kemacetan lalu lintas, menggusur lokasi prostitusi, dsb) serta disenangi oleh sebagian besar masyarakatnya dan didukung oleh partai yang punya suara besar di parlemen, maka peluang si A untuk menang pilkada di tahun 2017 akan cukup besar.

Lebih lebih lagi jika si A dinyatakan bersih dari indikasi korupsi oleh KPK, ditambah lagi penantang berat dari si A juga sudah tidak akan mencalonkan diri dalam pilkada daerah X pada tahun 2017, maka peluang si A untuk menang akan semakin besar. Kawan saya tadi secara SUBJEKTIF mematok peluang si A untuk memenangi pilkada di daerah X pada tahun 2017 adalah sebesar p=0.90.

Itulah pengertian peluang secara matematika dan dalam kehidupan sehari-hari. Semoga bermanfaat..

Percayakah anda 9 dari 10 wanita menggunakan *******?

iklanKalau saya sih lebih percaya 9 dari 10 iklan lebih banyak ngibulnya dari pada benernya. Atau saya lebih percaya dari 10 kali anggota DPR ngomong 9 kali mereka berbohong, 1 kalinya bercanda…hehe. Tapi bukan itu intinya. Tapi apakah arti sebenarnya dari angka 9 dari 10? Let see.

Jika anda adalah penikmat acara televisi tanah air, maka saya dapat memastikan anda juga penikmat iklan tv. Bagaimana tidak dari setiap 5 menit tayangan acara, maka 2-3 menit lainnya adalah iklan tv. Ya.. iklan merupakan porsi terbesar dari pemasukan televisi sekaligus cara yang paling ampuh bagi pemilik produk untuk menginformsikan kepada pemirsa tentang produk mereka. Berbagai jenis iklan digunakan untuk menanamkan ke benak pemirsa agar kemudian dapat menggunakan produknya.

Di datatalker, saya tidak akan membahas lebih jauh mengenai jenis iklannya tapi bagaimana data disalahgunakan oleh pihak-pihak yang semata-mata mengharapkan keuntungan dengan mengabaikan kebenaran.

Klaim 9 dari 10 wanita telah memilih produk A. Apa yang terlintas di benak anda? Bagi pemirsa yang awam konsep statistika/matematika maka secara sadar maupun tidak sadar akan cenderung berpikir 90% wanita di Indonesia menggunakan produk A. Benarkah demikian?? Ini yang tidak pernah atau tidak mau ditunjukkan dengan jujur oleh pembuat iklan:

  1. Klaim 9 dari 10 wanita Indonesia menggunakan produk A adalah TIDAK TEPAT.
  2. Klaim tersebut adalah hasil SURVEY, dimana hasil survey tergantung dari metode surveynya. Jika menggunakan diambil secara acak dari POPULASI dan metodenya BENAR, maka klaim tersebut dapat dibenarkan. Jika TIDAK maka klaim tersebut hanyalah KEBOHONGAN.
  3. Letak KESALAHAN FATALNYA adalah klaim wanita Indonesia (seluruh), padahal hanya sebagian wanita yang ikut survey dan TIDAK MEWAKILI seluruh WANITA (Populasi).

Menurut saya kalimat yang disampaikan haruslah tidak ambigu misalnya, 9 dari 10 wanita yang kami survey (purposive/random sampling) menggunakan produk A. Tapiii… apakah terdengar menarik?? Sepertinya kebohongan yang cantik lebih dipilih daripada kebenaran dengan muka pasaran.

Visualisasi Distribusi Peluang

Saat mendengar istilah peluang (Eng: Probability) mungkin bagi beberapa orang akan terbayang hal yang berbeda, bagi kalian yang pernah mengambil mata kuliah statistika dasar maka konsep ini seharusnya bukan hal yang asing lagi. Pada dasarnya peluang adalah kemungkinan sebuah kejadian terjadi, dapat dihitung dengan rasio sebuah kejadian terhadap seluruh kemungkinan kejadian.

Untuk memvisualisasikan munculnya semua kombinasi kejadian terhadap semesta kejadian kita memerlukan sebuah teknik visualisasi yang mudah untuk dimengerti. Pernah lihat grafik seperti ‘lonceng’ seperti ini?

student_t_density_plot_1

Grafik ini adalah grafik dari Probability Density Function (PDF). Grafik PDF ini mengikuti sifat dari PDF yakni antara lain:

  • Karena random variabel yang digunakan sifatnya kontinu maka grafik PDF yang ada juga merupakan kontinu sepanjang random variabel yang ada
  • Area yang berada di bawah kurva memiliki nilai maksimal 1
  • Jika kita memiliki 2 titik (a, b) dimana a<b, maka peluang untuk kejadian tersebut adalah luasan daerah dibawah kurva antara a dan b
  • Peluang P(X=a)=0, artinya peluang satu titik (contoh a) adalah 0 (nol).

Bagaimana membaca grafik PDF ini? Kita bisa ambil contoh dengan grafik dibawah ini. Pada grafik diatas menggambarkan PDF dari cacat produksi lampu. Sigma (σ) disini adalah nilai yang didapat dari  tingkat kecacatan produk yang dihasilkan dalam sebuah proses produksi. Untuk lebih jelas dapat dilihat tabel berikut:

six_sigma_normal_distribution_2

six_sigma_level_yield_table

Misalkan kita punya pertanyaan berapa peluang cacat produksi lampu tersebut lebih besar dari 690.000 ppm (part per million), maka kita mendapatkan sigma level nya adalah 1, dengan mengambil seluruh area dibawah kurva (dari -1σ sampai 1σ) dimana yield (success) 30.85% dan tingkat kecacatan 69.15%.

Dengan adanya penjelasan visualisasi fungsi peluang ini harapannya kita dapat mengaplikasikan konsep peluang kedalam aktifitas sehari-hari. Jika perusahaan anda mempunyai toleransi kecacatan produk sampai hanya 1 sigma, artinya anda mentolerir hampir 70% produk anda terbuang percuma. Namun jika anda ingin untung tentunya anda akan mengontrol proses produksi anda seefisien dan seefektif mungkin. Dengan menetapkan standar Qulaty Control (QC) yang baik, maka anda akan memperkecil kerugian dari terbuangnya bahan baku dari produk yang cacat.

Aplikasi penggunaan PDF ini sangat banyak, jika ada yang ingin share lebih banyak silahkan masukkan ke kolom komentar. 🙂

 

Market Basket Analysis

3648337-collection-of-shopping-carts-full-of-shopping-bags-and-a-sale-label-concept-of-discount-vector

Saya sering berbelanja bersama dengan istri dan anak saya, pada saat berbelanja kebutuhan anak saya utamanya popok dan susu, saya sering menemukan berbagai promo yang cukup menarik terutama di mata istri saya. Beli popok merk ini dapatkan harga spesial untuk tisu basah, wew… itu mata istri saya seperti mengeluarkan sinar laser dan secepat kilat otaknya berhitung berapa yang harus dibayar jika saya membeli popok sekian dan tisu basah sekian. Padahal dia sangat benci matematika sejak lahir, namun kalau masalah uang belanja ini hitungan rumit setara aljabar matriks ini selesai dalam hitungan detik..haha…

Mari kita tinggalkan istri saya yang sedang sibuk berhitung kebutuhan popok. Hal yang ingin saya tunjukkan adalah bagaimana caranya pemilik toko membuat penjualan dengan sistem paket seperti itu, pengalaman saya sebagai shopper di warung kelontong dekat rumah sejak usia saya 7 tahun tidak sekalipun ada penawaran atau bundling barang seperti tadi, mungkin saat saya beli minyak goreng curah siapa tahu ada penawaran ikan asin setengah harga… who knows…

Akhirnya semua misteri tersebut terjawab setelah saya meranatau ke barat (baca jawa barat) untuk mencari kitab suci statistika. Ternyata si toko ini mencatat setiap transaksi yang dilakukan oleh pembelinya, jadi selain data belanjaan kalian ada di dalam struk belanjaan, data yang sama disimpan dalam sebuah database. Data inilah yang kemudian diolah dan dianalisa untuk menghasilkann sebuah strategi pemasaran yang sering kali terlihat seperti membaca pikiran terutama para ibu-ibu yang hobi belanja (kadang2 bapak2 juga.. :P).

Di dunia praktisi data, teknik ini di namakan market basket analysis, sesuai dengan barang untuk menaruh belanjaan=keranjang=basket (english). Kalau bahasa Indonesianya sih analisa keranjang belanjaan di pasar, analisa ini dapat menghasilkan informasi mengenai produk-produk yang sering dibeli secara bersamaan oleh pelanggan. Dengan informasi ini lah pemilik toko seakan-akan mampu untuk membaca kenginan orang bahkan bisa mengaarahkan orang-orang untuk membeli barang-barang yang sebenarnya tidak ada di dalam daftar belanjaan mereka.

Thats the power of data, dengan menggunakan analisa yang benar kita dapat menemukan pola-pola yang tak terlihat dan menjadikannya sebagai senjata ampuh untuk meningkatkan bisnis kita.

Jika anda mendapatkan manfaat dr tulisan tersebut please share, untuk tulisan-tulisan saya yang lain dapat dilihat pada blog post di bawah ini.

Memahami korelasi dan kovarian bagi orang awam (kayak saya…)

Entah mengapa beberapa hal-hal yang saya pelajari selama hampir 4 tahun di dept statistika IPB baru saya pahami dengan cukup jelas setelah masuk dunia kerja. Mungkin penjelasan dosennya yg terlalu teknis atau saya nya yang masih bebal otaknya. Tapi ya sudahlah…

Salah satu hal yang baru saja saya pahami adalah konsep kovarian dan korelasi, padahal kedua konsep ini berulang kali digunakan pada semua mata kuliah statistika. Nah mari simak tulisan berikut, mudah-mudahan tidak membuat anda semakin bingung.. 😀

Korelasi dan kovarian banyak kita temui saat kita melakukan analisa regresi atau rancangan percobaan. Well, emang kedua analisa ini yang paling terkenal dan sering digunakan di oleh praktisi seperti saya.

By definition korelasi adalah adalah sebuah istilah yang menjelaskan kekuatan hubungan antara dua random variabel secara linear. Sedangkan kovarian adalah istilah yang menunjukkan seberapa besar perubahan dari dua random variabel secara bersama-sama. Nah loh, kok definisinya sama saja kayaknya?? ya emang mirip, hal ini disebabkan kedua istilah ini pada dasarnya adalah pembentuk dari istilah lainnya.

Coba kita lihat formula kovarian:

4f19531cf3f29392d6467830ce84df79

E(X) itu adalah nilai harapan atau expected value dari X, liat penjelasannya di buku masing-masing klo belum ngerti. Bentuk lain dari formula kovarian adalah sebagai berikut:

02edd85c292e8e5f8155f2d41dc62cb0

Liat baris paling bawah, ternyata kovarian itu adalah nilai harapan dari random variabel XY dikurangi perkalian dari nilai harapan X dan nilai harapan Y. Nah, disini sebagai catatan bahwa variabel X dan Y satuannya bisa saja berbeda satu sama lain, bener gak? jadi saat kita melakukan operasi matematika antara dua variabel ini semata-mata mengukur perubahan X dan Y secara bersama-sama. Apakah saat X nilainya besar berkoresponden dengan nilai Y yang besar atau sebaliknya.

Jadiiii… semakin besar (–>+ (positif)) nilai kovariannya menunjukkan bahwa nilai X yang besar berkoresponden dengan nilai-nilai Y yang besar juga. Sebaliknya jika nilainya semakin keciiil kearah negatif (- <—) maka nilai X yang besar berkoresponden dengan nilai Y yang kecil.

Berapa batas nilai kovarian?? Ya tidak ada jawabannya, itu tergantung dari nilai-nilai X dan Y. Gituuu… makanya nilai kovarian ini susah banget di interpretasikan.

Ok, cukup segitu untuk kovarian. Kita lanjutin dengan korelasi, kita tengok formula korelasi dibawah ini:

076d3820a46afe55ee680f3c85e34c76

Loh, kok ada cov (X,Y) sih?? Kayaknya pernah lihat rumus ini sebelumnya… bener banget, ini adalah kovarian.. cov(X,Y) adalah kovarian antara X dan Y. Jadiii… korelasi itu adalah bentuk normalisasi dari kovarian, jika kovarian gak punya batas maksimal dan minimal, korelasi punya batas yang membantu kita untuk membuat derajat hubungan antara satu variabel dengan variabel yang lain.

Batas dari korelasi adalah dari -1 sampai +1. Dengan membagi kovarian dengan perkalian dari variance X dan variance Y, kita melakukan standarisasi/ normalisasi derajat hubungan variabel X dan Y. Nah disini satuan dari masing-masing variabel jadi hilang. Mungkin teman-teman saya waktu kuliah udah lebih duluan ngerti tentang konsep ini dari pada saya, tapi lebih baik terlambat paham dari pada sok tau and gak pernah cari tahu… hehe

Tulisan ini terinspirasi dari status facebook prof Khairil pagi ini yang tiba-tiba kembali membuka luka lama (lhooo) salah satu konsep yang menurut saya paling penting di statistika. I hope you do find this explanation good enough as well as I did.

#There is no statitsics without variance..prok..prok..prok..