Korelasi tidak bermakna sebab-akibat

Anda mendatangi sebuah seminar, dimana anda disajikan berbagai macam informasi. Lalu anda terpaku pada sebuah grafik yang menurut anda cukup menarik. Coba anda lihat sendiri apakah grafik dibawah ini cukup menarik..

aaeaaqaaaaaaaanoaaaajdu3njk4mjvjltbmogqtndmwmi04mgjjltzkytaxnja0mjhkmw

Wow…ini sangat menarik. Apa hal pertama yang anda lihat? Lihatlah garis biru dan merah yang berdampingan dan saling mengikuti satu sama lain. Apakah anda sejenak berpikir kedua hal tersebut saling berpengaruh satu sama lain? Tunggu dulu! Coba anda perhatikan keterangan grafik diatas. Beneran nih??? Penjualan es krim dan kebakaran hutan?? Logika saya tiba-tiba macet dan berpikir ulang mengenai sebab-akibat, bagaimana mungkin es krim menyebabkan kebakaran hutan??.

Percaya atau tidak kita sering melakukan ini dalam kehidupan sehari-hari, kejadian banjir jakarta disebabkan oleh hujan di bogor, jalanan macet disebabkan oleh banyak angkot, hidup saya menderita karena jokowi jadi presiden. Cukup familiar?? Contoh-contoh diatas memang menggelitik rasa penasaran kita mengenai apa penyebab suatu hal terjadi. Logika jika ini terjadi maka itu terjadi adalah logika sebab akibat. Namun kita harus sangat berhati-hati untuk menghubungkan dua kejadian yang seakan-akan berhubungan namun kenyataannya keduanya hanya semata-mata akibat dari suatu SEBAB yang sama-sama tidak atau belum kita ketahui.

Kembali ke ES KRIM dan KEBAKARAN HUTAN, dengan menggunakan logika sederhana kita mengetahui bahwa keduanya tidak berhubungan, namun ada hal yang menghubungkannya. Kita bisa menggambarkannya sebagai berikut:

Kebakaran hutan—>Suhu tinggi–>Musim Kemarau–>Suhu tinggi—> Makan Es krim–>Penjualan es krim meningkat

Terlihat lebih masuk akal kan?

Kenyataannya memang antara penjualan es krim dan kebakaran hutan mempunyai korelasi yang sangat tinggi let’s say 90% namun demikian tidak serta merta kita bisa menyimpulkan  or berspekulasi bahwa penjualan es krim yang menyebabkan kebakaran hutan atau kebakaran hutan yang membuat penjualan es krim meningkat.

Lalu bagaimana membuktikan bahwa dua variabel punya hubungan sebab akibat? Nah disinilah anda membutuhkan pemodelan regresi dan rancangan percobaan.  Kemampuan metode ini dalam memisahkan faktor-faktor yang benar-benar berpengaruh (secara signifikan) terhadap faktor-faktor lain (termasuk didalamnya adalah error-galat) memberikan kita bantuan apakah sebuah faktor benar-benar memiliki hubungan berpengaruh atau hanya sekedar kebetulan semata.

Sepertinya berikutnya bagus juga untuk membedah rumus korelasi dan rumus anova/regresi untuk menemukan bagaimana metode ini dapat memisahkan faktor kebetulan ini. 🙂

Coba kita lihat rumus korelasi berikut:

korelasi-5

Jika kita bedah rumus korelasi diatas kita hanya melihat jika ada dua variabel X dan Y maka besarnya r hanya ditentukan seberapa besar perubahan X dan Y bergerak pada suatu rentang tertentu. Disini kita hanya dapat menyimpulkan bahwa X dan Y berubah searah (+) atau berlawanan (-) dan jika jarak antara data X dan Y cukup dekat maka korelasinya kuat sedangkan jika jarak antara X dan Y berjauhan maka korelasinya lemah. Jika pertanyaan kita adalah jika X bergerak satu satuan, berapa satuankah Y bergerak? Karena jika pergerakan X tidak membuat Y bergerak sama sekali artinya X tidak mempengaruhi Y.  Dengan perhitungan korelasi, kita tidak mendapatkan informasi pergerakan Y saat X bergerak. Jadi jelas sudah konsep korelasi tidak bisa menjawab kausalitas (Sebab- akibat). Sudah cukup jelas??

Like & share –>jika artikelnya cukup berguna

Komentar–> jika ada yang kurang jelas 🙂

 

Memahami korelasi dan kovarian bagi orang awam (kayak saya…)

Entah mengapa beberapa hal-hal yang saya pelajari selama hampir 4 tahun di dept statistika IPB baru saya pahami dengan cukup jelas setelah masuk dunia kerja. Mungkin penjelasan dosennya yg terlalu teknis atau saya nya yang masih bebal otaknya. Tapi ya sudahlah…

Salah satu hal yang baru saja saya pahami adalah konsep kovarian dan korelasi, padahal kedua konsep ini berulang kali digunakan pada semua mata kuliah statistika. Nah mari simak tulisan berikut, mudah-mudahan tidak membuat anda semakin bingung.. 😀

Korelasi dan kovarian banyak kita temui saat kita melakukan analisa regresi atau rancangan percobaan. Well, emang kedua analisa ini yang paling terkenal dan sering digunakan di oleh praktisi seperti saya.

By definition korelasi adalah adalah sebuah istilah yang menjelaskan kekuatan hubungan antara dua random variabel secara linear. Sedangkan kovarian adalah istilah yang menunjukkan seberapa besar perubahan dari dua random variabel secara bersama-sama. Nah loh, kok definisinya sama saja kayaknya?? ya emang mirip, hal ini disebabkan kedua istilah ini pada dasarnya adalah pembentuk dari istilah lainnya.

Coba kita lihat formula kovarian:

4f19531cf3f29392d6467830ce84df79

E(X) itu adalah nilai harapan atau expected value dari X, liat penjelasannya di buku masing-masing klo belum ngerti. Bentuk lain dari formula kovarian adalah sebagai berikut:

02edd85c292e8e5f8155f2d41dc62cb0

Liat baris paling bawah, ternyata kovarian itu adalah nilai harapan dari random variabel XY dikurangi perkalian dari nilai harapan X dan nilai harapan Y. Nah, disini sebagai catatan bahwa variabel X dan Y satuannya bisa saja berbeda satu sama lain, bener gak? jadi saat kita melakukan operasi matematika antara dua variabel ini semata-mata mengukur perubahan X dan Y secara bersama-sama. Apakah saat X nilainya besar berkoresponden dengan nilai Y yang besar atau sebaliknya.

Jadiiii… semakin besar (–>+ (positif)) nilai kovariannya menunjukkan bahwa nilai X yang besar berkoresponden dengan nilai-nilai Y yang besar juga. Sebaliknya jika nilainya semakin keciiil kearah negatif (- <—) maka nilai X yang besar berkoresponden dengan nilai Y yang kecil.

Berapa batas nilai kovarian?? Ya tidak ada jawabannya, itu tergantung dari nilai-nilai X dan Y. Gituuu… makanya nilai kovarian ini susah banget di interpretasikan.

Ok, cukup segitu untuk kovarian. Kita lanjutin dengan korelasi, kita tengok formula korelasi dibawah ini:

076d3820a46afe55ee680f3c85e34c76

Loh, kok ada cov (X,Y) sih?? Kayaknya pernah lihat rumus ini sebelumnya… bener banget, ini adalah kovarian.. cov(X,Y) adalah kovarian antara X dan Y. Jadiii… korelasi itu adalah bentuk normalisasi dari kovarian, jika kovarian gak punya batas maksimal dan minimal, korelasi punya batas yang membantu kita untuk membuat derajat hubungan antara satu variabel dengan variabel yang lain.

Batas dari korelasi adalah dari -1 sampai +1. Dengan membagi kovarian dengan perkalian dari variance X dan variance Y, kita melakukan standarisasi/ normalisasi derajat hubungan variabel X dan Y. Nah disini satuan dari masing-masing variabel jadi hilang. Mungkin teman-teman saya waktu kuliah udah lebih duluan ngerti tentang konsep ini dari pada saya, tapi lebih baik terlambat paham dari pada sok tau and gak pernah cari tahu… hehe

Tulisan ini terinspirasi dari status facebook prof Khairil pagi ini yang tiba-tiba kembali membuka luka lama (lhooo) salah satu konsep yang menurut saya paling penting di statistika. I hope you do find this explanation good enough as well as I did.

#There is no statitsics without variance..prok..prok..prok..