Skripsi Success Story 1: Survey Pelayanan Rumah Sakit 27 June 2016

istock_help

Ini adalah pengalaman awal saya mendampingi klien dalam pengolahan data untuk tugas akhir aka skripsi. Judul yang dia berikan ke saya adalah tentang survey kepuasan sebuah RS di Bogor. Untunglah saat itu survey belum dilaksanakan sehingga saya tidak bisa menyulap design survey saya menjadi cocok-cocokan dengan apa yang telah dia lakukan 😛 (untuk design survey ini bisa lihat tulisan saya di link Alat Penelitian (Research)-Non Probability Sampling Cont’d)

Metode yang saya gunakan adalah mendengar karena sejatinya statistician bukanlah orang yang tahu segalanya. Seperti halnya dokter yang melakukan diagnosa pasien.. Yeah more or less. Setelah melalui sesi konsultasi selama hampir setengah jam, saya mengajukan design survey yang mencakup metode survey, sample frame, perkiraan jumlah responden dan perkiraan analisisnya. Singkat cerita saya menjadi konsultan untuk project ini kira-kira satu buan sampai draft final siap maju untuk sidang skripsi :). We still  a good friends till now :).

Salah satu peran konsultan adalah memberikan gambaran lengkap dari sebuah riset/penelitian dari rencana riset, data yang akan dikumpulkan dan gambaran hasil yang akan didapatkan dari riset. Ingin tahu lebih banyak tentang pengolahan data untuk tugas akhir (skripsi, thesis dan disertasi)? Leave comment below 🙂

Data Monetization: A Road Paved On Top Of Data Sets

Data Scientist Insights

Paving Road Construction Sign Royalty Free Clipart Picture 090626 203307 625048The road to efficient data monetization is paved on top of effective data sets. No single source of data is comprehensive enough to be an all being source of transformational insights. It is only through the fusion of orthogonal data sets (independent subject area) that true insights into those thing we don’t know we don’t know (level three knowledge) can be revealed. While we have access to data of interest (ERPs, IT, etc.), where can we find others sources to aid in the third level knowledge spelunking? 

NewImageWhile data is everywhere, useful data sets are not. A google search on terms like “open data sets” or “data sets in R” reveal thousands of sources. Over the years as a CTO and Data Scientist, I have collected a few hundred myself. In 2011, however, I came across the work of RevoJoe, Revolution Analytics, that more or less got…

View original post 387 more words

Story Telling dengan Data??

data-storytelling-lifecycle-via-infogr-am-sept-2014

Pada postingan sebelumnya saya pernah menuliskan bagaimana teknik penyajian dengan stroy telling atau tutur cerita adalah salah satu cara paing efektif untuk menyampaikan informasi dengan baik. Dengan cara ini orang yang menjadi audiens akan lebih PERHATIAN, MENYIMAK, dan MENGINGAT informasi yang kita sampaikan dengan lebih baik.

Saya adalah orang data dan saya suka bercerita. Saya bercerita dengan data. Ini adalah gaya komunikasi yang saya gunakan dan saya sangat menyukainya. Ingin tahu apa saja yang diperlukan untuk membuat sebuah story telling dengan data? Let’s get started.

Bagi anda yang bekerja di perusahaan yang berbasis teknologi, tentunya anda akan menemukan sebuah divisi khusus yang mengelola data dan infrastrukturnya. Umumnya disebut divisi IT, sebagian perusahaan malahan sudah memiliki divisi yang jauh lebih spesifik yang mengelola jenis data yang sekarang sedang ng-trend yakni BIG DATA.

Apapun jenis perusahaan tempat anda bekerja, baik anda di unit operasional maupun unit bisnis anda akan sering diminta melakukan analisa bisnis baik rencana, monitoring maupun laporan akhir. Hasil laporan yang anda buat kemudian akan disampaikan pada atasan anda, atau atasan dari atasan anda. Disinilah DATA STORY berperan. Anda bisa memilih untuk menampilkan datanya dalam bentuk tabel seperti ini?6-12-chart_4Atau anda menampilkan dengan beberapa grafik seperti ini?

figure-2

Apapun pilihan anda dalam menampilkan presentasi anda, pastikan anda membuatnya dengan cara yang benar. Btw, untuk kedua cara penyajian data diatas apa insight yang bisa anda dapatkan? Well, jujur saja saya sendiri kesulitan setengah mampus untuk membaca apa sebenarnya tujuan dari si pembuat grafik/tabel.

Pada data story salah satu hal yang perlu kita tekankan adalah KESEDERHANAAN (SIMPLICITY). Data seperti halnya dengan sumber informasi lain, seperti quote atau informasi dari ahli hanyalah ALAT untuk kita bercerita. Intinya adalah TUJUAN/MAKSUD kita agar bisa tersampaikan dengan baik. Thats all. Semakin banyak data yang anda tampilkan TIDAK membuat anda semakin PINTAR atau semakin JAGO, sebaliknya hal tersebut hanya menunjukkan anda TIDAK TAHU YG ANDA INGIN SAMPAIKAN.

Ada istilah sink or swim ini adalah istilah yang digunakan untuk menggambarkan bahwa dengan jumlah informasi yang begitu banyak, dapatkah anda menggunakan kemampuan anda untuk swimming diantara lautan informasi ini ataukah anda adalah orang-orang yang  sinking karena tidak mampu menggali dan memanfaatkan data dan informasi yang begitu banyak sehingga seakan-akan tenggelam dalam lautan data/informasi ini. Bagaimana dengan anda? Sudah bisa berenang atau masih kesusahan berjuang kepermukaan?

harrypotter5posterarticle-2559322-06775c8100000514-99_634x705

Apa cerita kesukaan anda? Harry Potter? Sherlock Holmes? Secara pribadi saya suka sherlock holmes, alasannya banyak kejutan-kejutan tidak terduga (UNEXPECTED) yang saysa temukan sepanjang cerita. Tentu saja kejadian itu begitu kuat teringat didalam ingatan. Dengan cara yang sama, kita berusahan menampilkan sesuatu yang UNEXPECTED di dalam data story kita. Kita lakukan berbagai analisa dari yang sederhana sampai yang complicated untuk menampilkan hal-hal yang tidak kasat mata. Sesuatu yang tidak disadari dan hanya bisa ditampilkan dengan menggali data. Cerita yang didalamnya ada hal yang UNEXPECTED akan sangat menarik untuk disimak, other way akan sangat membosankan.

Pernahkah anda menyimak sebuah presentasi dimana pada akhir sesi presentasi anda bukannya anda mendapatkan informasi malahan anda semakin bingung? Anda tidak menemukan kejelasan dalam presentasi tersebut. Dalam sebuah penyampian cerita anda harus konkrit (CONCRETE) artinya harus jelas, solid dan tidak membingungkan. Hal yang paling penting dari sebuah cerita adalah pesan yang akan disampaikan. Pesan inilah yang harus secara jelas dan solid tersirat dan tersurat dalam sebuah presentasi. Hindari penggunaan aksesoris yang berlebihan sehingga membuat tujuan utama dari presentasi tersebut menjadi blur dan tidak jelas.

honesty

Jika anda pernah membaca atau mendengar How To Lie With Statistics, maka anda pasti tahu apa yang akan saya bicarakan berikut ini. Ya, masalah kredibilitas (CREDIBILITY). Seorang Data analyst atau siapapun yang melakukan pengolahan data wajib mempunyai kredibilitas dalam menyajikan datanya. Tanpa sikap ini maka apapun yang akan disampaikan berikutnya tidak lebih dari omong kosong. Data tidak pernah berbohong, manusialah yang berbohong. Namun ditangan yang tepat data akan menjadi sesuatu yang luar biasa yang bisa menjadi pembeda antara kesuksesan dan kegagalan. Kebenaran dan kenyataan yang terkandung didalam data inilah yang perlu digali dan ditemukan oleh orang-orang yang kredibel. Sifat data analyst atau pengolah data inilah yang akan menentukan kredibilitas dari cerita atau informasi yang anda akan dapatkan.

Karena sekarang lagi ngetrend kpop, maka saya coba kasih contoh yang kekinian. Pernah lihat drama korea? Salah satu yang ngetrend dulu adalah Endless Love… sampai-sampai sebuah tabloid membuat sebuah grafik trendline jumlah air mata pemirsa yang terkuras untuk tiap episodenya… what?? Untuk yang sekarang silahkan pilih sendiri jenis film atau drama yang anda suka… Apa kesamaan dari semua film-film tersebut? Ssatu yang menurut saya selalu ada selain aktor-aktor ganteng dan selalu kaya dan cewek cantik yang urakan dan miskin.. hehe.. adalah EMOSI... Saat emosi pemirsa terlibat, maka semua urusan mengenai perhatian dan pengingatan akan menjadi mudah.. Emosi membuat keterikatan dan membuat proses mengingat menjadi lebih mudah dan kuat karena tidak hanya otak yang mengingat, namun seluruh anggota badan.

Dalam presentasi kita harus membuat sebuah alur cerita dan alur tutur yang membangkitkan emosi dari audiens kita. Pilihlah contoh-contoh atau pilihan-pilihan gambar yang punya koneksi dengan audiens, pilihan warna-warna yang mewakili simbol-simbol emosi tertentu dan yang paling penting tampilkan data dan informasi yang membuat audiens kita ‘WOW’. Memang membangun emosi audiens ini membutuhkan keterampilan berbahasa dan gesture yang tepat. Sekali anda bisa menguasainya anda dapat membuat audiens anda melakukan hal-hal yang anda inginkan. Thats the point.

Hal terakhir yang menurut saya perlu ditambahkan dalam ramuan data story kita adalah STRUCTURE. Saat anda punya banyak informasi yang sangat ingin anda sampaikan namun anda punya waktu yang sangat terbatas maka pastikan bahwa story anda tersusun dengan STRUCTURE yang membentuk alur cerita. Hindari lompatan logika dan lompatan kesimpulan yang akan membuat alur cerita menjadi kacau.

Hope this blogs post find you in great condition.. 🙂

 

Mengolah jenis data numerik

Jenis data numerik adalah jenis data yang paling sering digunakan di dunia profesional, seperti yang telah saya pernah jelaskan pada posting saya sebelumnya pada jenis-jenis data, bahwa data numerik paling fleksibel untuk diolah dengan berbagai operasi matematika. Kita dapat mengurutkan, membandingkan dan membuat rasio dari dua data yang sifatnya numerik. Pada tulisan saya kali saya akan menampilkan beberapa penggunaan data numerik sehingga kita dapat mendapatkan  dan menyajikan informasi  dengan tepat.

Bagaimana menampilkan data numerik pada kalimat??

Saya sering membaca blog atau berita di surat kabar paling sering di skripsi/ thesis, dimana banyak sekali angka yang disebutkan. Jujur, saya terkadang merasa tenggelam didalam data yang begitu banyak. Saya tidak bisa menarik kesimpulan dari kalimat yang saya baca.

Salah satu cara untuk menyajikan data dalam sebuah narasi adalah gunakan maksimal dua data dalam satu narasi. Alasannya adalah sangat sederhana, karena otak sudah sangat terbiasa membandingkan dua hal (hitam-putih, panjang-pendek dll). Jika kita menyajikan tiga data pada satu narasi maka otak kita tetap akan membandingkannya dalam pasangan misalnya A, B dan C. Maka otak kita akan membuat perbandingan 3 kombinasi 2 (A-B, A-C, B-C). Jadi daripada membuat pembaca kita bingung, maka gunakan maksimal 2 data pada satu narasi.

Kapan menggunakan TABEL??

Sejak dulu sudah tak terhitung banyaknya data yang saya tampilkan menggunakan tabel, tapi belakangan saya berpikir kapan saat yang tepat menggunakan tabel?? Setelah membaca di beberapa tulisan master-master data, saya menyimpulkan bahwa jika kita:

  1. Anda mempunyai data yang relatif sedikit. lets say anda punya 100 data, dengan 2 dimensi. Maka lakukan pivot sederhana dengan excel, maka anda mendapatkan tabulasi yang mudah dan sederhana.
  2. Jika anda memperhatikan detail dari angka yang anda sajikan. Misalkan anda ingin menampilkan 3 angka dibelakang koma (2.596 dari pada dibulatkan menjadi 2.6), maka pilihan tabel akan memberikan fitur untuk menampilkan presisi angka tersebut.
  3. Salah satu teknik visualisasi data bukan hanya menunjukkan sesuatu tapi juga ‘tidak menunjukkan’. Salah satu contohnya adalah, jika anda tidak ingin menunjukkan secara jelas perbedaan profit perusahaan pertahun maka tabel akan menyamarkan perbedaan tersebut dengan sangat baik.

Menyajikan data dg Tabel tp Tetap sederhana?

Sering kali saya melihat penyajian presentasi data dengan menampilkan tabel, namun satu hal yang membuat saya tersiksa yakni TERLALU BANYAK ANGKA. Tidak adanya fokus pembahasan menyebabkan kita terjebak dalam persepsi bahwa semakin banyak data yang disampaikan maka semakin canggih dan sophisticated laporannya. Padahal TIDAK.

Pada kenyataannya para presenter handal dunia lebih suka menggunakan sedikit angka dan sedikit kata-kata dalam presentasinya. Adapun data yang disajikan lebih kepada CLUE untuk mempertajam STORY yang sedang mereka ceritakan.

Pertama. Identifikasi point penting yang ingin highlight.

Kedua. Identifikasi kecenderungan orang membaca data kolom atau baris?? Sebaiknya sih kategori letakkan di kolom sehingga lebih mudah dibandingkan (orang cenderung membandingkan kolom ke kolom).

Ketiga. Lakukan pembulatan sampai tingkat ketelitian yang dibutuhkan. Terlalu banyak angka dibelakang koma malahan akan menghilangkan makna sesungguhnya dari angka tersebut karena gagal fokus.

Keempat. Hindari penggunaan garis pemisah antara kolom dan garis secara berlebihan. Jangan sampai tabel anda benar-bener terlihat ‘excel-like’. Gunakan bold untuk highlight data yang anda ingin tekankan.

 

~• Peluang (“Probability”) •~

By prof khairil notodiputro
Guru besar statistika IPB

Dalam matematika, peluang (p) merupakan ukuran kemungkinan terjadinya suatu kejadian. Karena p merupakan ukuran kemungkinan suatu kejadian maka kisaran nilai p, yaitu dari 0 sampai dengan 1, akan mencerminkan seberapa besar kemungkinan kejadian itu untuk terjadi. Semakin besar niai p dari suatu kejadian maka semakin besar pula peluangnya untuk terjadi. Begitu pula sebaliknya jika nilai p semakin kecil. Selanjutnya, karena p berkisar dari 0 sampai dengan 1 maka kejadian dengan peluang p=0 merupakan kejadian yang mustahil terjadi. Misalnya mustahil sepeda akan berubah menjadi sapi. Demikian pula suatu kejadian dengan peluang p=1 merupakan kejadian yang pasti terjadi. Misalnya setiap mahluk yang bernyawa pasti mati pada suatu saat.

Pertanyaannya adalah, bagaimana kita bisa mengetahui besarnya peluang terjadinya suatu kejadian? Atau bagaimana kita bisa mengukur besarnya p?

Besarnya p bisa ditentukan berdasarkan frekuensi relatifnya (“relative frequency”). Misalnya jika dari pengalaman 1000 kali penerbangan yang dilakukan oleh maskapai X ternyata terjadi 700 kali keterlambatan “take off”.  Ini bermakna bahwa jika kita pada suatu saat akan terbang dengan maskapai X maka peluang untuk terlambat “take off” adalah sebesar p=0.7.

Selanjutnya karena frekuensi relatif itu dasarnya adalah pengalaman yang sudah terjadi maka wajar dipertanyakan “bagaimana menentukan peluang p jika belum ada pengalaman dengan kejadian itu?” Dalam hal ini kita bisa menggunakan peluang subjektif (“subjective probability”).

Sebagai misal, si A akan mencalonkan diri menjadi kepala daerah X di tahun 2017. Si A belum pernah bersaing dalam pilkada sehingga peluangnya untuk menang tidak dapat ditentukan berdasarkan frekuensi relatifnya. Kita hanya bisa menentukan peluang menang pilkada bagi si A menggunakan peluang subjektif. Jika si A memiliki prestasi bagus (misal mampu memberantas korupsi di lingkungannya, membebaskan daerahnya dari banjir dan kemacetan lalu lintas, menggusur lokasi prostitusi, dsb) serta disenangi oleh sebagian besar masyarakatnya dan didukung oleh partai yang punya suara besar di parlemen, maka peluang si A untuk menang pilkada di tahun 2017 akan cukup besar.

Lebih lebih lagi jika si A dinyatakan bersih dari indikasi korupsi oleh KPK, ditambah lagi penantang berat dari si A juga sudah tidak akan mencalonkan diri dalam pilkada daerah X pada tahun 2017, maka peluang si A untuk menang akan semakin besar. Kawan saya tadi secara SUBJEKTIF mematok peluang si A untuk memenangi pilkada di daerah X pada tahun 2017 adalah sebesar p=0.90.

Itulah pengertian peluang secara matematika dan dalam kehidupan sehari-hari. Semoga bermanfaat..

Percayakah anda 9 dari 10 wanita menggunakan *******?

iklanKalau saya sih lebih percaya 9 dari 10 iklan lebih banyak ngibulnya dari pada benernya. Atau saya lebih percaya dari 10 kali anggota DPR ngomong 9 kali mereka berbohong, 1 kalinya bercanda…hehe. Tapi bukan itu intinya. Tapi apakah arti sebenarnya dari angka 9 dari 10? Let see.

Jika anda adalah penikmat acara televisi tanah air, maka saya dapat memastikan anda juga penikmat iklan tv. Bagaimana tidak dari setiap 5 menit tayangan acara, maka 2-3 menit lainnya adalah iklan tv. Ya.. iklan merupakan porsi terbesar dari pemasukan televisi sekaligus cara yang paling ampuh bagi pemilik produk untuk menginformsikan kepada pemirsa tentang produk mereka. Berbagai jenis iklan digunakan untuk menanamkan ke benak pemirsa agar kemudian dapat menggunakan produknya.

Di datatalker, saya tidak akan membahas lebih jauh mengenai jenis iklannya tapi bagaimana data disalahgunakan oleh pihak-pihak yang semata-mata mengharapkan keuntungan dengan mengabaikan kebenaran.

Klaim 9 dari 10 wanita telah memilih produk A. Apa yang terlintas di benak anda? Bagi pemirsa yang awam konsep statistika/matematika maka secara sadar maupun tidak sadar akan cenderung berpikir 90% wanita di Indonesia menggunakan produk A. Benarkah demikian?? Ini yang tidak pernah atau tidak mau ditunjukkan dengan jujur oleh pembuat iklan:

  1. Klaim 9 dari 10 wanita Indonesia menggunakan produk A adalah TIDAK TEPAT.
  2. Klaim tersebut adalah hasil SURVEY, dimana hasil survey tergantung dari metode surveynya. Jika menggunakan diambil secara acak dari POPULASI dan metodenya BENAR, maka klaim tersebut dapat dibenarkan. Jika TIDAK maka klaim tersebut hanyalah KEBOHONGAN.
  3. Letak KESALAHAN FATALNYA adalah klaim wanita Indonesia (seluruh), padahal hanya sebagian wanita yang ikut survey dan TIDAK MEWAKILI seluruh WANITA (Populasi).

Menurut saya kalimat yang disampaikan haruslah tidak ambigu misalnya, 9 dari 10 wanita yang kami survey (purposive/random sampling) menggunakan produk A. Tapiii… apakah terdengar menarik?? Sepertinya kebohongan yang cantik lebih dipilih daripada kebenaran dengan muka pasaran.

Visualisasi Distribusi Peluang

Saat mendengar istilah peluang (Eng: Probability) mungkin bagi beberapa orang akan terbayang hal yang berbeda, bagi kalian yang pernah mengambil mata kuliah statistika dasar maka konsep ini seharusnya bukan hal yang asing lagi. Pada dasarnya peluang adalah kemungkinan sebuah kejadian terjadi, dapat dihitung dengan rasio sebuah kejadian terhadap seluruh kemungkinan kejadian.

Untuk memvisualisasikan munculnya semua kombinasi kejadian terhadap semesta kejadian kita memerlukan sebuah teknik visualisasi yang mudah untuk dimengerti. Pernah lihat grafik seperti ‘lonceng’ seperti ini?

student_t_density_plot_1

Grafik ini adalah grafik dari Probability Density Function (PDF). Grafik PDF ini mengikuti sifat dari PDF yakni antara lain:

  • Karena random variabel yang digunakan sifatnya kontinu maka grafik PDF yang ada juga merupakan kontinu sepanjang random variabel yang ada
  • Area yang berada di bawah kurva memiliki nilai maksimal 1
  • Jika kita memiliki 2 titik (a, b) dimana a<b, maka peluang untuk kejadian tersebut adalah luasan daerah dibawah kurva antara a dan b
  • Peluang P(X=a)=0, artinya peluang satu titik (contoh a) adalah 0 (nol).

Bagaimana membaca grafik PDF ini? Kita bisa ambil contoh dengan grafik dibawah ini. Pada grafik diatas menggambarkan PDF dari cacat produksi lampu. Sigma (σ) disini adalah nilai yang didapat dari  tingkat kecacatan produk yang dihasilkan dalam sebuah proses produksi. Untuk lebih jelas dapat dilihat tabel berikut:

six_sigma_normal_distribution_2

six_sigma_level_yield_table

Misalkan kita punya pertanyaan berapa peluang cacat produksi lampu tersebut lebih besar dari 690.000 ppm (part per million), maka kita mendapatkan sigma level nya adalah 1, dengan mengambil seluruh area dibawah kurva (dari -1σ sampai 1σ) dimana yield (success) 30.85% dan tingkat kecacatan 69.15%.

Dengan adanya penjelasan visualisasi fungsi peluang ini harapannya kita dapat mengaplikasikan konsep peluang kedalam aktifitas sehari-hari. Jika perusahaan anda mempunyai toleransi kecacatan produk sampai hanya 1 sigma, artinya anda mentolerir hampir 70% produk anda terbuang percuma. Namun jika anda ingin untung tentunya anda akan mengontrol proses produksi anda seefisien dan seefektif mungkin. Dengan menetapkan standar Qulaty Control (QC) yang baik, maka anda akan memperkecil kerugian dari terbuangnya bahan baku dari produk yang cacat.

Aplikasi penggunaan PDF ini sangat banyak, jika ada yang ingin share lebih banyak silahkan masukkan ke kolom komentar. 🙂

 

Market Basket Analysis

3648337-collection-of-shopping-carts-full-of-shopping-bags-and-a-sale-label-concept-of-discount-vector

Saya sering berbelanja bersama dengan istri dan anak saya, pada saat berbelanja kebutuhan anak saya utamanya popok dan susu, saya sering menemukan berbagai promo yang cukup menarik terutama di mata istri saya. Beli popok merk ini dapatkan harga spesial untuk tisu basah, wew… itu mata istri saya seperti mengeluarkan sinar laser dan secepat kilat otaknya berhitung berapa yang harus dibayar jika saya membeli popok sekian dan tisu basah sekian. Padahal dia sangat benci matematika sejak lahir, namun kalau masalah uang belanja ini hitungan rumit setara aljabar matriks ini selesai dalam hitungan detik..haha…

Mari kita tinggalkan istri saya yang sedang sibuk berhitung kebutuhan popok. Hal yang ingin saya tunjukkan adalah bagaimana caranya pemilik toko membuat penjualan dengan sistem paket seperti itu, pengalaman saya sebagai shopper di warung kelontong dekat rumah sejak usia saya 7 tahun tidak sekalipun ada penawaran atau bundling barang seperti tadi, mungkin saat saya beli minyak goreng curah siapa tahu ada penawaran ikan asin setengah harga… who knows…

Akhirnya semua misteri tersebut terjawab setelah saya meranatau ke barat (baca jawa barat) untuk mencari kitab suci statistika. Ternyata si toko ini mencatat setiap transaksi yang dilakukan oleh pembelinya, jadi selain data belanjaan kalian ada di dalam struk belanjaan, data yang sama disimpan dalam sebuah database. Data inilah yang kemudian diolah dan dianalisa untuk menghasilkann sebuah strategi pemasaran yang sering kali terlihat seperti membaca pikiran terutama para ibu-ibu yang hobi belanja (kadang2 bapak2 juga.. :P).

Di dunia praktisi data, teknik ini di namakan market basket analysis, sesuai dengan barang untuk menaruh belanjaan=keranjang=basket (english). Kalau bahasa Indonesianya sih analisa keranjang belanjaan di pasar, analisa ini dapat menghasilkan informasi mengenai produk-produk yang sering dibeli secara bersamaan oleh pelanggan. Dengan informasi ini lah pemilik toko seakan-akan mampu untuk membaca kenginan orang bahkan bisa mengaarahkan orang-orang untuk membeli barang-barang yang sebenarnya tidak ada di dalam daftar belanjaan mereka.

Thats the power of data, dengan menggunakan analisa yang benar kita dapat menemukan pola-pola yang tak terlihat dan menjadikannya sebagai senjata ampuh untuk meningkatkan bisnis kita.

Jika anda mendapatkan manfaat dr tulisan tersebut please share, untuk tulisan-tulisan saya yang lain dapat dilihat pada blog post di bawah ini.

Memahami korelasi dan kovarian bagi orang awam (kayak saya…)

Entah mengapa beberapa hal-hal yang saya pelajari selama hampir 4 tahun di dept statistika IPB baru saya pahami dengan cukup jelas setelah masuk dunia kerja. Mungkin penjelasan dosennya yg terlalu teknis atau saya nya yang masih bebal otaknya. Tapi ya sudahlah…

Salah satu hal yang baru saja saya pahami adalah konsep kovarian dan korelasi, padahal kedua konsep ini berulang kali digunakan pada semua mata kuliah statistika. Nah mari simak tulisan berikut, mudah-mudahan tidak membuat anda semakin bingung.. 😀

Korelasi dan kovarian banyak kita temui saat kita melakukan analisa regresi atau rancangan percobaan. Well, emang kedua analisa ini yang paling terkenal dan sering digunakan di oleh praktisi seperti saya.

By definition korelasi adalah adalah sebuah istilah yang menjelaskan kekuatan hubungan antara dua random variabel secara linear. Sedangkan kovarian adalah istilah yang menunjukkan seberapa besar perubahan dari dua random variabel secara bersama-sama. Nah loh, kok definisinya sama saja kayaknya?? ya emang mirip, hal ini disebabkan kedua istilah ini pada dasarnya adalah pembentuk dari istilah lainnya.

Coba kita lihat formula kovarian:

4f19531cf3f29392d6467830ce84df79

E(X) itu adalah nilai harapan atau expected value dari X, liat penjelasannya di buku masing-masing klo belum ngerti. Bentuk lain dari formula kovarian adalah sebagai berikut:

02edd85c292e8e5f8155f2d41dc62cb0

Liat baris paling bawah, ternyata kovarian itu adalah nilai harapan dari random variabel XY dikurangi perkalian dari nilai harapan X dan nilai harapan Y. Nah, disini sebagai catatan bahwa variabel X dan Y satuannya bisa saja berbeda satu sama lain, bener gak? jadi saat kita melakukan operasi matematika antara dua variabel ini semata-mata mengukur perubahan X dan Y secara bersama-sama. Apakah saat X nilainya besar berkoresponden dengan nilai Y yang besar atau sebaliknya.

Jadiiii… semakin besar (–>+ (positif)) nilai kovariannya menunjukkan bahwa nilai X yang besar berkoresponden dengan nilai-nilai Y yang besar juga. Sebaliknya jika nilainya semakin keciiil kearah negatif (- <—) maka nilai X yang besar berkoresponden dengan nilai Y yang kecil.

Berapa batas nilai kovarian?? Ya tidak ada jawabannya, itu tergantung dari nilai-nilai X dan Y. Gituuu… makanya nilai kovarian ini susah banget di interpretasikan.

Ok, cukup segitu untuk kovarian. Kita lanjutin dengan korelasi, kita tengok formula korelasi dibawah ini:

076d3820a46afe55ee680f3c85e34c76

Loh, kok ada cov (X,Y) sih?? Kayaknya pernah lihat rumus ini sebelumnya… bener banget, ini adalah kovarian.. cov(X,Y) adalah kovarian antara X dan Y. Jadiii… korelasi itu adalah bentuk normalisasi dari kovarian, jika kovarian gak punya batas maksimal dan minimal, korelasi punya batas yang membantu kita untuk membuat derajat hubungan antara satu variabel dengan variabel yang lain.

Batas dari korelasi adalah dari -1 sampai +1. Dengan membagi kovarian dengan perkalian dari variance X dan variance Y, kita melakukan standarisasi/ normalisasi derajat hubungan variabel X dan Y. Nah disini satuan dari masing-masing variabel jadi hilang. Mungkin teman-teman saya waktu kuliah udah lebih duluan ngerti tentang konsep ini dari pada saya, tapi lebih baik terlambat paham dari pada sok tau and gak pernah cari tahu… hehe

Tulisan ini terinspirasi dari status facebook prof Khairil pagi ini yang tiba-tiba kembali membuka luka lama (lhooo) salah satu konsep yang menurut saya paling penting di statistika. I hope you do find this explanation good enough as well as I did.

#There is no statitsics without variance..prok..prok..prok..