Tipe-tipe data yg wajib diketahui analyst pemula

lrdatahd

Tidak ada salahnya kita terkesa dengan berbagai jenis analisa keren dan sophisticated kayak regression, naive bayes, decision tree dkk. Namun sebaiknya sebelum kita lompat kearah situ mari kita melihat hal-hal basic yg mungkin terlewat, terutama bagi rekan-rekan yang baru saja berkecimpung di dunia data.

Pada postingan saya sebelumnya, saya sudah menjelaskan jenis2 data berdasarkan sifatnya (nominal, ordinal, interval dan rasio) nah sekarang kita sedikit mundur ke belakang utk mengenal dan mengetahui tipe data. Disini saya levih menekankan definisi yang digunakan di dunia database.

Memang sudah tdk dapat dipungkiri lagi bahwa sebagian besar data kita tersimpan dalam sebuah ekosistem database dimana didalamnya ada kolom (field) dan baris (record). Ekosistem ini sangat efisien sehingga dari awal pembuatan database ini perlu diketahui apa saja tipe data dari kolom-kolom yang disimpan.

1. Character/ String/ varchar

Tipe data jenis ini dicirikan dengan adanya HURUF, ANGKA dan KARAKTER, operasi matematika yang bisa dilakukan adalah COUNT. Jika kita petakan ke jenis data di area statistika maka yang masuk kategori ini adalah nominal dan ordinal.

2. Integer dan float

Integer atau yang lebih dikenal dengan bilangan bulat adalah tipe data yang dihasilkan dari operasi COUNT yang menandakan banyaknya benda. kita bisa melakukan operasi hampir semua operasi matematika untuk tipe data ini. Sedangkan FLOAT adalah tipe data yang mengandung angka desimal. Kedua tipe data ini dapat dikategorikan menjadi jenis data RASIO dan INTERVAL.

3. Boolean

Seringkali dalam query kita mema=bandingkan antara dua value atau lebih dengan menggunakan IF..THEN..ELSE… atau menggunakan >, = dkk. Nah hasil dari pembandingan ini disimpan dalam bentukan BOOLEAN. Tipe data ini hanya memiliki dua nilai yakni TRUE dan FALSE.

Dengan mengetahui tipe-tipe data ini kita dapat mendesign sebuah  analisa data sesuai dengan tipe data yang kita miliki. Seringkali kita menemukan tipe data yang tidak sesuai dengan kebutuhan kita, akhirnya harus melakukan transformasi yang sangat banyak untuk itu. Memang tidak salah akhirnya pekerjaan data analyst, statistician dan data scientist 90% nya dihabiskaan hanya untuk data preparation.. Nasiiiib…

Advertisements

Susah gampang mendapatkan data jumlah penduduk

Saat ini banyak instansi pemerintah, perorangan maupun perusahaan yang membutuhkan informasi untuk mendukung pengambilan keputusannya. Lama kelamaan sumber data internal semakin tidak mencukupi untuk lebih menajamkan hasil analisa. Mungkin ada yang bertanya kenapa data internal tidak mencukupi? Bukannya data internal itu sifatnya detail dan sudah terstruktur? Iya, benar sekali. Namun data internal sifatnya sangat spesifik dan sering terbatas pada tema tertentu misalkan industri keuangan hanya memiliki data tentang kredit macet, jumlah nasabah, jumlah deposito dll.

Salah satu contoh kasus sebuah perusahaan membutuhkan data eksternal adalah saat menyusun Rencana Bisnis (Business Plan). Hal pertama yang dilakukan adalah dengan mengumpulkan data historis dari data internal lalu kemudian melakukan forecasting/ peramalan setahun kedepan. Hanya menggunakan data internal saja maka model akan memberikan hasil forecasting sesuai dengan data historical, jika data historical naik maka di masa depan akan cenderung naik jika turun juga akan cenderung turun. Nah.. disinilah kita membutuhkan data eksternal. Jika bisnis kita sangat tergantung pada jumlah penduduk dan levelnya adalah kecamatan. Maka mulailah kita nanya mbah google.com. Saya sendiri mencoba mencari data ini karena kebetulan di kantor juga membutuhkannya.

Hasilnya sebagai berikut.

jml penduduk per kecSemua pencarian diatas merujuk pada website masing-masing kabupaten. Artinya kita harus mendownload SEBANYAK JUMLAH KABUPATEN!!! Inilah salah satu suka duka cari data gratisan..hahaha…

Tapi tunggu dulu link paling atas itu memiliki semua data penduduk per kecamatan yang sudah di rekap. Mantap nih.. Saat di klik dukcapil kecamatan

Waaah bagus banget nih… datanya persis seperti yang saya butuhkan tapiii….setelah copas ke excel hasilnya begini..

excel penduduk

Sayangnya format data yang ada belum sesuai dengan ekspektasi saya. Saya membutuhkan format seperti ini

TABEL FORMAThanya untuk beberapa baris data saja saya membutuhkan waktu lebih dari 5 menit, sudah bisa dibayangkan berapa lama waktu yang dibutuhkan untuk mengumpulkan data se-Indonesia?

Pada postingan berikutnya saya akan coba share cara lain untuk mengumpulkan data dengan lebih mudah. Buat yang tertarik dengan data yang sudah rapi silahkan subscribe dan follow blog saya.

Cara Mudah Menggabungkan Beberapa File txt/csv Besar (Tanpa CoPas)

Seperti anda semua ketahui bahwa jumlah row/baris ms excel itu terbatas sekitar 1jt row. Buat anda yang sering bekerja dengan data yang besar maka ms excel akan sangat kewalahan untuk menampung data yang anda miliki, padahal kita biasanya menggunakan excel untuk melakukan manipulasi dan pengolahan data.

Jika anda menggunakan excel untuk menggabungkan 2 atau lebih file dengan total row lebih dari 1 jt row maka hal itu tidak mungkin anda lakukan. Mungkin anda berpikir untuk mencari software-software kecil yang anda gunakan untuk membantu pekerjaan anda.

Kondisi yang lain, mungkin anda dapat menggunakan ms excel untuk menggabungkan data, namun jumlah file yang anda miliki misalkan 100 file txt atau csv. Mungkin anda akan mati kebosanan untuk melakukannya. Berikut saya berikan langkah sederhana untuk menggabungkan file txt atau csv tanpa menggunakan software tambahan lain.

Pertama nyalakan COMMAND PROMPT dengan mengetik cmd pada kolom pencarian.

cmd1

Arahkan ke direktori pada folder yang berisi file yang anda ingin gabungkan.

cmd3

dapat dilihat bahwa kita memiliki 14 file yang akan digabungkan.

cmd0

Pada command prompt masukan script copy /b *.csv gabung.csv dimana copy /b adalah script default, *.csv berarti menggabungkan semua file yang ada di folder tersebut. Sedangkan gabung.csv adalah nama file hasil penggabungan.

cmd4

Pada folder yang sama akan muncul 1 file bernama gabung.csv

cmd5

Sebelum anda menggunakan file tersebut jika pada file asli anda memiliki header pada datanya, maka anda perlu menghilangkan header tersebut dari file hasil gabungan.

cmd6

Cukup dengan sort datanya dan delete semua row yang berisi header.

cmd7

Setelah langkah terakhir anda lakukan, maka file gabung.csv anda sudah dapat anda gunakan.

 

Korelasi tidak bermakna sebab-akibat

Anda mendatangi sebuah seminar, dimana anda disajikan berbagai macam informasi. Lalu anda terpaku pada sebuah grafik yang menurut anda cukup menarik. Coba anda lihat sendiri apakah grafik dibawah ini cukup menarik..

aaeaaqaaaaaaaanoaaaajdu3njk4mjvjltbmogqtndmwmi04mgjjltzkytaxnja0mjhkmw

Wow…ini sangat menarik. Apa hal pertama yang anda lihat? Lihatlah garis biru dan merah yang berdampingan dan saling mengikuti satu sama lain. Apakah anda sejenak berpikir kedua hal tersebut saling berpengaruh satu sama lain? Tunggu dulu! Coba anda perhatikan keterangan grafik diatas. Beneran nih??? Penjualan es krim dan kebakaran hutan?? Logika saya tiba-tiba macet dan berpikir ulang mengenai sebab-akibat, bagaimana mungkin es krim menyebabkan kebakaran hutan??.

Percaya atau tidak kita sering melakukan ini dalam kehidupan sehari-hari, kejadian banjir jakarta disebabkan oleh hujan di bogor, jalanan macet disebabkan oleh banyak angkot, hidup saya menderita karena jokowi jadi presiden. Cukup familiar?? Contoh-contoh diatas memang menggelitik rasa penasaran kita mengenai apa penyebab suatu hal terjadi. Logika jika ini terjadi maka itu terjadi adalah logika sebab akibat. Namun kita harus sangat berhati-hati untuk menghubungkan dua kejadian yang seakan-akan berhubungan namun kenyataannya keduanya hanya semata-mata akibat dari suatu SEBAB yang sama-sama tidak atau belum kita ketahui.

Kembali ke ES KRIM dan KEBAKARAN HUTAN, dengan menggunakan logika sederhana kita mengetahui bahwa keduanya tidak berhubungan, namun ada hal yang menghubungkannya. Kita bisa menggambarkannya sebagai berikut:

Kebakaran hutan—>Suhu tinggi–>Musim Kemarau–>Suhu tinggi—> Makan Es krim–>Penjualan es krim meningkat

Terlihat lebih masuk akal kan?

Kenyataannya memang antara penjualan es krim dan kebakaran hutan mempunyai korelasi yang sangat tinggi let’s say 90% namun demikian tidak serta merta kita bisa menyimpulkan  or berspekulasi bahwa penjualan es krim yang menyebabkan kebakaran hutan atau kebakaran hutan yang membuat penjualan es krim meningkat.

Lalu bagaimana membuktikan bahwa dua variabel punya hubungan sebab akibat? Nah disinilah anda membutuhkan pemodelan regresi dan rancangan percobaan.  Kemampuan metode ini dalam memisahkan faktor-faktor yang benar-benar berpengaruh (secara signifikan) terhadap faktor-faktor lain (termasuk didalamnya adalah error-galat) memberikan kita bantuan apakah sebuah faktor benar-benar memiliki hubungan berpengaruh atau hanya sekedar kebetulan semata.

Sepertinya berikutnya bagus juga untuk membedah rumus korelasi dan rumus anova/regresi untuk menemukan bagaimana metode ini dapat memisahkan faktor kebetulan ini. 🙂

Coba kita lihat rumus korelasi berikut:

korelasi-5

Jika kita bedah rumus korelasi diatas kita hanya melihat jika ada dua variabel X dan Y maka besarnya r hanya ditentukan seberapa besar perubahan X dan Y bergerak pada suatu rentang tertentu. Disini kita hanya dapat menyimpulkan bahwa X dan Y berubah searah (+) atau berlawanan (-) dan jika jarak antara data X dan Y cukup dekat maka korelasinya kuat sedangkan jika jarak antara X dan Y berjauhan maka korelasinya lemah. Jika pertanyaan kita adalah jika X bergerak satu satuan, berapa satuankah Y bergerak? Karena jika pergerakan X tidak membuat Y bergerak sama sekali artinya X tidak mempengaruhi Y.  Dengan perhitungan korelasi, kita tidak mendapatkan informasi pergerakan Y saat X bergerak. Jadi jelas sudah konsep korelasi tidak bisa menjawab kausalitas (Sebab- akibat). Sudah cukup jelas??

Like & share –>jika artikelnya cukup berguna

Komentar–> jika ada yang kurang jelas 🙂

 

Ability to see pattern in randomness

life_is_random

Dulu sekali, disalah satu stasiun televisi swasta menayangkan sebuah acara dimana beberapa orang ‘sakti’berkumpul untuk menangkap hantu. Kami yang saat itu masih anak-anak sangat menggandrungi acara ini, apalagi saat salah seorang dari pemburu tersebut membuat lukisan dengan mata tertutup, lalu muncullah gambar makhluk-makhluk aneh dengan ajaibnya.

Beda halnya dengan salah satu karakter novel kesukaan saya Sherlock Holmes, berkali-kali membaca dan menonton film dan serialnya selalu membuat saya berdecak kagum. Kemampuannya dalam memecahkan kasus-kasus kriminal membuat pembaca tenggelam dalam alur cerita yang dituliskan oleh Sir Arthur Conan Doyle.

Lalau apa hubungannya antara pemburu hantu dan Sherlock Holmes? Keduanya memiliki sebuah kesamaan yakni kemampuan melihat sesuatu yang tidak bisa dilihat oleh orang kebanyakan. Walau dalam kasus pemburu hantu saya juga masih ragu apa itu rekayasa atau bukan, tapi ya sudahlah anggap saja mereka bisa lihat.period. Kemampuan ini yang membuat mereka special dan berbeda dengan orang lain yang akhirnya membuat mereka terkenal dan dibayar mahal.

Menurut saya apa yang kita lakukan dalam menganalisa data adalah mencoba melihat pola-pola yang tidak terlihat dari sekumpulan data atau kejadian yang seakan-akan acak dan chaos. Dalam era social media ini, perusahaan selalu mencoba untuk lebih baik dari perusahaan lain dengan berbagai cara, salah satu nya adalah membuat produk yang berbeda dan lebih baik dari pesaingnya. Semakin banyak kita tahu tentang informasi lebih dari pesaing kita, maka semakin besar peluang kita menang.

Di zaman dimana semua aktifitas kita terekam lewat sebuah alat yang bernama smartphone ini, maka tidak ada lagi batasan antara kita dengan perusahaan penghasil produk. Tergantung apakah mereka mampu menemukan pola/pattern yang kita hasilkan. Dapatkah mereka memberikan sebuah penawaran/solusi/produk/jasa yang sesuai dengan kebutuhan kita.

Pertanyaan untuk kita adalah apakah anda mampu melihat pola yang teratur dalam sebuah kejadian acak?

Analisa data serahkan (belajar) pada ahlinya

find-mentor-moltz-open-forum-432

Bagi kalian yang menyusun tugas akhir dengan menggunakan pendekatan kuantitatif, maka tahap yang paling melelahkan adalah pemilihan metode penelitian dan tahap pengolahan data. Mengapa kedua tahap ini adalah tahap paling melelahkan dan paling memakan waktu? Jawaban yang paling sering saya temui adalah karena sang peneliti tidak familiar dengan istilah-istilah dan pendekatan kuantitatif/statistika.

Mereka yang merupakan lulusan statistika saja masih banyak yang kesusahaan dengan istilah-istilah statistika dan masih harus merujuk pada literatur-literatur yang ada. Namun demikian, bagaikan sebuah peta, untuk anda yang bukan dari jurusan statistika anda seakan masuk ke daerah yang sangat asing dan peta yang anda pegang adalah peta buta. Anda juga tidak pernah tahu bagaimana membaca peta. Lengkap sudah!

Oleh karena itu anda membutuhkan bantuan dari orang-orang yang sudah ahli dalam hal pengolahan data, sehingga anda mendapatkan bantuan untuk memilih peta yang sesuai dan mengajarkan anda bagaimana anda membaca peta. Saya rasa akan sangat masuk akal anda menghemat berbulan-bulan hanya untuk mempelajari satu analisis yang hanya dalam waktu 2-3 hari dapat anda kuasai dengan bimbingan mentor yang tepat.

Find your mentor here!

Visualisasi Distribusi Peluang

Saat mendengar istilah peluang (Eng: Probability) mungkin bagi beberapa orang akan terbayang hal yang berbeda, bagi kalian yang pernah mengambil mata kuliah statistika dasar maka konsep ini seharusnya bukan hal yang asing lagi. Pada dasarnya peluang adalah kemungkinan sebuah kejadian terjadi, dapat dihitung dengan rasio sebuah kejadian terhadap seluruh kemungkinan kejadian.

Untuk memvisualisasikan munculnya semua kombinasi kejadian terhadap semesta kejadian kita memerlukan sebuah teknik visualisasi yang mudah untuk dimengerti. Pernah lihat grafik seperti ‘lonceng’ seperti ini?

student_t_density_plot_1

Grafik ini adalah grafik dari Probability Density Function (PDF). Grafik PDF ini mengikuti sifat dari PDF yakni antara lain:

  • Karena random variabel yang digunakan sifatnya kontinu maka grafik PDF yang ada juga merupakan kontinu sepanjang random variabel yang ada
  • Area yang berada di bawah kurva memiliki nilai maksimal 1
  • Jika kita memiliki 2 titik (a, b) dimana a<b, maka peluang untuk kejadian tersebut adalah luasan daerah dibawah kurva antara a dan b
  • Peluang P(X=a)=0, artinya peluang satu titik (contoh a) adalah 0 (nol).

Bagaimana membaca grafik PDF ini? Kita bisa ambil contoh dengan grafik dibawah ini. Pada grafik diatas menggambarkan PDF dari cacat produksi lampu. Sigma (σ) disini adalah nilai yang didapat dari  tingkat kecacatan produk yang dihasilkan dalam sebuah proses produksi. Untuk lebih jelas dapat dilihat tabel berikut:

six_sigma_normal_distribution_2

six_sigma_level_yield_table

Misalkan kita punya pertanyaan berapa peluang cacat produksi lampu tersebut lebih besar dari 690.000 ppm (part per million), maka kita mendapatkan sigma level nya adalah 1, dengan mengambil seluruh area dibawah kurva (dari -1σ sampai 1σ) dimana yield (success) 30.85% dan tingkat kecacatan 69.15%.

Dengan adanya penjelasan visualisasi fungsi peluang ini harapannya kita dapat mengaplikasikan konsep peluang kedalam aktifitas sehari-hari. Jika perusahaan anda mempunyai toleransi kecacatan produk sampai hanya 1 sigma, artinya anda mentolerir hampir 70% produk anda terbuang percuma. Namun jika anda ingin untung tentunya anda akan mengontrol proses produksi anda seefisien dan seefektif mungkin. Dengan menetapkan standar Qulaty Control (QC) yang baik, maka anda akan memperkecil kerugian dari terbuangnya bahan baku dari produk yang cacat.

Aplikasi penggunaan PDF ini sangat banyak, jika ada yang ingin share lebih banyak silahkan masukkan ke kolom komentar. 🙂

 

Market Basket Analysis

3648337-collection-of-shopping-carts-full-of-shopping-bags-and-a-sale-label-concept-of-discount-vector

Saya sering berbelanja bersama dengan istri dan anak saya, pada saat berbelanja kebutuhan anak saya utamanya popok dan susu, saya sering menemukan berbagai promo yang cukup menarik terutama di mata istri saya. Beli popok merk ini dapatkan harga spesial untuk tisu basah, wew… itu mata istri saya seperti mengeluarkan sinar laser dan secepat kilat otaknya berhitung berapa yang harus dibayar jika saya membeli popok sekian dan tisu basah sekian. Padahal dia sangat benci matematika sejak lahir, namun kalau masalah uang belanja ini hitungan rumit setara aljabar matriks ini selesai dalam hitungan detik..haha…

Mari kita tinggalkan istri saya yang sedang sibuk berhitung kebutuhan popok. Hal yang ingin saya tunjukkan adalah bagaimana caranya pemilik toko membuat penjualan dengan sistem paket seperti itu, pengalaman saya sebagai shopper di warung kelontong dekat rumah sejak usia saya 7 tahun tidak sekalipun ada penawaran atau bundling barang seperti tadi, mungkin saat saya beli minyak goreng curah siapa tahu ada penawaran ikan asin setengah harga… who knows…

Akhirnya semua misteri tersebut terjawab setelah saya meranatau ke barat (baca jawa barat) untuk mencari kitab suci statistika. Ternyata si toko ini mencatat setiap transaksi yang dilakukan oleh pembelinya, jadi selain data belanjaan kalian ada di dalam struk belanjaan, data yang sama disimpan dalam sebuah database. Data inilah yang kemudian diolah dan dianalisa untuk menghasilkann sebuah strategi pemasaran yang sering kali terlihat seperti membaca pikiran terutama para ibu-ibu yang hobi belanja (kadang2 bapak2 juga.. :P).

Di dunia praktisi data, teknik ini di namakan market basket analysis, sesuai dengan barang untuk menaruh belanjaan=keranjang=basket (english). Kalau bahasa Indonesianya sih analisa keranjang belanjaan di pasar, analisa ini dapat menghasilkan informasi mengenai produk-produk yang sering dibeli secara bersamaan oleh pelanggan. Dengan informasi ini lah pemilik toko seakan-akan mampu untuk membaca kenginan orang bahkan bisa mengaarahkan orang-orang untuk membeli barang-barang yang sebenarnya tidak ada di dalam daftar belanjaan mereka.

Thats the power of data, dengan menggunakan analisa yang benar kita dapat menemukan pola-pola yang tak terlihat dan menjadikannya sebagai senjata ampuh untuk meningkatkan bisnis kita.

Jika anda mendapatkan manfaat dr tulisan tersebut please share, untuk tulisan-tulisan saya yang lain dapat dilihat pada blog post di bawah ini.

Memahami korelasi dan kovarian bagi orang awam (kayak saya…)

Entah mengapa beberapa hal-hal yang saya pelajari selama hampir 4 tahun di dept statistika IPB baru saya pahami dengan cukup jelas setelah masuk dunia kerja. Mungkin penjelasan dosennya yg terlalu teknis atau saya nya yang masih bebal otaknya. Tapi ya sudahlah…

Salah satu hal yang baru saja saya pahami adalah konsep kovarian dan korelasi, padahal kedua konsep ini berulang kali digunakan pada semua mata kuliah statistika. Nah mari simak tulisan berikut, mudah-mudahan tidak membuat anda semakin bingung.. 😀

Korelasi dan kovarian banyak kita temui saat kita melakukan analisa regresi atau rancangan percobaan. Well, emang kedua analisa ini yang paling terkenal dan sering digunakan di oleh praktisi seperti saya.

By definition korelasi adalah adalah sebuah istilah yang menjelaskan kekuatan hubungan antara dua random variabel secara linear. Sedangkan kovarian adalah istilah yang menunjukkan seberapa besar perubahan dari dua random variabel secara bersama-sama. Nah loh, kok definisinya sama saja kayaknya?? ya emang mirip, hal ini disebabkan kedua istilah ini pada dasarnya adalah pembentuk dari istilah lainnya.

Coba kita lihat formula kovarian:

4f19531cf3f29392d6467830ce84df79

E(X) itu adalah nilai harapan atau expected value dari X, liat penjelasannya di buku masing-masing klo belum ngerti. Bentuk lain dari formula kovarian adalah sebagai berikut:

02edd85c292e8e5f8155f2d41dc62cb0

Liat baris paling bawah, ternyata kovarian itu adalah nilai harapan dari random variabel XY dikurangi perkalian dari nilai harapan X dan nilai harapan Y. Nah, disini sebagai catatan bahwa variabel X dan Y satuannya bisa saja berbeda satu sama lain, bener gak? jadi saat kita melakukan operasi matematika antara dua variabel ini semata-mata mengukur perubahan X dan Y secara bersama-sama. Apakah saat X nilainya besar berkoresponden dengan nilai Y yang besar atau sebaliknya.

Jadiiii… semakin besar (–>+ (positif)) nilai kovariannya menunjukkan bahwa nilai X yang besar berkoresponden dengan nilai-nilai Y yang besar juga. Sebaliknya jika nilainya semakin keciiil kearah negatif (- <—) maka nilai X yang besar berkoresponden dengan nilai Y yang kecil.

Berapa batas nilai kovarian?? Ya tidak ada jawabannya, itu tergantung dari nilai-nilai X dan Y. Gituuu… makanya nilai kovarian ini susah banget di interpretasikan.

Ok, cukup segitu untuk kovarian. Kita lanjutin dengan korelasi, kita tengok formula korelasi dibawah ini:

076d3820a46afe55ee680f3c85e34c76

Loh, kok ada cov (X,Y) sih?? Kayaknya pernah lihat rumus ini sebelumnya… bener banget, ini adalah kovarian.. cov(X,Y) adalah kovarian antara X dan Y. Jadiii… korelasi itu adalah bentuk normalisasi dari kovarian, jika kovarian gak punya batas maksimal dan minimal, korelasi punya batas yang membantu kita untuk membuat derajat hubungan antara satu variabel dengan variabel yang lain.

Batas dari korelasi adalah dari -1 sampai +1. Dengan membagi kovarian dengan perkalian dari variance X dan variance Y, kita melakukan standarisasi/ normalisasi derajat hubungan variabel X dan Y. Nah disini satuan dari masing-masing variabel jadi hilang. Mungkin teman-teman saya waktu kuliah udah lebih duluan ngerti tentang konsep ini dari pada saya, tapi lebih baik terlambat paham dari pada sok tau and gak pernah cari tahu… hehe

Tulisan ini terinspirasi dari status facebook prof Khairil pagi ini yang tiba-tiba kembali membuka luka lama (lhooo) salah satu konsep yang menurut saya paling penting di statistika. I hope you do find this explanation good enough as well as I did.

#There is no statitsics without variance..prok..prok..prok..

 

Pengujian Hipotesis?? Makhluk apa Itu??

https://i1.wp.com/eugenieteasley.com/wp-content/uploads/2014/11/Hypothesis-pic.jpg

Secara sederhana hipotesis itu adalah sebuah pernyataan yang bisa saja benar atau salah. Nah, dalam statistika kita diajarkan cara bagaimana kita membuktikan kebenaran sebuah hipotesis sehingga kita bisa menerima atau menolaknya. Apakah anda pernah mendengar mungkin di sebuah berita bahwa rata-rata pendapatan masyarakat di sebuah kota adalah sebesar 5 juta rupiah. Anda mungkin bertanya, masa sih 5 juta rupiah?? Saat pertama kali pernyataan tersebut muncul, anda mungkin meragukan apakah informasi tersebut benar atau tidak. Biasanya seseorang cenderung akan langsung menolak atau menerima informasi tersebut tanpa harus membuktikan apakah pernyataan tersebut benar atau tidak.

Prosedur dalam melakukan pengujian hipotesis dalam statistika di desain untuk membuktikan klaim tersebut. Biasanya klaim yang ada di dalam hipotesis tersebut dibuat untuk menggambarkan keadaan parameter (angka yang menggambarkan populasi), padahal kita tahu bahwa keadaan populasi itu sangat sulit untuk diketahui. Biar lebih spesifik, kita ambil contoh rata-rata pendapatan sebuah kota di klaim 5 juta rupiah. Jika anda memiliki pendapat lain selain dari hipotesis tersebut, maka hal tersebut bisa dinamakan hipotesis alternatif. Tujuan anda adalah membuktikan bahwa hipotesis anda yang benar, bagaimana caranya? yup, tentunya dengan menggunakan data. Karena anda tidak mempunyai data populasi maka dengan sangat terpaksa anda menggunakan data sampel yang ada pada anda (teknik pengumpulannya ada di pembahasan sebelumnya).

Seperti pada penjelasan sebelumnya, kita memiliki dua jenis hipotesis. Hipotesis yang pertama adalah null hypothesis H0. Ciri-ciri H0 adalah selalu menyatakan bahwa nilai prameter selalu sama dengan nilai yang diklaim, pokoknya klo null hyopthesis selalu menggunakan tanda =, ≥, ≤ . Contohnya, rata-rata pendapatan masyarakat sebuah kota adalah 5 juta rupiah, maka penulisan null hipotesis nya menjadi H0: μ=5juta. Jika ada H0 tentu saja ada hipotesis tandingannya, yang dinamakan hipotesis alternatif lambangnya H1 atau Ha. Hipotesis ini berisi negasi atau kebalikan dari H0. Untuk contoh        H0: μ=5juta, apa H1 nya? Yup!! tentu saja H1: μ≠5juta.

Sebenarnya H1 bisa ada tiga jenis, tergantung anda tertarik ingin membuktikan apa.

  • Misalnya, anda hanya ingin membuktikan bahwa klaim media bahwa bahwa rata-rata pendapatan masyarakat adalah 5 juta, maka anda memiliki H0: μ=5juta dan H1: μ≠5juta
  • Namun jika ada contoh lain, dimana anda bekerja disebuah bank dan anda meyakini bahwa waktu pembukaan rekening bisa kurang dari 15 menit. bagaimana anda menyusun hipotesisnya? Yup, susunan hipotesisnya menjadi   H0: μ≥ 15 menit dan H1: μ<15 menit.

Secara umum H0 selalu mengandung unsur bahwa tidak ada hal yang baru/ sama saja/ keadaan sekarang yang tidak ada bedanya dkk. Pokoke, apa yang ada sekarang anggap bener aja dulu, sampai bener-bener kebukti bahwa klaim nya salah.

Pernah liat orang di adili gak? Nah, di pengadilan itu menggunakan konsep penyusunan hipotesis sama kayak yang dijelasin di atas. Apa hipotesis awal dari seorang hakim?? Bener, orang itu gak bersalah… tapiiii… hanya sampai jaksa membuktikan dengan bukti yang meyakinkan kalo dia bersalah. Got it?? Terus gimana kalo ternyata jaksa gak bisa membuktikan klo orang tersebut bersalah? Untuk kondisi ini hakim akan mengatakan bahwa “orang tersebut tidak terbukti melakukan ……” bukan mengatakan bahwa “orang ini terbukti benar atau terbukti orang baik-baik” karena bisa saja jika ada suatu hari ada bukti baru yang membuktikan bahwa orang ini benar-benar bersalah.

Ahhh… udah lumayan banyak nih pembahasannya… kita lanjut lain kali ya… please add komen di bawah yaaa… I am no perfect person.. just wanna share…