Cara Benar Membuka File CSV

Walaupun ini hal yang sangat dasar namun ternyata masih lumayan banyak orang yang menemui kesulitan dan mengalami kesusahan dalam membuka data yang ada dalam file csv. Baiklah mari simak penjelasan berikut.

Salah satu tipe file yang paling sering di temui dalam dunia analisa data adalah CSV atau (Comma Separated Value). Dengan ukuran file yang relatif kecil, terus fleksibilitas untuk dapat dibuka di hampir semua software baik dari yang simple seperti excel maupun software2 lain seperti hadoop environment (spark, impala dll) membuat banyak orang membagi file nya dalam format csv. Oh iya, satu lagi keunggulan csv file yakni format data yang tersimpan sesuai dengan format aslinya sehingga kita gak khawatir format file tiba-tiba berubah.

Dari yang saya amati, banyak orang yang biasa menggunakan excel langsung double klik di file csv nya… hasilnyaa… BERANTAKAN.

csv folder

Saat langsung double klik.. hasilnya begini nih… malahan ada yg langsung di alokasikan ke kolom.. masih untung formatnya lasngung bener.. tapi dari pengalaman saya lebih banyak gak benernya..

csv berantakan

Klo udah seperti ini saya sarankan tutup aja file nya dan JANGAN di SAVE. Bisa saja kita menggunakan Text To Column namun untuk kali ini kita buka dengan cara paling aman yg saya ketahui. Kalau ada cara lain yg belum disebutkan.. monggo di tambahkan di komentar :).

Ok Langkah pertama buka file excel kosong. Lalu klik menu DATA dan pilih From Text/CSV.buka menu data csv

Pilih file yang ada di folder masing-masing.

import CSV

Kalau pakai excel terbaru kayak saya, akan muncul seperti dibawah ini. Excel akan menganalisa struktur data dari 200 row teratas ( bisa di ubah jumlah row nya) lalu akan menentukan format data per masing-masing kolom.

import csv baru

Setelah klik LOAD hasilnya akan seperti berikut.

final import csv

Naah.. coba anda perhatikan format datanya sudah jauh lebih rapii.. text di format karakter.. angka di format number. Silahkan anda cek data anda lagi sebelum di olah lebih lanjut. Jika sudah rapih dan benar, data siap untuk diproses lebih lanjut. Semoga berguna 🙂

 

 

Advertisements

Binomial Distribution (Bahasa:Sebaran Binomial)

Distribution atau sebaran adalah salah satu konsep yang penting atau bisa dibilang paling penting dalam statistika. Bagi mereka yang mau belajar data science/ analytics konsep  distribusi binomial ini adalah hal yang wajib dipahami. Dari namanya bi= dua  dan nomial=nom=nama,  seharusnya anda bisa menebak bahwa distribusi ini digunakan untuk dua kejadian. Salah satu contoh kejadian yang dapat dijelaskan oleh distribusi binomial adalah pelemparan koin dimana kemunculan angka dan gambar.

Jika sebuah koin simetris dilempar 10 kali maka kita akan mendapatkan n=10 dan jika yang kita amati adalah munculnya angka dengan peluang 50% (kita tandai dengan sukses) dan gambar (gagal) dengan peluang 50%. Maka kita dapat menuliskan sebaran ini dengan n=10, p=0.5 dan 1-p=0.5.

tyjr4

Grafik diatas cukup jelas menunjukkan jika kejadian diulang 40 kali dan koin yang digunakan adalah simetris p=0.5 maka dapat ditunjukkan oleh grafik berwarna biru. Kita lihat bahwa rata-rata kemunculan angka ditunjukkan oleh garis biru tertinggi yakni 20. Munculnya angka rata-rata 20 ini dapat juga kita rumuskan dengan nxp=40 x 0.5.

Dalam pekerjaan sehari-hari banyak sekali kejadian yang dapat dijelaskan dengan distribusi binomial. Di perbankan anda menemukan seorang debitur gagal bayar atau tidak, di dunia telco dan fmcg sering kali diperhatikan mengenai customer yang loyal dan tidak atau di dunia kedokteran untuk mengetahui sebuah obat dapat menyembuhkan penyakit atau tidak. Dengan banyaknya penggunaan distribusi binomial ini maka semakin kuat alasan kita untuk lebih memahami distribusi ini.

 

Reff:

https://towardsdatascience.com/statistics-review-for-data-scientists-and-management-df8f94760221

https://math.stackexchange.com/questions/2123873/is-the-maximum-of-a-probability-distribution-function-of-a-binomial-distribution

 

 

Data Type: Discrete vs Continues

Minggu lalu saya diminta oleh rekan saya untuk membantu sebuah unit baru di kantor saya. Unit ini kedepannya akan sangat intense menggunakan data sebagai bagian dari pekerjaannya. Saya diberikan sebuah set data untuk kemudian di analisa untuk membuktikan bahwa konsep-konsep statistika dapat diaplikasikan dalam pekerjaan mereka. Setelah menyiapkan beberapa halaman slide, saya pun datang dan menjelaskan bagaimana langkah-langkah yang saya lakukan sampai menghasilkan model sesuai dengan harapan mereka. Ternyata… sebagian besar dari audiens masih sangat awam dengan jargon-jargon statistika. Hal ini membuat saya kembali berpikir bahwa kembali menguatkan konsep dasar tidak akan pernah menjadi kesia-siaan. Baiklah, mari kita mulai dengan discrete dan continues.

Sederhananya variabel discrete adalah variabel yang berasal dari operasi menghitung. Jumlah gelas di dalam lemari, jumlah buah di dalam keranjang. Hitungan sederhana seperti 1,2,3 dst. Tidak ada angka desimal di dalam variabel discrete.07778a4906f57221506f44beef50cf6d

Sedangkan variabel continues adalah variabel yang memiliki selisih antara dua variabel 0 hanya jika variabel tersebut dikurangi dengan dirinya sendiri. Ciri-cirinya adalah adanya angka decimal 1.991, 1.9999992 dst. Contohnya adalah berat badan, tinggi badan, interval waktu dll.

cant-lose-weightPenentuan variabel ini sangat berpengaruh terhadap analisa data yang akan anda lakukan kedepannya. Jika anda mempunyai variable discrete akan lebih cocok jika anda menggunakan median untuk ukuran pemusatan dan untuk variabel continues akan lebih tepat jika anda menggunakan rata-rata. Jika anda masih bingung dengan ukuran pemusatan mungkin anda ingin membaca tulisan saya tentang Ukuran Penyebaran Data.

Biasanya saat anda melakukan import data kedalam software anda akan diminta untuk mendifinisikan variabel yang anda masukkan. Nah dengan mendefinisikan data anda dengan tipe data yang tepat anda tidak akan mengurangi masalah yang mungkin anda hadapi pada langkah-langkah berikutnya.

 

Ketika rata-rata tidak cukup lagi…

Siapa yang tidak kenal dengan rata-rata?? Jika anda sering kali melakukan pengolahan data, maka perhitungan rata-rata hampir bisa dipastikan akan selalu ada dalam laporan yang anda buat. Namun menyajikan rata-rata saja ternyata sangat tidaklah cukup… Percaya deh.. Gak cukup banget. Jika ada yg menyajikan data hanya dengan rata-rata saja maka hal ini akan membuat kesimpulan yang anda buat menjadi melenceng dari yang seharusnya. Kenapa??

Hal ini sangat berkaitan erat dengan variasi data yang anda miliki. Buatlah histogram sederhana untuk mengetahui apakah data anda punya data ekstrim? Data ekstrim adalah data yang saaaangat besar atau sangaaat kecil dibandingkan dengan nilai tengah nya.

Nilai rata-rata memberikan bobot yang sama untuk semua data. Sehingga nilai yang besaaar banget atau yang keciiil bgt kan membuat rata-rata bergeser ke besar atau yang kecil. Saran saya selalu bandingkan nilai rata-rata dengan nilai tenga (median). Lebih bagus lagi jika anda tambahkan kuartil atau percentilnya.

Presentasi data: Two long tail perspective…

Kerap kali saat anda sudah punya data dab anda punya kemampuan untuk melakukan penelitian, anda kesulitan untuk menyampaikan informasi kepada publik lewat susunan cerita yang menarik. Diskusi sore ini bersama big bos, saya menemukan sebuah pola pikir yang sangat menarik. Berawal dari saking banyaknya data yang kami miliki, kami kesulitan merangkai semua data itu menjadk sebuah cerita yang utuh. Hingga akhirnya muncul celetukan, pakai saja analisis two tail… Dalam hati.. Whaat? Baruu denger saya.

Pikiran saya langsung tertuju pada grafik sebaran normal dengan dua ekor dikiri dan dikanan. Bell Curve. Ternyata apa yg saya pikirkan terlalu rumit… Ternyata analisa ini sangat simpel namun dengan mengambil konsep sebaran data.

Kita pasti tahu bell curve… Nah dua tail atau ekor grafik ini menggambarkan posisi yang ekstrim dari data… Ekstrim besar dan ekstrim kecil… Misalkan kita menganalisis data sales maka salah satu opsi dalam menyampaikan informasi adalah dengan mengambil detail dari kedua tail. Ekstrim kanan menggambarkan sales yang penjualannya sangat tinggi, lets say top 95 percentile… Sedangkan di kiri kita ambil contoh untuk sales yg tidak achieve… Misalkan bottom 10 percentile. Dengan menggali detail kenapa kedua sales ini berada di sisi ekstrim sangatlah penting. Kita ingin agar sales yg ada dibagian tengah dapat mencontoh strategi sales yang berhasil dan menjauhi sales yg tdk achieve.

Harapan kita adalah nilai tengah dari sales yg skrg berkumpul ditengah dapat bergeser ke arah kanan yg secara total akan menaikkan sales performance secara keseluruhan.

Cara Mudah Menggabungkan Beberapa File txt/csv Besar (Tanpa CoPas)

Seperti anda semua ketahui bahwa jumlah row/baris ms excel itu terbatas sekitar 1jt row. Buat anda yang sering bekerja dengan data yang besar maka ms excel akan sangat kewalahan untuk menampung data yang anda miliki, padahal kita biasanya menggunakan excel untuk melakukan manipulasi dan pengolahan data.

Jika anda menggunakan excel untuk menggabungkan 2 atau lebih file dengan total row lebih dari 1 jt row maka hal itu tidak mungkin anda lakukan. Mungkin anda berpikir untuk mencari software-software kecil yang anda gunakan untuk membantu pekerjaan anda.

Kondisi yang lain, mungkin anda dapat menggunakan ms excel untuk menggabungkan data, namun jumlah file yang anda miliki misalkan 100 file txt atau csv. Mungkin anda akan mati kebosanan untuk melakukannya. Berikut saya berikan langkah sederhana untuk menggabungkan file txt atau csv tanpa menggunakan software tambahan lain.

Pertama nyalakan COMMAND PROMPT dengan mengetik cmd pada kolom pencarian.

cmd1

Arahkan ke direktori pada folder yang berisi file yang anda ingin gabungkan.

cmd3

dapat dilihat bahwa kita memiliki 14 file yang akan digabungkan.

cmd0

Pada command prompt masukan script copy /b *.csv gabung.csv dimana copy /b adalah script default, *.csv berarti menggabungkan semua file yang ada di folder tersebut. Sedangkan gabung.csv adalah nama file hasil penggabungan.

cmd4

Pada folder yang sama akan muncul 1 file bernama gabung.csv

cmd5

Sebelum anda menggunakan file tersebut jika pada file asli anda memiliki header pada datanya, maka anda perlu menghilangkan header tersebut dari file hasil gabungan.

cmd6

Cukup dengan sort datanya dan delete semua row yang berisi header.

cmd7

Setelah langkah terakhir anda lakukan, maka file gabung.csv anda sudah dapat anda gunakan.

 

Bagaimana mengetahui trend data di excel?

Sebelum anda melakukan analisa data yang kompleks, langkah pertama yang anda perlu lakukan adalah mengetahui TREND data yang anda miliki. Dibandingkan melihat dalam bentuk tabular/tabel, akan jauh lebih mudah untuk memunculkannya dalam bentuk grafik.

Selain itu excel memiliki sebuah fitur untuk memunculkan trend dengan sangat mudah, ditambah lagi dengan adanya fitur forecasting atau pendugaan. Adapun langkah [ertama yang anda lakukan adalah membuat grafik line sederhana.

Trendline1

Langkah kedua adalah klik kanan pada grafik garis yang sudah terbentuk dan pilih ADD Trendline

Trendline2

Langkah ketiga adalah memilih jenis pendekatan trend yang paling sesuai dengan karakteristik data. Terdapat 6 pilihan yakni:

  1. Exponential : Cocok untuk data yang karakternya meningkat atau menurun secara berpangkat misalkan 1, 4, 16 dst.
  2. Linear : merupakan pendekatan yang paling populer dimana sebaran data didekati dengan menggunakan garis lurus yang mewakili data. Pendekatan linear cukup sederhana dan paling mudah untuk di interpretasikan.
  3. Logaritmik : jika data pertama dan data kedua memiliki hubungan logaritmik maka tentu saja pendekatan ini akan lebih sesuai.
  4. Polinomial: Jika data anda memiliki puncak dan lembah yang banyak dan tingkat akurasi adalah hal yang anda utamakan maka anda dapat menggunakan polinomial dimana merupakan kombinasi dari exponential dan linear. Khusus untuk polinomial dapat dipilih sampai pangkat ke-sekian
  5. Power: hanya digunakan jika data anda meningkat secara drastis
  6. Moving average: jika data anda bergerask sesuai dengan rata-rata periode sebelumnya, maka anda dapat menggunakan moving average pada data anda.

Trendline3

Langkah terakhir: Setelah anda memilih salah satu pendekatan, anda dapat memilih memunculkan formula trend yang anda pilih dengan memilih display equation on chart. 

Mungkin anda memiliki pertanya bagaimana mengetahui trendline yang anda pilih adalah yang paling baik? Untuk itu kita dapat menampilkan R-squared yang menunjukkan seberapa besar trend yang kita buat merepresentasikan keseluruhan data.

Trendline4

Selain itu kita dapat melakukan forecasting dengan menggunakan trendline yang kita pilih. Untuk meramal kedepan kita dapat menggunakan forward dan untuk masa lalu kita dapat menggunakan backward. Workshet yang saya gunakan dalam tutorial ini dapat di download disini

 

Korelasi tidak bermakna sebab-akibat

Anda mendatangi sebuah seminar, dimana anda disajikan berbagai macam informasi. Lalu anda terpaku pada sebuah grafik yang menurut anda cukup menarik. Coba anda lihat sendiri apakah grafik dibawah ini cukup menarik..

aaeaaqaaaaaaaanoaaaajdu3njk4mjvjltbmogqtndmwmi04mgjjltzkytaxnja0mjhkmw

Wow…ini sangat menarik. Apa hal pertama yang anda lihat? Lihatlah garis biru dan merah yang berdampingan dan saling mengikuti satu sama lain. Apakah anda sejenak berpikir kedua hal tersebut saling berpengaruh satu sama lain? Tunggu dulu! Coba anda perhatikan keterangan grafik diatas. Beneran nih??? Penjualan es krim dan kebakaran hutan?? Logika saya tiba-tiba macet dan berpikir ulang mengenai sebab-akibat, bagaimana mungkin es krim menyebabkan kebakaran hutan??.

Percaya atau tidak kita sering melakukan ini dalam kehidupan sehari-hari, kejadian banjir jakarta disebabkan oleh hujan di bogor, jalanan macet disebabkan oleh banyak angkot, hidup saya menderita karena jokowi jadi presiden. Cukup familiar?? Contoh-contoh diatas memang menggelitik rasa penasaran kita mengenai apa penyebab suatu hal terjadi. Logika jika ini terjadi maka itu terjadi adalah logika sebab akibat. Namun kita harus sangat berhati-hati untuk menghubungkan dua kejadian yang seakan-akan berhubungan namun kenyataannya keduanya hanya semata-mata akibat dari suatu SEBAB yang sama-sama tidak atau belum kita ketahui.

Kembali ke ES KRIM dan KEBAKARAN HUTAN, dengan menggunakan logika sederhana kita mengetahui bahwa keduanya tidak berhubungan, namun ada hal yang menghubungkannya. Kita bisa menggambarkannya sebagai berikut:

Kebakaran hutan—>Suhu tinggi–>Musim Kemarau–>Suhu tinggi—> Makan Es krim–>Penjualan es krim meningkat

Terlihat lebih masuk akal kan?

Kenyataannya memang antara penjualan es krim dan kebakaran hutan mempunyai korelasi yang sangat tinggi let’s say 90% namun demikian tidak serta merta kita bisa menyimpulkan  or berspekulasi bahwa penjualan es krim yang menyebabkan kebakaran hutan atau kebakaran hutan yang membuat penjualan es krim meningkat.

Lalu bagaimana membuktikan bahwa dua variabel punya hubungan sebab akibat? Nah disinilah anda membutuhkan pemodelan regresi dan rancangan percobaan.  Kemampuan metode ini dalam memisahkan faktor-faktor yang benar-benar berpengaruh (secara signifikan) terhadap faktor-faktor lain (termasuk didalamnya adalah error-galat) memberikan kita bantuan apakah sebuah faktor benar-benar memiliki hubungan berpengaruh atau hanya sekedar kebetulan semata.

Sepertinya berikutnya bagus juga untuk membedah rumus korelasi dan rumus anova/regresi untuk menemukan bagaimana metode ini dapat memisahkan faktor kebetulan ini. 🙂

Coba kita lihat rumus korelasi berikut:

korelasi-5

Jika kita bedah rumus korelasi diatas kita hanya melihat jika ada dua variabel X dan Y maka besarnya r hanya ditentukan seberapa besar perubahan X dan Y bergerak pada suatu rentang tertentu. Disini kita hanya dapat menyimpulkan bahwa X dan Y berubah searah (+) atau berlawanan (-) dan jika jarak antara data X dan Y cukup dekat maka korelasinya kuat sedangkan jika jarak antara X dan Y berjauhan maka korelasinya lemah. Jika pertanyaan kita adalah jika X bergerak satu satuan, berapa satuankah Y bergerak? Karena jika pergerakan X tidak membuat Y bergerak sama sekali artinya X tidak mempengaruhi Y.  Dengan perhitungan korelasi, kita tidak mendapatkan informasi pergerakan Y saat X bergerak. Jadi jelas sudah konsep korelasi tidak bisa menjawab kausalitas (Sebab- akibat). Sudah cukup jelas??

Like & share –>jika artikelnya cukup berguna

Komentar–> jika ada yang kurang jelas 🙂

 

Kotak ajaib bernama SPSS

Mas datanya mau diolah pake analisa apa? Pake spss aja mas… #zzz buat anak kuliahan yang sedang mengolah data skripsi nya..  Software yang satu ini memang paling ngetop dan sakti banget. Tinggal klak klik dikit trus run aja udah keluar outputnya…  Canggih banget..  Terus langsung pake langkah sakti ambil alpha 5% atau tinggal liat aja bintang2 nya… Analisanya pokoknya ikut skripsi yang lama aja… 

Pola ini adalah pola yg paling sering saya lihat saat ada klien baru atau teman yg minta bantuan utk menganalisis datanya. Seakan2 sebuah software dapat menjadi kotak ajaib yang mengerti kemauan sang mahasiswa. Jebakan inilah yg nantinya akan membuat skripsi anda beranak pinak di dalam folder komputer anda.  Mungkin namanya agak beda2 tapi yg paling umum skripsi_print.doc skripsi_revisi.doc skripsi_printlagi.doc atau skripsi_print_cbdl_mdh2n_diterima.doc.. Hehe

Maksud saya,  lebih baik anda coba sedikit membaca tulisan tentang how to nya menggunakan software tertentu bukan cm SPSS,  baca help nya,  yg paling penting baca dan pelajari buku basic statistik nya. Klo mau cepat ya cari orang yg ngerti. Trust me,  dari pada dengerin dosen ngomel krn kita ngasal mending belajar dikit..  Palingan revisi sekali dah sidang. Salam lulus cepat! 

Analisa data serahkan (belajar) pada ahlinya

find-mentor-moltz-open-forum-432

Bagi kalian yang menyusun tugas akhir dengan menggunakan pendekatan kuantitatif, maka tahap yang paling melelahkan adalah pemilihan metode penelitian dan tahap pengolahan data. Mengapa kedua tahap ini adalah tahap paling melelahkan dan paling memakan waktu? Jawaban yang paling sering saya temui adalah karena sang peneliti tidak familiar dengan istilah-istilah dan pendekatan kuantitatif/statistika.

Mereka yang merupakan lulusan statistika saja masih banyak yang kesusahaan dengan istilah-istilah statistika dan masih harus merujuk pada literatur-literatur yang ada. Namun demikian, bagaikan sebuah peta, untuk anda yang bukan dari jurusan statistika anda seakan masuk ke daerah yang sangat asing dan peta yang anda pegang adalah peta buta. Anda juga tidak pernah tahu bagaimana membaca peta. Lengkap sudah!

Oleh karena itu anda membutuhkan bantuan dari orang-orang yang sudah ahli dalam hal pengolahan data, sehingga anda mendapatkan bantuan untuk memilih peta yang sesuai dan mengajarkan anda bagaimana anda membaca peta. Saya rasa akan sangat masuk akal anda menghemat berbulan-bulan hanya untuk mempelajari satu analisis yang hanya dalam waktu 2-3 hari dapat anda kuasai dengan bimbingan mentor yang tepat.

Find your mentor here!