Cara Benar Membuka File CSV

Walaupun ini hal yang sangat dasar namun ternyata masih lumayan banyak orang yang menemui kesulitan dan mengalami kesusahan dalam membuka data yang ada dalam file csv. Baiklah mari simak penjelasan berikut.

Salah satu tipe file yang paling sering di temui dalam dunia analisa data adalah CSV atau (Comma Separated Value). Dengan ukuran file yang relatif kecil, terus fleksibilitas untuk dapat dibuka di hampir semua software baik dari yang simple seperti excel maupun software2 lain seperti hadoop environment (spark, impala dll) membuat banyak orang membagi file nya dalam format csv. Oh iya, satu lagi keunggulan csv file yakni format data yang tersimpan sesuai dengan format aslinya sehingga kita gak khawatir format file tiba-tiba berubah.

Dari yang saya amati, banyak orang yang biasa menggunakan excel langsung double klik di file csv nya… hasilnyaa… BERANTAKAN.

csv folder

Saat langsung double klik.. hasilnya begini nih… malahan ada yg langsung di alokasikan ke kolom.. masih untung formatnya lasngung bener.. tapi dari pengalaman saya lebih banyak gak benernya..

csv berantakan

Klo udah seperti ini saya sarankan tutup aja file nya dan JANGAN di SAVE. Bisa saja kita menggunakan Text To ColumnĀ namun untuk kali ini kita buka dengan cara paling aman yg saya ketahui. Kalau ada cara lain yg belum disebutkan.. monggo di tambahkan di komentar :).

Ok Langkah pertama buka file excel kosong. Lalu klik menu DATA dan pilih From Text/CSV.buka menu data csv

Pilih file yang ada di folder masing-masing.

import CSV

Kalau pakai excel terbaru kayak saya, akan muncul seperti dibawah ini. Excel akan menganalisa struktur data dari 200 row teratas ( bisa di ubah jumlah row nya) lalu akan menentukan format data per masing-masing kolom.

import csv baru

Setelah klik LOAD hasilnya akan seperti berikut.

final import csv

Naah.. coba anda perhatikan format datanya sudah jauh lebih rapii.. text di format karakter.. angka di format number. Silahkan anda cek data anda lagi sebelum di olah lebih lanjut. Jika sudah rapih dan benar, data siap untuk diproses lebih lanjut. Semoga berguna šŸ™‚

 

 

Advertisements

Presentasi data: Two long tail perspective…

Kerap kali saat anda sudah punya data dab anda punya kemampuan untuk melakukan penelitian, anda kesulitan untuk menyampaikan informasi kepada publik lewat susunan cerita yang menarik. Diskusi sore ini bersama big bos, saya menemukan sebuah pola pikir yang sangat menarik. Berawal dari saking banyaknya data yang kami miliki, kami kesulitan merangkai semua data itu menjadk sebuah cerita yang utuh. Hingga akhirnya muncul celetukan, pakai saja analisis two tail… Dalam hati.. Whaat? Baruu denger saya.

Pikiran saya langsung tertuju pada grafik sebaran normal dengan dua ekor dikiri dan dikanan. Bell Curve. Ternyata apa yg saya pikirkan terlalu rumit… Ternyata analisa ini sangat simpel namun dengan mengambil konsep sebaran data.

Kita pasti tahu bell curve… Nah dua tail atau ekor grafik ini menggambarkan posisi yang ekstrim dari data… Ekstrim besar dan ekstrim kecil… Misalkan kita menganalisis data sales maka salah satu opsi dalam menyampaikan informasi adalah dengan mengambil detail dari kedua tail. Ekstrim kanan menggambarkan sales yang penjualannya sangat tinggi, lets say top 95 percentile… Sedangkan di kiri kita ambil contoh untuk sales yg tidak achieve… Misalkan bottom 10 percentile. Dengan menggali detail kenapa kedua sales ini berada di sisi ekstrim sangatlah penting. Kita ingin agar sales yg ada dibagian tengah dapat mencontoh strategi sales yang berhasil dan menjauhi sales yg tdk achieve.

Harapan kita adalah nilai tengah dari sales yg skrg berkumpul ditengah dapat bergeser ke arah kanan yg secara total akan menaikkan sales performance secara keseluruhan.

Fun Fact Factory

Sebagai seorang quant (orang yg bekerja denhan angka) kerjaan rutin saya adalah membuat sebuah analisa,  laporan,  dashboard  insight..  Dan teman sepermainannya. Intinya menghasilkan informasi bagi para pengambil keputusan aka decission maker. Well… Intinya mereka bertanya.. Terserah Kamilah bagaimanalah caranya menjawab, yang pasti adalah DEADline nya… Setelah tak terhitung request informasi yg masuk saya melihat beberapa pola yg muncul dr para bos ini. Mereka sangat suka data…  Tapiii tidak semua pertanyaan yg disampaikan berguna utk bisnis. Cuma pengen tahu saja kira2. Jadilah tim report ini menjadi pabrik permen informasi, enak dilidah tapi gak mengenyangkan. 

Dari sekian banyak informasi yang diminta (seringkali berulang)  selalu ada informasi2 yang cukup berharga… Informasi ini jika sampai ditangan yang tepat maka akan menjadi senjata ampuh untuk memajukan bisnis. Rekan2 programmer saya sih udah gak akan sempat mikirin yanag kayak gini, jadilah ex data analis yang jadi project manager ini menjadi pengumpul remah2 ini. Hal yg ditanyakan berulang dibuatkan otomasinya…  Kirim via email..  Schedule kan! Cara yang lain adalah bikinin dashboardnya…  Modal dikit belilah semacam tableau, datazen atau bikin sendiri pake goohle chart klo mau gratisan. Percaya deh…  Anda akan membuat atasan anda senyum2 sendiri dan anda masih ounya waktu buat sekedar baca2 buku yg mungkin udah dari setahun lalu gak tersentuh. 

Ability to see pattern in randomness

life_is_random

Dulu sekali, disalah satu stasiun televisi swasta menayangkan sebuah acara dimana beberapa orang ‘sakti’berkumpul untuk menangkap hantu. Kami yang saat itu masih anak-anak sangat menggandrungi acara ini, apalagi saat salah seorang dari pemburu tersebut membuat lukisan dengan mata tertutup, lalu muncullah gambar makhluk-makhluk aneh dengan ajaibnya.

Beda halnya dengan salah satu karakter novel kesukaan saya Sherlock Holmes, berkali-kali membaca dan menonton film dan serialnya selalu membuat saya berdecak kagum. Kemampuannya dalam memecahkan kasus-kasus kriminal membuat pembaca tenggelam dalam alur cerita yang dituliskan oleh Sir Arthur Conan Doyle.

Lalau apa hubungannya antara pemburu hantu dan Sherlock Holmes? Keduanya memiliki sebuah kesamaan yakni kemampuan melihat sesuatu yang tidak bisa dilihat oleh orang kebanyakan. Walau dalam kasus pemburu hantu saya juga masih ragu apa itu rekayasa atau bukan, tapi ya sudahlah anggap saja mereka bisa lihat.period. Kemampuan ini yang membuat mereka special dan berbeda dengan orang lain yang akhirnya membuat mereka terkenal dan dibayar mahal.

Menurut saya apa yang kita lakukan dalam menganalisa data adalah mencoba melihat pola-pola yang tidak terlihat dari sekumpulan data atau kejadian yang seakan-akan acak dan chaos. Dalam era social media ini, perusahaan selalu mencoba untuk lebih baik dari perusahaan lain dengan berbagai cara, salah satu nya adalah membuat produk yang berbeda dan lebih baik dari pesaingnya. Semakin banyak kita tahu tentang informasi lebih dari pesaing kita, maka semakin besar peluang kita menang.

Di zaman dimana semua aktifitas kita terekam lewat sebuah alat yang bernama smartphone ini, maka tidak ada lagi batasan antara kita dengan perusahaan penghasil produk. Tergantung apakah mereka mampu menemukan pola/pattern yang kita hasilkan. Dapatkah mereka memberikan sebuah penawaran/solusi/produk/jasa yang sesuai dengan kebutuhan kita.

Pertanyaan untuk kita adalah apakah anda mampu melihat pola yang teratur dalam sebuah kejadian acak?

Kotak ajaib bernama SPSS

Mas datanya mau diolah pake analisa apa? Pake spss aja mas… #zzz buat anak kuliahan yang sedang mengolah data skripsi nya..  Software yang satu ini memang paling ngetop dan sakti banget. Tinggal klak klik dikit trus run aja udah keluar outputnya…  Canggih banget..  Terus langsung pake langkah sakti ambil alpha 5% atau tinggal liat aja bintang2 nya… Analisanya pokoknya ikut skripsi yang lama aja… 

Pola ini adalah pola yg paling sering saya lihat saat ada klien baru atau teman yg minta bantuan utk menganalisis datanya. Seakan2 sebuah software dapat menjadi kotak ajaib yang mengerti kemauan sang mahasiswa. Jebakan inilah yg nantinya akan membuat skripsi anda beranak pinak di dalam folder komputer anda.  Mungkin namanya agak beda2 tapi yg paling umum skripsi_print.doc skripsi_revisi.doc skripsi_printlagi.doc atau skripsi_print_cbdl_mdh2n_diterima.doc.. Hehe

Maksud saya,  lebih baik anda coba sedikit membaca tulisan tentang how to nya menggunakan software tertentu bukan cm SPSS,  baca help nya,  yg paling penting baca dan pelajari buku basic statistik nya. Klo mau cepat ya cari orang yg ngerti. Trust me,  dari pada dengerin dosen ngomel krn kita ngasal mending belajar dikit..  Palingan revisi sekali dah sidang. Salam lulus cepat! 

Mengolah jenis data numerik

Jenis data numerik adalah jenis data yang paling sering digunakan di dunia profesional, seperti yang telah saya pernah jelaskan pada posting saya sebelumnya pada jenis-jenis data, bahwa data numerik paling fleksibel untuk diolah dengan berbagai operasi matematika. Kita dapat mengurutkan, membandingkan dan membuat rasio dari dua data yang sifatnya numerik. Pada tulisan saya kali saya akan menampilkan beberapa penggunaan data numerik sehingga kita dapat mendapatkanĀ  dan menyajikan informasiĀ  dengan tepat.

Bagaimana menampilkan data numerik pada kalimat??

Saya sering membaca blog atau berita di surat kabar paling sering di skripsi/ thesis, dimana banyak sekali angka yang disebutkan. Jujur, saya terkadang merasa tenggelam didalam data yang begitu banyak. Saya tidak bisa menarik kesimpulan dari kalimat yang saya baca.

Salah satu cara untuk menyajikan data dalam sebuah narasi adalah gunakan maksimal dua data dalam satu narasi. Alasannya adalah sangat sederhana, karena otak sudah sangat terbiasa membandingkan dua hal (hitam-putih, panjang-pendek dll). Jika kita menyajikan tiga data pada satu narasi maka otak kita tetap akan membandingkannya dalam pasangan misalnya A, B dan C. Maka otak kita akan membuat perbandingan 3 kombinasi 2 (A-B, A-C, B-C). Jadi daripada membuat pembaca kita bingung, maka gunakan maksimal 2 data pada satu narasi.

Kapan menggunakan TABEL??

Sejak dulu sudah tak terhitung banyaknya data yang saya tampilkan menggunakan tabel, tapi belakangan saya berpikir kapan saat yang tepat menggunakan tabel?? Setelah membaca di beberapa tulisan master-master data, saya menyimpulkan bahwa jika kita:

  1. Anda mempunyai data yang relatif sedikit. lets say anda punya 100 data, dengan 2 dimensi. Maka lakukan pivot sederhana dengan excel, maka anda mendapatkan tabulasi yang mudah dan sederhana.
  2. Jika anda memperhatikan detail dari angka yang anda sajikan. Misalkan anda ingin menampilkan 3 angka dibelakang koma (2.596 dari pada dibulatkan menjadi 2.6), maka pilihan tabel akan memberikan fitur untuk menampilkan presisi angka tersebut.
  3. Salah satu teknik visualisasi data bukan hanya menunjukkan sesuatu tapi juga ‘tidak menunjukkan’. Salah satu contohnya adalah, jika anda tidak ingin menunjukkan secara jelas perbedaan profit perusahaan pertahun maka tabel akan menyamarkan perbedaan tersebut dengan sangat baik.

Menyajikan data dg Tabel tp Tetap sederhana?

Sering kali saya melihat penyajian presentasi data dengan menampilkan tabel, namun satu hal yang membuat saya tersiksa yakni TERLALU BANYAK ANGKA. Tidak adanya fokus pembahasan menyebabkan kita terjebak dalam persepsi bahwa semakin banyak data yang disampaikan maka semakin canggih dan sophisticated laporannya. Padahal TIDAK.

Pada kenyataannya para presenter handal dunia lebih suka menggunakan sedikit angka dan sedikit kata-kata dalam presentasinya. Adapun data yang disajikan lebih kepada CLUE untuk mempertajam STORY yang sedang mereka ceritakan.

Pertama. Identifikasi point penting yang ingin highlight.

Kedua. Identifikasi kecenderungan orang membaca data kolom atau baris?? Sebaiknya sih kategori letakkan di kolom sehingga lebih mudah dibandingkan (orang cenderung membandingkan kolom ke kolom).

Ketiga. Lakukan pembulatan sampai tingkat ketelitian yang dibutuhkan. Terlalu banyak angka dibelakang koma malahan akan menghilangkan makna sesungguhnya dari angka tersebut karena gagal fokus.

Keempat.Ā Hindari penggunaan garis pemisah antara kolom dan garis secara berlebihan. Jangan sampai tabel anda benar-bener terlihat ‘excel-like’. Gunakan bold untuk highlight data yang anda ingin tekankan.

 

Langkah-Langkah Analisa Data Part 1 Setengah masalah selesai dengan pertanyaan

Tidak ada hari tanpa excel dan data. Ini mungkin gambaran yang paling tepat untuk menggambarkan pekerjaan yang saya lakukan. Walaupun untuk mengekstrak datanya sudah ada SAS or MySQL dan untuk visualisasinya sudah pake Tableau, kemudahan pengolahan data excel emang paling T.O.P.

Seingat saya, waktu jaman kuliah juga gak terlepas dengan menggunakan excel, bikin tabulasi data survey, sekedar deskriptif stat sih gak ada masalah. Baru beberapa tahun ini aja kenal beberapa trik keren yang excel punya.

Sekarang ini katanya sih era BIG DATA, buat yang punya tools yang keren dan ngerti dikit API, mungkin ngerti dengan istilah ini. Tapi saya sendiri sih masih jarang gunain data ini, masih data-data yang ‘kecil’ dan terstruktur. Makanya saya share hal-hal basic aja dalam hal pengolahan data, hal biasa yang bisa sangat membantu hidup anda.

Sebelum anda melakukan analisa apapun pada data anda, hal yang anda paling butuhkan adalah identifikasi masalah apa yang anda ingin jawab dengan data yang anda miliki? Tulislah setiap pertanyaan yang anda miliki di kertas kerja anda. Jika saya mengatakan tulislah, maka jangan sungkan mencoret-coret kertas anda untuk menulis pertanyaan. Satu filosofi yang saya pegang adalah “jika anda sudah bisa membuat pertanyaan yang jelas dan akurat, anda sudah mengerjakan setengah pekerjaan anda”

Pernahkah ditanya manakah yang “lebih baik” samsung atau apple? Berapa penjualan kita bulan lalu? atau manakah yang harus saya pilih, beli rumah atau apartemen?

Dapatkah anda membedakan mana pertanyaan yang baik, mana yang tidak?

Visualisasi Data Dengan Gabungan Lebih dari Satu Grafik

Dalam menyajikan informasi kita sering kali dihadapkan pada pertanyaan bagaimana jika grafik ini dan itu digabungkan menjadi satu grafik saja? Tidak usah bingung, gabungkan saja :). Bagaimana cara menggabungkannya? Nah silahkan lanjutkan bacanya sampai selesai ya…

Pada posting sebelumnya saya sudah menjelaskan tiga jenis grafik paling dasar yang ada di dunia persilatan data. Nah, berikut ini adalah penjelasan bagaimana bentuk-bentuk lain dari grafik-grafik tersebut dan kapan menggunakannya

Satu: Stack Graph (Grafik bertumpuk)

Grafik jenis ini merupakan bentuk lain dari bar chart, perbedaannya adalah pada stack chart grafik batang dibagi menjadi beberapa bagian yang bisa dibedakan dengan warna. Setiap warna menandakan bagian yang lebih detail dari setiap batang.

Dengan menumpukkan setiap batang kita dapat membandingkan proporsi dari beberapa dimensi dengan level detail yang lebih dalam dibandingkan dengan bar chart sederhana. Pada stack chart anda dapat menggali informasi tambahan yakni setiap perubahan satu bagian maka akan mempengaruhi bagian yang lain. Sebagai contoh coba perhatikan data pada Qtr1 dan Qtr 2 peningkatan mail order pada dari Qtr1 ke Qtr 2Ā  memakan bagian penjualan menggunakan retail. Hal ini dengan mudah dilihat dengan menggunakan stack chart dibandingkan dengan bar chart sederhana. See? It’s easy.

Dua: Gabungan Line dan Bar Chart

Let’s say kita telah membuat satu grafik untuk menjelaskan perkembangan sales per bulan dan satu grafik lain menjelaskan mengenai perkembangan profit perbulan. Jika mengamati secara terpisah, maka informasi yang didapatkan hanya informasi yang terpisah. Nah, coba kita sekarang gabungkan dua grafik ini.

Dengan hanya menggabungkan dua grafik ini dan menyesuaikan bagian axis nya, maka kita mendapatkan informasi yang tidak kita dapatkan dari grafik individual. Salah satu contohnya adalah pada bulan April (4) terdapat penurunan profit padahal sales meningkat. Temuan seperti ini bagi orang-orang marketing menggelitik rasa penasarannya. Kok bisa ya terjadi seperti itu? Tindak lanjutnya adalah dengan investigasi apa yang menyebabkan penurunan profit tersebut? Insight seperti ini dengan mudah dilihat dengan menggabungkan dua grafik seperti diatas.

A dan B dan C dan D tidak sama dengan A+B+C+D

Seminggu yang lalu Indonesia memasuki era kepemimpinan yang baru. Jokowi dan JK di daulat menjadi presiden dan wakil presiden Indonesia yang baru. Setelah membentuk sebuah kabinet dengan tag line kerja, kerja, kerja, para menteri memulai marathon dengan start ala sprint. Tidak ada masa bulan madu, langsung tancap gas mulai dari hari pertama. Seperti tidak ingin membuang waktu, beberapa kementerian telah memulai start sprint mereka dengan rapat-rapat di jajaran kementerian masing-masing. Pada rapat perdana yang digelar sehari setelah pelantikan, Presiden Jokowi memberikan arahan yang secara pribadi sangat penting yakni melepas ego sektoral masing-masing kementerian. Ini bukan arahan yg baru, namun penekanan Presiden dalam kalimat-kalimat awal rapat cabinet nya memberikan sinyal bahwa ini adalah hal yang utama dan pertama yang harus dilaksanakan.

Dalam dunia statistika seringkali diperlukan penyusunan sebuah model yang baik. Model ini tersusun atas variable bebas dan variable terikat. Variabel bebas adalah variable yang menjadi penentu dan sifatnya bebas, sedangkan variable terikat adalah output atau hasil yang diharapkan tercermin oleh keberadaan variable bebas. Analogi penyusunan model ini dapat digunakan untuk menggambarkan keadaan inisiatif-inisiatif yang akan dilaksanakan oleh pemerintah melalui berbagai kementeriannya. Letā€™s say pemerintah mempunyai empat inisiatif yaklni A, B, C dan D dilaksanakan oleh empat kementerian yang berbeda namun mempunyai tujuan yang sama letā€™s say X. Apakah kita dapat dengan yakin mengatakan bahwa jika semua inisiatif ini dilakukan secara baik maka output nya menjadi A+B+C+D?? Jawaban belum tentu. Pada saat inisiatif ini disusun tentu menggunakan asumsi (jika begini maka begitu) , semakin banyak asumsi yang digunakan maka semakin luas range output dari inisiatifnya. Berikut beberapa penyebabnya:

  • Interaksi dan kanibalisasi dari berbagai inisiatif. Bisa jadi dua inisiatif membutuhkan sumber daya yang sama sehingga keduanya saling berkompetisi mendapatkan sumber daya yang sama.
  • Output dari inisiatif itu sejatinya terbatas. Penjelasan dalam bentuk contoh akan lebih memudahkan, jika peningkatan devisa kita maksimum hanya 300 trilyun maka sebanyak apapun inisiatif yang ada tidak akan pernah membuat devisa kita menjadi 600 trilyun. Anda bisa membayangkan jika setiap kementerian pada akhir inisiatif mengklaim keberhasilan inisiatifnya. Inisiatif A diklaim meningkatkan devisa 200 T, Inisiatif B 200 T, Inisiatif C 100 T, Inisatif D 100 T. Totalnya 600 T padahal kenyataanya naiknya Cuma 300 T.

Kita bisa membayangkan berapa banyak inisiatif yang akan dilakukan oleh pemerintah, dengan berbagai macam asumsi yang dipasangkan. Sekarang anda bisa membayangkan betapa susahnya melakukan sinkronisasi inisiatif inter dan antar kementerian. Beberapa inisiatif yang simple, executable dan terukur akan jauh lebih baik dibandingkan dengan banyak inisiatif namun ribet dan susah dilaksanakan. Selamat bekerja!

Pengambilan Keputusan Berdasarkan Data

Setiap saat kita mengambil keputusan. Ya, setiap saat. Sesederhana anda memilih minum teh atau kopi sampai serumit memilih akan pindh kerja ke BI atau Ke Pertamina. Even se”njelimet” memikirkan akan menaikkan suku bunga kredit atau tidak. Kita terus melakukan pengambilan keputusan, suka atau tidak suka, mau atau tidak mau.

Pertanyaannya adalah “bagaimana cara anda mengambil keputusan?” Apa dasar pengambilan keputusan anda? Pada dasarnya seseorang akan mengambil keputusan dengan mempertimbangkan banyak hal. Dalam melakukan pertimbangan ini memerlukan “prior information”. Semakin besar dampak dari sebuah keputusan, semakin banyak informasi yang kita butuhkan sebagai bahan pertimbangan.

Informasi seharusnya diekstrak dari data yang berkualitas, sehingga kualitas keputusan yang kita miliki juga menjadi keputusan yang bermutu. Selain kualitas data yang menjadi dasar dari pengambilan keputusan, kualitas analisa menjadi titik yang sangat menentukan. Sebagus apapun data yang dimiliki, saat alat analisa nya tidak sesuai maka hasil analisa nya juga menjadi tidak valid.

Kebanyakan orang akan mempercayakan intuisi sebagai panduan dalam mengambil keputusan, namun bagi saya hal tersebut sama saja dengan anda pergi berlayar di malam yang gelap dan berawan tanpa membawa alat navigasi. Anda mungkin akan sampai namun akan ada suatu masa dimana anda perlu mengetahui, seberapa jauh anda dari tujuan anda, atau seberapa lama anda dari tempat keberangkatan anda.

Lebih bijak anda meluangkan waktu untuk melakukan pengumpulan data, analisa data dan penarikan kesimpulan sebelum anda benar-benar mengambil keputusan. Kemungkinan anda salah tetap akan ada, namun dengan cara ini anda akan bisa mengantisipasi setiap kesalahan dan memperkecil risiko akibat kesalahan tersebut.