Ketika rata-rata tidak cukup lagi…

Siapa yang tidak kenal dengan rata-rata?? Jika anda sering kali melakukan pengolahan data, maka perhitungan rata-rata hampir bisa dipastikan akan selalu ada dalam laporan yang anda buat. Namun menyajikan rata-rata saja ternyata sangat tidaklah cukup… Percaya deh.. Gak cukup banget. Jika ada yg menyajikan data hanya dengan rata-rata saja maka hal ini akan membuat kesimpulan yang anda buat menjadi melenceng dari yang seharusnya. Kenapa??

Hal ini sangat berkaitan erat dengan variasi data yang anda miliki. Buatlah histogram sederhana untuk mengetahui apakah data anda punya data ekstrim? Data ekstrim adalah data yang saaaangat besar atau sangaaat kecil dibandingkan dengan nilai tengah nya.

Nilai rata-rata memberikan bobot yang sama untuk semua data. Sehingga nilai yang besaaar banget atau yang keciiil bgt kan membuat rata-rata bergeser ke besar atau yang kecil. Saran saya selalu bandingkan nilai rata-rata dengan nilai tenga (median). Lebih bagus lagi jika anda tambahkan kuartil atau percentilnya.

Advertisements

Akibat regresi linear

Beberapa hari yg lalu saya tampil di depan rekan2 kerja saya dalam rangka sharing session yang biasanya dilaksanakan setiap jumat. Saya diminta utk menjelaskan apa saja6yg sudah dipelajari dari lynda.com. Itu lho situs belajar mandiri dari linkedin… Sebagai bentuk pertanggungjawaban sudah dapat akses premium jadilah hari itu saya maju.

Di lynda.com saya ambil beberapa course dasar seperti statistics foundation, data science dan juga business analytics. Saya semakin sadar bahwa gap skill yg saya miliki dibandingkan dengan ekspertis di luar sana. Fine. Dengan segala keterbatasan yang ada saya buat sebuah presentasi yg berjudul unboxing hubungan antar data. Isinya pokoknya menjelaskan kembali konsep korelasi dan juga regresi. Ternyataaaa hampir semua yg duduk menyaksikan gelisah berharap presentasi saya segera selesai… Hahaha. Walaupun demikian ada juga yg bertanya ttg konsep p-value. Damn!!

Finally presentasi berjalan dengan kegelisahan para hadirin…. Walaupun seminggu ini saya terus2an di godain dengan celetukan… Wooi datanya bisa diberesin tuh sama si rahmat pake regresi…. Wakakakak. Damn again!!

Presentasi data: Two long tail perspective…

Kerap kali saat anda sudah punya data dab anda punya kemampuan untuk melakukan penelitian, anda kesulitan untuk menyampaikan informasi kepada publik lewat susunan cerita yang menarik. Diskusi sore ini bersama big bos, saya menemukan sebuah pola pikir yang sangat menarik. Berawal dari saking banyaknya data yang kami miliki, kami kesulitan merangkai semua data itu menjadk sebuah cerita yang utuh. Hingga akhirnya muncul celetukan, pakai saja analisis two tail… Dalam hati.. Whaat? Baruu denger saya.

Pikiran saya langsung tertuju pada grafik sebaran normal dengan dua ekor dikiri dan dikanan. Bell Curve. Ternyata apa yg saya pikirkan terlalu rumit… Ternyata analisa ini sangat simpel namun dengan mengambil konsep sebaran data.

Kita pasti tahu bell curve… Nah dua tail atau ekor grafik ini menggambarkan posisi yang ekstrim dari data… Ekstrim besar dan ekstrim kecil… Misalkan kita menganalisis data sales maka salah satu opsi dalam menyampaikan informasi adalah dengan mengambil detail dari kedua tail. Ekstrim kanan menggambarkan sales yang penjualannya sangat tinggi, lets say top 95 percentile… Sedangkan di kiri kita ambil contoh untuk sales yg tidak achieve… Misalkan bottom 10 percentile. Dengan menggali detail kenapa kedua sales ini berada di sisi ekstrim sangatlah penting. Kita ingin agar sales yg ada dibagian tengah dapat mencontoh strategi sales yang berhasil dan menjauhi sales yg tdk achieve.

Harapan kita adalah nilai tengah dari sales yg skrg berkumpul ditengah dapat bergeser ke arah kanan yg secara total akan menaikkan sales performance secara keseluruhan.

Tipe-tipe data yg wajib diketahui analyst pemula

lrdatahd

Tidak ada salahnya kita terkesa dengan berbagai jenis analisa keren dan sophisticated kayak regression, naive bayes, decision tree dkk. Namun sebaiknya sebelum kita lompat kearah situ mari kita melihat hal-hal basic yg mungkin terlewat, terutama bagi rekan-rekan yang baru saja berkecimpung di dunia data.

Pada postingan saya sebelumnya, saya sudah menjelaskan jenis2 data berdasarkan sifatnya (nominal, ordinal, interval dan rasio) nah sekarang kita sedikit mundur ke belakang utk mengenal dan mengetahui tipe data. Disini saya levih menekankan definisi yang digunakan di dunia database.

Memang sudah tdk dapat dipungkiri lagi bahwa sebagian besar data kita tersimpan dalam sebuah ekosistem database dimana didalamnya ada kolom (field) dan baris (record). Ekosistem ini sangat efisien sehingga dari awal pembuatan database ini perlu diketahui apa saja tipe data dari kolom-kolom yang disimpan.

1. Character/ String/ varchar

Tipe data jenis ini dicirikan dengan adanya HURUF, ANGKA dan KARAKTER, operasi matematika yang bisa dilakukan adalah COUNT. Jika kita petakan ke jenis data di area statistika maka yang masuk kategori ini adalah nominal dan ordinal.

2. Integer dan float

Integer atau yang lebih dikenal dengan bilangan bulat adalah tipe data yang dihasilkan dari operasi COUNT yang menandakan banyaknya benda. kita bisa melakukan operasi hampir semua operasi matematika untuk tipe data ini. Sedangkan FLOAT adalah tipe data yang mengandung angka desimal. Kedua tipe data ini dapat dikategorikan menjadi jenis data RASIO dan INTERVAL.

3. Boolean

Seringkali dalam query kita mema=bandingkan antara dua value atau lebih dengan menggunakan IF..THEN..ELSE… atau menggunakan >, = dkk. Nah hasil dari pembandingan ini disimpan dalam bentukan BOOLEAN. Tipe data ini hanya memiliki dua nilai yakni TRUE dan FALSE.

Dengan mengetahui tipe-tipe data ini kita dapat mendesign sebuah  analisa data sesuai dengan tipe data yang kita miliki. Seringkali kita menemukan tipe data yang tidak sesuai dengan kebutuhan kita, akhirnya harus melakukan transformasi yang sangat banyak untuk itu. Memang tidak salah akhirnya pekerjaan data analyst, statistician dan data scientist 90% nya dihabiskaan hanya untuk data preparation.. Nasiiiib…

Mengenal data geocode/spasial

Saat saya menyusun skripsi S1, saya mempertimbangkan untuk mengambil judul yang berkaitan dengan bionformatika namun apadaya ilmu saya masih sangat dangkal dan referensi yang saya miliki benar-benar terbatas. Akhirnya pilihan saya adalah topik yang lebih membumi yakni mengenai spasial analysis. Singkat cerita setelah masuk ke dunia kerja, saya menemukan ternyata banyak sekali informasi spasial yang digunakan. Tampilan grafiknya pun sudah cakep-cakep, jauh sekali dengan saat zaman saya kuliah dimana petanya pun hitam putih dan lokasi hanya ditunjukkan dengan titik dan warna.

maps_build9

contoh map dari tableau

Kombinasi antara informasi non spasial dengan informasi spasial benar-benar memberikan dampak yang besar dalam cara berpikir kita. Bagi ada yang sudah familiar dengan software-software visual analytic atau business intelligence tidak akan asing lagi menampilkan data dengan map chart, namun tulisan saya ini bermaksud memperkenalkan jenis data ini kepada mereka yang baru mengenal dunia visual analytic.

Hal pertama yang perlu kita tahu adalah konsep latitude dan longitude. Saya kutip saja nih pengertiannya:

Latitude adalah garis yang horisontal / mendatar. Titik 0 adalah sudut ekuator, tanda + menunjukan arah ke atas menuju kutub utara, sedangkan tanda minus di koordinat Latitude menuju ke kutub selatan.

Longitude adalah garis lintang . Angka dari sudut bundar bumi horisontal. Titik diawali dari 0 ke 180 derajat, dan 0 ke-180 ke arah sebaliknya.

link lengkapnya

Data long-lat inilah yang menjadi petunjuk kita untuk menemukan lokasi sebuah tempat di permukaan bumi. Baiklah supaya lebih konkrit saya telah mengunduh data sample di disini untuk kita visualkan.

Disini kita akan menggunakan software ms excel yang semua orang bisa menggunakannya. Setelah anda mengunduh datanya, kalian bisa membuat visualisasi seperti ini.map_excel_jadi

Beneran ini cuma bermodal ms excel 2016. Keren kan?? Coba bayangkan kalian bikin presentasi dengan menggunakan chart keren ini…Ada yang butuh tutorial untuk bikin map kayak gini? Let me know…

Susah gampang mendapatkan data jumlah penduduk

Saat ini banyak instansi pemerintah, perorangan maupun perusahaan yang membutuhkan informasi untuk mendukung pengambilan keputusannya. Lama kelamaan sumber data internal semakin tidak mencukupi untuk lebih menajamkan hasil analisa. Mungkin ada yang bertanya kenapa data internal tidak mencukupi? Bukannya data internal itu sifatnya detail dan sudah terstruktur? Iya, benar sekali. Namun data internal sifatnya sangat spesifik dan sering terbatas pada tema tertentu misalkan industri keuangan hanya memiliki data tentang kredit macet, jumlah nasabah, jumlah deposito dll.

Salah satu contoh kasus sebuah perusahaan membutuhkan data eksternal adalah saat menyusun Rencana Bisnis (Business Plan). Hal pertama yang dilakukan adalah dengan mengumpulkan data historis dari data internal lalu kemudian melakukan forecasting/ peramalan setahun kedepan. Hanya menggunakan data internal saja maka model akan memberikan hasil forecasting sesuai dengan data historical, jika data historical naik maka di masa depan akan cenderung naik jika turun juga akan cenderung turun. Nah.. disinilah kita membutuhkan data eksternal. Jika bisnis kita sangat tergantung pada jumlah penduduk dan levelnya adalah kecamatan. Maka mulailah kita nanya mbah google.com. Saya sendiri mencoba mencari data ini karena kebetulan di kantor juga membutuhkannya.

Hasilnya sebagai berikut.

jml penduduk per kecSemua pencarian diatas merujuk pada website masing-masing kabupaten. Artinya kita harus mendownload SEBANYAK JUMLAH KABUPATEN!!! Inilah salah satu suka duka cari data gratisan..hahaha…

Tapi tunggu dulu link paling atas itu memiliki semua data penduduk per kecamatan yang sudah di rekap. Mantap nih.. Saat di klik dukcapil kecamatan

Waaah bagus banget nih… datanya persis seperti yang saya butuhkan tapiii….setelah copas ke excel hasilnya begini..

excel penduduk

Sayangnya format data yang ada belum sesuai dengan ekspektasi saya. Saya membutuhkan format seperti ini

TABEL FORMAThanya untuk beberapa baris data saja saya membutuhkan waktu lebih dari 5 menit, sudah bisa dibayangkan berapa lama waktu yang dibutuhkan untuk mengumpulkan data se-Indonesia?

Pada postingan berikutnya saya akan coba share cara lain untuk mengumpulkan data dengan lebih mudah. Buat yang tertarik dengan data yang sudah rapi silahkan subscribe dan follow blog saya.

Cara Mudah Menggabungkan Beberapa File txt/csv Besar (Tanpa CoPas)

Seperti anda semua ketahui bahwa jumlah row/baris ms excel itu terbatas sekitar 1jt row. Buat anda yang sering bekerja dengan data yang besar maka ms excel akan sangat kewalahan untuk menampung data yang anda miliki, padahal kita biasanya menggunakan excel untuk melakukan manipulasi dan pengolahan data.

Jika anda menggunakan excel untuk menggabungkan 2 atau lebih file dengan total row lebih dari 1 jt row maka hal itu tidak mungkin anda lakukan. Mungkin anda berpikir untuk mencari software-software kecil yang anda gunakan untuk membantu pekerjaan anda.

Kondisi yang lain, mungkin anda dapat menggunakan ms excel untuk menggabungkan data, namun jumlah file yang anda miliki misalkan 100 file txt atau csv. Mungkin anda akan mati kebosanan untuk melakukannya. Berikut saya berikan langkah sederhana untuk menggabungkan file txt atau csv tanpa menggunakan software tambahan lain.

Pertama nyalakan COMMAND PROMPT dengan mengetik cmd pada kolom pencarian.

cmd1

Arahkan ke direktori pada folder yang berisi file yang anda ingin gabungkan.

cmd3

dapat dilihat bahwa kita memiliki 14 file yang akan digabungkan.

cmd0

Pada command prompt masukan script copy /b *.csv gabung.csv dimana copy /b adalah script default, *.csv berarti menggabungkan semua file yang ada di folder tersebut. Sedangkan gabung.csv adalah nama file hasil penggabungan.

cmd4

Pada folder yang sama akan muncul 1 file bernama gabung.csv

cmd5

Sebelum anda menggunakan file tersebut jika pada file asli anda memiliki header pada datanya, maka anda perlu menghilangkan header tersebut dari file hasil gabungan.

cmd6

Cukup dengan sort datanya dan delete semua row yang berisi header.

cmd7

Setelah langkah terakhir anda lakukan, maka file gabung.csv anda sudah dapat anda gunakan.

 

Bagaimana mengetahui trend data di excel?

Sebelum anda melakukan analisa data yang kompleks, langkah pertama yang anda perlu lakukan adalah mengetahui TREND data yang anda miliki. Dibandingkan melihat dalam bentuk tabular/tabel, akan jauh lebih mudah untuk memunculkannya dalam bentuk grafik.

Selain itu excel memiliki sebuah fitur untuk memunculkan trend dengan sangat mudah, ditambah lagi dengan adanya fitur forecasting atau pendugaan. Adapun langkah [ertama yang anda lakukan adalah membuat grafik line sederhana.

Trendline1

Langkah kedua adalah klik kanan pada grafik garis yang sudah terbentuk dan pilih ADD Trendline

Trendline2

Langkah ketiga adalah memilih jenis pendekatan trend yang paling sesuai dengan karakteristik data. Terdapat 6 pilihan yakni:

  1. Exponential : Cocok untuk data yang karakternya meningkat atau menurun secara berpangkat misalkan 1, 4, 16 dst.
  2. Linear : merupakan pendekatan yang paling populer dimana sebaran data didekati dengan menggunakan garis lurus yang mewakili data. Pendekatan linear cukup sederhana dan paling mudah untuk di interpretasikan.
  3. Logaritmik : jika data pertama dan data kedua memiliki hubungan logaritmik maka tentu saja pendekatan ini akan lebih sesuai.
  4. Polinomial: Jika data anda memiliki puncak dan lembah yang banyak dan tingkat akurasi adalah hal yang anda utamakan maka anda dapat menggunakan polinomial dimana merupakan kombinasi dari exponential dan linear. Khusus untuk polinomial dapat dipilih sampai pangkat ke-sekian
  5. Power: hanya digunakan jika data anda meningkat secara drastis
  6. Moving average: jika data anda bergerask sesuai dengan rata-rata periode sebelumnya, maka anda dapat menggunakan moving average pada data anda.

Trendline3

Langkah terakhir: Setelah anda memilih salah satu pendekatan, anda dapat memilih memunculkan formula trend yang anda pilih dengan memilih display equation on chart. 

Mungkin anda memiliki pertanya bagaimana mengetahui trendline yang anda pilih adalah yang paling baik? Untuk itu kita dapat menampilkan R-squared yang menunjukkan seberapa besar trend yang kita buat merepresentasikan keseluruhan data.

Trendline4

Selain itu kita dapat melakukan forecasting dengan menggunakan trendline yang kita pilih. Untuk meramal kedepan kita dapat menggunakan forward dan untuk masa lalu kita dapat menggunakan backward. Workshet yang saya gunakan dalam tutorial ini dapat di download disini

 

Korelasi tidak bermakna sebab-akibat

Anda mendatangi sebuah seminar, dimana anda disajikan berbagai macam informasi. Lalu anda terpaku pada sebuah grafik yang menurut anda cukup menarik. Coba anda lihat sendiri apakah grafik dibawah ini cukup menarik..

aaeaaqaaaaaaaanoaaaajdu3njk4mjvjltbmogqtndmwmi04mgjjltzkytaxnja0mjhkmw

Wow…ini sangat menarik. Apa hal pertama yang anda lihat? Lihatlah garis biru dan merah yang berdampingan dan saling mengikuti satu sama lain. Apakah anda sejenak berpikir kedua hal tersebut saling berpengaruh satu sama lain? Tunggu dulu! Coba anda perhatikan keterangan grafik diatas. Beneran nih??? Penjualan es krim dan kebakaran hutan?? Logika saya tiba-tiba macet dan berpikir ulang mengenai sebab-akibat, bagaimana mungkin es krim menyebabkan kebakaran hutan??.

Percaya atau tidak kita sering melakukan ini dalam kehidupan sehari-hari, kejadian banjir jakarta disebabkan oleh hujan di bogor, jalanan macet disebabkan oleh banyak angkot, hidup saya menderita karena jokowi jadi presiden. Cukup familiar?? Contoh-contoh diatas memang menggelitik rasa penasaran kita mengenai apa penyebab suatu hal terjadi. Logika jika ini terjadi maka itu terjadi adalah logika sebab akibat. Namun kita harus sangat berhati-hati untuk menghubungkan dua kejadian yang seakan-akan berhubungan namun kenyataannya keduanya hanya semata-mata akibat dari suatu SEBAB yang sama-sama tidak atau belum kita ketahui.

Kembali ke ES KRIM dan KEBAKARAN HUTAN, dengan menggunakan logika sederhana kita mengetahui bahwa keduanya tidak berhubungan, namun ada hal yang menghubungkannya. Kita bisa menggambarkannya sebagai berikut:

Kebakaran hutan—>Suhu tinggi–>Musim Kemarau–>Suhu tinggi—> Makan Es krim–>Penjualan es krim meningkat

Terlihat lebih masuk akal kan?

Kenyataannya memang antara penjualan es krim dan kebakaran hutan mempunyai korelasi yang sangat tinggi let’s say 90% namun demikian tidak serta merta kita bisa menyimpulkan  or berspekulasi bahwa penjualan es krim yang menyebabkan kebakaran hutan atau kebakaran hutan yang membuat penjualan es krim meningkat.

Lalu bagaimana membuktikan bahwa dua variabel punya hubungan sebab akibat? Nah disinilah anda membutuhkan pemodelan regresi dan rancangan percobaan.  Kemampuan metode ini dalam memisahkan faktor-faktor yang benar-benar berpengaruh (secara signifikan) terhadap faktor-faktor lain (termasuk didalamnya adalah error-galat) memberikan kita bantuan apakah sebuah faktor benar-benar memiliki hubungan berpengaruh atau hanya sekedar kebetulan semata.

Sepertinya berikutnya bagus juga untuk membedah rumus korelasi dan rumus anova/regresi untuk menemukan bagaimana metode ini dapat memisahkan faktor kebetulan ini. 🙂

Coba kita lihat rumus korelasi berikut:

korelasi-5

Jika kita bedah rumus korelasi diatas kita hanya melihat jika ada dua variabel X dan Y maka besarnya r hanya ditentukan seberapa besar perubahan X dan Y bergerak pada suatu rentang tertentu. Disini kita hanya dapat menyimpulkan bahwa X dan Y berubah searah (+) atau berlawanan (-) dan jika jarak antara data X dan Y cukup dekat maka korelasinya kuat sedangkan jika jarak antara X dan Y berjauhan maka korelasinya lemah. Jika pertanyaan kita adalah jika X bergerak satu satuan, berapa satuankah Y bergerak? Karena jika pergerakan X tidak membuat Y bergerak sama sekali artinya X tidak mempengaruhi Y.  Dengan perhitungan korelasi, kita tidak mendapatkan informasi pergerakan Y saat X bergerak. Jadi jelas sudah konsep korelasi tidak bisa menjawab kausalitas (Sebab- akibat). Sudah cukup jelas??

Like & share –>jika artikelnya cukup berguna

Komentar–> jika ada yang kurang jelas 🙂

 

First Step in Data Analysis

Saat ini sudah bukan zamannya lagi kita banyak alasan bahwa kita tidak bisa melakukan analisa data karena TIDAK PUNYA DATA, sebaliknya kita malah sekarang masuk ke tahap BINGUNG karena TERLALU BANYAK data yang kita miliki. Konsekuensi yang sering kita temui adalah “apakah kita menggunakan data yang benar untuk mendukung pengambilan keputusan kita?

Empat hal yang perlu anda perhatikan saat memulai analisa data adalah:

  • Tanyakan pertanyaan yang TEPAT
  • Temukan data yang TEPAT untuk menjawab pertanyaan
  • Gunakan tools dan software analisa yang TEPAT untuk mengekstrak informasi dari data
  • Gunakan pengetahuan terkait anda untuk mempertajam kesimpulan