Tipe-tipe data yg wajib diketahui analyst pemula

lrdatahd

Tidak ada salahnya kita terkesa dengan berbagai jenis analisa keren dan sophisticated kayak regression, naive bayes, decision tree dkk. Namun sebaiknya sebelum kita lompat kearah situ mari kita melihat hal-hal basic yg mungkin terlewat, terutama bagi rekan-rekan yang baru saja berkecimpung di dunia data.

Pada postingan saya sebelumnya, saya sudah menjelaskan jenis2 data berdasarkan sifatnya (nominal, ordinal, interval dan rasio) nah sekarang kita sedikit mundur ke belakang utk mengenal dan mengetahui tipe data. Disini saya levih menekankan definisi yang digunakan di dunia database.

Memang sudah tdk dapat dipungkiri lagi bahwa sebagian besar data kita tersimpan dalam sebuah ekosistem database dimana didalamnya ada kolom (field) dan baris (record). Ekosistem ini sangat efisien sehingga dari awal pembuatan database ini perlu diketahui apa saja tipe data dari kolom-kolom yang disimpan.

1. Character/ String/ varchar

Tipe data jenis ini dicirikan dengan adanya HURUF, ANGKA dan KARAKTER, operasi matematika yang bisa dilakukan adalah COUNT. Jika kita petakan ke jenis data di area statistika maka yang masuk kategori ini adalah nominal dan ordinal.

2. Integer dan float

Integer atau yang lebih dikenal dengan bilangan bulat adalah tipe data yang dihasilkan dari operasi COUNT yang menandakan banyaknya benda. kita bisa melakukan operasi hampir semua operasi matematika untuk tipe data ini. Sedangkan FLOAT adalah tipe data yang mengandung angka desimal. Kedua tipe data ini dapat dikategorikan menjadi jenis data RASIO dan INTERVAL.

3. Boolean

Seringkali dalam query kita mema=bandingkan antara dua value atau lebih dengan menggunakan IF..THEN..ELSE… atau menggunakan >, = dkk. Nah hasil dari pembandingan ini disimpan dalam bentukan BOOLEAN. Tipe data ini hanya memiliki dua nilai yakni TRUE dan FALSE.

Dengan mengetahui tipe-tipe data ini kita dapat mendesign sebuah  analisa data sesuai dengan tipe data yang kita miliki. Seringkali kita menemukan tipe data yang tidak sesuai dengan kebutuhan kita, akhirnya harus melakukan transformasi yang sangat banyak untuk itu. Memang tidak salah akhirnya pekerjaan data analyst, statistician dan data scientist 90% nya dihabiskaan hanya untuk data preparation.. Nasiiiib…

Advertisements

Story Telling dengan Data??

data-storytelling-lifecycle-via-infogr-am-sept-2014

Pada postingan sebelumnya saya pernah menuliskan bagaimana teknik penyajian dengan stroy telling atau tutur cerita adalah salah satu cara paing efektif untuk menyampaikan informasi dengan baik. Dengan cara ini orang yang menjadi audiens akan lebih PERHATIAN, MENYIMAK, dan MENGINGAT informasi yang kita sampaikan dengan lebih baik.

Saya adalah orang data dan saya suka bercerita. Saya bercerita dengan data. Ini adalah gaya komunikasi yang saya gunakan dan saya sangat menyukainya. Ingin tahu apa saja yang diperlukan untuk membuat sebuah story telling dengan data? Let’s get started.

Bagi anda yang bekerja di perusahaan yang berbasis teknologi, tentunya anda akan menemukan sebuah divisi khusus yang mengelola data dan infrastrukturnya. Umumnya disebut divisi IT, sebagian perusahaan malahan sudah memiliki divisi yang jauh lebih spesifik yang mengelola jenis data yang sekarang sedang ng-trend yakni BIG DATA.

Apapun jenis perusahaan tempat anda bekerja, baik anda di unit operasional maupun unit bisnis anda akan sering diminta melakukan analisa bisnis baik rencana, monitoring maupun laporan akhir. Hasil laporan yang anda buat kemudian akan disampaikan pada atasan anda, atau atasan dari atasan anda. Disinilah DATA STORY berperan. Anda bisa memilih untuk menampilkan datanya dalam bentuk tabel seperti ini?6-12-chart_4Atau anda menampilkan dengan beberapa grafik seperti ini?

figure-2

Apapun pilihan anda dalam menampilkan presentasi anda, pastikan anda membuatnya dengan cara yang benar. Btw, untuk kedua cara penyajian data diatas apa insight yang bisa anda dapatkan? Well, jujur saja saya sendiri kesulitan setengah mampus untuk membaca apa sebenarnya tujuan dari si pembuat grafik/tabel.

Pada data story salah satu hal yang perlu kita tekankan adalah KESEDERHANAAN (SIMPLICITY). Data seperti halnya dengan sumber informasi lain, seperti quote atau informasi dari ahli hanyalah ALAT untuk kita bercerita. Intinya adalah TUJUAN/MAKSUD kita agar bisa tersampaikan dengan baik. Thats all. Semakin banyak data yang anda tampilkan TIDAK membuat anda semakin PINTAR atau semakin JAGO, sebaliknya hal tersebut hanya menunjukkan anda TIDAK TAHU YG ANDA INGIN SAMPAIKAN.

Ada istilah sink or swim ini adalah istilah yang digunakan untuk menggambarkan bahwa dengan jumlah informasi yang begitu banyak, dapatkah anda menggunakan kemampuan anda untuk swimming diantara lautan informasi ini ataukah anda adalah orang-orang yang  sinking karena tidak mampu menggali dan memanfaatkan data dan informasi yang begitu banyak sehingga seakan-akan tenggelam dalam lautan data/informasi ini. Bagaimana dengan anda? Sudah bisa berenang atau masih kesusahan berjuang kepermukaan?

harrypotter5posterarticle-2559322-06775c8100000514-99_634x705

Apa cerita kesukaan anda? Harry Potter? Sherlock Holmes? Secara pribadi saya suka sherlock holmes, alasannya banyak kejutan-kejutan tidak terduga (UNEXPECTED) yang saysa temukan sepanjang cerita. Tentu saja kejadian itu begitu kuat teringat didalam ingatan. Dengan cara yang sama, kita berusahan menampilkan sesuatu yang UNEXPECTED di dalam data story kita. Kita lakukan berbagai analisa dari yang sederhana sampai yang complicated untuk menampilkan hal-hal yang tidak kasat mata. Sesuatu yang tidak disadari dan hanya bisa ditampilkan dengan menggali data. Cerita yang didalamnya ada hal yang UNEXPECTED akan sangat menarik untuk disimak, other way akan sangat membosankan.

Pernahkah anda menyimak sebuah presentasi dimana pada akhir sesi presentasi anda bukannya anda mendapatkan informasi malahan anda semakin bingung? Anda tidak menemukan kejelasan dalam presentasi tersebut. Dalam sebuah penyampian cerita anda harus konkrit (CONCRETE) artinya harus jelas, solid dan tidak membingungkan. Hal yang paling penting dari sebuah cerita adalah pesan yang akan disampaikan. Pesan inilah yang harus secara jelas dan solid tersirat dan tersurat dalam sebuah presentasi. Hindari penggunaan aksesoris yang berlebihan sehingga membuat tujuan utama dari presentasi tersebut menjadi blur dan tidak jelas.

honesty

Jika anda pernah membaca atau mendengar How To Lie With Statistics, maka anda pasti tahu apa yang akan saya bicarakan berikut ini. Ya, masalah kredibilitas (CREDIBILITY). Seorang Data analyst atau siapapun yang melakukan pengolahan data wajib mempunyai kredibilitas dalam menyajikan datanya. Tanpa sikap ini maka apapun yang akan disampaikan berikutnya tidak lebih dari omong kosong. Data tidak pernah berbohong, manusialah yang berbohong. Namun ditangan yang tepat data akan menjadi sesuatu yang luar biasa yang bisa menjadi pembeda antara kesuksesan dan kegagalan. Kebenaran dan kenyataan yang terkandung didalam data inilah yang perlu digali dan ditemukan oleh orang-orang yang kredibel. Sifat data analyst atau pengolah data inilah yang akan menentukan kredibilitas dari cerita atau informasi yang anda akan dapatkan.

Karena sekarang lagi ngetrend kpop, maka saya coba kasih contoh yang kekinian. Pernah lihat drama korea? Salah satu yang ngetrend dulu adalah Endless Love… sampai-sampai sebuah tabloid membuat sebuah grafik trendline jumlah air mata pemirsa yang terkuras untuk tiap episodenya… what?? Untuk yang sekarang silahkan pilih sendiri jenis film atau drama yang anda suka… Apa kesamaan dari semua film-film tersebut? Ssatu yang menurut saya selalu ada selain aktor-aktor ganteng dan selalu kaya dan cewek cantik yang urakan dan miskin.. hehe.. adalah EMOSI... Saat emosi pemirsa terlibat, maka semua urusan mengenai perhatian dan pengingatan akan menjadi mudah.. Emosi membuat keterikatan dan membuat proses mengingat menjadi lebih mudah dan kuat karena tidak hanya otak yang mengingat, namun seluruh anggota badan.

Dalam presentasi kita harus membuat sebuah alur cerita dan alur tutur yang membangkitkan emosi dari audiens kita. Pilihlah contoh-contoh atau pilihan-pilihan gambar yang punya koneksi dengan audiens, pilihan warna-warna yang mewakili simbol-simbol emosi tertentu dan yang paling penting tampilkan data dan informasi yang membuat audiens kita ‘WOW’. Memang membangun emosi audiens ini membutuhkan keterampilan berbahasa dan gesture yang tepat. Sekali anda bisa menguasainya anda dapat membuat audiens anda melakukan hal-hal yang anda inginkan. Thats the point.

Hal terakhir yang menurut saya perlu ditambahkan dalam ramuan data story kita adalah STRUCTURE. Saat anda punya banyak informasi yang sangat ingin anda sampaikan namun anda punya waktu yang sangat terbatas maka pastikan bahwa story anda tersusun dengan STRUCTURE yang membentuk alur cerita. Hindari lompatan logika dan lompatan kesimpulan yang akan membuat alur cerita menjadi kacau.

Hope this blogs post find you in great condition.. 🙂