Tipe-tipe data yg wajib diketahui analyst pemula

lrdatahd

Tidak ada salahnya kita terkesa dengan berbagai jenis analisa keren dan sophisticated kayak regression, naive bayes, decision tree dkk. Namun sebaiknya sebelum kita lompat kearah situ mari kita melihat hal-hal basic yg mungkin terlewat, terutama bagi rekan-rekan yang baru saja berkecimpung di dunia data.

Pada postingan saya sebelumnya, saya sudah menjelaskan jenis2 data berdasarkan sifatnya (nominal, ordinal, interval dan rasio) nah sekarang kita sedikit mundur ke belakang utk mengenal dan mengetahui tipe data. Disini saya levih menekankan definisi yang digunakan di dunia database.

Memang sudah tdk dapat dipungkiri lagi bahwa sebagian besar data kita tersimpan dalam sebuah ekosistem database dimana didalamnya ada kolom (field) dan baris (record). Ekosistem ini sangat efisien sehingga dari awal pembuatan database ini perlu diketahui apa saja tipe data dari kolom-kolom yang disimpan.

1. Character/ String/ varchar

Tipe data jenis ini dicirikan dengan adanya HURUF, ANGKA dan KARAKTER, operasi matematika yang bisa dilakukan adalah COUNT. Jika kita petakan ke jenis data di area statistika maka yang masuk kategori ini adalah nominal dan ordinal.

2. Integer dan float

Integer atau yang lebih dikenal dengan bilangan bulat adalah tipe data yang dihasilkan dari operasi COUNT yang menandakan banyaknya benda. kita bisa melakukan operasi hampir semua operasi matematika untuk tipe data ini. Sedangkan FLOAT adalah tipe data yang mengandung angka desimal. Kedua tipe data ini dapat dikategorikan menjadi jenis data RASIO dan INTERVAL.

3. Boolean

Seringkali dalam query kita mema=bandingkan antara dua value atau lebih dengan menggunakan IF..THEN..ELSE… atau menggunakan >, = dkk. Nah hasil dari pembandingan ini disimpan dalam bentukan BOOLEAN. Tipe data ini hanya memiliki dua nilai yakni TRUE dan FALSE.

Dengan mengetahui tipe-tipe data ini kita dapat mendesign sebuah  analisa data sesuai dengan tipe data yang kita miliki. Seringkali kita menemukan tipe data yang tidak sesuai dengan kebutuhan kita, akhirnya harus melakukan transformasi yang sangat banyak untuk itu. Memang tidak salah akhirnya pekerjaan data analyst, statistician dan data scientist 90% nya dihabiskaan hanya untuk data preparation.. Nasiiiib…

Advertisements

Mengolah jenis data numerik

Jenis data numerik adalah jenis data yang paling sering digunakan di dunia profesional, seperti yang telah saya pernah jelaskan pada posting saya sebelumnya pada jenis-jenis data, bahwa data numerik paling fleksibel untuk diolah dengan berbagai operasi matematika. Kita dapat mengurutkan, membandingkan dan membuat rasio dari dua data yang sifatnya numerik. Pada tulisan saya kali saya akan menampilkan beberapa penggunaan data numerik sehingga kita dapat mendapatkan  dan menyajikan informasi  dengan tepat.

Bagaimana menampilkan data numerik pada kalimat??

Saya sering membaca blog atau berita di surat kabar paling sering di skripsi/ thesis, dimana banyak sekali angka yang disebutkan. Jujur, saya terkadang merasa tenggelam didalam data yang begitu banyak. Saya tidak bisa menarik kesimpulan dari kalimat yang saya baca.

Salah satu cara untuk menyajikan data dalam sebuah narasi adalah gunakan maksimal dua data dalam satu narasi. Alasannya adalah sangat sederhana, karena otak sudah sangat terbiasa membandingkan dua hal (hitam-putih, panjang-pendek dll). Jika kita menyajikan tiga data pada satu narasi maka otak kita tetap akan membandingkannya dalam pasangan misalnya A, B dan C. Maka otak kita akan membuat perbandingan 3 kombinasi 2 (A-B, A-C, B-C). Jadi daripada membuat pembaca kita bingung, maka gunakan maksimal 2 data pada satu narasi.

Kapan menggunakan TABEL??

Sejak dulu sudah tak terhitung banyaknya data yang saya tampilkan menggunakan tabel, tapi belakangan saya berpikir kapan saat yang tepat menggunakan tabel?? Setelah membaca di beberapa tulisan master-master data, saya menyimpulkan bahwa jika kita:

  1. Anda mempunyai data yang relatif sedikit. lets say anda punya 100 data, dengan 2 dimensi. Maka lakukan pivot sederhana dengan excel, maka anda mendapatkan tabulasi yang mudah dan sederhana.
  2. Jika anda memperhatikan detail dari angka yang anda sajikan. Misalkan anda ingin menampilkan 3 angka dibelakang koma (2.596 dari pada dibulatkan menjadi 2.6), maka pilihan tabel akan memberikan fitur untuk menampilkan presisi angka tersebut.
  3. Salah satu teknik visualisasi data bukan hanya menunjukkan sesuatu tapi juga ‘tidak menunjukkan’. Salah satu contohnya adalah, jika anda tidak ingin menunjukkan secara jelas perbedaan profit perusahaan pertahun maka tabel akan menyamarkan perbedaan tersebut dengan sangat baik.

Menyajikan data dg Tabel tp Tetap sederhana?

Sering kali saya melihat penyajian presentasi data dengan menampilkan tabel, namun satu hal yang membuat saya tersiksa yakni TERLALU BANYAK ANGKA. Tidak adanya fokus pembahasan menyebabkan kita terjebak dalam persepsi bahwa semakin banyak data yang disampaikan maka semakin canggih dan sophisticated laporannya. Padahal TIDAK.

Pada kenyataannya para presenter handal dunia lebih suka menggunakan sedikit angka dan sedikit kata-kata dalam presentasinya. Adapun data yang disajikan lebih kepada CLUE untuk mempertajam STORY yang sedang mereka ceritakan.

Pertama. Identifikasi point penting yang ingin highlight.

Kedua. Identifikasi kecenderungan orang membaca data kolom atau baris?? Sebaiknya sih kategori letakkan di kolom sehingga lebih mudah dibandingkan (orang cenderung membandingkan kolom ke kolom).

Ketiga. Lakukan pembulatan sampai tingkat ketelitian yang dibutuhkan. Terlalu banyak angka dibelakang koma malahan akan menghilangkan makna sesungguhnya dari angka tersebut karena gagal fokus.

Keempat. Hindari penggunaan garis pemisah antara kolom dan garis secara berlebihan. Jangan sampai tabel anda benar-bener terlihat ‘excel-like’. Gunakan bold untuk highlight data yang anda ingin tekankan.

 

Visualisasi data dengan pemilihan grafik yang tepat

Dalam menyajikan sebuah presentasi atau tulisan seringkali kita menemukan banyak alat bantu yang digunakan untuk mempermudah audiens baik itu pembaca atau penonton untuk menyerap informasi sebanyak-banyaknya. Sebagian orang menuliskan angka-angka berdampingan dengan kalimat-kalimat penjelasannya, ada yang menggunakan tabel ada pula yang menggunakan grafik.

Penggunaan alat bantu seperti tabel atau grafik akan sangat mempermudah orang yang membaca atau menyimak presentasi kita. Walaupun terlihat sederhana penyajian data dengan menggunakan tabel maupun grafik kadang akan membuat anda sakit kepala jika anda tidak memahami langkah-langkah dasar pemilihan jenis grafik yang sesuai.

Satu: Bar Chart (Grafik Batang)

Jika anda tujuan anda adalah membandingkan satu hal dengan hal yang lain, maka grafik batang adalah opsi yang baik.

Tambahkan dengan mengurutkan dari data terbesar dan terkecil (atau sebaliknya) akan menjadikan cerita yang ingin anda tampilkan menjadi lebih jelas dan mudah untuk dimengerti. Berikan sedikit space antara batang yang satu dengan batang yang lain.

Dua: Pie Chart (Grafik Kue)

Pie chart digunakan anda yang ingin menunjukkan informasi berupa proporsi sebuah dimensi terhadap keseluruhan. Dengan menunjukkan dalam sebuah lingkaran yang terbagi menjadi beberapa bagian yang proporsional, dengan memberikan label proporsi data pada masing-masing bagian akan mempermudah orang yang melihat besarnya proporsi dari dimensi yang diminati.

Tambahkan dengan teknik “ledakan” yakni dengan memisahkan bagian chart yang ingin ditonjolkan dari bagian lingkaran tersebut. Dengan demikian mata penyimak pertama kali akan tertuju pada bagian yang terpisah tersebut.

Tiga: Line Chart (Grafik Garis)

Sebagian data dikumpulkan hanya pada satu waktu, namun beberapa orang tertarik untuk melihat perubahan dari waktu ke waktu. Sounds familiar? Yup, hampir di semua channel televisi menampilkan trend perubahan harga cabe, beras, minyak dan saham.

Dengan mengetahui trend perubahan di masa lalu, diharapkan kita dapat memprediksi kejadian di masa depan atau lebih baik lagi memperbaiki kesalahan-kesalahan yang menyebabkan trend buruk dan meraih trend positif di masa depan. Line chart adalah grafik yang tepat untuk menunjukkan perubahan data dari waktu ke waktu. Jika anda ingin membandingkan beberapa hal maka tinggal membuat multiple line chart, terus bedakan dengan warna dan button, beres.

Semoga bermanfaat.

Memahami tingkah laku data….

Penjelasan sebelumnya adalah modal awal kita untuk memahami penjelasan yang berikutnya. Berikut ini ada penjelasan mengenai memahami tingkah laku data. Jenis tingkah laku data yang akan kita amati adalah dimana data-data tersebut berkumpul dan seberapa jauh data-data tersebut menyebar. Biasanya Untuk memahami tingkah laku data yang kita punya, kita mempunyai beberapa alat. Alat untuk mengetahui dimana data-data itu berkumpul adalah mean (rata-rata), median (nilai tengah), modus (nilai paling sering muncul). Sedangkan untuk mengetahui penyebarannya adalah standar deviasi dan jangkauan. Jika kita ingat-ingat lagi, alat-alat yang saya sebutkan di atas adalah pelajaran SMA kita, So… don’t worry mudah kok…

Image

Mean (rata-rata)

Rumus rata-rata sih sangat mudah, tambahkan semua angkanya dan bagi dengan banyaknya data… Udah deh kita dapatkan rumus rata-rata.
Perlu untuk di ingat bahwa rata-rata hanya dapat digunakan untuk data dengan skala rasio dan sifatnya sangat dipengaruhi oleh pencilan (outlier)… apa lagi tuh outlier?? Intinya outlier tuh data yang berbeda sangat extreme dengan data lain. Nah klo di gambar di atas itu makanya gambar yg agak menjulur ke kanan. Frekuensinya sih gak banyak, tp nilainya gede banget atau kecil banget…

Median (nilai tengah)
Namanya aja nilai tengah, maka tentu saja yang dimaksud adalah nilai yang membagi dua data kita sama banyak. Caranya mudah banget, tinggal urutin dulu datanya terus bagi dua data sama besar,,, dapat deh angka mediannya. Kalau datanya ganjil angkanya langsung muncul, tapi kalau genap ambil dua angka ditengah terus bagi dua aja.
Diberbagai software, tinggal panggil aja fungsi median di statistics descritpif, maka software akan menjalankan perhitungan buat anda.

Mudah banget kan?? Emang iya,,, Median ini juga digunakan untuk mengetahui ukuran pemusatan data, median bisa digunakan untuk skala rasio, interval dan ordinal. Selain itu median juga gak ngaruh sama data outlier, jadi kalo ada data outlier mending pake median biar gak bias hasilnya. Ok??

Nah yang terakhir adalah Modus (nilai paling sering muncul)
Modus adalah nilai yang memiliki frekuensi paling tinggi. Gitu doank? Iya emang gitu doang. :). Cara ngitungnya ya setiap nilai dihitung berapa kali dia muncul dari data series. Setelah itu diurutkan dari yang terbesar sampai yang terkecil. Ambil nilai dengan frekuensi terbesar, maka anda akan dapatkan modusnya.

Next post adalah ukuran penyebaran… stay tuned…!

Jenis-Jenis Data (Penting nih…)

pusiing
Ingin tahu lebih banyak dr belajar bersama agar anda bisa bercerita dg DATA? 085776111946 (Rahmat)
Bagaimana?? Sudah cukup jelas perbedaan antara informasi dan data?? Selanjutnya saya akan memberikan penjelasan mengenai jenis-jenis data dan skala pengukuran.

Apa itu skala pengukuran? Menurut (socialresearchmethods.net) skala pengukuran itu adalah hubungan antara nilai-nilai yang diberikan atas atribut yang ada pada sebuah variabel. Mungkin dari definisi di atas saja belum cukup untuk menjelaskannya, jadi kita langsung lompat saja ke penjelasan rincinya.

tabel data

Penjelasan berikutnya akan berdasarkan tabel di atas. Pada kolom paling kiri terdapat dua tipe data yakni data kategorik dan data numerik. Penjelasannya mudah saja, data kategorik itu adalah data yang sifatnya hanya dapat dibedakan dan dapat diurutkan. Walaupun berbentuk angka, semua operasi matematika (penjumlahan, pengurangan dsb) tidak dapat dilakukan. Sedangkan data numerik merupakan data yang angka-angkanya dapat dilakukan operasi matematika dan hasilnya memiliki makna.

Untuk skala pengukurannya terletak pada kolom kedua, penjelasan rinci untuk ke empat skala pengukuran sebagai berikut:

Skala Nominal

Skala nominal merupakan skala pengukuran yang ciri-cirinya hanya dapat dibedakan dan tidak ada derajat yang lebih tinggi maupun lebih rendah. Misalnya gender (pria dan wanita), warna baju ( merah, kuning, hijau). Untuk mengingatnya cukup dengan tanda = dan ≠, artinya hanya sama atau tidak sama.

nominal

Skala Ordinal

Skala ordinal merupakan skala pengukuran yang ciri-cirinya dapat dibedakan dan juga dapat diurutkan, namun untuk skala pengukuran ini tidak dapat dijalankan operasi matematika seperti penjumlahan, pengurangan dsb. Misalnya ranking di kelas dan ukuran baju (S,M,L,XL), tanda operasi matematika nya yakni < atau >.

ordinal

Skala Interval

Skala interval merupakan skala pengukuran yang mudah dikenali yakni dengan ciri tidak adanya nol mutlak, artinya walaupun ada angka nol-nya itu tidak berarti kosong atau tidak ada, karena memang angka nol itu hanya merupakan kesepakatan. Selain itu, nilai-nilainya tidak dapat dibandingkan. Contohnya Temperatur, nol derajat celcius tidak berarti tidak ada panas dan suhu 100 derajat celcius tidak berarti dua kali lebih panas dibandingkan dengan suhu 50 derajat celcius. Operasi matematikanya adalah hanya sampai + dan -.
interval

Skala Rasio

Skala rasio merupakan skala yang paling sering kita temui dan gunakan, adanya angka nol mutlak dan nilainya dapat dibandingkan adalah ciri utama dari skala rasio ini. Beberapa contoh dari skala rasio adalah jumlah pasien yang berkunjung ke rumah sakit dan jarak tempuh dari sebuah kendaraan. Operasi matematika nya bisa semua,,, termasuk x (kali) dan : (bagi)

rasio

Mudah-mudahan penjelasannya bikin ngerti ya… klo blm ngerti tanya aja… 🙂