Tipe-tipe data yg wajib diketahui analyst pemula

lrdatahd

Tidak ada salahnya kita terkesa dengan berbagai jenis analisa keren dan sophisticated kayak regression, naive bayes, decision tree dkk. Namun sebaiknya sebelum kita lompat kearah situ mari kita melihat hal-hal basic yg mungkin terlewat, terutama bagi rekan-rekan yang baru saja berkecimpung di dunia data.

Pada postingan saya sebelumnya, saya sudah menjelaskan jenis2 data berdasarkan sifatnya (nominal, ordinal, interval dan rasio) nah sekarang kita sedikit mundur ke belakang utk mengenal dan mengetahui tipe data. Disini saya levih menekankan definisi yang digunakan di dunia database.

Memang sudah tdk dapat dipungkiri lagi bahwa sebagian besar data kita tersimpan dalam sebuah ekosistem database dimana didalamnya ada kolom (field) dan baris (record). Ekosistem ini sangat efisien sehingga dari awal pembuatan database ini perlu diketahui apa saja tipe data dari kolom-kolom yang disimpan.

1. Character/ String/ varchar

Tipe data jenis ini dicirikan dengan adanya HURUF, ANGKA dan KARAKTER, operasi matematika yang bisa dilakukan adalah COUNT. Jika kita petakan ke jenis data di area statistika maka yang masuk kategori ini adalah nominal dan ordinal.

2. Integer dan float

Integer atau yang lebih dikenal dengan bilangan bulat adalah tipe data yang dihasilkan dari operasi COUNT yang menandakan banyaknya benda. kita bisa melakukan operasi hampir semua operasi matematika untuk tipe data ini. Sedangkan FLOAT adalah tipe data yang mengandung angka desimal. Kedua tipe data ini dapat dikategorikan menjadi jenis data RASIO dan INTERVAL.

3. Boolean

Seringkali dalam query kita mema=bandingkan antara dua value atau lebih dengan menggunakan IF..THEN..ELSE… atau menggunakan >, = dkk. Nah hasil dari pembandingan ini disimpan dalam bentukan BOOLEAN. Tipe data ini hanya memiliki dua nilai yakni TRUE dan FALSE.

Dengan mengetahui tipe-tipe data ini kita dapat mendesign sebuah  analisa data sesuai dengan tipe data yang kita miliki. Seringkali kita menemukan tipe data yang tidak sesuai dengan kebutuhan kita, akhirnya harus melakukan transformasi yang sangat banyak untuk itu. Memang tidak salah akhirnya pekerjaan data analyst, statistician dan data scientist 90% nya dihabiskaan hanya untuk data preparation.. Nasiiiib…

Advertisements