Ability to see pattern in randomness

life_is_random

Dulu sekali, disalah satu stasiun televisi swasta menayangkan sebuah acara dimana beberapa orang ‘sakti’berkumpul untuk menangkap hantu. Kami yang saat itu masih anak-anak sangat menggandrungi acara ini, apalagi saat salah seorang dari pemburu tersebut membuat lukisan dengan mata tertutup, lalu muncullah gambar makhluk-makhluk aneh dengan ajaibnya.

Beda halnya dengan salah satu karakter novel kesukaan saya Sherlock Holmes, berkali-kali membaca dan menonton film dan serialnya selalu membuat saya berdecak kagum. Kemampuannya dalam memecahkan kasus-kasus kriminal membuat pembaca tenggelam dalam alur cerita yang dituliskan oleh Sir Arthur Conan Doyle.

Lalau apa hubungannya antara pemburu hantu dan Sherlock Holmes? Keduanya memiliki sebuah kesamaan yakni kemampuan melihat sesuatu yang tidak bisa dilihat oleh orang kebanyakan. Walau dalam kasus pemburu hantu saya juga masih ragu apa itu rekayasa atau bukan, tapi ya sudahlah anggap saja mereka bisa lihat.period. Kemampuan ini yang membuat mereka special dan berbeda dengan orang lain yang akhirnya membuat mereka terkenal dan dibayar mahal.

Menurut saya apa yang kita lakukan dalam menganalisa data adalah mencoba melihat pola-pola yang tidak terlihat dari sekumpulan data atau kejadian yang seakan-akan acak dan chaos. Dalam era social media ini, perusahaan selalu mencoba untuk lebih baik dari perusahaan lain dengan berbagai cara, salah satu nya adalah membuat produk yang berbeda dan lebih baik dari pesaingnya. Semakin banyak kita tahu tentang informasi lebih dari pesaing kita, maka semakin besar peluang kita menang.

Di zaman dimana semua aktifitas kita terekam lewat sebuah alat yang bernama smartphone ini, maka tidak ada lagi batasan antara kita dengan perusahaan penghasil produk. Tergantung apakah mereka mampu menemukan pola/pattern yang kita hasilkan. Dapatkah mereka memberikan sebuah penawaran/solusi/produk/jasa yang sesuai dengan kebutuhan kita.

Pertanyaan untuk kita adalah apakah anda mampu melihat pola yang teratur dalam sebuah kejadian acak?

Kotak ajaib bernama SPSS

Mas datanya mau diolah pake analisa apa? Pake spss aja mas… #zzz buat anak kuliahan yang sedang mengolah data skripsi nya..  Software yang satu ini memang paling ngetop dan sakti banget. Tinggal klak klik dikit trus run aja udah keluar outputnya…  Canggih banget..  Terus langsung pake langkah sakti ambil alpha 5% atau tinggal liat aja bintang2 nya… Analisanya pokoknya ikut skripsi yang lama aja… 

Pola ini adalah pola yg paling sering saya lihat saat ada klien baru atau teman yg minta bantuan utk menganalisis datanya. Seakan2 sebuah software dapat menjadi kotak ajaib yang mengerti kemauan sang mahasiswa. Jebakan inilah yg nantinya akan membuat skripsi anda beranak pinak di dalam folder komputer anda.  Mungkin namanya agak beda2 tapi yg paling umum skripsi_print.doc skripsi_revisi.doc skripsi_printlagi.doc atau skripsi_print_cbdl_mdh2n_diterima.doc.. Hehe

Maksud saya,  lebih baik anda coba sedikit membaca tulisan tentang how to nya menggunakan software tertentu bukan cm SPSS,  baca help nya,  yg paling penting baca dan pelajari buku basic statistik nya. Klo mau cepat ya cari orang yg ngerti. Trust me,  dari pada dengerin dosen ngomel krn kita ngasal mending belajar dikit..  Palingan revisi sekali dah sidang. Salam lulus cepat! 

Analisa data serahkan (belajar) pada ahlinya

find-mentor-moltz-open-forum-432

Bagi kalian yang menyusun tugas akhir dengan menggunakan pendekatan kuantitatif, maka tahap yang paling melelahkan adalah pemilihan metode penelitian dan tahap pengolahan data. Mengapa kedua tahap ini adalah tahap paling melelahkan dan paling memakan waktu? Jawaban yang paling sering saya temui adalah karena sang peneliti tidak familiar dengan istilah-istilah dan pendekatan kuantitatif/statistika.

Mereka yang merupakan lulusan statistika saja masih banyak yang kesusahaan dengan istilah-istilah statistika dan masih harus merujuk pada literatur-literatur yang ada. Namun demikian, bagaikan sebuah peta, untuk anda yang bukan dari jurusan statistika anda seakan masuk ke daerah yang sangat asing dan peta yang anda pegang adalah peta buta. Anda juga tidak pernah tahu bagaimana membaca peta. Lengkap sudah!

Oleh karena itu anda membutuhkan bantuan dari orang-orang yang sudah ahli dalam hal pengolahan data, sehingga anda mendapatkan bantuan untuk memilih peta yang sesuai dan mengajarkan anda bagaimana anda membaca peta. Saya rasa akan sangat masuk akal anda menghemat berbulan-bulan hanya untuk mempelajari satu analisis yang hanya dalam waktu 2-3 hari dapat anda kuasai dengan bimbingan mentor yang tepat.

Find your mentor here!

Story Telling dengan Data??

data-storytelling-lifecycle-via-infogr-am-sept-2014

Pada postingan sebelumnya saya pernah menuliskan bagaimana teknik penyajian dengan stroy telling atau tutur cerita adalah salah satu cara paing efektif untuk menyampaikan informasi dengan baik. Dengan cara ini orang yang menjadi audiens akan lebih PERHATIAN, MENYIMAK, dan MENGINGAT informasi yang kita sampaikan dengan lebih baik.

Saya adalah orang data dan saya suka bercerita. Saya bercerita dengan data. Ini adalah gaya komunikasi yang saya gunakan dan saya sangat menyukainya. Ingin tahu apa saja yang diperlukan untuk membuat sebuah story telling dengan data? Let’s get started.

Bagi anda yang bekerja di perusahaan yang berbasis teknologi, tentunya anda akan menemukan sebuah divisi khusus yang mengelola data dan infrastrukturnya. Umumnya disebut divisi IT, sebagian perusahaan malahan sudah memiliki divisi yang jauh lebih spesifik yang mengelola jenis data yang sekarang sedang ng-trend yakni BIG DATA.

Apapun jenis perusahaan tempat anda bekerja, baik anda di unit operasional maupun unit bisnis anda akan sering diminta melakukan analisa bisnis baik rencana, monitoring maupun laporan akhir. Hasil laporan yang anda buat kemudian akan disampaikan pada atasan anda, atau atasan dari atasan anda. Disinilah DATA STORY berperan. Anda bisa memilih untuk menampilkan datanya dalam bentuk tabel seperti ini?6-12-chart_4Atau anda menampilkan dengan beberapa grafik seperti ini?

figure-2

Apapun pilihan anda dalam menampilkan presentasi anda, pastikan anda membuatnya dengan cara yang benar. Btw, untuk kedua cara penyajian data diatas apa insight yang bisa anda dapatkan? Well, jujur saja saya sendiri kesulitan setengah mampus untuk membaca apa sebenarnya tujuan dari si pembuat grafik/tabel.

Pada data story salah satu hal yang perlu kita tekankan adalah KESEDERHANAAN (SIMPLICITY). Data seperti halnya dengan sumber informasi lain, seperti quote atau informasi dari ahli hanyalah ALAT untuk kita bercerita. Intinya adalah TUJUAN/MAKSUD kita agar bisa tersampaikan dengan baik. Thats all. Semakin banyak data yang anda tampilkan TIDAK membuat anda semakin PINTAR atau semakin JAGO, sebaliknya hal tersebut hanya menunjukkan anda TIDAK TAHU YG ANDA INGIN SAMPAIKAN.

Ada istilah sink or swim ini adalah istilah yang digunakan untuk menggambarkan bahwa dengan jumlah informasi yang begitu banyak, dapatkah anda menggunakan kemampuan anda untuk swimming diantara lautan informasi ini ataukah anda adalah orang-orang yang  sinking karena tidak mampu menggali dan memanfaatkan data dan informasi yang begitu banyak sehingga seakan-akan tenggelam dalam lautan data/informasi ini. Bagaimana dengan anda? Sudah bisa berenang atau masih kesusahan berjuang kepermukaan?

harrypotter5posterarticle-2559322-06775c8100000514-99_634x705

Apa cerita kesukaan anda? Harry Potter? Sherlock Holmes? Secara pribadi saya suka sherlock holmes, alasannya banyak kejutan-kejutan tidak terduga (UNEXPECTED) yang saysa temukan sepanjang cerita. Tentu saja kejadian itu begitu kuat teringat didalam ingatan. Dengan cara yang sama, kita berusahan menampilkan sesuatu yang UNEXPECTED di dalam data story kita. Kita lakukan berbagai analisa dari yang sederhana sampai yang complicated untuk menampilkan hal-hal yang tidak kasat mata. Sesuatu yang tidak disadari dan hanya bisa ditampilkan dengan menggali data. Cerita yang didalamnya ada hal yang UNEXPECTED akan sangat menarik untuk disimak, other way akan sangat membosankan.

Pernahkah anda menyimak sebuah presentasi dimana pada akhir sesi presentasi anda bukannya anda mendapatkan informasi malahan anda semakin bingung? Anda tidak menemukan kejelasan dalam presentasi tersebut. Dalam sebuah penyampian cerita anda harus konkrit (CONCRETE) artinya harus jelas, solid dan tidak membingungkan. Hal yang paling penting dari sebuah cerita adalah pesan yang akan disampaikan. Pesan inilah yang harus secara jelas dan solid tersirat dan tersurat dalam sebuah presentasi. Hindari penggunaan aksesoris yang berlebihan sehingga membuat tujuan utama dari presentasi tersebut menjadi blur dan tidak jelas.

honesty

Jika anda pernah membaca atau mendengar How To Lie With Statistics, maka anda pasti tahu apa yang akan saya bicarakan berikut ini. Ya, masalah kredibilitas (CREDIBILITY). Seorang Data analyst atau siapapun yang melakukan pengolahan data wajib mempunyai kredibilitas dalam menyajikan datanya. Tanpa sikap ini maka apapun yang akan disampaikan berikutnya tidak lebih dari omong kosong. Data tidak pernah berbohong, manusialah yang berbohong. Namun ditangan yang tepat data akan menjadi sesuatu yang luar biasa yang bisa menjadi pembeda antara kesuksesan dan kegagalan. Kebenaran dan kenyataan yang terkandung didalam data inilah yang perlu digali dan ditemukan oleh orang-orang yang kredibel. Sifat data analyst atau pengolah data inilah yang akan menentukan kredibilitas dari cerita atau informasi yang anda akan dapatkan.

Karena sekarang lagi ngetrend kpop, maka saya coba kasih contoh yang kekinian. Pernah lihat drama korea? Salah satu yang ngetrend dulu adalah Endless Love… sampai-sampai sebuah tabloid membuat sebuah grafik trendline jumlah air mata pemirsa yang terkuras untuk tiap episodenya… what?? Untuk yang sekarang silahkan pilih sendiri jenis film atau drama yang anda suka… Apa kesamaan dari semua film-film tersebut? Ssatu yang menurut saya selalu ada selain aktor-aktor ganteng dan selalu kaya dan cewek cantik yang urakan dan miskin.. hehe.. adalah EMOSI... Saat emosi pemirsa terlibat, maka semua urusan mengenai perhatian dan pengingatan akan menjadi mudah.. Emosi membuat keterikatan dan membuat proses mengingat menjadi lebih mudah dan kuat karena tidak hanya otak yang mengingat, namun seluruh anggota badan.

Dalam presentasi kita harus membuat sebuah alur cerita dan alur tutur yang membangkitkan emosi dari audiens kita. Pilihlah contoh-contoh atau pilihan-pilihan gambar yang punya koneksi dengan audiens, pilihan warna-warna yang mewakili simbol-simbol emosi tertentu dan yang paling penting tampilkan data dan informasi yang membuat audiens kita ‘WOW’. Memang membangun emosi audiens ini membutuhkan keterampilan berbahasa dan gesture yang tepat. Sekali anda bisa menguasainya anda dapat membuat audiens anda melakukan hal-hal yang anda inginkan. Thats the point.

Hal terakhir yang menurut saya perlu ditambahkan dalam ramuan data story kita adalah STRUCTURE. Saat anda punya banyak informasi yang sangat ingin anda sampaikan namun anda punya waktu yang sangat terbatas maka pastikan bahwa story anda tersusun dengan STRUCTURE yang membentuk alur cerita. Hindari lompatan logika dan lompatan kesimpulan yang akan membuat alur cerita menjadi kacau.

Hope this blogs post find you in great condition.. 🙂

 

Mengolah jenis data numerik

Jenis data numerik adalah jenis data yang paling sering digunakan di dunia profesional, seperti yang telah saya pernah jelaskan pada posting saya sebelumnya pada jenis-jenis data, bahwa data numerik paling fleksibel untuk diolah dengan berbagai operasi matematika. Kita dapat mengurutkan, membandingkan dan membuat rasio dari dua data yang sifatnya numerik. Pada tulisan saya kali saya akan menampilkan beberapa penggunaan data numerik sehingga kita dapat mendapatkan  dan menyajikan informasi  dengan tepat.

Bagaimana menampilkan data numerik pada kalimat??

Saya sering membaca blog atau berita di surat kabar paling sering di skripsi/ thesis, dimana banyak sekali angka yang disebutkan. Jujur, saya terkadang merasa tenggelam didalam data yang begitu banyak. Saya tidak bisa menarik kesimpulan dari kalimat yang saya baca.

Salah satu cara untuk menyajikan data dalam sebuah narasi adalah gunakan maksimal dua data dalam satu narasi. Alasannya adalah sangat sederhana, karena otak sudah sangat terbiasa membandingkan dua hal (hitam-putih, panjang-pendek dll). Jika kita menyajikan tiga data pada satu narasi maka otak kita tetap akan membandingkannya dalam pasangan misalnya A, B dan C. Maka otak kita akan membuat perbandingan 3 kombinasi 2 (A-B, A-C, B-C). Jadi daripada membuat pembaca kita bingung, maka gunakan maksimal 2 data pada satu narasi.

Kapan menggunakan TABEL??

Sejak dulu sudah tak terhitung banyaknya data yang saya tampilkan menggunakan tabel, tapi belakangan saya berpikir kapan saat yang tepat menggunakan tabel?? Setelah membaca di beberapa tulisan master-master data, saya menyimpulkan bahwa jika kita:

  1. Anda mempunyai data yang relatif sedikit. lets say anda punya 100 data, dengan 2 dimensi. Maka lakukan pivot sederhana dengan excel, maka anda mendapatkan tabulasi yang mudah dan sederhana.
  2. Jika anda memperhatikan detail dari angka yang anda sajikan. Misalkan anda ingin menampilkan 3 angka dibelakang koma (2.596 dari pada dibulatkan menjadi 2.6), maka pilihan tabel akan memberikan fitur untuk menampilkan presisi angka tersebut.
  3. Salah satu teknik visualisasi data bukan hanya menunjukkan sesuatu tapi juga ‘tidak menunjukkan’. Salah satu contohnya adalah, jika anda tidak ingin menunjukkan secara jelas perbedaan profit perusahaan pertahun maka tabel akan menyamarkan perbedaan tersebut dengan sangat baik.

Menyajikan data dg Tabel tp Tetap sederhana?

Sering kali saya melihat penyajian presentasi data dengan menampilkan tabel, namun satu hal yang membuat saya tersiksa yakni TERLALU BANYAK ANGKA. Tidak adanya fokus pembahasan menyebabkan kita terjebak dalam persepsi bahwa semakin banyak data yang disampaikan maka semakin canggih dan sophisticated laporannya. Padahal TIDAK.

Pada kenyataannya para presenter handal dunia lebih suka menggunakan sedikit angka dan sedikit kata-kata dalam presentasinya. Adapun data yang disajikan lebih kepada CLUE untuk mempertajam STORY yang sedang mereka ceritakan.

Pertama. Identifikasi point penting yang ingin highlight.

Kedua. Identifikasi kecenderungan orang membaca data kolom atau baris?? Sebaiknya sih kategori letakkan di kolom sehingga lebih mudah dibandingkan (orang cenderung membandingkan kolom ke kolom).

Ketiga. Lakukan pembulatan sampai tingkat ketelitian yang dibutuhkan. Terlalu banyak angka dibelakang koma malahan akan menghilangkan makna sesungguhnya dari angka tersebut karena gagal fokus.

Keempat. Hindari penggunaan garis pemisah antara kolom dan garis secara berlebihan. Jangan sampai tabel anda benar-bener terlihat ‘excel-like’. Gunakan bold untuk highlight data yang anda ingin tekankan.

 

~• Peluang (“Probability”) •~

By prof khairil notodiputro
Guru besar statistika IPB

Dalam matematika, peluang (p) merupakan ukuran kemungkinan terjadinya suatu kejadian. Karena p merupakan ukuran kemungkinan suatu kejadian maka kisaran nilai p, yaitu dari 0 sampai dengan 1, akan mencerminkan seberapa besar kemungkinan kejadian itu untuk terjadi. Semakin besar niai p dari suatu kejadian maka semakin besar pula peluangnya untuk terjadi. Begitu pula sebaliknya jika nilai p semakin kecil. Selanjutnya, karena p berkisar dari 0 sampai dengan 1 maka kejadian dengan peluang p=0 merupakan kejadian yang mustahil terjadi. Misalnya mustahil sepeda akan berubah menjadi sapi. Demikian pula suatu kejadian dengan peluang p=1 merupakan kejadian yang pasti terjadi. Misalnya setiap mahluk yang bernyawa pasti mati pada suatu saat.

Pertanyaannya adalah, bagaimana kita bisa mengetahui besarnya peluang terjadinya suatu kejadian? Atau bagaimana kita bisa mengukur besarnya p?

Besarnya p bisa ditentukan berdasarkan frekuensi relatifnya (“relative frequency”). Misalnya jika dari pengalaman 1000 kali penerbangan yang dilakukan oleh maskapai X ternyata terjadi 700 kali keterlambatan “take off”.  Ini bermakna bahwa jika kita pada suatu saat akan terbang dengan maskapai X maka peluang untuk terlambat “take off” adalah sebesar p=0.7.

Selanjutnya karena frekuensi relatif itu dasarnya adalah pengalaman yang sudah terjadi maka wajar dipertanyakan “bagaimana menentukan peluang p jika belum ada pengalaman dengan kejadian itu?” Dalam hal ini kita bisa menggunakan peluang subjektif (“subjective probability”).

Sebagai misal, si A akan mencalonkan diri menjadi kepala daerah X di tahun 2017. Si A belum pernah bersaing dalam pilkada sehingga peluangnya untuk menang tidak dapat ditentukan berdasarkan frekuensi relatifnya. Kita hanya bisa menentukan peluang menang pilkada bagi si A menggunakan peluang subjektif. Jika si A memiliki prestasi bagus (misal mampu memberantas korupsi di lingkungannya, membebaskan daerahnya dari banjir dan kemacetan lalu lintas, menggusur lokasi prostitusi, dsb) serta disenangi oleh sebagian besar masyarakatnya dan didukung oleh partai yang punya suara besar di parlemen, maka peluang si A untuk menang pilkada di tahun 2017 akan cukup besar.

Lebih lebih lagi jika si A dinyatakan bersih dari indikasi korupsi oleh KPK, ditambah lagi penantang berat dari si A juga sudah tidak akan mencalonkan diri dalam pilkada daerah X pada tahun 2017, maka peluang si A untuk menang akan semakin besar. Kawan saya tadi secara SUBJEKTIF mematok peluang si A untuk memenangi pilkada di daerah X pada tahun 2017 adalah sebesar p=0.90.

Itulah pengertian peluang secara matematika dan dalam kehidupan sehari-hari. Semoga bermanfaat..

Percayakah anda 9 dari 10 wanita menggunakan *******?

iklanKalau saya sih lebih percaya 9 dari 10 iklan lebih banyak ngibulnya dari pada benernya. Atau saya lebih percaya dari 10 kali anggota DPR ngomong 9 kali mereka berbohong, 1 kalinya bercanda…hehe. Tapi bukan itu intinya. Tapi apakah arti sebenarnya dari angka 9 dari 10? Let see.

Jika anda adalah penikmat acara televisi tanah air, maka saya dapat memastikan anda juga penikmat iklan tv. Bagaimana tidak dari setiap 5 menit tayangan acara, maka 2-3 menit lainnya adalah iklan tv. Ya.. iklan merupakan porsi terbesar dari pemasukan televisi sekaligus cara yang paling ampuh bagi pemilik produk untuk menginformsikan kepada pemirsa tentang produk mereka. Berbagai jenis iklan digunakan untuk menanamkan ke benak pemirsa agar kemudian dapat menggunakan produknya.

Di datatalker, saya tidak akan membahas lebih jauh mengenai jenis iklannya tapi bagaimana data disalahgunakan oleh pihak-pihak yang semata-mata mengharapkan keuntungan dengan mengabaikan kebenaran.

Klaim 9 dari 10 wanita telah memilih produk A. Apa yang terlintas di benak anda? Bagi pemirsa yang awam konsep statistika/matematika maka secara sadar maupun tidak sadar akan cenderung berpikir 90% wanita di Indonesia menggunakan produk A. Benarkah demikian?? Ini yang tidak pernah atau tidak mau ditunjukkan dengan jujur oleh pembuat iklan:

  1. Klaim 9 dari 10 wanita Indonesia menggunakan produk A adalah TIDAK TEPAT.
  2. Klaim tersebut adalah hasil SURVEY, dimana hasil survey tergantung dari metode surveynya. Jika menggunakan diambil secara acak dari POPULASI dan metodenya BENAR, maka klaim tersebut dapat dibenarkan. Jika TIDAK maka klaim tersebut hanyalah KEBOHONGAN.
  3. Letak KESALAHAN FATALNYA adalah klaim wanita Indonesia (seluruh), padahal hanya sebagian wanita yang ikut survey dan TIDAK MEWAKILI seluruh WANITA (Populasi).

Menurut saya kalimat yang disampaikan haruslah tidak ambigu misalnya, 9 dari 10 wanita yang kami survey (purposive/random sampling) menggunakan produk A. Tapiii… apakah terdengar menarik?? Sepertinya kebohongan yang cantik lebih dipilih daripada kebenaran dengan muka pasaran.

Story telling- Background

open book

Otak kita bekerja dengan cara asosiasi. Dia bekerja dengan menghubungkan satu kejadian dengan kejadian yang lain.  Bisa jadi punya hubungan bisa juga tidak. Efektifitas pemahaman kita akan sebuah masalah ditentukan oleh bagaimana otak mengakses informasi2 yg telah ada sebelumnya. Salah satu bentuk penyampaian informasi yang efektif adalah dengan menggunakan storytelling (bercerita).
Saat masih kecil kita sering dibacakan cerita dongeng atau kisah2 tentang para nabi.  Masih ingatkah anda dg cerita2 tersebut?  Saya menjawab masih… Sebagian cerita2 tersebut telah diceritakan lebih dari 20 tahun yang lalu. Bandingkan saja dengan penjelasan pimpinan rapat tadi pagi… :mrgreen: jangankan ingat, .mungkin paham aja belum.
Thats power of story telling. Bapak ibu kita menceritakan dongeng dan kisah dengan sebuah alur yang disukai oleh otak kita,  sedangkan pimpinan kita tadi pagi menjelaskan dalam bentuk yang tidak utuh dan sepotong2.
Pada kasus kedua otak kita kesulitan menjalin asosiasi antar fragmen2 informasi yang ada sehingga hanya masuk kedalam short term memory. Sedangkan cerita dan kisah tadi membekas dg kuat karena alur cerita yang sangat mudah diterima akal.

Bacakan sebuah cerita mengenai “Seorang wanita muda sedang berjalan menuju sebuah rumah tua jam 12 malam. Rumah itu mempunyai dua lantai dengan dinding yang kusam dan cat terkelupas. Malam itu sangat gelap, tidak ada bulan maupun bintang yang bersinar”.

Review. Tanyakan kembali tentang cerita diatas, simak seberapa mereka yang memperhatikan detail cerita. Minta salah seorang untuk mengulang cerita diatas. Saya sangat yakin bahwa orang tersebut dapat menceritakan kembali cerita diatas dengan baik, sekitar lebih dari 90% dari isi cerita tersebut dapat di ceritakan ulang.

Apa yang terjadi adalah saat kita bercerita, orang akan MENYIMAK, lalu secara tidak sadar otak anda akan melakukan proses MENGINGAT. Sejalan dengan proses ini, otak kita membuat sebuah GAMBARAN mengenai cerita tersebut. Lalu kita mencoba MEMAHAMI cerita tersebut.

Memangnya susah ya?? Coba anda tanyakan hal ini kepada para guru atau profesi pengajar lain. Saya sendiri sangat suka mengajar dan sempat beberapa tahun menjadi pengajar lepas, hal ini sangat-sangat susah. Sampai pada tahap menyimak mungkin sedikit lebih mudah, namun coba saja anda melakukan evaluasi belajar.  Anda baru terkejut dengan rendahnya penerimaan dan pemahaman dari murid-murid anda.

Proses dalam menyampaikan informasi hanyalah sebuah proses untuk menyampaikan gagasan dan ide anda kepada orang lain dengan harapan orang tersebut akan berpikir dan bertindak sesuai dengan apa yang anda inginkan. Contohnya anda ingin seseorang untuk membiayai bisnis anda, lalu anda mempresentasikan hitung-hitungan bisnis dengan menampilkan bagaimana penjualan akan naik jika anda melakukan ini dan itu. Dengan bermodalkan power point dan excel saja, anda dengan mudah membuat sebuah slide presentasi. Namun apakah hal tersebut menjamin orang tersebut akan bertindak sesuai dengan kenginan anda? Hal ini tergantung dari seberapa baik perhitungan anda masuk akal dan jangan lupa bagaimana anda menyampaikan gagasan dan ide anda tersebut.

Dengan bercerita, anda bisa mendapatkan PERHATIAN, lalu anda membuat dia MENGINGAT apa yang anda sampaikan, lalu anda berikan GAMBARAN yang jelas sehingga dia bisa PAHAM dan akhirnya mau bertindak sesuai dengan kenginan anda.

Just FYI. Terlepas dari apa agama anda, saat anda membuka kitab suci anda maka anda akan menemukan banyak sekali cerita yang tertera didalam semua kitab suci kisah nabi Musa dalam Al-Quran, kisah Sodom dan Gomorah di Injil, Kisah Pandawa dan Kurawa di Kitab Mahabarata dan lain sebagainya. Tuhan pasti punya alasan menggunakan cerita dalam kitab-kitabnya. Well, Tuhan jelas tahu tentang kita lebih dari kita mengenal diri kita. Dia mendesign cara yang paling tepat agar kita mengerti dan mau menjalan perintahnya lewat cerita-cerita yang Dia sampaikan. Jika Tuhan saja sudah menggunakan cara ini, maka tidak perlu ragu lagi untuk menggunakan cara yang sama untuk menyampaikan pesan anda kepada orang lain.

Identifying Duplicate Customer Records – Case Study -Dalton Blog

Identifying Duplicate Customer Records – Case Study

  1. Introduction

    Identifying duplicate customers is no unique challenge to any company. As a matter of fact, it is one of the most common data quality problems faced by many organizations.

    Many data quality vendors offer viable solutions to help identify duplicate customers. However, you can’t expect an out-of-the-box solution. That’s because there is a business issue intrinsic to the technical problem, which requires a comprehensive evaluation from multiple angles.

    In this topic, the People-Process-Technology triangle is as relevant as ever. Having the right people in the right business areas is critical when making a final decision on duplicates, proper course of action, and impact analysis. Technology is key in expediting the data analysis and improving accuracy, scalability, and repeatability. Lastly, defining the most effective process to bring both technology and people together to achieve the desired results efficiently is equally important.

    2. Background

    At Sun Microsystems, we have been through a massive Master Data Management (MDM) project, consolidating customer data from over 800 disparate legacy applications into a Customer Data Hub (CDH). The ultimate goal is to have a single source of truth to enable a 360 degree view of the customer.

    Needless to say, this major effort comes with a price. Technical difficulties are certainly a major challenge. Bringing so many disparate data systems into a common structure is no easy task, but an even more daring challenge is aligning multiple business units into an integrated set of data, processes, standards, policies, and rules. Such subject deserves its own paper. For the purpose of this case study, we will focus specifically on one of the major issues we had by combining multiple legacy systems into one: duplicated data.

    Duplicated data was not simply the result of bringing multiple data sources together. Not surprisingly, duplicated data already existed within each of them. The problem simply became magnified and over-exposed because the newly centralized data was available to a much larger audience.

    3. About the Tool

    Throughout this article, I’ll make constant references to DataFlux, which has multiple products. For this particular effort, we have used dfPower Studio. Here is a brief description about dfPower Studio as provided by DataFlux:

    “dfPower Studio is the award-winning DataFlux data quality and data integration platform. dfPower Studio offers a unique set of workflow tools built on an industry-leading technology platform that encompasses every facet of the data management process. Through its intuitive interface, dfPower Studio gives business users powerful data improvement capabilities and complete control over data quality and data governance initiatives.

    dfPower Studio allows data stewards, business analysts and data owners to build complex data improvement workflows quickly and logically through an innovative job flow builder. These same jobs can then be implemented, in batch or real time, through the DataFlux Integration Server, easily transforming data quality projects into ongoing data governance policies.”

    dfPower Studio has allowed us to automate several tasks within our complex process. It has given us the ability to quickly and accurately execute what would be, otherwise, very time consuming and labor intensive steps. dfPower Studio is a critical piece in making this process scalable and repeatable. From now on, I’ll use DataFlux and dfPower Studio interchangeably.

    4. The Methodology

    Figure 1 depicts the overall process flow. The 4 main steps in this process are:

    – Identify potential duplicates
    – Collect detail data for scoring
    – Review results and get approvals
    – Consider disposition and execute actions

Figure 1 – Methodology
The next sections describe in detail each of the steps above.

4.1 Identify Potential Duplicates

Identifying duplicates can be a very challenging and time consuming effort if you have lots of data. In our case, we have hundreds of thousands of records, and certainly looking through them manually is impossible. We use DataFlux to help with the search in a semi automated fashion.

We started with a list of customers prioritized by the business. Our first pass was using a list of our top couple hundred customers, which represent a sizable part of our revenues. Using DataFlux and their fuzzy matching techniques, we try to find records in our system related to those customers.

Needless to say, the fuzzy matching is not perfect, so we need to manually detect false positives and false negatives. False positives are basically identified matches that are not truly matches, and false negatives are missed matches. We have a group of data analysts that look through the fuzzy matching results and flag the false positives. That is a relatively simple and quick task, since it is mostly quite obvious the records that do not belong. The false negatives can be a little bit more difficult since we need to deal not only with a tool imperfection, but also with business updates. Merges and acquisitions are very frequent. Our challenge is bigger than simply trying to find matching names. We need to find ways to understand the ever changing company structure of our clients.

To overcome this obstacle, we have data analysts using external data references, such as Dunn & Bradstreet, to help model the most recent company structure and its subsidiaries. A list of search strings is created and used by DataFlux to complement the acquisition of initially missed parties.

At the end of this step, we have a fairly complete set of data records within our system identified as potential matches to our original input list.

4.2 Collect Detail Data for Scoring

The overall goal in this step is to score the matching records using a business defined set of rules. The score is based on a multitude of attributes related to that particular customer record, such as number of service requests, service contracts, install base records, sites, tax id, credit limits, and a lot more. This scoring is useful in deciding the “best” records we have that truly represent the relationship with our customers. The advantage of this method is that it is automated with DataFlux.

We start with the list generated from the previous step. Using DataFlux, we query our data source to collect all relevant attributes that are needed in our scoring system. Using the retrieved data, we run our automated scoring algorithm. Records are clustered together by the customer country of incorporation since our ultimate goal is to have a representative set of records based on their legal definitions.

Our scoring varies from 0 to 100. The highest the score, the more complete the data record is according to the business definitions. The record or records with the highest scores are more likely to survive. The records with the lowest scores will either be merged to a surviving record or inactivated if they provide no business value.

At the end of this step, we have a list of potential duplicates along with a score and accompanying detail data for each of them.

4.3 Review Results and Get Approvals

In this step, Data Analysts look through the scoring results provided by DataFlux along with the supporting detail data. The scoring helps analysts make a determination about which record(s) should survive, and which of them should be inactivated or merged.

Some cases are pretty obvious. For example, when a single record has a very high score compared to the others, there is not much of a question about which record should survive. In more complex cases, where the scores are more even, the business analysts may be required to do some additional research.

It is important to notice that we are not necessarily looking for a single record to survive for all cases. First of all, as mentioned earlier, we cluster records per country of incorporation. So, when looking at a particular set of customer records, we are trying to identify the best legal company data we want to maintain. Furthermore, in many cases, multiple legal entities will still exist within a single country of incorporation.

That is why we need a thorough Business Review to make the determination. In this review, several business areas are brought together to approve the recommendations provided by the analysts. Business areas included are Finance, Support, Sales, Marketing, and more. These reviews are led by the Customer Data Governance group, which is acting as a mediator in the process.

This can be a very time consuming effort, and it is, in my opinion, the price to pay for having a Master Data system. Gaining consensus from everyone can be difficult, but in the end, it pays off to have a single source of truth instead of multiple fragmented siloed data systems.

Once agreement is reached, we are ready to move on to the next step.

4.4 Consider Disposition and Execute Actions

Now that the survivors are marked and approved, a DataFlux job creates a final report to be distributed to the field for correction.

In our case, even though we may have identified which records are the survivors and which ones are not, we cannot necessarily merge them immediately. We still have dependencies with some not yet EOL’d legacy applications that prevent us from performing certain tasks. We also have dependencies related to interface systems and spoke applications that use our data. Therefore, some constraints have to be considered.

The DataFlux job evaluates the input data, considers the constraints, and then make a determination on what actions can be taken. A report for execution is generated, which is assigned to the proper teams for execution.

5. Lessons Learned

Data de-duplication is not a perfect science. The reason for duplicates can be many, and can be very difficult to understand. Mistakes will be made, but we must be proactive.

Costs associated to bad data quality are high and, a lot of times, very difficult to measure. Getting executive buy-in is critical. They must be willing to sponsor these type of activities for the long-term achievement of the organization’s operational and strategic business objectives.

Bringing multiple business areas together is also very hard and essential. In our case, some groups had to experience some painfully inefficient processes before they could realize the importance of an effort like this. Having a Customer Data Governance team to voice these issues and organize the proper structure for carrying on the process is a must.

The only way to make this process scalable and repeatable is to use a tool like DataFlux. Without DataFlux, it would have been impossible to quickly produce the required results. With a few data analysts and DataFlux, we can process dozens of company data sets in a single day. Otherwise, we would spend days analyzing a single company.

About the Author

Dalton Cervo is the Customer Data Quality Lead at Sun Microsystems. Dalton is part of Customer Data Steward and is a member of the Customer Data Governance team responsible for defining policies and procedures governing the oversight of master customer data.

Dalton has been with Sun for over 8 years. At Sun, Dalton started as an IT Software Engineer developing web applications. Later, he moved into IT Project Management and eventually into the business area as part of the Market and Business Intelligence team.

In the last 3 years, Dalton has led several customer data management efforts, including: data collection, cleansing, standardization, enrichment, and hierarchy classification; master data management conversion, consolidation, standardization, and cleansing; and data quality standards, policies, metrics and monitors.

Dalton is a member of the Customer Advisory Board for DataFlux, and was a speaker at the IDEAS conference in 2008 on the topic of customer data metrics.

Source: http://dcervo.blogspot.com/2009/06/identifying-duplicate-customer-records.html

Statistics Never Lies.. People Did…

Berkutat dengan pekerjaan sehari-hari yang berhubungan dengan data dan angka membuat saya semakin akrab dengan sepuluh bilangan ini. Pemrosesan data dari database, charting, bikin table summarry, sekali-sekali analisa statistik kemudian menampilkannya sebagai report membuat saya cukup paham seberapa hebat sebuah angka mempengaruhi sebuah keputusan. Dalam tingkat operasional setiap report akan menjadi tulang punggung untuk mengetahui seberapa jauh atau seberapa dekat sebuah unit bisnis dengan target. lebih-lebih lagi di level eksekutif serial angka-angka itu dapat menentukan apakah sebuah perusahaan memutuskan untuk membeli perusahaan lain dengan biaya jutaan dolar atau mengambil keputusan untuk melepaskan anak perusahannya.

Semakin penting keputusan yang diambil dari data seharusnya membuat seorang analis sangat berhati-hati dalam melakukan manipulasi (pemrosesan) data. setiap operasi matematika yang dilakukan harus dapat dipertanggungjawabkan kevalidannya. Untuk level pemrosesan data ini biasanya terlalu berisiko seorang data analis melakukan manipulasi terhadap datanya karena jika dilakukan validasi silang dengan data yang lain, manipulasi seperti ini sangat mudah untuk ditemukan.

Trik-trik yang dilakukan oleh banyak orang untuk “memperindah” tampilan data nya agar audience dapat di drive sesuai keinginan orang tersebut adalah dengan pemilihan chart atau grafik yang tricky. Saya jadi teringat sebuah artikel mengenai chart junkies yang ditulis pada sebuah blog. Saat saya membaca pertama kali, saya begitu terheran-heran karena sosok yang dibicarakan pada artikel itu adalah CEO Apple yang legendaris yaitu Steve Jobs.

Pada saat diselenggarakannya WWDC 2008, Apple memperkenalkan produknya yang sangat fenomenal yakni iPhone dan OS X. Pada salah satu bagian presentasi tersebut, ada beberapa slide yang menurut beberapa orang agak ‘nakal’. Please take a look.

dsc_0143Tidak kah anda merasa ada sestau yang janggal dengan tampilan pie chart di atas? Jika masih ada yang belum “ngeh” saya akan kasih beberapa petunjuk. Berapa market share RIM? Berapa marketshare Apple? Nah, sekarang coba anda lihat, bagian pie chart RIM (biru) dan bandingkan dengan potongan pie chart milik Apple. Don’t you think this is strange? 19.5% itu kira-kira setengahnya dari 39%, tapi kenapa 19.5% terlihat lebih besar?.

Agar lebih jelas lagi, coba anda bandingkan market share dari other (21.2%) kemudian bandingkan dengan market share Apple (19.5%). Bagian pie chart Apple terlihat lebih besar padahal marketshare other lebih besar dibandingkan market share Apple. Disinilah “nakal” nya pembuat presentasi ini. Dengan menggunakan 3D pie chart dan memposisikan bagian yang ingin kita tonjolkan dibagian paling depan, maka efek “lebih besar” itu akan muncul.

Pada saat melakukan presentasi kita seringkali ingin menitik beratkan beberapa hal dibandingkan hal yang lain, dengan permainan grafik dapat membuat kesan terhadap suatu hal menjadi sangat berbeda. This is one of the proof statistics don’t lie. But People Did.