Ability to see pattern in randomness

life_is_random

Dulu sekali, disalah satu stasiun televisi swasta menayangkan sebuah acara dimana beberapa orang ‘sakti’berkumpul untuk menangkap hantu. Kami yang saat itu masih anak-anak sangat menggandrungi acara ini, apalagi saat salah seorang dari pemburu tersebut membuat lukisan dengan mata tertutup, lalu muncullah gambar makhluk-makhluk aneh dengan ajaibnya.

Beda halnya dengan salah satu karakter novel kesukaan saya Sherlock Holmes, berkali-kali membaca dan menonton film dan serialnya selalu membuat saya berdecak kagum. Kemampuannya dalam memecahkan kasus-kasus kriminal membuat pembaca tenggelam dalam alur cerita yang dituliskan oleh Sir Arthur Conan Doyle.

Lalau apa hubungannya antara pemburu hantu dan Sherlock Holmes? Keduanya memiliki sebuah kesamaan yakni kemampuan melihat sesuatu yang tidak bisa dilihat oleh orang kebanyakan. Walau dalam kasus pemburu hantu saya juga masih ragu apa itu rekayasa atau bukan, tapi ya sudahlah anggap saja mereka bisa lihat.period. Kemampuan ini yang membuat mereka special dan berbeda dengan orang lain yang akhirnya membuat mereka terkenal dan dibayar mahal.

Menurut saya apa yang kita lakukan dalam menganalisa data adalah mencoba melihat pola-pola yang tidak terlihat dari sekumpulan data atau kejadian yang seakan-akan acak dan chaos. Dalam era social media ini, perusahaan selalu mencoba untuk lebih baik dari perusahaan lain dengan berbagai cara, salah satu nya adalah membuat produk yang berbeda dan lebih baik dari pesaingnya. Semakin banyak kita tahu tentang informasi lebih dari pesaing kita, maka semakin besar peluang kita menang.

Di zaman dimana semua aktifitas kita terekam lewat sebuah alat yang bernama smartphone ini, maka tidak ada lagi batasan antara kita dengan perusahaan penghasil produk. Tergantung apakah mereka mampu menemukan pola/pattern yang kita hasilkan. Dapatkah mereka memberikan sebuah penawaran/solusi/produk/jasa yang sesuai dengan kebutuhan kita.

Pertanyaan untuk kita adalah apakah anda mampu melihat pola yang teratur dalam sebuah kejadian acak?

Percayakah anda 9 dari 10 wanita menggunakan *******?

iklanKalau saya sih lebih percaya 9 dari 10 iklan lebih banyak ngibulnya dari pada benernya. Atau saya lebih percaya dari 10 kali anggota DPR ngomong 9 kali mereka berbohong, 1 kalinya bercanda…hehe. Tapi bukan itu intinya. Tapi apakah arti sebenarnya dari angka 9 dari 10? Let see.

Jika anda adalah penikmat acara televisi tanah air, maka saya dapat memastikan anda juga penikmat iklan tv. Bagaimana tidak dari setiap 5 menit tayangan acara, maka 2-3 menit lainnya adalah iklan tv. Ya.. iklan merupakan porsi terbesar dari pemasukan televisi sekaligus cara yang paling ampuh bagi pemilik produk untuk menginformsikan kepada pemirsa tentang produk mereka. Berbagai jenis iklan digunakan untuk menanamkan ke benak pemirsa agar kemudian dapat menggunakan produknya.

Di datatalker, saya tidak akan membahas lebih jauh mengenai jenis iklannya tapi bagaimana data disalahgunakan oleh pihak-pihak yang semata-mata mengharapkan keuntungan dengan mengabaikan kebenaran.

Klaim 9 dari 10 wanita telah memilih produk A. Apa yang terlintas di benak anda? Bagi pemirsa yang awam konsep statistika/matematika maka secara sadar maupun tidak sadar akan cenderung berpikir 90% wanita di Indonesia menggunakan produk A. Benarkah demikian?? Ini yang tidak pernah atau tidak mau ditunjukkan dengan jujur oleh pembuat iklan:

  1. Klaim 9 dari 10 wanita Indonesia menggunakan produk A adalah TIDAK TEPAT.
  2. Klaim tersebut adalah hasil SURVEY, dimana hasil survey tergantung dari metode surveynya. Jika menggunakan diambil secara acak dari POPULASI dan metodenya BENAR, maka klaim tersebut dapat dibenarkan. Jika TIDAK maka klaim tersebut hanyalah KEBOHONGAN.
  3. Letak KESALAHAN FATALNYA adalah klaim wanita Indonesia (seluruh), padahal hanya sebagian wanita yang ikut survey dan TIDAK MEWAKILI seluruh WANITA (Populasi).

Menurut saya kalimat yang disampaikan haruslah tidak ambigu misalnya, 9 dari 10 wanita yang kami survey (purposive/random sampling) menggunakan produk A. Tapiii… apakah terdengar menarik?? Sepertinya kebohongan yang cantik lebih dipilih daripada kebenaran dengan muka pasaran.

Visualisasi Distribusi Peluang

Saat mendengar istilah peluang (Eng: Probability) mungkin bagi beberapa orang akan terbayang hal yang berbeda, bagi kalian yang pernah mengambil mata kuliah statistika dasar maka konsep ini seharusnya bukan hal yang asing lagi. Pada dasarnya peluang adalah kemungkinan sebuah kejadian terjadi, dapat dihitung dengan rasio sebuah kejadian terhadap seluruh kemungkinan kejadian.

Untuk memvisualisasikan munculnya semua kombinasi kejadian terhadap semesta kejadian kita memerlukan sebuah teknik visualisasi yang mudah untuk dimengerti. Pernah lihat grafik seperti ‘lonceng’ seperti ini?

student_t_density_plot_1

Grafik ini adalah grafik dari Probability Density Function (PDF). Grafik PDF ini mengikuti sifat dari PDF yakni antara lain:

  • Karena random variabel yang digunakan sifatnya kontinu maka grafik PDF yang ada juga merupakan kontinu sepanjang random variabel yang ada
  • Area yang berada di bawah kurva memiliki nilai maksimal 1
  • Jika kita memiliki 2 titik (a, b) dimana a<b, maka peluang untuk kejadian tersebut adalah luasan daerah dibawah kurva antara a dan b
  • Peluang P(X=a)=0, artinya peluang satu titik (contoh a) adalah 0 (nol).

Bagaimana membaca grafik PDF ini? Kita bisa ambil contoh dengan grafik dibawah ini. Pada grafik diatas menggambarkan PDF dari cacat produksi lampu. Sigma (σ) disini adalah nilai yang didapat dari  tingkat kecacatan produk yang dihasilkan dalam sebuah proses produksi. Untuk lebih jelas dapat dilihat tabel berikut:

six_sigma_normal_distribution_2

six_sigma_level_yield_table

Misalkan kita punya pertanyaan berapa peluang cacat produksi lampu tersebut lebih besar dari 690.000 ppm (part per million), maka kita mendapatkan sigma level nya adalah 1, dengan mengambil seluruh area dibawah kurva (dari -1σ sampai 1σ) dimana yield (success) 30.85% dan tingkat kecacatan 69.15%.

Dengan adanya penjelasan visualisasi fungsi peluang ini harapannya kita dapat mengaplikasikan konsep peluang kedalam aktifitas sehari-hari. Jika perusahaan anda mempunyai toleransi kecacatan produk sampai hanya 1 sigma, artinya anda mentolerir hampir 70% produk anda terbuang percuma. Namun jika anda ingin untung tentunya anda akan mengontrol proses produksi anda seefisien dan seefektif mungkin. Dengan menetapkan standar Qulaty Control (QC) yang baik, maka anda akan memperkecil kerugian dari terbuangnya bahan baku dari produk yang cacat.

Aplikasi penggunaan PDF ini sangat banyak, jika ada yang ingin share lebih banyak silahkan masukkan ke kolom komentar. 🙂

 

Market Basket Analysis

3648337-collection-of-shopping-carts-full-of-shopping-bags-and-a-sale-label-concept-of-discount-vector

Saya sering berbelanja bersama dengan istri dan anak saya, pada saat berbelanja kebutuhan anak saya utamanya popok dan susu, saya sering menemukan berbagai promo yang cukup menarik terutama di mata istri saya. Beli popok merk ini dapatkan harga spesial untuk tisu basah, wew… itu mata istri saya seperti mengeluarkan sinar laser dan secepat kilat otaknya berhitung berapa yang harus dibayar jika saya membeli popok sekian dan tisu basah sekian. Padahal dia sangat benci matematika sejak lahir, namun kalau masalah uang belanja ini hitungan rumit setara aljabar matriks ini selesai dalam hitungan detik..haha…

Mari kita tinggalkan istri saya yang sedang sibuk berhitung kebutuhan popok. Hal yang ingin saya tunjukkan adalah bagaimana caranya pemilik toko membuat penjualan dengan sistem paket seperti itu, pengalaman saya sebagai shopper di warung kelontong dekat rumah sejak usia saya 7 tahun tidak sekalipun ada penawaran atau bundling barang seperti tadi, mungkin saat saya beli minyak goreng curah siapa tahu ada penawaran ikan asin setengah harga… who knows…

Akhirnya semua misteri tersebut terjawab setelah saya meranatau ke barat (baca jawa barat) untuk mencari kitab suci statistika. Ternyata si toko ini mencatat setiap transaksi yang dilakukan oleh pembelinya, jadi selain data belanjaan kalian ada di dalam struk belanjaan, data yang sama disimpan dalam sebuah database. Data inilah yang kemudian diolah dan dianalisa untuk menghasilkann sebuah strategi pemasaran yang sering kali terlihat seperti membaca pikiran terutama para ibu-ibu yang hobi belanja (kadang2 bapak2 juga.. :P).

Di dunia praktisi data, teknik ini di namakan market basket analysis, sesuai dengan barang untuk menaruh belanjaan=keranjang=basket (english). Kalau bahasa Indonesianya sih analisa keranjang belanjaan di pasar, analisa ini dapat menghasilkan informasi mengenai produk-produk yang sering dibeli secara bersamaan oleh pelanggan. Dengan informasi ini lah pemilik toko seakan-akan mampu untuk membaca kenginan orang bahkan bisa mengaarahkan orang-orang untuk membeli barang-barang yang sebenarnya tidak ada di dalam daftar belanjaan mereka.

Thats the power of data, dengan menggunakan analisa yang benar kita dapat menemukan pola-pola yang tak terlihat dan menjadikannya sebagai senjata ampuh untuk meningkatkan bisnis kita.

Jika anda mendapatkan manfaat dr tulisan tersebut please share, untuk tulisan-tulisan saya yang lain dapat dilihat pada blog post di bawah ini.

Statistik: Pembeda antara kebetulan dengan hasil usaha (case closed)

bakso

Setiap hari Pak Handoko  menjual bakso, bakso anda sangat laku sehingga membuat banyak pelanggan dan Pak Slamet menghitung berapa porsi bakso yang terjual. Jumlah bakso yang terjual tiap harinya tidak selalu sama, kadang naik dan kadang turun. Pak Handoko penasaran, kok ada hari-hari tertentu dimana dia menjual bakso sampai kehabisan stok yang akhirnya menolak pelanggan, namun dihari yang lain kadang ada sisa stok bakso yang tidak terjual. Akhirnya pak Handoko menyuruh salah satu anak buahnya bernama Tiara untuk merekap data penjualan bakso selama sebulan dengan hasil sebagai berikut.

Pak Handoko ingin mengetahui #1 apakah kondisi penjualan saya sebulan terakhir? #2 apakah ada perbedaan antara penjualan bakso urat dengan bakso telur? #3 Apakah jika ada kenaikan penjualan di waktu tertentu disebabkan oleh perubahan yang dilakukan oleh pak Handoko. Mari kita bantu Pak Handoko untuk menjawab permasalahannya.

Untuk tahap awal kita akan melakukan eksplorasi data dengan menggunakan teknik deskriptif, ini merupakan jawaban untuk pertanyaan no #1 tab descritive anda dapat melihat informasi singkat mengenai penjualan bakso pak Handoko. Dari sini kita dapat meilhat bahwa penjualan tertinggi yakni 296 porsi dan terendah 203 porsi, rata-ratanya 246 dan rata-rata simpangan (naik turunnya) penjualan adalah 29 porsi. Sebagai penjual pak Handoko pasti penasaran, kok bisa sih jualan baksonya bisa sampai 296 porsi sehari! Kita harus cari tahu nih penyebabnya agar penjualan di hari yang lain bisa sampai atau setidaknya mendekati 296 porsi (*noted).

Kita dapat mengajukan pertanyaan tambahan kepada pak Handoko apakah ada perubahan yang dilakukan selama sebulan ini? Jika ada kita dapat memasukkan informasi tersebut kedalam data yang kita miliki. Ternyata Pak Handoko beberapa hari menyuruh salah seorang karyawannya menyebarkan flyer/ selebaran di dekat warung baksonya. Informasi ini kita tambahkan kedalam data dimana kita berikan angka 1 jika ada penyebaran flier dan 0 jika tidak ada. Disini Pak Handoko bisa memastikan apakah jika ada kenaikan penjualan baksonya disebabkan oleh penyebaran flyer atau kebetulan aja naik karena hal-hal yang beliau sendiri tidak tahu.

Sekarang kita coba jawab pertanyaan no #2. Apakah ada perbedaan yang signifikan penjualan antara bakso urat dan bakso telur? Jika kita hanya mencatat pendapatan dari penjualan kedua jenis bakso, maka kita hanya melihat secara total atau setidaknya rata-rata. Namun permasalahannya perbedaan itu bisa jadi hanya beda tipis dan tidak signifikan. Maksudnya signifikan adalah jika perbedaan itu sudah melewati batas yang kita tentukan. Let say kita pasang bahwa ” it’s okay bahwa saya menerima jika hasil perhitungan saya salah, namun saya bisa bilang bahwa peluang maksimal saya salah adalah 5%”.

Saya menggunakan t-test berpasangan (alpha 5%) untuk menguji apakah rata-rata penjualan bakso urat sama dengan bakso telur (saya sebut Null Hypothesis: H0) lawannya adalah rata-rata penjualan antara bakso urat lebih tinggi dari bakso telur tidak sama (Alternative Hypothesis: H1). Coba anda lihat tab t-test pada file diatas, anda bisa lihat bahwa hasilnya untuk one tail probability (p-value)< alpha:5%, sehingga menyebabkan saya menolak H0. Kesimpulannya adalah rata-rata penjualan bakso urat lebih besar secara signifikan dibandingkan dengan penjualan bakso telur.

Sekarang kita akan menyampaikan jawabannya ke Pak Handoko, kita akan menyampaikan bahwa pelanggan anda ternyata sangat menyukai bakso urat anda dibandingkan bakso telur. Anda dapat meningkatkan penjualan dengan menampilkan bakso urat sebagai menu utama, atau bisa juga jika ingin menaikkan pendapatan dengan sedikit menaikkan harga untuk bakso urat 🙂

Pertanyaan no #3, Apakah jika ada kenaikan penjualan di waktu tertentu disebabkan oleh perubahan yang dilakukan oleh pak Handoko (penyebaran flier). Untuk menjawab pertanyaan ini, kita memerlukan sebuah analisa statistik yang bernama REGRESI. Kenapa regresi? nah di regresi ini kita dapat mengidentifikasi pengaruh variabel dependent(bebas) terhadap variabel dependent (terikat). Nah, pada kasusnya pak Handoko variabel bebasnya adalah penyebaran flier (1:ya, 0: tidak), kita akan menggunakan data yang telah tersedia untuk menjawab pertanyaan pak Handoko. But wait, sebelum ke analisa kita melihat bahwa data variabel bebasnya adalah nominal, sehingga kita akan memperlakukan analisanya sebagai analisa regresi dengan variable dummy.

Hasilnya dapat dilihat di tab regressi pada data diatas atau pada gambar dibawah ini:

http://

Bagi yang sudah sering melihat output regresi pasti familiar dengan angka-angka dan format outputnya. Namun bagi yang baru baca-baca tentang statistik bisa komen dibawah untuk tanya apa maksudnya. Ok then, langsung ke bagian highlight orange ya… pertama bisa lihat nilai R² =0,775 atau 77,5% yang artinya adalah model atau dalam hal ini variabel pembagian flier dapat menjelaskan perubahan dari variabel dependen (penjualan bakso total). Nilai kedua yang diperhatikan adalah ANOVA atau analysis of variance dimana nilai P-value < alpha (5% aja deh), yang berarti bahwa modelnya berpengaruh nyata. Nilai ketiga adalah nilai uji t dimana P value variabel pembagian flier < alpha (5%) yang berarti pembagian flier berpengaruh terhadap penjualan bakso. Wait satu lagi. Saya katakan berpengaruh bisa berarti dua hal, bisa berpengaruh positif dan bisa juga negatif. Untuk tahu apakah pengaruhnya maka kita lihat koefisien dari variabel pembagian flier. NIlai yang tertera adalah +51.8, ini berarti pembagian flier berpengaruh positif terhadap penjualan bakso. Nilai 51,8 dapat kita interpretasikan bahwa dengan mengadakan pembagian flier dapat menaikkan penjualan 51-52 porsi. Kereeen gak siih. Inilah kekuatan dari analisa statistik.

Balik ke judul diatas, kita bisa menyimpulkan bahwa:

  1. Kondisi penjualan bakso pak Handoko rata-rata perhari 246 porsi
  2. Bakso urat lebih laku (signifikan) dari bakso telor
  3. Pembagian flier berpengaruh positif +51 dibandingkan dengan tidak membagi flier.
  4. Finally, dengan data seadanya kita bisa menyimpulkan bahwa usaha pak Handoko ada hasilnya dan kenaikan penjualan salah satu penyebabnya adalah pembagian flier.

That’s all guys. Hope help you all. Case closed. Jangan lupa subscripe ya.

Langkah-Langkah Analisa Data Part 1 Setengah masalah selesai dengan pertanyaan

Tidak ada hari tanpa excel dan data. Ini mungkin gambaran yang paling tepat untuk menggambarkan pekerjaan yang saya lakukan. Walaupun untuk mengekstrak datanya sudah ada SAS or MySQL dan untuk visualisasinya sudah pake Tableau, kemudahan pengolahan data excel emang paling T.O.P.

Seingat saya, waktu jaman kuliah juga gak terlepas dengan menggunakan excel, bikin tabulasi data survey, sekedar deskriptif stat sih gak ada masalah. Baru beberapa tahun ini aja kenal beberapa trik keren yang excel punya.

Sekarang ini katanya sih era BIG DATA, buat yang punya tools yang keren dan ngerti dikit API, mungkin ngerti dengan istilah ini. Tapi saya sendiri sih masih jarang gunain data ini, masih data-data yang ‘kecil’ dan terstruktur. Makanya saya share hal-hal basic aja dalam hal pengolahan data, hal biasa yang bisa sangat membantu hidup anda.

Sebelum anda melakukan analisa apapun pada data anda, hal yang anda paling butuhkan adalah identifikasi masalah apa yang anda ingin jawab dengan data yang anda miliki? Tulislah setiap pertanyaan yang anda miliki di kertas kerja anda. Jika saya mengatakan tulislah, maka jangan sungkan mencoret-coret kertas anda untuk menulis pertanyaan. Satu filosofi yang saya pegang adalah “jika anda sudah bisa membuat pertanyaan yang jelas dan akurat, anda sudah mengerjakan setengah pekerjaan anda”

Pernahkah ditanya manakah yang “lebih baik” samsung atau apple? Berapa penjualan kita bulan lalu? atau manakah yang harus saya pilih, beli rumah atau apartemen?

Dapatkah anda membedakan mana pertanyaan yang baik, mana yang tidak?

Step by Step Menampilkan Grafik dari Google SpreadSheet

Karena penasaran dengan cara orang-orang menampilkan chart-chart yang interaktif di websitenya. Maka saya coba cari artikel tentang how to nya. Setalah mencoba sendiri, saya tampilkan hasil coba-coba saya. Lets check it out 🙂

  1. Buatlah file seperti halnya anda membuat file di Ms Excel.

table spreadsheet

2. Kemudian block file yang anda inginkan untuk disajikan dalam bentuk grafik, dan pilih chart editor. Setelah itu pilih jenis chart sesuai dengan kebutuhan anda.

Pilih chart editor

3. Setelah anda memilih chart yang dinginkan, pilih insert dan anda akan melihat hasil chart pada google spreadsheet anda. Pilih Publish chart.

pilih menu pojok

4. Setelah memilih publish chart, anda akan menemukan tampilan link dan embedded. Agar chart langsung tampil pada page anda pilih embedded dan copy link nya.

copy link chart embedded

5. Karena saya menggunakan wordpress maka penjelasan berikutnya menyesuaikan dengan domain blog masing-masing. Pada menu wordpress saat anda membuat new post akan ada menu insert link. Pilih insert link dan paste link yang anda copy sebelumnya dari google spreadsheet.

Copy URL dan Link Text

6. Setelah anda selesai semua langkah di atas. Anda bisa lihat hasilnya seperti chart dibawah ini. Mudah bukan??

Identifying Duplicate Customer Records – Case Study -Dalton Blog

Identifying Duplicate Customer Records – Case Study

  1. Introduction

    Identifying duplicate customers is no unique challenge to any company. As a matter of fact, it is one of the most common data quality problems faced by many organizations.

    Many data quality vendors offer viable solutions to help identify duplicate customers. However, you can’t expect an out-of-the-box solution. That’s because there is a business issue intrinsic to the technical problem, which requires a comprehensive evaluation from multiple angles.

    In this topic, the People-Process-Technology triangle is as relevant as ever. Having the right people in the right business areas is critical when making a final decision on duplicates, proper course of action, and impact analysis. Technology is key in expediting the data analysis and improving accuracy, scalability, and repeatability. Lastly, defining the most effective process to bring both technology and people together to achieve the desired results efficiently is equally important.

    2. Background

    At Sun Microsystems, we have been through a massive Master Data Management (MDM) project, consolidating customer data from over 800 disparate legacy applications into a Customer Data Hub (CDH). The ultimate goal is to have a single source of truth to enable a 360 degree view of the customer.

    Needless to say, this major effort comes with a price. Technical difficulties are certainly a major challenge. Bringing so many disparate data systems into a common structure is no easy task, but an even more daring challenge is aligning multiple business units into an integrated set of data, processes, standards, policies, and rules. Such subject deserves its own paper. For the purpose of this case study, we will focus specifically on one of the major issues we had by combining multiple legacy systems into one: duplicated data.

    Duplicated data was not simply the result of bringing multiple data sources together. Not surprisingly, duplicated data already existed within each of them. The problem simply became magnified and over-exposed because the newly centralized data was available to a much larger audience.

    3. About the Tool

    Throughout this article, I’ll make constant references to DataFlux, which has multiple products. For this particular effort, we have used dfPower Studio. Here is a brief description about dfPower Studio as provided by DataFlux:

    “dfPower Studio is the award-winning DataFlux data quality and data integration platform. dfPower Studio offers a unique set of workflow tools built on an industry-leading technology platform that encompasses every facet of the data management process. Through its intuitive interface, dfPower Studio gives business users powerful data improvement capabilities and complete control over data quality and data governance initiatives.

    dfPower Studio allows data stewards, business analysts and data owners to build complex data improvement workflows quickly and logically through an innovative job flow builder. These same jobs can then be implemented, in batch or real time, through the DataFlux Integration Server, easily transforming data quality projects into ongoing data governance policies.”

    dfPower Studio has allowed us to automate several tasks within our complex process. It has given us the ability to quickly and accurately execute what would be, otherwise, very time consuming and labor intensive steps. dfPower Studio is a critical piece in making this process scalable and repeatable. From now on, I’ll use DataFlux and dfPower Studio interchangeably.

    4. The Methodology

    Figure 1 depicts the overall process flow. The 4 main steps in this process are:

    – Identify potential duplicates
    – Collect detail data for scoring
    – Review results and get approvals
    – Consider disposition and execute actions

Figure 1 – Methodology
The next sections describe in detail each of the steps above.

4.1 Identify Potential Duplicates

Identifying duplicates can be a very challenging and time consuming effort if you have lots of data. In our case, we have hundreds of thousands of records, and certainly looking through them manually is impossible. We use DataFlux to help with the search in a semi automated fashion.

We started with a list of customers prioritized by the business. Our first pass was using a list of our top couple hundred customers, which represent a sizable part of our revenues. Using DataFlux and their fuzzy matching techniques, we try to find records in our system related to those customers.

Needless to say, the fuzzy matching is not perfect, so we need to manually detect false positives and false negatives. False positives are basically identified matches that are not truly matches, and false negatives are missed matches. We have a group of data analysts that look through the fuzzy matching results and flag the false positives. That is a relatively simple and quick task, since it is mostly quite obvious the records that do not belong. The false negatives can be a little bit more difficult since we need to deal not only with a tool imperfection, but also with business updates. Merges and acquisitions are very frequent. Our challenge is bigger than simply trying to find matching names. We need to find ways to understand the ever changing company structure of our clients.

To overcome this obstacle, we have data analysts using external data references, such as Dunn & Bradstreet, to help model the most recent company structure and its subsidiaries. A list of search strings is created and used by DataFlux to complement the acquisition of initially missed parties.

At the end of this step, we have a fairly complete set of data records within our system identified as potential matches to our original input list.

4.2 Collect Detail Data for Scoring

The overall goal in this step is to score the matching records using a business defined set of rules. The score is based on a multitude of attributes related to that particular customer record, such as number of service requests, service contracts, install base records, sites, tax id, credit limits, and a lot more. This scoring is useful in deciding the “best” records we have that truly represent the relationship with our customers. The advantage of this method is that it is automated with DataFlux.

We start with the list generated from the previous step. Using DataFlux, we query our data source to collect all relevant attributes that are needed in our scoring system. Using the retrieved data, we run our automated scoring algorithm. Records are clustered together by the customer country of incorporation since our ultimate goal is to have a representative set of records based on their legal definitions.

Our scoring varies from 0 to 100. The highest the score, the more complete the data record is according to the business definitions. The record or records with the highest scores are more likely to survive. The records with the lowest scores will either be merged to a surviving record or inactivated if they provide no business value.

At the end of this step, we have a list of potential duplicates along with a score and accompanying detail data for each of them.

4.3 Review Results and Get Approvals

In this step, Data Analysts look through the scoring results provided by DataFlux along with the supporting detail data. The scoring helps analysts make a determination about which record(s) should survive, and which of them should be inactivated or merged.

Some cases are pretty obvious. For example, when a single record has a very high score compared to the others, there is not much of a question about which record should survive. In more complex cases, where the scores are more even, the business analysts may be required to do some additional research.

It is important to notice that we are not necessarily looking for a single record to survive for all cases. First of all, as mentioned earlier, we cluster records per country of incorporation. So, when looking at a particular set of customer records, we are trying to identify the best legal company data we want to maintain. Furthermore, in many cases, multiple legal entities will still exist within a single country of incorporation.

That is why we need a thorough Business Review to make the determination. In this review, several business areas are brought together to approve the recommendations provided by the analysts. Business areas included are Finance, Support, Sales, Marketing, and more. These reviews are led by the Customer Data Governance group, which is acting as a mediator in the process.

This can be a very time consuming effort, and it is, in my opinion, the price to pay for having a Master Data system. Gaining consensus from everyone can be difficult, but in the end, it pays off to have a single source of truth instead of multiple fragmented siloed data systems.

Once agreement is reached, we are ready to move on to the next step.

4.4 Consider Disposition and Execute Actions

Now that the survivors are marked and approved, a DataFlux job creates a final report to be distributed to the field for correction.

In our case, even though we may have identified which records are the survivors and which ones are not, we cannot necessarily merge them immediately. We still have dependencies with some not yet EOL’d legacy applications that prevent us from performing certain tasks. We also have dependencies related to interface systems and spoke applications that use our data. Therefore, some constraints have to be considered.

The DataFlux job evaluates the input data, considers the constraints, and then make a determination on what actions can be taken. A report for execution is generated, which is assigned to the proper teams for execution.

5. Lessons Learned

Data de-duplication is not a perfect science. The reason for duplicates can be many, and can be very difficult to understand. Mistakes will be made, but we must be proactive.

Costs associated to bad data quality are high and, a lot of times, very difficult to measure. Getting executive buy-in is critical. They must be willing to sponsor these type of activities for the long-term achievement of the organization’s operational and strategic business objectives.

Bringing multiple business areas together is also very hard and essential. In our case, some groups had to experience some painfully inefficient processes before they could realize the importance of an effort like this. Having a Customer Data Governance team to voice these issues and organize the proper structure for carrying on the process is a must.

The only way to make this process scalable and repeatable is to use a tool like DataFlux. Without DataFlux, it would have been impossible to quickly produce the required results. With a few data analysts and DataFlux, we can process dozens of company data sets in a single day. Otherwise, we would spend days analyzing a single company.

About the Author

Dalton Cervo is the Customer Data Quality Lead at Sun Microsystems. Dalton is part of Customer Data Steward and is a member of the Customer Data Governance team responsible for defining policies and procedures governing the oversight of master customer data.

Dalton has been with Sun for over 8 years. At Sun, Dalton started as an IT Software Engineer developing web applications. Later, he moved into IT Project Management and eventually into the business area as part of the Market and Business Intelligence team.

In the last 3 years, Dalton has led several customer data management efforts, including: data collection, cleansing, standardization, enrichment, and hierarchy classification; master data management conversion, consolidation, standardization, and cleansing; and data quality standards, policies, metrics and monitors.

Dalton is a member of the Customer Advisory Board for DataFlux, and was a speaker at the IDEAS conference in 2008 on the topic of customer data metrics.

Source: http://dcervo.blogspot.com/2009/06/identifying-duplicate-customer-records.html

Visualisasi Data Dengan Gabungan Lebih dari Satu Grafik

Dalam menyajikan informasi kita sering kali dihadapkan pada pertanyaan bagaimana jika grafik ini dan itu digabungkan menjadi satu grafik saja? Tidak usah bingung, gabungkan saja :). Bagaimana cara menggabungkannya? Nah silahkan lanjutkan bacanya sampai selesai ya…

Pada posting sebelumnya saya sudah menjelaskan tiga jenis grafik paling dasar yang ada di dunia persilatan data. Nah, berikut ini adalah penjelasan bagaimana bentuk-bentuk lain dari grafik-grafik tersebut dan kapan menggunakannya

Satu: Stack Graph (Grafik bertumpuk)

Grafik jenis ini merupakan bentuk lain dari bar chart, perbedaannya adalah pada stack chart grafik batang dibagi menjadi beberapa bagian yang bisa dibedakan dengan warna. Setiap warna menandakan bagian yang lebih detail dari setiap batang.

Dengan menumpukkan setiap batang kita dapat membandingkan proporsi dari beberapa dimensi dengan level detail yang lebih dalam dibandingkan dengan bar chart sederhana. Pada stack chart anda dapat menggali informasi tambahan yakni setiap perubahan satu bagian maka akan mempengaruhi bagian yang lain. Sebagai contoh coba perhatikan data pada Qtr1 dan Qtr 2 peningkatan mail order pada dari Qtr1 ke Qtr 2  memakan bagian penjualan menggunakan retail. Hal ini dengan mudah dilihat dengan menggunakan stack chart dibandingkan dengan bar chart sederhana. See? It’s easy.

Dua: Gabungan Line dan Bar Chart

Let’s say kita telah membuat satu grafik untuk menjelaskan perkembangan sales per bulan dan satu grafik lain menjelaskan mengenai perkembangan profit perbulan. Jika mengamati secara terpisah, maka informasi yang didapatkan hanya informasi yang terpisah. Nah, coba kita sekarang gabungkan dua grafik ini.

Dengan hanya menggabungkan dua grafik ini dan menyesuaikan bagian axis nya, maka kita mendapatkan informasi yang tidak kita dapatkan dari grafik individual. Salah satu contohnya adalah pada bulan April (4) terdapat penurunan profit padahal sales meningkat. Temuan seperti ini bagi orang-orang marketing menggelitik rasa penasarannya. Kok bisa ya terjadi seperti itu? Tindak lanjutnya adalah dengan investigasi apa yang menyebabkan penurunan profit tersebut? Insight seperti ini dengan mudah dilihat dengan menggabungkan dua grafik seperti diatas.

Pengujian Hipotesis?? Makhluk apa Itu??

https://i1.wp.com/eugenieteasley.com/wp-content/uploads/2014/11/Hypothesis-pic.jpg

Secara sederhana hipotesis itu adalah sebuah pernyataan yang bisa saja benar atau salah. Nah, dalam statistika kita diajarkan cara bagaimana kita membuktikan kebenaran sebuah hipotesis sehingga kita bisa menerima atau menolaknya. Apakah anda pernah mendengar mungkin di sebuah berita bahwa rata-rata pendapatan masyarakat di sebuah kota adalah sebesar 5 juta rupiah. Anda mungkin bertanya, masa sih 5 juta rupiah?? Saat pertama kali pernyataan tersebut muncul, anda mungkin meragukan apakah informasi tersebut benar atau tidak. Biasanya seseorang cenderung akan langsung menolak atau menerima informasi tersebut tanpa harus membuktikan apakah pernyataan tersebut benar atau tidak.

Prosedur dalam melakukan pengujian hipotesis dalam statistika di desain untuk membuktikan klaim tersebut. Biasanya klaim yang ada di dalam hipotesis tersebut dibuat untuk menggambarkan keadaan parameter (angka yang menggambarkan populasi), padahal kita tahu bahwa keadaan populasi itu sangat sulit untuk diketahui. Biar lebih spesifik, kita ambil contoh rata-rata pendapatan sebuah kota di klaim 5 juta rupiah. Jika anda memiliki pendapat lain selain dari hipotesis tersebut, maka hal tersebut bisa dinamakan hipotesis alternatif. Tujuan anda adalah membuktikan bahwa hipotesis anda yang benar, bagaimana caranya? yup, tentunya dengan menggunakan data. Karena anda tidak mempunyai data populasi maka dengan sangat terpaksa anda menggunakan data sampel yang ada pada anda (teknik pengumpulannya ada di pembahasan sebelumnya).

Seperti pada penjelasan sebelumnya, kita memiliki dua jenis hipotesis. Hipotesis yang pertama adalah null hypothesis H0. Ciri-ciri H0 adalah selalu menyatakan bahwa nilai prameter selalu sama dengan nilai yang diklaim, pokoknya klo null hyopthesis selalu menggunakan tanda =, ≥, ≤ . Contohnya, rata-rata pendapatan masyarakat sebuah kota adalah 5 juta rupiah, maka penulisan null hipotesis nya menjadi H0: μ=5juta. Jika ada H0 tentu saja ada hipotesis tandingannya, yang dinamakan hipotesis alternatif lambangnya H1 atau Ha. Hipotesis ini berisi negasi atau kebalikan dari H0. Untuk contoh        H0: μ=5juta, apa H1 nya? Yup!! tentu saja H1: μ≠5juta.

Sebenarnya H1 bisa ada tiga jenis, tergantung anda tertarik ingin membuktikan apa.

  • Misalnya, anda hanya ingin membuktikan bahwa klaim media bahwa bahwa rata-rata pendapatan masyarakat adalah 5 juta, maka anda memiliki H0: μ=5juta dan H1: μ≠5juta
  • Namun jika ada contoh lain, dimana anda bekerja disebuah bank dan anda meyakini bahwa waktu pembukaan rekening bisa kurang dari 15 menit. bagaimana anda menyusun hipotesisnya? Yup, susunan hipotesisnya menjadi   H0: μ≥ 15 menit dan H1: μ<15 menit.

Secara umum H0 selalu mengandung unsur bahwa tidak ada hal yang baru/ sama saja/ keadaan sekarang yang tidak ada bedanya dkk. Pokoke, apa yang ada sekarang anggap bener aja dulu, sampai bener-bener kebukti bahwa klaim nya salah.

Pernah liat orang di adili gak? Nah, di pengadilan itu menggunakan konsep penyusunan hipotesis sama kayak yang dijelasin di atas. Apa hipotesis awal dari seorang hakim?? Bener, orang itu gak bersalah… tapiiii… hanya sampai jaksa membuktikan dengan bukti yang meyakinkan kalo dia bersalah. Got it?? Terus gimana kalo ternyata jaksa gak bisa membuktikan klo orang tersebut bersalah? Untuk kondisi ini hakim akan mengatakan bahwa “orang tersebut tidak terbukti melakukan ……” bukan mengatakan bahwa “orang ini terbukti benar atau terbukti orang baik-baik” karena bisa saja jika ada suatu hari ada bukti baru yang membuktikan bahwa orang ini benar-benar bersalah.

Ahhh… udah lumayan banyak nih pembahasannya… kita lanjut lain kali ya… please add komen di bawah yaaa… I am no perfect person.. just wanna share…