Seni Analisis Data Multidisipliner: Sebuah Pengantar

Prolog

Calvin and Hobbes

“The future is already here; it’s just not very evenly distributed.” — William Gibson

“The public is more familiar with bad design than good design. It is, in effect, conditioned to prefer bad design, because that is what it lives with. The new becomes threatening, the old reassuring.” — Paul Rand

“It seems that perfection is attained not when there is nothing left to add, but when there is nothing more to remove.” — Antoine de Saint-Exupery

“In God we trust, all others bring data.” — William Edwards Deming

Dalam mesin pencarian google, saya menemukan prediksi pertama pencarian kata “Data Science is” adalah mengenai mudah atau tidaknya mempelajari Data Science. Kemudian prediksi kedua adalah mengenai apakah Data Science merupakan karir yang “baik”. Tetapi, sebelum kita bermain air ataupun berenang menjadi Data Scientist, apa definisi Data Science itu?

Sebenarnya, tidak ada definisi yang diterima secara luas tentang apa dan siapa itu data scientist. Bahkan, dalam Live Session Startup Campus, Ainun Najib — seorang praktisi teknologi informasi yang dikenal sebagai penggagas situs KawalPemilu.org — menyampaikan bahwa Data Science merupakan clickbait. Beliau bercerita bahwa sebenarnya dahulu istilah Data Science diciptakan oleh D.J Patil, seorang Chief Scientist dari LinkedIn. Pada saat itu, D.J Patil mencoba mencari orang sebanyak-banyaknya dan akhirnya ia membuat istilah Data Science.

Quora Session with DJ Patil

Beberapa buku mencoba untuk mendefinisikan apa itu Data Science dan siapa Data Scientist itu, [lih. Patil (2012), Patil (2011), dan Loukides (2012)]. Buku ini memiliki sudut pandang bahwa seorang Data Scientist adalah seseorang yang mengajukan pertanyaan data yang unik dan menarik berdasarkan teori formal atau informal, untuk menghasilkan wawasan yang tepat dan berguna [1].

Dalam buku tersebut dijelaskan bahwa Data Scientist adalah individu dengan pelatihan multidisiplin dalam ilmu komputer, bisnis, ekonomi, statistik, dan dipersenjatai dengan jumlah pengetahuan domain yang relevan dengan pertanyaan yang ada. Potensi bidang ini sangat besar karena hanya beberapa ilmuwan data terlatih yang dipersenjatai dengan data besar memiliki potensi untuk mengubah organisasi dan masyarakat. Dalam domain kehidupan bisnis yang lebih sempit, peran Data Scientist adalah menghasilkan kecerdasan bisnis yang dapat diterapkan.

Di antara semua kata kunci baru dalam bisnis, “Big Data” adalah salah satu yang paling sering terdengar. Dengan meningkatnya peran internet sebagai saluran informasi utama bisnis, hal ini telah menghasilkan lebih banyak data daripada yang kita bayangkan. Tetapi data bukanlah informasi, dan sampai kita menambahkan analitik, data hanyalah sebuah noise. Lebih banyak data, lebih besar data, maka lebih banyak noise.

Dalam banyak kasus data, less is more, maka kita juga membutuhkan “model”. Hampir keseluruhan buku Patil (2012), Patil (2011), dan Loukides (2012) adalah mengenai teori dan model, dengan atau tanpa data, besar atau kecil. Buku ini pun menjelaskan mengenai analitik dan aplikasi, dan pendekatan ilmiah untuk menggunakan data berdasarkan teori yang beralasan dan penilaian bisnis yang baik. Buku ini adalah tentang ilmu dan seni analisis data.

Menjadi Data Scientist secara inheren bersifat interdisipliner. Pertanyaan bagus datang dari banyak disiplin ilmu, dan jawaban terbaik kemungkinan datang dari orang-orang yang tertarik pada berbagai bidang, atau setidaknya dari tim yang menggabungkan berbagai keahlian. Josh Wills dari Cloudera menyatakannya dengan baik, “Seorang Data Scientist adalah orang yang lebih baik dalam statistik daripada insinyur perangkat lunak mana pun dan lebih baik dalam rekayasa perangkat lunak daripada ahli statistik mana pun.” Sebaliknya, yang melengkapi Data Scientist adalah orang-orang analitik bisnis, yang lebih akrab dengan model dan paradigma bisnis dan dapat mengajukan pertanyaan yang bagus tentang data.

Seorang Data Scientist yang baik mempelajari bagaimana “mengawinkan” model dan data. Demikian, keterampilan yang penting menjadi Data Scientist adalah kemampuan untuk mendefinisikan masalah dengan baik, dan kemudian memecahnya sehingga dapat diselesaikan dengan cara yang mudah. Dalam mikrokosmos, hal inilah yang dilakukan oleh pemrogram yang baik, setiap komponen algoritma ditugaskan ke subrutin terpisah, yang digeneralisasi dan dioptimalkan untuk satu tujuan.

Data Science adalah tentang kuantisasi dan pemahaman tentang perilaku manusia, sebuah “holy grail”-nya ilmu sosial. Pada akhirnya, Data Science adalah cara berpikir, bagi ilmuwan sosial, menggunakan ilmu komputer.

[1] Mengutip Georg Cantor — “Dalam matematika, seni mengajukan pertanyaan harus memiliki nilai yang lebih tinggi daripada menyelesaikannya.”

--

--

Jessica S. Muthmaina | The Moon Writer

Guiding those in search of light, the moon writer pens narratives designed specifically for the blind, illuminating worlds through the power of words.