Penyiksaan Air - Analogi Analitik Melampaui Jembatan

analitik tetes

Data, seperti air, tersedia dalam berbagai bentuk. Pikiran manusia telah berevolusi untuk menyaring sebagian besar data yang datang kepada kita karena jumlahnya sangat banyak.

Saat Anda membuka mata dan telinga, data ada di mana-mana. Warna dinding, suara AC, dan aroma kopi tetangga diperlakukan seperti kelembapan. Air ada di udara sepanjang waktu tetapi tidak berguna untuk terlalu memperhatikannya.

Ketika air mengembun menjadi kabut, itu memaksa Anda untuk melihatnya dan membuat pemahaman tentang dunia di sekitar Anda semakin sulit. Kumpulan data yang tidak lengkap, data yang rusak, sains yang buruk, kesimpulan yang salah, dan bias kognitif semuanya membuat Anda tersesat dalam kabut.

Data jatuh seperti hujan. Ketika hanya ada sedikit, itu sangat tidak memuaskan – cukup untuk membuat mobil Anda kotor dan membingungkan percakapan. Anda menemukan diri Anda menyeka noda pada kacamata Anda saat seseorang menyemburkan beberapa titik data acak, yang diperoleh dari beberapa sumber yang tidak jelas.

  • Air basi di kolam yang dangkal berbahaya. Data, yang dikumpulkan dari persediaan yang tidak dapat diandalkan, tidak dibersihkan atau dinormalisasi dan dibiarkan menjadi stagnan, dapat dengan mudah mengarah pada kesimpulan yang salah.
  • A tetesan yang stabil air cukup untuk mengisi kantin atau menopang ekosistem hutan. Hanya tiga poin data (jumlah email yang dikirim, dibandingkan dibuka, versus diklik) dapat mempertahankan program pemasaran.
  • A aliran yang lebih sehat data berupa anak sungai kecil bisa digunakan untuk mandi. Aliran data berkelanjutan memungkinkan pembandingan dan perbandingan historis. Optimasi halaman arahan dapat dicapai dengan data konversi yang stabil.
    A sungai sederhana dapat memberi daya pada penggilingan untuk menggergaji kayu atau menggiling gandum. Mesin rekomendasi hanya membutuhkan kontribusi yang dapat diandalkan dari segelintir anak sungai untuk memberikan peningkatan nilai keranjang belanja.
  • A air terjun dari dapat mendorong kincir air yang sangat besar dan masuknya informasi yang cukup dapat mendorong sistem konten dinamis waktu nyata.
  • A sungai yang cukup luas dan dalam dapat mendukung seluruh industri transportasi. Data yang cukup dapat mengapungkan tongkang dan kapal kargo dalam bentuk kumpulan cookie dari jaringan periklanan, agregator data program kartu loyalitas, dan pialang data.

Ketika data tiba dalam jumlah yang diharapkan pada waktu yang diantisipasi, data itu dapat ditangkap, disalurkan, dan digunakan. Sistem irigasi, bendungan, dan waduk memberikan perasaan terkendali dan memungkinkan pembangunan infrastruktur yang terus meluas dengan kanal, kunci, dan bendungan. Gudang data dibangun dengan aliran yang kurang dapat dipercaya.

Kebersihan adalah di samping kesalehan

Air bersih sangat penting untuk keberhasilan kehidupan, irigasi, pembangkit listrik, dll. Definisi 'bersih' mungkin berubah untuk tujuan tersebut; tidak apa-apa jika ada ganggang dalam air yang mendinginkan pembangkit listrik dan tidak dapat diterima jika ada lebih dari 10 bagian per miliar arsenik dalam air minum.

Datanya sama. Dalam aplikasi surat langsung, apakah Anda memiliki gelar seseorang (Mr., Mrs., Ms.) tidak penting… kecuali jika Anda mengirim surat ke dokter. Tetapi data kotor akan membuat Anda tersandung setiap saat.

Sebagai Kepala Ilmuwan Data AS, DJ Patil, taruh di Pertemuan Puncak CTO Putaran Pertama, “Jika Anda tidak berpikir tentang bagaimana menjaga data Anda tetap bersih sejak awal, Anda f^¢&ed. saya jamin. Mencoba membersihkannya setelah fakta akan memakan waktu setidaknya berbulan-bulan. ”

Jika Anda memanaskan air hingga titik didih, itu dapat menggerakkan seluruh Revolusi Industri. Data sepertinya melakukan hal yang sama. Sejak saat komputer dapat menyimpan dan menghitung, data telah dikumpulkan secepat peralatan penyimpanan dapat dibuat untuk melakukannya.

Danau Data

Saat data dari anak-anak sungai ini mengalir melalui mesin penggilingan, semuanya berakhir di danau, di belakang bendungan. Karena data dikeluarkan dengan cara yang terkontrol, ia menggerakkan turbin industri data; mesin pemrosesan data raksasa dengan nama seperti Google dan Facebook. Tidak akan ada kekeringan di sini.

Dan, akhirnya, ada genangan air yang dalam, menunggu analis untuk menyelam. Peralatan selam dan senjata tombak di tangan, analis menyelidiki kedalaman, memetakan tanah baru dan menemukan spesies baru. Ini adalah waktu yang sangat menyenangkan untuk menjadi seorang penjelajah data.

Itu sebabnya begitu banyak dari mereka muncul untuk KTT eMetrics sejak 2002. Kesempatan berikutnya ada di Boston, 27 September hingga 1 Oktober 2015.

Pendaftaran eMetrics Summit

Sebuah Jembatan Terlalu Jauh

Dan bagaimana dengan kekuatan data untuk mengukir Grand Canyon berikutnya? Bagaimana dengan pencairan glasial dari data terstruktur? Bagaimana kita memperlakukan air limbah di dunia yang semakin sadar privasi?

Itu adalah pertanyaan untuk lain waktu dan air di bawah jembatan.

Bagaimana menurut Anda?

Situs ini menggunakan Akismet untuk mengurangi spam. Pelajari bagaimana data komentar Anda diproses.