Standardisasi Data: Tentukan, Uji, dan Transform
Sementara organisasi bergeser ke arah membangun budaya data di seluruh perusahaan, banyak yang masih berjuang untuk mendapatkan data mereka dengan benar. Menarik data dari sumber yang berbeda dan mendapatkan berbagai format dan representasi dari apa yang seharusnya menjadi informasi yang sama – menyebabkan hambatan serius dalam perjalanan data Anda.
Tim mengalami penundaan dan kesalahan saat menjalankan operasi rutin mereka atau mengekstraksi wawasan dari kumpulan data. Masalah seperti itu memaksa bisnis untuk memperkenalkan mekanisme standarisasi data – yang memastikan data hadir dalam tampilan yang konsisten dan seragam di seluruh organisasi.
Mari kita lihat lebih dalam proses standarisasi data: apa artinya, langkah-langkah yang diperlukan, dan bagaimana Anda dapat mencapai tampilan data standar di perusahaan Anda.
Apa itu Standardisasi Data?
Sederhananya, standarisasi data adalah proses mengubah nilai data dari format yang salah ke format yang benar. Untuk mengaktifkan tampilan data yang terstandarisasi, seragam, dan konsisten di seluruh organisasi, nilai data harus sesuai dengan standar yang diperlukan – dalam konteks bidang data tempatnya berada.
Contoh kesalahan standardisasi data
Misalnya, catatan pelanggan yang sama yang berada di dua lokasi berbeda tidak boleh berisi perbedaan nama depan dan belakang, alamat email, nomor telepon, dan alamat tempat tinggal:
Nama | Alamat email | Nomor Telepon | Tanggal lahir | Gender | Alamat Tempat Tinggal |
---|---|---|---|---|---|
John Oneel | john.neal@gmail.com | 5164659494 | 14/2/1987 | M | 11400 W Olimpiade BL #200 |
Nama Depan | Nama Belakang | Alamat email | Nomor Telepon | Tanggal lahir | Gender | Alamat Tempat Tinggal |
---|---|---|---|---|---|---|
John | O'neal | john.neal_gmail.com | + 1 516-465-9494 | 2/14/1987 | Pria | 11400 W Olimpiade 200 |
Pada contoh di atas, Anda dapat melihat jenis inkonsistensi berikut:
- Struktural: Sumber pertama mencakup Nama Pelanggan sebagai satu bidang, sedangkan yang kedua menyimpannya sebagai dua bidang – Nama Depan dan Belakang.
- Pola: Sumber pertama memiliki pola email yang valid diberlakukan di bidang alamat email, sedangkan yang kedua terlihat tidak ada @ simbol.
- Tipe data: Sumber pertama hanya mengizinkan angka di bidang Nomor Telepon, sedangkan yang kedua memiliki bidang tipe string yang berisi simbol dan spasi juga.
- Format: Sumber pertama memiliki tanggal lahir dalam format MM/DD/YYYY, sedangkan yang kedua memiliki format DD/MM/YYYY.
- Nilai domain: Sumber pertama memungkinkan nilai Gender disimpan sebagai M atau F, sedangkan sumber kedua menyimpan formulir lengkap – Pria atau Wanita.
Inkonsistensi data seperti itu membuat Anda melakukan kesalahan serius yang dapat menyebabkan bisnis Anda kehilangan banyak waktu, biaya, dan tenaga. Untuk alasan ini, menerapkan mekanisme ujung ke ujung untuk standarisasi data sangat penting untuk menjaga kebersihan data Anda.
Bagaimana Standarisasi Data?
Standarisasi data adalah proses empat langkah sederhana. Tetapi tergantung pada sifat inkonsistensi yang ada dalam data Anda dan apa yang ingin Anda capai, metode dan teknik yang digunakan untuk standardisasi dapat bervariasi. Di sini, kami menyajikan aturan umum umum yang dapat digunakan organisasi mana pun untuk mengatasi kesalahan standardisasinya.
- Tentukan apa itu standar
Untuk mencapai keadaan apa pun, pertama-tama Anda harus mendefinisikan apa itu keadaan sebenarnya. Pada langkah pertama dari setiap proses standarisasi data adalah mengidentifikasi apa yang perlu dicapai. Cara terbaik untuk mengetahui apa yang Anda butuhkan adalah memahami persyaratan bisnis. Anda perlu memindai proses bisnis Anda untuk melihat data apa yang diperlukan dan dalam format apa. Ini akan membantu Anda menetapkan dasar untuk kebutuhan data Anda.
Definisi standar data membantu mengidentifikasi:
- Aset data yang penting untuk proses bisnis Anda,
- Bidang data yang diperlukan dari aset tersebut,
- Tipe data, format, dan pola nilainya harus sesuai dengan,
- Rentang nilai yang dapat diterima untuk bidang ini, dan seterusnya.
- Uji dataset terhadap standar yang ditentukan
Setelah Anda memiliki definisi standar, langkah selanjutnya adalah menguji seberapa baik kinerja kumpulan data Anda terhadapnya. Salah satu cara untuk menilai ini adalah dengan menggunakan pembuatan profil data alat yang menghasilkan laporan komprehensif dan menemukan informasi seperti persentase nilai yang sesuai dengan persyaratan bidang data, seperti:
- Apakah nilai mengikuti tipe dan format data yang diperlukan?
- Apakah nilai berada di luar rentang yang dapat diterima?
- Apakah nilai menggunakan bentuk singkat, seperti singkatan dan nama panggilan?
- Adalah alamat standar sesuai kebutuhan – seperti Standarisasi USPS untuk alamat AS?
- Ubah nilai yang tidak sesuai
Sekarang saatnya untuk mengubah nilai yang tidak sesuai dengan standar yang ditentukan. Mari kita lihat teknik transformasi data yang umum digunakan.
- Penguraian data – Beberapa bidang data harus diurai terlebih dahulu untuk mendapatkan komponen data yang diperlukan. Misalnya, menguraikan bidang nama untuk memisahkan nama depan, tengah, dan belakang, serta setiap awalan atau akhiran yang ada dalam nilai.
- Tipe data dan konversi format – Anda mungkin perlu menghapus karakter yang tidak sesuai selama konversi, misalnya, menghapus simbol dan abjad dari nomor telepon hanya digit.
- Pencocokan dan validasi pola – Konversi pola dilakukan dengan mengonfigurasi ekspresi reguler untuk pola tersebut. Untuk nilai alamat email yang sesuai dengan ekspresi reguler, nilai tersebut harus diuraikan dan diubah menjadi pola yang ditentukan. alamat email dapat divalidasi dengan menggunakan ekspresi reguler:
^[a-zA-Z0-9+_.-]+@[a-zA-Z0-9.-]+$
- Perluasan singkatan – Nama perusahaan, alamat, dan nama orang sering kali berisi formulir singkatan yang dapat menyebabkan kumpulan data Anda berisi berbagai representasi dari informasi yang sama. Misalnya, Anda mungkin harus memperluas negara bagian, seperti mengonversi NY ke New York.
- Penghapusan kebisingan dan koreksi ejaan – Kata-kata tertentu tidak benar-benar menambahkan arti apa pun pada suatu nilai, dan sebaliknya, menimbulkan banyak gangguan dalam kumpulan data. Nilai tersebut dapat diidentifikasi dalam kumpulan data dengan menjalankannya pada kamus yang berisi kata-kata ini, menandainya, dan memutuskan mana yang akan dihapus secara permanen. Proses yang sama dapat dilakukan untuk menemukan kesalahan ejaan dan kesalahan pengetikan.
- Uji ulang dataset terhadap standar yang ditentukan
Pada langkah terakhir, dataset yang diubah diuji ulang terhadap standar yang ditentukan untuk mengetahui persentase kesalahan standarisasi data yang diperbaiki. Untuk kesalahan yang masih ada di kumpulan data Anda, Anda dapat menyetel atau mengonfigurasi ulang metode Anda dan menjalankan data melalui proses lagi.
Bungkus
Jumlah data yang dihasilkan hari ini – dan berbagai alat dan teknologi yang digunakan untuk menangkap data ini – membuat perusahaan menghadapi kekacauan data yang mengerikan. Mereka memiliki semua yang mereka butuhkan tetapi tidak yakin mengapa data tidak ada dalam bentuk dan bentuk yang dapat diterima dan dapat digunakan. Mengadopsi alat standarisasi data dapat membantu memperbaiki ketidakkonsistenan tersebut dan memungkinkan budaya data yang sangat dibutuhkan di seluruh organisasi Anda.