Standardizarea datelor: definiți, testați și transformați

Standardizarea datelor

În timp ce organizațiile se îndreaptă spre stabilirea unei culturi a datelor în întreaga întreprindere, multe se luptă în continuare să își obțină datele corect. Extragerea datelor din surse disparate și obținerea de formate și reprezentări diferite ale ceea ce se presupune a fi aceleași informații - provoacă blocaje serioase în călătoria dvs. de date.

Echipele se confruntă cu întârzieri și greșeli în timp ce își desfășoară operațiunile de rutină sau extrag informații din seturile de date. Astfel de probleme forțează companiile să introducă un mecanism de standardizare a datelor – care să asigure că datele sunt prezente într-o imagine consecventă și uniformă în întreaga organizație. 

Să aruncăm o privire mai profundă asupra procesului de standardizare a datelor: ce înseamnă acesta, pașii pe care îi implică și cum puteți obține o vizualizare standard a datelor în întreprinderea dvs.

Ce este standardizarea datelor?

Mai simplu spus, standardizarea datelor este procesul de transformare a valorilor datelor dintr-un format incorect într-unul corect. Pentru a permite o vizualizare a datelor standardizată, uniformă și consecventă în întreaga organizație, valorile datelor trebuie să fie conforme cu standardul cerut – în contextul câmpurilor de date cărora le aparțin.

Exemplu de erori de standardizare a datelor

De exemplu, dosarul aceluiași client care are reședința în două locații diferite nu trebuie să conțină discrepanțe între nume și prenume, adresa de e-mail, numărul de telefon și adresa de domiciliu:

Nume Adresa de email Număr de telefon Data naşterii Gen Adresa rezidentiala
John Oneel john.neal@gmail.com 5164659494 14/2/1987 M 11400 W Olimpic BL # 200
Sursa 1

Nume Prenume Adresa de email Număr de telefon Data naşterii Gen Adresa rezidentiala
Ioan O'neal john.neal_gmail.com + 1 516-465-9494 2/14/1987 Masculin 11400 W Olimpic 200
Sursa 2

În exemplul de mai sus, puteți vedea următoarele tipuri de inconsecvențe:

  1. Structural: Prima sursă acoperă Numele clientului ca un singur câmp, în timp ce a doua îl stochează ca două câmpuri – Nume și Nume.
  2. Model: Prima sursă are un model de e-mail valid aplicat în câmpul adresei de e-mail, în timp ce celui de-al doilea îi lipsește vizibil @ simbol. 
  3. Tipul de date: Prima sursă permite doar cifre în câmpul Număr de telefon, în timp ce a doua are un câmp de tip șir care conține și simboluri și spații.
  4. Format: Prima sursă are data nașterii în formatul LL/ZZ/AAAA, în timp ce a doua o are în formatul ZZ/LL/AAAA. 
  5. Valoarea domeniului: Prima sursă permite stocarea valorii de gen ca M sau F, în timp ce a doua sursă stochează formularul complet - Masculin sau Femeie.

Astfel de inconsecvențe de date vă fac să faceți greșeli grave care vă pot face ca afacerea dvs. să piardă mult timp, costuri și efort. Din acest motiv, implementarea unui mecanism end-to-end pentru standardizarea datelor este esențial pentru a vă menține igiena datelor.

Cum să standardizezi datele?

Standardizarea datelor este un proces simplu în patru pași. Dar, în funcție de natura inconsecvențelor prezente în datele dvs. și de ceea ce încercați să obțineți, metodele și tehnicile utilizate pentru standardizare pot varia. Vă prezentăm aici o regulă generală pe care orice organizație o poate folosi pentru a-și depăși erorile de standardizare. 

  1. Definiți care este standardul

Pentru a atinge orice stare, trebuie mai întâi să definiți ce este de fapt starea. În primul pas al oricărui proces de standardizare a datelor este identificarea a ceea ce este necesar pentru a fi realizat. Cel mai bun mod de a ști de ce aveți nevoie este să înțelegeți cerințele afacerii. Trebuie să vă scanați procesele de afaceri pentru a vedea ce date sunt necesare și în ce format. Acest lucru vă va ajuta să stabiliți o linie de referință pentru cerințele dvs. de date.

O definiție standard de date ajută la identificarea:

  • Datele esențiale pentru procesul dvs. de afaceri, 
  • Câmpurile de date necesare ale acelor active,
  • Tipul de date, formatul și modelul pe care trebuie să le respecte valorile,
  • Gama de valori acceptabile pentru aceste câmpuri și așa mai departe.

  1. Testați seturile de date în raport cu standardul definit

Odată ce aveți o definiție standard, următorul pas este să testați cât de bine funcționează seturile dvs. de date față de acestea. O modalitate de a evalua acest lucru este utilizarea profilarea datelor instrumente care generează rapoarte cuprinzătoare și găsesc informații precum procentul de valori conform cerințelor câmpului de date, cum ar fi:

  • Urmează valorile tipul și formatul de date cerute?
  • Se situează valorile în afara intervalului acceptabil?
  • Valorile folosesc forme prescurtate, cum ar fi abrevieri și porecle?
  • Sunt adrese standardizate după cum este necesar – precum Standardizare USPS pentru adrese din SUA?

  1. Transformați valorile neconforme

Acum este în sfârșit momentul să transformăm valorile care nu sunt conforme cu standardul definit. Să aruncăm o privire la tehnicile comune de transformare a datelor utilizate.

  • Analiza datelor – Unele câmpuri de date trebuie mai întâi analizate pentru a obține componentele de date necesare. De exemplu, analiza câmpului de nume pentru a separa numele, numele de mijloc și de familie, precum și orice prefixe sau sufixe prezente în valoare.
  • Tipul de date și conversia formatului – Este posibil să fie necesar să eliminați caracterele neconforme în timpul conversiei, de exemplu, eliminarea simbolurilor și a alfabetelor dintr-un număr de telefon format numai prin cifre.
  • Potrivirea și validarea modelelor – Conversia modelului se face prin configurarea unei expresii regulate pentru model. Pentru valorile adresei de e-mail care se conformează unei expresii regulate, acestea trebuie analizate și transformate în modelul definit. o adresă de e-mail poate fi validată folosind expresia regex:

^[a-zA-Z0-9+_.-]+@[a-zA-Z0-9.-]+$

  • Extinderea abrevierilor – Numele companiei, adresele și numele persoanelor conțin adesea forme prescurtate care pot determina setul dvs. de date să conțină diferite reprezentări ale acelorași informații. De exemplu, este posibil să trebuiască să extindeți statele țări, cum ar fi conversia NY în New York.
  • Eliminarea zgomotului și corectarea ortografiei – Anumite cuvinte nu adaugă cu adevărat niciun sens unei valori și, în schimb, introduc mult zgomot într-un set de date. Astfel de valori pot fi identificate într-un set de date prin rularea acestuia pe un dicționar care conține aceste cuvinte, semnalându-le și hotărând care dintre ele să fie eliminate definitiv. Același proces poate fi executat pentru a găsi greșelile de ortografie și de scriere.

  1. Retestați setul de date în raport cu standardul definit

În pasul final, setul de date transformat este retestat față de standardul definit pentru a afla procentul de erori de standardizare a datelor care au fost remediate. Pentru erorile care rămân în setul de date, puteți să vă reglați sau să reconfigurați metodele și să rulați din nou datele prin proces. 

Învelire

Cantitatea de date generată astăzi – și varietatea de instrumente și tehnologii folosite pentru a capta aceste date – determină companiile să se confrunte cu îngrozitoarea mizerie de date. Au tot ce le trebuie, dar nu sunt siguri de ce datele nu sunt prezente într-o formă și formă acceptabilă și utilizabilă. Adoptarea instrumentelor de standardizare a datelor poate ajuta la rectificarea acestor inconsecvențe și poate permite o cultură a datelor atât de necesară în organizația dvs.

Ce părere ai?

Acest site folosește Akismet pentru a reduce spamul. Aflați cum sunt procesate datele despre comentarii.