Tortura cu apă - O analogie analitică merge prea departe

analiză picurare

Datele, cum ar fi apa, apar în multe forme. Mintea umană a evoluat pentru a filtra majoritatea datelor care ne vin în cale, pentru că există pur și simplu atât de mult.

Când deschizi ochii și urechile, datele sunt peste tot. Culoarea peretelui, sunetul aerului condiționat și mirosul cafelei vecinului sunt tratate ca umezeala. Apa este în aer tot timpul, dar nu este util să îi acordați multă atenție.

Atunci când apa se condensează în ceață, te obligă să o vezi și face cu atât mai dificilă înțelegerea lumii din jurul tău. Seturi de date incomplete, date corupte, științe proaste, concluzii false și părtinire cognitivă vă fac să vă pierdeți calea în ceață.

Datele cad ca ploaia. Când este puțin, este extrem de nesatisfăcător - suficient pentru a vă murdări mașina și a confunda conversația. Te găsești ștergând locul de pe ochelari în timp ce cineva scoate un punct de date aleatoriu, culese dintr-o sursă obscură.

  • Apă veche într-un iaz superficial este periculos. Datele, colectate dintr-o sursă de încredere, nici curățate, nici normalizate și lăsate să devină stagnante, pot duce cu ușurință la concluzii greșite.
  • A scurgeri constante de apă poate fi suficient pentru a umple o cantină sau pentru a susține un ecosistem forestier. Doar trei puncte de date (numărul de e-mailuri trimise, față de deschise, față de clicuri) pot susține un program de marketing.
  • A flux mai sănătos de date sub forma unui pârâu mic pot fi utilizate pentru scăldat. Un flux continuu de date permite compararea și compararea istorică. Optimizarea paginii de destinație poate fi realizată cu date de conversie constante.
    A râu modest poate alimenta o moară pentru a tăia lemne sau a măcina grâul. Un motor de recomandare are nevoie doar de contribuția fiabilă a unei mână de afluenți pentru a oferi o creștere a valorii coșurilor de cumpărături.
  • A cascadă poate propulsa o roată de apă uriașă și un aflux suficient de informații poate conduce la un sistem de conținut dinamic în timp real.
  • A râu care este suficient de larg și de profund poate susține o întreagă industrie a transporturilor. Datele suficiente pot pluti barje și nave de marfă sub forma unei colecții de cookie-uri din rețelele de publicitate, din agregatoarele de date ale programului de carduri de fidelitate și din brokerii de date.

Când datele ajung în cantități preconizate la orele anticipate, acestea pot fi capturate, canalizate și puse în funcțiune. Sistemele de irigații, baraje și rezervoare oferă un sentiment de control și permit construirea unei infrastructuri în continuă extindere cu canale, încuietori și baraje. Depozitele de date au fost construite pe fluxuri mai puțin de încredere.

Curatenia este mama sanatatii

Apa curată este vitală pentru succesul vieții, pentru irigații, pentru funcționarea centralelor electrice etc. Definiția „curate” s-ar putea schimba în acest scop; este în regulă dacă există alge în apă care răcește o centrală electrică și nu este acceptabil dacă există mai mult de 10 părți pe miliard de arsen în apă potabilă.

Datele sunt aceleași. Într-o aplicație prin poștă directă, indiferent dacă dețineți titlul unei persoane (domn, doamnă, doamnă) este indiferent ... cu excepția cazului în care trimiteți prin poștă medicilor. Dar datele murdare vă vor împiedica de fiecare dată.

În calitate de șef cercetător al datelor din SUA, DJ Patil, puneți-l la un Summit CTO din prima rundă, „Dacă nu vă gândiți cum să vă păstrați datele curate de la bun început, sunteți f ^ ¢ & ed. Îți garantez. Încercarea de a-l curăța după ce va dura cel puțin luni. ”

Dacă încălziți apa până la punctul de fierbere, aceasta poate alimenta o întreagă Revoluție Industrială. Datele par să facă același lucru. Din momentul în care computerele ar putea stoca și calcula, datele au fost colectate la fel de repede pe cât s-ar putea crea echipamentul de stocare pentru a face acest lucru.

Lacul de date

Pe măsură ce datele acestor afluenți se preling prin motoarele morilor, totul ajunge în lac, în spatele barajului. Deoarece datele sunt scoase într-un mod controlat, alimentează turbinele din industria datelor; acele motoare uriașe de procesare a datelor cu nume precum Google și Facebook. Aici nu va fi secetă.

Și, în cele din urmă, există un bazin adânc de apă, care așteaptă ca analistul să se scufunde. Echipament de scufundare și pistol cu ​​suliță în mână, analistul investighează adâncul, mapează un teren nou și descoperă specii noi. Este un moment foarte interesant să fii explorator de date.

De aceea, atât de mulți dintre ei au apărut pentru Summit-ul eMetrics din 2002. Următoarea oportunitate este în Boston, 27 septembrie - 1 octombrie 2015.

Înregistrarea Summitului eMetrics

Un pod prea îndepărtat

Și ce zici de puterea datelor pentru a sculpta următorul Grand Canyon? Ce zici de topirea glaciară a datelor structurate? Cum tratăm apele reziduale într-o lume devenind din ce în ce mai conștientă de confidențialitate?

Acestea sunt întrebări pentru altă dată și apă sub pod.

Ce părere ai?

Acest site folosește Akismet pentru a reduce spamul. Aflați cum sunt procesate datele despre comentarii.