Čištění dat Čištění dat je proces, při kterém se zjišťují a opravují (nebo odstraňují) chybné nebo nepřesné záznamy z datové sady, tabulky nebo databáze. Zahrnuje identifikaci neúplných, nesprávných, nepřesných nebo irelevantních částí dat a jejich nahrazení, úpravu nebo odstranění. Čištění dat lze provádět interaktivně pomocí nástrojů pro zpracování dat nebo jako dávkové zpracování pomocí skriptů nebo datové kvalitní brány firewall. Po vyčištění by měla být datová sada konzistentní s ostatními podobnými datovými sadami v systému. Nesrovnalosti, které jsou zjištěny nebo odstraněny, mohou být způsobeny chybami při zadávání uživatelem, poškozením při přenosu nebo ukládání nebo různými definicemi datového slovníku podobných entit v různých úložištích. Čištění dat se liší od validace dat v tom, že validace téměř vždy znamená, že data jsou zamítnuta ze systému při zadávání a jsou prováděna v době zadávání, nikoli na dávkách dat. Samotný proces čištění dat může zahrnovat odstranění typografických chyb nebo ověření a opravu hodnot podle známého seznamu entit. Validace může být přísná (například zamítnutí jakékoli adresy, která nemá platný poštovní kód) nebo s rozmazaným nebo přibližným porovnáním řetězců (například oprava záznamů, které částečně odpovídají existujícím, známým záznamům). Některá řešení čištění dat čistí data křížovou kontrolou s validovanou datovou sadou. Běžnou praxí čištění dat je vylepšení dat, kdy jsou data doplněna o související informace. Například přidání telefonních čísel souvisejících s danou adresou. Čištění dat může také zahrnovat harmonizaci (nebo normalizaci) dat, což je proces spojování dat "různých formátů souborů, konvencí pojmenování a sloupců" a jejich transformace do jedné soudržné datové sady; jednoduchým příkladem je rozšíření zkratek ("st, rd, atd." na "ulice, silnice, atd.").
Facebook Twitter