Data jsou souborem diskrétních nebo kontinuálních hodnot, které předávají informace, popisují množství, kvalitu, fakta, statistiky, jiné základní jednotky významu nebo jednoduše posloupnosti symbolů, které lze dále formálně interpretovat. Datum je individuální hodnota ve sbírce dat. Data jsou obvykle organizována do struktur, jako jsou tabulky, které poskytují další kontext a význam a které mohou být samy o sobě použity jako data ve větších strukturách. Data mohou být použita jako proměnné ve výpočetním procesu. Data mohou představovat abstraktní myšlenky nebo konkrétní měření. Data se běžně používají ve vědeckém výzkumu, ekonomii a prakticky v každé jiné formě lidské organizační činnosti. Příklady datových sad zahrnují cenové indexy (jako je index spotřebitelských cen), míry nezaměstnanosti, míry gramotnosti a údaje ze sčítání lidu. V tomto kontextu data představují hrubá fakta a čísla, ze kterých lze extrahovat užitečné informace. Data jsou shromažďována pomocí technik, jako je měření, pozorování, dotazování nebo analýza, a jsou typicky reprezentována jako čísla nebo znaky, které mohou být dále zpracovávány. Terénní data jsou data, která jsou shromažďována v nekontrolovaném prostředí in situ. Experimentální data jsou data, která jsou generována v průběhu kontrolovaného vědeckého experimentu. Data jsou analyzována pomocí technik, jako je výpočet, uvažování, diskuse, prezentace, vizualizace nebo jiné formy postanalýzy. Před analýzou jsou hrubá data (nebo nezpracovaná data) typicky vyčištěna: jsou odstraněny odchylky a opraveny jsou zjevné chyby nástroje nebo zadávání dat. Data lze považovat za nejmenší jednotky faktických informací, které lze použít jako základ pro výpočet, uvažování nebo diskusi. Data mohou sahat od abstraktních myšlenek po konkrétní měření, včetně, ale nikoli výlučně, statistik. Tematicky propojená data prezentovaná v nějakém relevantním kontextu lze považovat za informace. Kontextově propojené části informací lze pak popsat jako datové poznatky nebo zpravodajství. Soubor poznatků a zpravodajství, který se v průběhu času hromadí v důsledku syntézy dat do informací, lze pak popsat jako znalosti. Data byla popsána jako „nová ropa digitální ekonomiky“. Data jako obecný koncept odkazují na skutečnost, že některé existující informace nebo znalosti jsou reprezentovány nebo kódovány v nějaké formě vhodné pro lepší využití nebo zpracování. Pokroky v počítačových technologiích vedly k nástupu velkých dat, která obvykle odkazují na velmi velké objemy dat, obvykle v řádu petabajtů. Používání tradičních metod analýzy dat a výpočtů je při práci s tak velkými (a rostoucími) datovými sadami obtížné, dokonce nemožné. (Teoreticky by nekonečná data přinesla nekonečné informace, což by znemožnilo extrahovat poznatky nebo zpravodajství.) V reakci na to relativně nový obor datové vědy používá metody strojového učení (a jiné umělé inteligence (AI)), které umožňují efektivní aplikace analytických metod na velká data.
Facebook Twitter