1. Co nejvíce ovlivňuje kvalitu dat, na které oblasti se při jejím zlepšování soustředit a jakým chybám se vyhnout?

2. Jaká bývá míra nečistoty dat, lze ji zlepšit automatizovaným nebo i ručním čištěním?

Jiří Svačina, Senior Consultant společnosti Unicorn:

1. Kvalitou dat v podnikovém informačním systému rozumíme především schopnost uživatelů či jiných aplikací tato data použít, tzn. s jejich pomocí dosáhnout požadovaného účelu informačního systému. Chyby či věcné nedostatky v datech bývají obvykle způsobeny mnoha faktory. Především je třeba uvést nedostatečnou věrohodnost či kvalitu primárních nebo referenčních zdrojů dat, chyby a nedokonalosti využívaného softwaru, nedostatečné propojení informačních systémů, resp. roztříštěnost podnikové datové základny, a samozřejmě také lidský faktor. Dosažení přiměřené kvality dat vyžaduje zavedení procesů systematického čištění dat a také změny v informačních systémech a souvisejících pracovních postupech. Za klíčovou chybu považuji právě zanedbání jednoho z těchto dvou rozměrů, tedy soustředění se pouze na existující data, nebo naopak pouze na nově příchozí či modifikovaná data. Navíc je třeba si určit priority související s kvalitou dat a investovat do těch oblastí, kde vyšší kvalita přinese organizaci příslušnou přidanou hodnotu.

2. Míra nečistoty dat obecně stoupá s rostoucím objemem zpracovávaných dat a s klesajícím významem konkrétních datových záznamů pro úspěch podniku. Pokud bychom si jako příklad vzali třeba finanční instituce, nalezneme datové záznamy s minimální mírou chyb (například finanční data o provedených transakcích) i záznamy s potenciálně vysokým znečištěním (typicky jmenné či adresní údaje). Obecně je třeba přijmout fakt, že v zásadě libovolný netriviální informační systém obsahuje datové chyby a nečistoty, což nijak nemusí bránit jeho úspěšnému primárnímu využívání. Může to ovšem znamenat nemožnost dosáhnout vyšší přidané hodnoty, např. při využívání dat pro podporu rozhodování. Podstatné zvýšení kvality dat v informačním systému vyžaduje v zásadě vždy automatizované, případně poloautomatizované procesy a postupy. Kromě zvýšení kvality, bezpečnosti a spolehlivosti softwaru využívaného pro pořizování dat je vhodné využít i specializované nástroje pro čištění dat či provádět cílené opravné zásahy nad existující datovou základnou. Zásahy do věcných dat v informačních systémech by ovšem neměli provádět pouze odborníci na informační technologie, ale musí do nich být zapojeni také vlastníci dat.

Věra Jouklová, ředitelka divize Business Intelligence S&T CZ:

1. Zdrojem špatné kvality dat jsou transakční (OLTP) systémy, které často v důsledku slabých kontrolních mechanismů při zadávání, respektive aktualizaci, mohou produkovat duplicitní záznamy, chyby ve volných textových polích (jako je adresa, jméno...) apod. Dalším zdrojem špatné kvality dat je situace, kdy se ve firmě používá více transakčních systémů, které nejsou dostatečně integrovány.

2. Míra nečistoty dat závisí obvykle na nízké kvalitě vstupních kontrol v transakčních (OLTP) systémech a na stupni integrace více transakčních systémů používaných ve firmě. Zlepšení kvality dat se dá dosáhnout jednorázovým pročištěním historických dat, navržením čisticích procesů pro aktuální data (on-line čisticí služby) na standardní denní toky dat, definicemi procesů, které zajistí na základě zlepšených kontrol ve transakčních systémech zlepšení datové kvality, a vyšší integrací transakčních systémů, které chybná data produkují.

Ivo Mouka, Profinit, Key Account Manager:

1. Kvalitu dat ovlivňuje především organizace. Nedocenění hodnoty informací vede k nezájmu o jejich kvalitu, a tím ovlivňuje její nízkou úroveň. V detailnějším pohledu vidím tři vzájemně provázané kritické prvky:

a) Lidé. Chyby na vstupu vznikají často ze spěchu nebo lhostejnosti. Do systému se také dostávají nesprávné údaje zadané záměrně a ne vždy ze zlého úmyslu. Třeba v případě, kdy chcete chránit své soukromí před příliš dotěrnými otázkami na webovém formuláři.

b) Software. Patří sem nedostatečné kontroly vkládaných dat, vstupní formuláře, kde je snadné se splést – ukliknout, nebo systémy, kde se obtížně vyhledává existující záznam a je jednodušší založit nový.

c) Čas. Ten způsobuje znehodnocení informací. Málokdo tuší, kolik má ve své databázi zákazníků neplatných adres, jmen a profilů osob, které se přestěhovaly, vdaly, změnily zaměstnání a další charakteristiky, nebo zemřely.

Chceme-li zlepšit kvalitu, potřebujeme co nejpřesněji zjistit stav věcí, stanovit priority a podle nich jednat. K tomu prvému slouží proces zvaný data profiling, vlastně detailní analýza dat včetně porovnání s požadovanými pravidly a referenčními soubory. Stanovení priorit vychází z dopadu chyb na hlavní činnost organizace. Následující akce mohou být rozličné, od jednorázového čištění přes změny softwaru a firemních procesů. Velkou chybou je ve zlepšování kvality vidět hledání viníků. Kvalita není absolutní pojem, v praxi jde o to, jak optimální kvalitu stanovit, dosáhnout a udržet.

2. Nalezená míra nečistoty, například v databázi zákazníků, bývá vysoká, často postihuje přes 50 % záznamů. Důležitější je ale její dopad. Nemá cenu opravovat milion drobných nepřesností v adresách, pokud pošta zásilku bez problému doručí. Nalezení deseti procent duplicitních záznamů tam, kde vyžadujeme jejich unikátnost, může představovat větší problém. Stejně jako formátově dokonalé adresy, jejichž původní držitelé se přestěhovali.

Poslední příklad také ukazuje, že ne všechno lze řešit automatizovaným nebo ručním čištěním. Automatizované čištění je velmi efektivní prostředek všude, kde umíme definovat pravidla a máme informace pro opravy nebo doplnění chybějících dat. Samotné čištění nestačí, pro trvalé udržení kvality potřebujeme zjistit a odstranit příčiny vzniku nečistot.

Marek Novotný, TietoEnator, Director, Member of the Board:

1. Kvalitu dat nejvíce ovlivňují tři faktory. Jednak jde o technické parametry front-endových aplikací, zejména o to, zda mají nebo nemají zabudované validační mechanismy pro kontrolu kvality dat při jejich pořizování. Zadruhé je třeba zmínit metodické vedení pracovníků zodpovědných za pořizování dat. Ty společnosti, které se věnují metodickému řízení a vzdělávání svých zaměstnanců, jsou schopny přispět k vyšší kvalitě dat. Třetím faktorem jsou kvalita a parametry celkového procesu zpracování informací v organizaci, počínaje pořizováním dat přes zpracování a využívání dat v jednotlivých informačních systémech až po reportovací systémy a aplikace business intelligence. Nejčastějším omylem v oblasti kvality dat je, že za kvalitu dat má zodpovídat IT, a tím má také případné nedostatky samo řešit. Pravdou je pravý opak: bez systematického dialogu mezi IT a ostatními útvary ve společnosti ve skutečnosti není možné kvalitu dat systémově zlepšovat.

2. Míra nečistoty dat se liší společnost od společnosti. V našich projektech se zpravidla setkáváme s mírou nečistoty v rozmezí od 40 % do 70 %. Řešení, které poskytuje naše společnost zákazníkům, umožňuje zlepšovat kvalitu dat pomocí automatického čištění až na 99,5 %. Obecně lze říci, že automatické čištění může být nastaveno tak, aby vyčistilo data právě tak dobře jako stoprocentně spolehlivý nechybující zaměstnanec, a mnohonásobně rychleji. Ruční čištění dat našim zákazníkům až na výjimky nedoporučujeme. Jsme přesvědčeni, že je zpravidla neefektivní a v konečném důsledku neekonomické.

Jiří Bohuslav, senior konzultant ve společnosti Sophia Solutions s.r.o.

1. Každý zdrojový systém je více či méně zatížen chybovými záznamy. Odpověď na otázku »co nejvíce ovlivňuje kvalitu dat?« je velmi jednoduchá – je to téměř vždy člověk. Ať už ve funkci operátora, pořizovače dat nebo jako interpret dat. Lidé, kteří data pořizují, se nejčastěji dopouštějí chyb, jako jsou překlepy, chybějící hodnoty, vkládání dat, která nesplňují daná pravidla, vkládání duplicitních údajů, vkládání údajů do nesprávných kolonek, případně uvádění hodnot v různých měrných jednotkách. Nízká kvalita dat zapříčiňuje vysoké finanční ztráty plynoucí ze špatných manažerských rozhodnutí, z nedostatečně funkčních dodavatelsko-odběratelských vztahů nebo z poškozené pověsti firmy. Základem vlastnictví kvalitních, čistých dat je správné nastavení datových pravidel. Tím máme na mysli integritní a doménová omezení na úrovni klientských aplikací, návrh správného datového modelu včetně kontroly konzistence dat, případně procesy vedoucí k snadnému dohledání, nejlépe však pravidelnému reportování chybných, nekonzistentních záznamů.

2. Obecně se udává, že 5 až 15 procent dat je nekonzistentních nebo nesprávných. Ideální je vyřešit problémy s čistotou dat již na úrovni primárního systému, ve kterém data vznikají. V praxi se často tyto procesy provádějí až při přenosu dat do datového skladu. Zde různé technologie nabízejí širokou škálu nástrojů pro čištění (Data Cleansing), transformaci (Data Transformation) a zlepšování kvality (Data Quality Improvement) dat. Namátkou lze zmínit Oracle Warehouse Builder (komponenta Quality Option), IBM Websphere Quality Stage, případně vysoce specializované a nákladné nástroje jako Trillium Software (Harte-Hanks) nebo Data Flux (SAS Institute). Tyto speciální produkty mají vysokou úspěšnost automatizovaného čištění dat, nicméně specifické výjimky je nutno vždy řešit separátně. Zde opět přichází na řadu člověk, aby opravil chyby, jichž se na začátku celého procesu dopustil.

Připravil Zbyněk Hutar