Přesto si myslím, že se jedná o produkt, který může být pro určitou skupinu zákazníků velmi zajímavý - jedná se o podporu automatického zpracování tzv. semistrukturovaných dokumentů (faktur, objednávek apod.), u kterých sice víte, že obsahují nebo mohou obsahovat určitá data (číslo faktury, dodavatele, seznam položek, cenu za kus, celkovou cenu apod.), ale nevíte, kde přesně se tento údaj nalézá, tudíž použití technologií jako je zónové OCR rozpoznávání je přinejmenším problematické. Nasazení produktu je tedy poměrně jasné - na digitalizačních pracovištích došlých dokumentů (primárně faktur, ale nejen), zejména tam, kde tyto pochází z mnoha zdrojů a tudíž se dá očekávat značná variabilita.
Zpracování probíhá třífázově:
- Klasifikace: kdy se na základě "kontextu" (kterým může být jakýkoliv rozpoznávací znak - text, obrázek, či čárový kód na stránce) určí typ dokumentu (např. faktura od dodavatele XYZ). V rámci klasifikace však ale může dojít i k "rozlámání" souvislého toku stránek ze scanneru na jednotlivé dokumenty
- Extrakce: kdy opět na základě "kontextu" dojde k rozpoznání jednotlivých elementů (hlavička faktury, jednotlivé položky atp.)
- Validace a párování: kdy dochází k ověření takto získaných dat. Tím, že se při rozpoznávání dá velmi často využít již známých dat (např. číselníku dodavatelů z ERP, či seznamu položek z objednávky, pokud se nám podaří správně získat její číslo), je možné řadu kroků opravdu výrazně zefektivnit. Nástroj navíc obsahuje i fuzzy search, tj. párování na neúplnou shodu
Pokud byste hledali další reference na internetu, hledejte Brainware Distiller.
No comments:
Post a Comment