Wednesday 9 December 2009

Nový produkt: Oracle Forms Recognition

Tak trošku ve volném pokračování článku z minulého týdne budeme pokračovat v představování novinek. Od prosince se v ceníku objevil nový produkt Oracle Forms Recognition (je dokonce tak nový, že jej zatím nenajdete ani na stránkách www.oracle.com a opravdu nemá nic společného s technologií Oracle Forms&Reports).

Přesto si myslím, že se jedná o produkt, který může být pro určitou skupinu zákazníků velmi zajímavý - jedná se o podporu automatického zpracování tzv. semistrukturovaných dokumentů (faktur, objednávek apod.), u kterých sice víte, že obsahují nebo mohou obsahovat určitá data (číslo faktury, dodavatele, seznam položek, cenu za kus, celkovou cenu apod.), ale nevíte, kde přesně se tento údaj nalézá, tudíž použití technologií jako je zónové OCR rozpoznávání je přinejmenším problematické. Nasazení produktu je tedy poměrně jasné - na digitalizačních pracovištích došlých dokumentů (primárně faktur, ale nejen), zejména tam, kde tyto pochází z mnoha zdrojů a tudíž se dá očekávat značná variabilita.

Zpracování probíhá třífázově:
  • Klasifikace: kdy se na základě "kontextu" (kterým může být jakýkoliv rozpoznávací znak - text, obrázek, či čárový kód na stránce) určí typ dokumentu (např. faktura od dodavatele XYZ). V rámci klasifikace však ale může dojít i k "rozlámání" souvislého toku stránek ze scanneru na jednotlivé dokumenty
  • Extrakce: kdy opět na základě "kontextu" dojde k rozpoznání jednotlivých elementů (hlavička faktury, jednotlivé položky atp.)
  • Validace a párování: kdy dochází k ověření takto získaných dat. Tím, že se při rozpoznávání dá velmi často využít již známých dat (např. číselníku dodavatelů z ERP, či seznamu položek z objednávky, pokud se nám podaří správně získat její číslo), je možné řadu kroků opravdu výrazně zefektivnit. Nástroj navíc obsahuje i fuzzy search, tj. párování na neúplnou shodu
Samozřejmě, jistě Vás napadne, že ani takto vybavený nástroj není všemocný - co když např. přijde formát, který jste dosud nikdy neviděli? I na toto je pamatováno ošetřením tzv. výjimek, které se samozřejmě předkládají k manuálnímu zpracování. Nástroj však podporuje i samoučící mechanismy, takže z často se objevujících výjimek se brzy může stát nové pravidlo. Kromě OCR je pak ještě podporováno rozpoznávání ICR. Obě jsou podporovány i v češtině.

Pokud byste hledali další reference na internetu, hledejte Brainware Distiller.

No comments:

Post a Comment