@loweel
Non è lo stesso, credimi. Non è questione di scandire e indicizzare fatture o documenti con un formato prevedibile.
È proprio estrarre il testo di un intero documento mantenendo la distinzione tra le sue parti fondanti, che possono essere su più pagine.
Tutti gli OCR che conosco estraggono il testo si, ma in modo sequenziale e relativamente arbitrario: il che va benissimo se devi indicizzare un motore di ricerca, ma non basta se vedi fare analisi semantiche sui contenuti.