Möglichkeiten der Indexdatenverarbeitung

Aktualisiert 1 year ago von DocuScan Support

Der StorageRobot kann Daten aus einem Dokument lesen und verarbeiten oder verschiedene Indexdaten-Dateien auslesen. Hier stellen wir alle Verfahren kurz vor:

Dateieigenschaften

StorageRobot kann die gängigsten Dateieigenschaften auslesen und dies können zur Indexierung benutzt werden.

Barcode auslesen

Ein oder mehrere Barcodes können auf einem Dokument ausgelesen werden. 

Dieser Barcodewert kann später zur Indexierung verwendet werden oder für die Dokumententrennung. Es ist möglich generell wenn ein neuer Barcode gefunden wird das Dokument zu trenn oder nur wenn der Wert sich ändert. Zudem kann auch die Seite mit dem Barcode entfernt werden.

Welche Barcode-Typen unterstützt werden steht im nachfolgenden Artikel:

Welche Barcode Typen werden unterstützt 

Documententags (Schriftartenerkennung)

Die Documenttags ist eine Schriftartenerkennung die ähnlich wie der DocuWare Tiffmaker eine bestimmte Schriftart ausliest die einer gewissen Syntax unterliegt. Welche Schriftart spielt für den StorageRobot keine Rolle, aber diese Schriftart muss auf dem Dokument einzigartig sein, d.h. diese Schriftart darf sonst auf dem Dokument nicht vorkommen.

Im folgenden Beispiel ist die erforderliche Syntax erklärt:

&FieldRechnungsnummer:4422

Das &Field deklariert einen Tag. Die Rechnungsnummer: bildet den Tag-Namen und 4422 ist der Wert, der ausgelesen und für die Indexierung verwendet werden kann. Dabei ist der Tag-Name variable. Sie können diesen Rechnungsnummer oder Rechungsnr nennen. Dieser Name wird Ihnen später als Name im StorageRobot angezeigt.

Die Schriftartenerkennung kann auch für die Dokumententrennung verwendet werden. Beispiel:

&ND&FieldRechnungsnummer:4422

Anhand des Zusatzes &ND kann der StorageRobot erkennen dass ein neues Dokument anfängt.

Damit das Dokument unverfälscht, also ohne sichtbare Tag-Schrift abgelegt wird, sollte diese in weiß aufgebracht werden.

OCR

Mit der OCR-Technologie werden Textinhalte aus dem Dokument ausgelesen.

Um den gewünschten auszulesenden Text muss lediglich ein Rahmen aufgezogen werden. In der rechten Spalte ist ein Überblick über die ausgelesenen Stellen verfügbar. Jeder ausgelesene Inhalt bekommt den Namen OCR_1, OCR_2 usw..

Der Text kann durch Filter eingegrenzt werden. Möchten man nur alle gängigen Buchstaben, so sieht die Syntax wie folgt aus: [A-Z]. Die Filter werden als sogenannte Reguläre Ausdrücke formuliert.

Indexdateien

Verwendbare Indexdateitypen sind: Csv, Ini, DelimitedLines, Xml und Xml Extended.

Innerhalb dieser Dateien sind Werte hinterlegt, die für die spätere Indexierung ausgelesen und vergeben werden können. Damit die Indexdateien richtig zugeordnet werden, muss die indexdatei den gleichen Dateinamen wie das zu verarbeitende Dokument haben.

SQL-Abfrage

Sie können sich mit MSSQL, MySQL und Oracle Datenbanken verbinden oder über mit einer ODBC-Verbindung und eine Abfrage definieren. Diese Abfrage muss einmal getestet werden, wenn die Verbindung erfolgreich war können diese Daten zu Indexierung verwendet werden.


Wie waren wir?