Indexdateien auslesen

Aktualisiert 3 months ago von DocuScan Support

Verwendbare Indexdateitypen sind: Csv, Ini, DelimitedLines und Xml

Innerhalb dieser Indexdateien sind Werte hinterlegt, die für die spätere Indexierung ausgelesen werden können. Damit die einzelnen Indexdateien dem richtigen Dokument zugeordnet werden kann - muss der Dateiname oder Werte aus dem Dateinamen identisch sein. D.h. heißt meine Datei "12345.pdf" sollte meine Indexdatei "12345.csv" heißen. StorageRobot bietet an einen festen Wert vorher (Prefix) oder nachher (Suffix) wegzuschneiden. Damit wären z.B. auch Indexdateien zu verarbeiten die "Indexdatei_12345.csv" oder "12345_Indexdatei.csv" heißen.

Beispielhaft möchten wir Ihnen die unterstützten Indexdateitypen vorstellen:

Csv

Csv-Dateien sind im allgemeinen Textdateien mit einem speziellen Format.

Beipiel:

"Rechnung";"DocuScan GmbH";0815;29.04.2013;

Für den StorageRobot ist das Trennzeichen (in unserem Beispiel das Semicolon) und der Textqualifizierer (in unserem Beipiel das Anführungzeichen) und ob die Datei Spaltenüberschriften hat oder nicht (in unserem Beispiel haben wir keine) wichtig. Wurden diese Einstellungen getroffen können Sie die ausgelesenen Werte auf der StorageRobot-Seite Metadaten den DocuWare-Archiv-Feldern zuweisen.

 

Ini

Ini-Dateien sind Textdateien, die Wertepaare in einem speziellen Format enthalten.

Beispiel:

[IndexDaten]
DOKUMENTENTYP=Rechnung
FIRMA=DocuScan GmbH
BELGNR=0815
DATUM=29.04.2013

Für den StorageRobot ist nur der Sektions Name wichtig (in unserem Beispiel IndexDaten) wichtig. Wurden diese Einstellungen getroffen können Sie die ausgelesenen Werte auf der StorageRobot-Seite Metadaten den DocuWare-Archiv-Feldern zuweisen.

 

DelimitedLines

DelimetedLines sind Textdateien, die Wertepaare in einem speziellen Format enthalten.

Beispiel:

DOKUMENTENTYP=Rechnung
FIRMA=DocuScan GmbH
BELGNR=0815
DATUM=29.04.2013

Für den StorageRobot ist nur der Wert-Trenner (in unserem Beispiel das Gleichzeichen) wichtig. Wurden diese Einstellungen getroffen können Sie die ausgelesenen Werte auf der StorageRobot-Seite Metadaten den DocuWare-Archiv-Feldern zuweisen.

 

Xml

Diese Variante ist veraltet und die Verwendung wird nicht mehr empfohlen. Bitte verwenden Sie XmlExtended.

Xml-Dateien ist eine Auszeichnungssprache zur Darstellung hierarchisch strukturierter Daten in Form von Textdateien.

Beispiel:

<?xml version="1.0"?>
<beispieldaten>
     <dokumententyp>Rechnung</dokumententyp>
     <firma>DocuScan GmbH</firma>
     <belegnr>0815</belegnr>
     <datum>29.04.2013</datum>
</beispieldaten>

Um die Werte dieser Xml auszulesen, wird der Xml-Tag-Name angegeben und hinzugefügt. In unserem Beispiel sind die Tagnamen dokumententyp, firma, belegnr und datum. Der Tag-Wert für firma ist DocuScan GmbH. Wurde der Xml-Tag-Name hinzugefügt können Sie die Werte auf der StorageRobot-Seite Metadaten den DocuWare-Archiv-Feldern zuweisen.

 

XmlExtended

Beispiel (DocuWare XML-Datei):

<DWDocument>
<FileInfos>
<ImageInfos>
<ImageInfo id="0,0,0" nPages="0">
<FileInfo fileName="C:\Temp\Beispiel.pdf" dwFileName="f0.pdf" signedFileName="Beispiel.pdf" type="normal" length="1613426" />
</ImageInfo>
</ImageInfos>
</FileInfos>
<Section dwguid="ad7d6ff0-edbc-457b-bddf-6211caa5d5b9" number="0" startPage="0">
<Metadata version="0">
<SystemProperties>
<DocID>4711</DocID>
<DiskNo>1</DiskNo>
<PageCount>1</PageCount>
<Flags>2</Flags>
<StoreUser>ADMIN</StoreUser>
<Offset>0</Offset>
<ModificationUser>ADMIN</ModificationUser>
<StoreDateTime>2012-11-08T10:07:56</StoreDateTime>
<ModificationDateTime>2012-11-09T12:59:34</ModificationDateTime>
<DWVerId>51786939</DWVerId>
<DWSysVersion>1</DWSysVersion>
<DWFlagsEx>0</DWFlagsEx>
</SystemProperties>
<FieldProperties>
<TextVar length="100" field="DOKUMENTTYP" id="1051744">Rechnung</TextVar>
<TextVar length="255" field="FIRMA" id="1056735">DocuScan GmbH</TextVar>
<Numeric field="BELEGNR" id="122">0815</Numeric>
<Date field="DATUM" id="64">2013-04-29T00:00:00</Date>
</FieldProperties>
<DatabaseProperties />
<StoreProperties DocumentName="tmp1F26.tmp" />
</Metadata>
<Page number="0">
<Rendition type="original">
<Content id="0,0,0" pageNumberInFile="0" />
</Rendition>
</Page>
</Section>
</DWDocument>

Um die Werte dieser Xml auszulesen, wird der Xpath Expression angegeben und hinzugefügt. In unserem Beispiel sind die Xpath Expressions:

{{Documenttype}}//TextVar[@id='1051744']

{{Firma}}//TextVar[@id='1056735']

{{Belegnr}}//Numeric[@id='122']

{{Datum}}//Date

Dabei steht der Wert in den beiden geschweiften Klammern für den Namen den der Wert haben soll. Diesen können Sie frei vergeben und sehen diesen Namen mit entsprechenden Wert auf der StorageRobot-Seite Metadaten und können diese den DocuWare-Archiv-Feldern zuweisen.

 


Wie waren wir?