Wenn der Plan des Bundesfinanzministeriums aufgeht und am 1. Januar 2025 die elektronische Rechnung für inländische B2B-Geschäfte tatsächlich verpflichtend eingeführt wird, müssen Unternehmen in der Lage sein, ihre Rechnungen in einem strukturierten, elektronischen Format bereitzustellen und zu empfangen. Das könnte für viele Firmen schwierig werden, da ein Großteil immer noch auf PDF-Rechnungen setzt.
Wie kann aus einem PDF-Dokument ein strukturierter elektronischer Datensatz zur maschinellen Verarbeitung erstellt werden?
OCR, althergebrachte Lösung mit Schwächen
Die bekannteste Lösung ist sicher Optical Character Recognition (OCR). Damit werden Daten aus gescannten Papierdokumenten, PDF-Dateien oder Digitalbildern mittels Texterkennung extrahiert, so dass bearbeitbare und durchsuchbare Dateien entstehen. In ihrer modernsten Ausprägung wird OCR mit künstlicher Intelligenz (KI) gekoppelt und als Intelligent Document Processing (IDP) bezeichnet. IDP soll die Dokumentenverarbeitung intelligent automatisieren. Dabei erkennen bestimmte Algorithmen, um welche Art von Information es sich handelt und extrahieren so die gewünschten Daten aus den Dokumenten.
OCR ist zwar breit und leicht verfügbar, hat aber Schwächen. Man benötigt einen Scanner oder ein entsprechendes Gerät mit OCR-Software. Außerdem sind IT-Kenntnisse nötig und die Einrichtung zieht Kosten nach sich. Elektronische Rechnungen können damit aber nicht erstellt werden. Hierfür ist wiederum eine spezielle Software nötig, die die per OCR extrahierten Daten verarbeitet, und zusätzliche Kosten verursacht. Außerdem kommt es vor, dass Daten falsch ausgelesen werden, statt einem l etwa eine 1. Auch die Genauigkeit von IDP-Lösungen hängt von den Daten selbst aber auch vom Lernprozess ab. Beim Einsatz von KI kommen OCR-Systeme auf eine korrekte Ausleserate von gut 90 Prozent.
Deshalb müssen die Ergebnisse sorgfältig geprüft und manuell nachbearbeitet werden. Da OCR aber ein komplexer Prozess ist, ist auch die Fehlerkorrektur anspruchsvoll. Eine vollständige Automatisierung der Rechnungsverarbeitung kann mit OCR aufgrund der beschränkten Genauigkeit nicht erreicht werden.
Machine-Learning-Algorithmen als Alternative
Inzwischen ist die Erstellung strukturierter maschinenlesbarer Daten aus PDF-Dokumenten auch ohne die systembedingte Ungenauigkeit der OCR möglich, zum Beispiel mit der Augmented Intelligence (AI)-Lösung pedif der Supedio GmbH. AI ist die Zusammenarbeit von KI und menschlichem Urteilsvermögen, um Entscheidungsprobleme zu bewältigen. Die maschinelle Intelligenz trifft keine eigenen Entscheidungen, sondern unterstützt den menschlichen Anwender, indem sie mithilfe von Machine-Learning-Algorithmen Datensätze analysiert und somit eine datenbasierte Entscheidungsgrundlage liefert.
pedif ist ein AI-Service für den elektronischen Datenaustausch, der herkömmliche PDF-Dokumente auf Basis eines eindeutigen Dokumenten-Fingerprints vollständig korrekt in maschinenlesbare, elektronische Nachrichtenformate transformiert, wie z.B. in die gängigen E-Rechnungsformate XRechnung und ZUGFeRD. Insbesondere bei der Verarbeitung von Positionsdaten kommen die Vorteile der Fingerprint-Technologie zum Vorschein.
Trotz ihrer Unterschiede haben sowohl pedif wie auch OCR ein Ziel: Durch automatisierte Vorgänge Mitarbeiter von monotonen Prozessen zu entlasten sowie Kosten und Zeit zu sparen. Aufgrund der manuellen Korrekturschritte bei der OCR ist pedif mit der Möglichkeit einer Maschine-zu-Maschine-Kommunikation hier klar im Vorteil und erlaubt vollständig automatisierte Prozesse ohne manuelles Eingreifen.
Interesse, Fragen?
Ihr Ansprechpartner Marcus Ehrenburg freut sich auf ein unverbindliches Beratungsgespräch.
Direktkontakt: ehrenburg@supedio.com, Telefon: 0351-418816860