Was ist das Problem mit Texterkennung per OCR?

Die Digitalisierung der Buchhaltung und von Unternehmensprozessen ist ohne einer gut funktionierenden OCR Lösung undenkbar. Allerdings entstehen oft Probleme, die die OCR Ergebnisse verzerren und eine einwandfreie Digitalisierung erschweren.
Frau blättert in Zeitschrift

Inhaltsverzeichnis

Was ist OCR überhaupt?

Ausgeschrieben bedeutet OCR, Optical Character Recognition (Optische Zeichenerkennung) und könnte in der Alltagssprache mit Texterkennung übersetzt werden. Ein Scanner alleine reicht nicht aus, um die relevanten Informationen aus einem Beleg herauszuziehen. Alles, was ein Scanner leisten kann, ist ein Bild des Belegs zu erstellen. Dieses ist lediglich eine Ansammlung schwarzer, weißer oder farbiger Bildpunkte, die tabellarisch angeordnet und in der Fachsprache unter dem Begriff Rastergrafik bekannt sind. Zum Auslesen und Weiterverwenden der Informationen aus gescannten Belegen, benötigt man eine OCR-Software, die in den Bildern Buchstaben erkennt, diese zu Wörtern zusammensetzt und aus diesen wiederum ganze Sätze baut. Damit ermöglicht Ihnen die Software den Zugang zum eigentlichen Inhalt der Dokumente, welcher anschließend weiterbearbeitet werden kann.

Warum kommt es häufig zu Problemen mit OCR-Technologien?

Nicht selten kommt es jedoch vor, dass Daten falsch ausgelesen werden, beispielsweise statt einem l eine 1. Grund dafür ist vor allem eine schlechte Scanqualität, die gute OCR-Ergebnisse unmöglich macht. Ein weiteres Thema ist die OCR Software selbst. Da eine professionelle OCR-Software kostspielig ist, wird häufig eine Open-Source Lösung (zB Tesseract von Google) verwendet. Diese liefert aber leider weitaus schlechtere Ergebnisse als die proprietären Technologien. In jedem Fall benötigt es aber ein entsprechendes „Finetuning“ beim Setup, um gute OCR-Ergebnisse zu erhalten.

Eine erhebliche Investition in das Setup und „Finetuning“ der OCR-Lösung ist daher unumgänglich und notwendig um die Digitalisierung der Belege einwandfrei ermöglichen zu können. Genau das liefert domonda als fertigen Service im Rahmen der Automatisierung der Rechnungsverarbeitung für Steuerberatungskanzleien.

Wie kommt es von der ausgelesenen Textdatei zu den gewünschten Rechnungs­informationen?

Mittels OCR-Technologie wird aus einem gescannten Beleg lediglich eine Textdatei generiert. Nach diesem Vorgang können noch keine Informationen zum Inhalt der Rechnung oder der Position der relevanten Rechnungsinformationen gewonnen werden. Für die Automatisierung der Rechnungsverarbeitung ist es notwendig, auch Rechnungsinformationen wie zum Beispiel die Rechnungsnummer, das Rechnungsdatum, den Bruttobetrag, usw. aus den Belegen zu extrahieren. Dafür werden sogenannte „Capturing“-Technologien eingesetzt. Spezielle Algorithmen suchen in der Textdatei nach Ankerworten (wie Rechnungsnummer, …) und finden den dazugehörigen Zielwert. Hierbei kommen mehrere Technologien zum Einsatz, um nicht standardisierte Rechnungen zu interpretieren. Da der Ort und die Bezeichnung der einzelnen Ankerwörter von Beleg zu Beleg sehr stark abweichen kann, ist die Ausleserate von regelbasierten Capturing Algorithmen nicht zufriedenstellend und erreicht selten eine Auslesrate von über 50%. Wird allerdings zusätzlich mit Künstlicher Intelligenz gearbeitet, können die Ergebnisse des Capturings deutlich verbessert werden und eine Erfolgsrate von über 95% erreichen.

Wie kann eine komplette Buchungszeile generiert werden?

Um eine komplette Buchungszeile erstellen zu können, wird noch zusätzlich Künstliche Intelligenz für die Erkennung von Sachkonten und Steuercodes benötigt. Aktuell müssen diese Informationen von Buchhaltern manuell eingetragen werden. Durch künstliche Intelligenz ist es mit domonda möglich, Prognosen zu Steuercodes und Sachkonten auf Basis historischer Buchungen zu machen, die im Anschluss nur noch überprüft werden müssen.

Über den Autor

Michael Haller

Michael Haller

Michael ist Chief Visionary Officer bei domonda. Er ist seit fast 10 Jahren Unternehmer, seine Leidenschaft ist Entrepreneurship in all seinen Facetten. Michaels Ziel ist Unternehmern mit domonda zu mehr Zeit & Erfolg zu verhelfen.

Der domonda Blog

domonda ist die innovative virtuelle Finanzabteilung für Unternehmen. In unserem Blog schreiben wir über Wichtiges und Lesenswertes zu Steuerthemen, Finanzen und Digitalisierung von Finanzprozessen für Unternehmen.

Aktuelle Beiträge

reisekostenabrechnung-einfach-mit-domonda

Spesenabrechnung: Definition, Beispiele & Vorlagen

Unter Spesen versteht man alle Kosten, die auf einer Geschäftsreise anfallen. Diese Kosten werden nicht privat bezahlt, sondern können in der Spesenabrechnung geltend gemacht werden. So können die angefallenen Kosten entweder vom Arbeitgeber oder durch die Steuererklärung rückerstattet werden.

Weiterlesen »

SUCCESS-STORIES
unserer zufriedenen Kunden.

Melden Sie sich für unseren Newsletter an.

Diese Webseite nutzt Cookies. Wenn Sie weiterhin auf dieser Webseite verbleiben stimmen Sie der Nutzung zu.
CVO von domonda Michael Haller

10 Best Practices Tipps

Jetzt für unseren Newsletter anmelden und hilfreiche Tipps zur Vereinfachung Ihrer Buchhaltung erhalten!