Testen anderer OCR Modelle

Als Entwickli will ich andere OCR Modelle testen, damit das Parsing verbessert wird z.B. besseres Verhältnis von Geschwindigkeit und Ergebnisqualität, Unterstützung von Fremdsprachen (für zuküftige Features relevant).

Modelle die durch Docling unterstützt werden (OCR und VLMs):

Easy OCR: aktuell genutzt, Git
Tesseract: Umsetzung mit Docling, Git
Rapid OCR: Umsetzung mit Docling, Huggingface, Git
SmolDocling: Umsetzung mit Docling
GraniteDocling: Umsetzung mit Docling, Huggingface

weitere interessante Modelle:

Nanonets-OCR-s: Huggingface, Git
NuMarkdown-8B-Thinking: Huggingface, Git
Dolphin: Huggingface, Git
OpenOCR: Huggingface, Git
Surya: Huggingface, Git
PaddleOCR-VL: Huggingface, Git

Akzeptanzkriterien

Testung von min. 1 Alternative mit PDFs mit verschiedenen Formatierungen (z.B.: Listen, Unterüberschriften, Bilder, Tabellen, Fußzeilen, Kopfzeilen, mehrere Textspalten, Briefköpfe)
Ergebnisse mit in diesem Ticket dokumentieren
Vorschlag für Umsetzung der Erkenntnisse
- Für Wechsel des OCR Modells muss die Ergebnisqualität besser sein, als mit Easy-OCR bisher oder mindestens genauso so gut wie bisher, wenn hierdurch weitere Funktionen bzw. ein schnelleres Parsing ermöglicht wird.
Review einer zweiten Person durchgeführt

Edited Oct 30, 2025 by Lisa Gölz