Testen anderer OCR Modelle
Als Entwickli will ich andere OCR Modelle testen, damit das Parsing verbessert wird z.B. besseres Verhältnis von Geschwindigkeit und Ergebnisqualität, Unterstützung von Fremdsprachen (für zuküftige Features relevant).
Modelle die durch Docling unterstützt werden (OCR und VLMs):
- Easy OCR: aktuell genutzt, Git
- Tesseract: Umsetzung mit Docling, Git
- Rapid OCR: Umsetzung mit Docling, Huggingface, Git
- SmolDocling: Umsetzung mit Docling
- GraniteDocling: Umsetzung mit Docling, Huggingface
weitere interessante Modelle:
- Nanonets-OCR-s: Huggingface, Git
- NuMarkdown-8B-Thinking: Huggingface, Git
- Dolphin: Huggingface, Git
- OpenOCR: Huggingface, Git
- Surya: Huggingface, Git
- PaddleOCR-VL: Huggingface, Git
Akzeptanzkriterien
-
Testung von min. 1 Alternative mit PDFs mit verschiedenen Formatierungen (z.B.: Listen, Unterüberschriften, Bilder, Tabellen, Fußzeilen, Kopfzeilen, mehrere Textspalten, Briefköpfe) -
Ergebnisse mit in diesem Ticket dokumentieren -
Vorschlag für Umsetzung der Erkenntnisse - Für Wechsel des OCR Modells muss die Ergebnisqualität besser sein, als mit Easy-OCR bisher oder mindestens genauso so gut wie bisher, wenn hierdurch weitere Funktionen bzw. ein schnelleres Parsing ermöglicht wird.
-
Review einer zweiten Person durchgeführt
Edited by Lisa Gölz