Unterstützung von EU-Fremdsprachen
Als Nutzerin möchte ich auch nicht-deutsche Texte (insb. EU-Fremdsprachen) mit F13 verarbeiten können.
Vorraussetzung
-
Klärung mit dem Kunden, welche EU-Fremndsprachen relevant sind.
Technische Umsetzung
Beim Testen anderer OCR Modelle (#7 - closed) wurde Tesseract als nützliches OCR Modell für diesen Anwendungsfall identifiziert. Dieses OCR-Modell soll nun inkl. Spracherkennung (language = detect) verwendet werden. Anschließend soll die Qualität des Parsings mit diesem Setup getestet und bewertet werden.
Falls die Ergebnisqualität unzureichend ist, soll statt einem Merge ein Folgeticket erstellt werden indem die Spracherkennung vorgelagert durchgeführt wird und anschließend manuell das OCR Modell in der passenden Sprache gewählt wird. (mit bspw. https://pypi.org/project/langdetect/)
Akzeptanzkriterien
-
Verarbeitung von Texten in aller relevanten Sprachen. -
neue Testdokumente hinterlegen und zugehörige Tests für alle relevanten Sprachen schreiben. -
Dokumentation des Parsers anpassen. -
Lizenzscan durchführen -
Review einer zweiten Person durchgeführt
Edited by Lisa Gölz