Alternative für besseres DOCX Parsing finden
Als Entwickli will ich die Funktion des DOCX Parsings grundlegend bearbeiten, damit durch einen alternativen DOCX Parser eine qualitative Verbesserung (Erkennung von Listen, Verarbeitung von DOCX die durch Wordpad erstellt wurden, ggf. Unterstützung des DOC Formates) des Parsingergebnisses eintritt.
Vorschlag für alternativen DOCX Parser: Docling oder https://github.com/aspose-words/Aspose.Words-for-Python-via-.NET
Akzeptanzkriterien
-
alternativen DOCX Parser implementieren -
Ergebnisse mit aktuellen Ergebnissen hinstl. verschiedener Text-Formatierungen (z.B.: Listen, Unterüberschriften, Bilder, Tabellen, Fußzeilen, Kopfzeilen, mehrere Textspalten, Briefköpfe) vergleichen. -
Testen mit Dokumenten von LibreOffice, MSOffice und WordPad -
Bei überzeugenden Ergebnissen: Lizenzscan durchführen -
Bei überzeugenden Ergebnissen und geklärter Lizenzfrage: neuen Code in Funktion _parse_docx() einsetzen. -
Review einer zweiten Person durchgeführt
Edited by Lisa Gölz