Testung der PDF Parsing Parallelisierung

User Story: Als Nutzer möchte ich schnelle Ergebnisse von F13 erhalten auch dann, wenn mehrere parallele PDF Anfragen verarbeitet werden müssen, daher möchte ich, dass die Parallelisierung des PDF-Parsers geprüft und ermöglicht wird.

Technische Umsetzung

Initalisierung des PDF-Parsers inkl. der threads wird aktuell bei jedem Dokument durchgeführt. Die Vermutung ist, dass hierdurch die threads nicht genutzt werden können. Daher soll dieser Abschnitt nun aus parser.py in docling_model_init.py ausgelagert werden, damit es nur einmal initial ausgeführt wird und die Parallelisierung durch threads ermöglicht wird. Anschließend Rechenzeit mit Testdokument aus #7 (comment 439297) testen und der Rechenzeit aus #7 (comment 440622) vergleichen.
Doclings threading verstehen, um zu entscheiden ob wir durch ein eigenes Threading Beschleunigung erzielen können:
- Testen ob parallele Anfragen (z.B. über mehrere Swagger UI Fenster) auch parallel verarbeitet werden durch Blick in die Logs des Parsers. Dies soll einmal mit der Thread-Einstellung 1 und einmal mit 8 ausprobiert und verglichen werden.
- Testen ob das Threading von Docling sich auf Dokumente oder Dokumentenchunks bezieht indem die Rechenzeit für eine großes PDF mit der kommulierten Rechenzeit für viele kleine PDFs, die aus dem gleichen Text gewonnen wurden, verglichen wird.

Akzeptanzkriterien

Converterinitalisierung in docling_model_init.py` ausgelagert
Test wie Threading durch Docling funktioniert und entscheiden ob es ein eigenes Threading braucht
ggf. eigenes Threading implementieren
Changelog anpassen
Review einer zweiten Person durchgeführt

Edited Nov 06, 2025 by Lisa Gölz

To upload designs, you'll need to enable LFS and have an admin enable hashed storage. More information