Testung der PDF Parsing Parallelisierung
User Story: Als Nutzer möchte ich schnelle Ergebnisse von F13 erhalten auch dann, wenn mehrere parallele PDF Anfragen verarbeitet werden müssen, daher möchte ich, dass die Parallelisierung des PDF-Parsers geprüft und ermöglicht wird.
Technische Umsetzung
-
Initalisierung des PDF-Parsers inkl. der threads wird aktuell bei jedem Dokument durchgeführt. Die Vermutung ist, dass hierdurch die threads nicht genutzt werden können. Daher soll dieser Abschnitt nun aus
parser.pyindocling_model_init.pyausgelagert werden, damit es nur einmal initial ausgeführt wird und die Parallelisierung durch threads ermöglicht wird. Anschließend Rechenzeit mit Testdokument aus #7 (comment 439297) testen und der Rechenzeit aus #7 (comment 440622) vergleichen. -
Doclings threading verstehen, um zu entscheiden ob wir durch ein eigenes Threading Beschleunigung erzielen können:
- Testen ob parallele Anfragen (z.B. über mehrere Swagger UI Fenster) auch parallel verarbeitet werden durch Blick in die Logs des Parsers. Dies soll einmal mit der Thread-Einstellung 1 und einmal mit 8 ausprobiert und verglichen werden.
- Testen ob das Threading von Docling sich auf Dokumente oder Dokumentenchunks bezieht indem die Rechenzeit für eine großes PDF mit der kommulierten Rechenzeit für viele kleine PDFs, die aus dem gleichen Text gewonnen wurden, verglichen wird.
Akzeptanzkriterien
-
Converterinitalisierung in docling_model_init.py` ausgelagert -
Test wie Threading durch Docling funktioniert und entscheiden ob es ein eigenes Threading braucht -
ggf. eigenes Threading implementieren -
Changelog anpassen -
Review einer zweiten Person durchgeführt