Fast-Lane für schnelles PDF-Parsing (pdfminder.six)
User Story: Als Nutzerin möchte ich die Option haben auf Qualität zu verzichten und stattdessen schnelle Antworten zu erhalten.
Zudem möchte ich dass die Voraussetzungen für das Anhängen von Dokumenten an den Chat geschaffen werden, indem eine Fast-Lane im Parser für besonders schnelles PDF Parsing (unter in Kauf nahme von Qualitätseinbußen) integriert wird.
Hinweis: dieses Ticket ist aus der Recherche und dem Testing in #7 (closed) entstanden.
Umsetzung
- Parsing Input um eine Option "pdf_parsing_focus" erweitern mit den beiden Möglichen Zuständen "Qualität" und "Geschwindigkeit". Default ist Qualität (wegen Kompatiblität mit Chunker, Extraktion von Metadaten wie Seitenanzahl und der Relevanz für RAG und Summary)
- Funktion für PDF-Parsing Fast-Lange implementieren, welche pdfminer.six nutzt
- Bei Fehler in der Fastlane auf bisheriges Parsing zurückgreifen und Message an User zurückgeben.
- Testfälle für neuen Parameter ergänzen
- Dokumentation anpassen
Akzeptanzkriterien
-
Einstellbarkeit eines Fokus auf Qualität (aktueller Docling Parser) oder Geschwindigkeit (pdfmindersix) für das PDF-Parsing funktioniert -
Fastlane ist schneller als bisheriges Parsing -
Tests für dieses neue Feature geschrieben -
Dokumentation angepasst -
Review einer zweiten Person durchgeführt
Edited by Lisa Gölz