Seitenumbrüche im geparsten Text mit \f kennzeichnen
User Story: Als Nutzerin möchte ich im RAG korrekte Seitenzahlen angezeigt bekommen, hierfür muss im Parser ein "\f" am Ende jeder Seite eingefügt werden.
Technische Umsetzung:
Als Dev will ich beim Parsen von PDF-Files die Information zu Seitenumbrüchen im geparsten Text explizit machen, damit der Text einfacher für den rag/database_ingestion-Endpoint verwendet werden und dort die Seitenzahl richtig berechnet werden kann.
Ein Beispiel ist in Issue rag#27 (closed) beschrieben.
Da \f nur für das RAG, aber nicht für die Summary oder allgemeine Markdown-Darstellungen relevant ist und dort eher einen Fremdkörper darstellen würde, soll diese Funktionalität mit der Übergabe eines Parameters (bspw. "page_end_handling") ähnlich zum Entfernen wiederholter leerer Zeilen "empty_lines_handling" einstellbar gemacht werden und in parser.py auf ähnliche Art und Weise ergänzt werden.
Vorraussetzung
-
Anforderungen des RAGs an den Parser klären
Akzeptanzkriterien
-
geparster Text enthält Seitenumbrüche (\f) -
Test für Funktionalität ergänzt -
Dokumentation des Parsers aktualisieren -
ggf. Folgeticket im RAG erstellen, um diese Funktionalität zu nutzen und die Dokumentation der RAG Ingestion anzupassen -
Review einer zweiten Person durchgeführt