Seitenumbrüche im geparsten Text mit \f kennzeichnen

User Story: Als Nutzerin möchte ich im RAG korrekte Seitenzahlen angezeigt bekommen, hierfür muss im Parser ein "\f" am Ende jeder Seite eingefügt werden.

Technische Umsetzung:

Als Dev will ich beim Parsen von PDF-Files die Information zu Seitenumbrüchen im geparsten Text explizit machen, damit der Text einfacher für den rag/database_ingestion-Endpoint verwendet werden und dort die Seitenzahl richtig berechnet werden kann.

Ein Beispiel ist in Issue rag#27 (closed) beschrieben.

Da \f nur für das RAG, aber nicht für die Summary oder allgemeine Markdown-Darstellungen relevant ist und dort eher einen Fremdkörper darstellen würde, soll diese Funktionalität mit der Übergabe eines Parameters (bspw. "page_end_handling") ähnlich zum Entfernen wiederholter leerer Zeilen "empty_lines_handling" einstellbar gemacht werden und in parser.py auf ähnliche Art und Weise ergänzt werden.

Vorraussetzung

  • Anforderungen des RAGs an den Parser klären

Akzeptanzkriterien

  • geparster Text enthält Seitenumbrüche (\f)
  • Test für Funktionalität ergänzt
  • Dokumentation des Parsers aktualisieren
  • ggf. Folgeticket im RAG erstellen, um diese Funktionalität zu nutzen und die Dokumentation der RAG Ingestion anzupassen
  • Review einer zweiten Person durchgeführt
Edited by Lisa Gölz
To upload designs, you'll need to enable LFS and have an admin enable hashed storage. More information