Evaluation mit ROUGE / BERT Score implementieren

Als Entwickli will ich die eine Evaluation mit ROUCE oder BERT Score ermöglichen, damit die Summary automatisiert evaluiert werden kann.

Dies ist besonders im Hinblick auf das Fremdsprachen-Feature relevant, da wir als Entwicklis nicht alle gewünschten Sprachen auf einem hohen Niveau beherschen und eine manuelle Evaluation so sehr aufwendig wäre.

Akzeptanzkriterien

  • Berechnung eines Scores für die Zusammenfassungsqualität implementiert
  • Evaluationsskript angelegt
  • Tests geschrieben
  • Lizenzscan durchführen, falls neue Bibliotheken eingeführt werden
  • Review einer zweiten Person durchgeführt
To upload designs, you'll need to enable LFS and have an admin enable hashed storage. More information