Andere Sprachmodelle ausprobieren

Als Entwicklerin will ich die Summary mit verschiedenen LLMs testen, damit in der Doku eine klare Empfehlung für ein Modell ausgesprochen werden kann und die zukünftige Entwicklung an dem besseren der beiden LLMs ausgerichtet werden kann.

Verwandtes Issue: Zusätzlich soll für die Recherche eines kleinen lokalen Modells von Ollama durchgeführt werden, um auch hierfür in der Doku eine Empfehlung aussprechen zu können siehe #3.

Akzeptanzkriterien

Testung von llama 3.3 70b von Verschiedenen Providern) inkl. Ergebnisdokumentation hier (-> depriorisiert)
Testung von llama 3.3 70b inkl. Ergebnisdokumentation hier
Testung von den Reasoning Modell DeepSeek-TNG-R1T2-Chimera 685b inkl. Ergebnisdokumentation hier
Testung von Gemma 3 27b inkl. Ergebnisdokumentation hier
Testung von deutschsprachigen Modellen KafkaLM-70B-German-V0.1 bzw. Llama-3.1-SauerkrautLM-70b-Instruct (-> depriorisiert)
Dokumentation der Ergebnisse hstl. der Längenfunktion in #14
Testung von gpt-oss-120b und Mistral Small 24B Instruct (-> depriorisiert)
Modellempfehlung in Doku ergänzen -> neues Issue #19 (closed)
Evaluierungscode ablegen: https://gtl.lab4oev.de/f13/temp-summary-llm-eval#
Review einer zweiten Person durchgeführt

Edited Sep 04, 2025 by Lisa Gölz

To upload designs, you'll need to enable LFS and have an admin enable hashed storage. More information

Assignee Loading

Time tracking Loading