Andere Sprachmodelle ausprobieren
Als Entwicklerin will ich die Summary mit verschiedenen LLMs testen, damit in der Doku eine klare Empfehlung für ein Modell ausgesprochen werden kann und die zukünftige Entwicklung an dem besseren der beiden LLMs ausgerichtet werden kann.
Verwandtes Issue: Zusätzlich soll für die Recherche eines kleinen lokalen Modells von Ollama durchgeführt werden, um auch hierfür in der Doku eine Empfehlung aussprechen zu können siehe #3.
Akzeptanzkriterien
-
Testung von llama 3.3 70b von Verschiedenen Providern) inkl. Ergebnisdokumentation hier (-> depriorisiert) -
Testung von llama 3.3 70b inkl. Ergebnisdokumentation hier -
Testung von den Reasoning Modell DeepSeek-TNG-R1T2-Chimera 685b inkl. Ergebnisdokumentation hier -
Testung von Gemma 3 27b inkl. Ergebnisdokumentation hier -
Testung von deutschsprachigen Modellen KafkaLM-70B-German-V0.1 bzw. Llama-3.1-SauerkrautLM-70b-Instruct (-> depriorisiert) -
Dokumentation der Ergebnisse hstl. der Längenfunktion in #14 -
Testung von gpt-oss-120b und Mistral Small 24B Instruct (-> depriorisiert) -
Modellempfehlung in Doku ergänzen -> neues Issue #19 (closed) -
Evaluierungscode ablegen: https://gtl.lab4oev.de/f13/temp-summary-llm-eval# -
Review einer zweiten Person durchgeführt
Edited by Lisa Gölz