Testen eines kleineren / schnelleren LLMs
Als Nachnutzerin mit wenigen Ressourcen für den Betrieb von F13, möchte ich Empfehlungen in der Dokumentation zu alternativen LLMs finden.
Als Nutzerin möchte ich nicht so lange auf die Zusammenfassung warten und würde daher gerne einstellen können welches LLM ich für die Zusammenfassung nutzen möchte, um ggf. auf ein schnelleres Modell umstellen zu können.
Technische Umsetzung
Suche nach einem kleineren/schnelleren Modell in für die Summary. In #12 (closed) wurde bereits Gemma 3 als schnelleres und kleineres Modell im Vergleich zu Llama 3.3 identifiziert. Noch kleiner wäre mistral-small3.1:24b. Dieses LLM soll ebenfalls getestet und dessen Performance mit der von Gemma 3 verglichen werden.
Die Ergebnisse sollen in die Dokumentation als Empfehlung aufgenommen werden.
Es kann zudem disskutiert werden ob dieses schnellere Modell den Nutzern in einer LLM Auswahl in der UI zur verfügung gestellt werden soll.
Akzeptanzkriterien
-
Modell konfigurieren -
Zusammenfassungsqualität und Wartezeit prüfen, mit Gemma 3 vergleichen und falls es gleich gut / besser als Gemma 3 ist die Dokumentation der Summary aktualisieren. -
Disskussion über Auswahlmöglichkeit von zusätzlichen LLMs führen und ggf. folge Tickets im Frontend erstellen. -
Review einer zweiten Person durchgeführt