diff --git a/docs/erfaringer/modell_benchmark.md b/docs/erfaringer/modell_benchmark.md index 38afeb0..ae3230b 100644 --- a/docs/erfaringer/modell_benchmark.md +++ b/docs/erfaringer/modell_benchmark.md @@ -91,3 +91,9 @@ arkitektur). Auto-eskalering med ↑-knappen for resten. konkurranse kan ha påvirket timingen. - Én test per modell er ikke statistisk signifikant. Resultatene er indikasjoner, ikke fasit. +- Parallelle tester (3 modeller + task runner + interaktiv sesjon) + feilet — alle ga 0 output etter ~810s timeout. Claude-instanser + konkurrerer om RAM (350MB × 6 = 2.1GB) og API-ratelimits. + **Lærdom: benchmark må kjøres sekvensielt på rolig server.** +- Full 3×3×2-matrise er planlagt som nattkjøring via + `scripts/benchmark-models.sh`.