Oppdater benchmark-rapport: parallelle tester feilet, sekvensielt er nødvendig

Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>
This commit is contained in:
vegard 2026-03-18 14:28:52 +00:00
parent 4be36857e3
commit fbb647b454

View file

@ -91,3 +91,9 @@ arkitektur). Auto-eskalering med ↑-knappen for resten.
konkurranse kan ha påvirket timingen.
- Én test per modell er ikke statistisk signifikant. Resultatene
er indikasjoner, ikke fasit.
- Parallelle tester (3 modeller + task runner + interaktiv sesjon)
feilet — alle ga 0 output etter ~810s timeout. Claude-instanser
konkurrerer om RAM (350MB × 6 = 2.1GB) og API-ratelimits.
**Lærdom: benchmark må kjøres sekvensielt på rolig server.**
- Full 3×3×2-matrise er planlagt som nattkjøring via
`scripts/benchmark-models.sh`.