Oppdater benchmark-rapport: parallelle tester feilet, sekvensielt er nødvendig

Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>
2026-03-18 14:28:52 +00:00 · 2026-03-18 14:28:52 +00:00 · fbb647b454
commit fbb647b454
parent 4be36857e3
1 changed files with 6 additions and 0 deletions
--- a/docs/erfaringer/modell_benchmark.md
+++ b/docs/erfaringer/modell_benchmark.md
@ -91,3 +91,9 @@ arkitektur). Auto-eskalering med ↑-knappen for resten.
  konkurranse kan ha påvirket timingen.
 - Én test per modell er ikke statistisk signifikant. Resultatene
  er indikasjoner, ikke fasit.
+- Parallelle tester (3 modeller + task runner + interaktiv sesjon)
+  feilet — alle ga 0 output etter ~810s timeout. Claude-instanser
+  konkurrerer om RAM (350MB × 6 = 2.1GB) og API-ratelimits.
+  **Lærdom: benchmark må kjøres sekvensielt på rolig server.**
+- Full 3×3×2-matrise er planlagt som nattkjøring via
+  `scripts/benchmark-models.sh`.