From fbb647b454a5f47667c76349dabd139958708109 Mon Sep 17 00:00:00 2001 From: vegard Date: Wed, 18 Mar 2026 14:28:52 +0000 Subject: [PATCH] =?UTF-8?q?Oppdater=20benchmark-rapport:=20parallelle=20te?= =?UTF-8?q?ster=20feilet,=20sekvensielt=20er=20n=C3=B8dvendig?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit Co-Authored-By: Claude Opus 4.6 (1M context) --- docs/erfaringer/modell_benchmark.md | 6 ++++++ 1 file changed, 6 insertions(+) diff --git a/docs/erfaringer/modell_benchmark.md b/docs/erfaringer/modell_benchmark.md index 38afeb0..ae3230b 100644 --- a/docs/erfaringer/modell_benchmark.md +++ b/docs/erfaringer/modell_benchmark.md @@ -91,3 +91,9 @@ arkitektur). Auto-eskalering med ↑-knappen for resten. konkurranse kan ha påvirket timingen. - Én test per modell er ikke statistisk signifikant. Resultatene er indikasjoner, ikke fasit. +- Parallelle tester (3 modeller + task runner + interaktiv sesjon) + feilet — alle ga 0 output etter ~810s timeout. Claude-instanser + konkurrerer om RAM (350MB × 6 = 2.1GB) og API-ratelimits. + **Lærdom: benchmark må kjøres sekvensielt på rolig server.** +- Full 3×3×2-matrise er planlagt som nattkjøring via + `scripts/benchmark-models.sh`.