server/docs/proposals/kildevern_modus.md
vegard 74110e842c Dokumentasjon: oppdatert arkitektur, nye proposals og konsepter
Oppdatert basert på ekstern tilbakemelding. Nye proposals for
kildevern, podcasting 2.0, web clipper, waveforms, editor,
tekst-primitiv og avisvisning. Oppdatert meldingsboks med
slette-semantikk, entity resolution i kunnskapsgrafen, og
AI gateway med kildevern-modus.

Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>
2026-03-15 21:45:24 +01:00

34 lines
2 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

# Forslag: Kildevern-modus (100% lokal LLM)
## Idé
Når Møterommet eller en channel brukes til sensitive, upubliserte redaksjonelle diskusjoner, bryter det med kildevernet å sende transkripsjoner til Claude/Gemini — selv via LiteLLM. En toggle for "kildevern-modus" ruter all AI-prosessering til en lokal modell. Data forlater aldri serveren.
## Hvorfor er dette interessant?
- Presseetikk og kildevern er ikke-forhandlbart for seriøse redaksjoner
- Kan være et differensierende salgspunkt for plattformen
- LiteLLM støtter allerede Ollama/vLLM som leverandør — arkitekturen er klar
## Hva bygger den på?
- **AI Gateway** — Ollama/vLLM som ny leverandør i `config.yaml`
- **Møterommet** — kildevern-toggle på channel/rom-nivå
- **Jobbkø** — ruting basert på `kildevern`-flagg
## Gjennomføring
1. Sett opp Ollama eller vLLM som egen Docker-container med en lett, lokal modell (f.eks. Llama-3-8B eller Gemma-2-9B)
2. Registrer som `sidelinja/lokal` i LiteLLM config
3. Channels/møter får en toggle: `kildevern: true` (lagres i channel-config eller `workspaces.settings`)
4. Når flagget er satt, ruter AI Gateway til `sidelinja/lokal` i stedet for eksterne modeller
5. UI viser tydelig "Kildevern aktiv — all AI-prosessering skjer lokalt" med visuell indikator
## Ressurskrav
- Lokal 8B-modell krever ~6 GB VRAM (GPU) eller ~8 GB RAM (CPU, saktere)
- På nåværende server (16 GB RAM) er dette mulig men trangt — compute-separasjon (se `docs/infra/jobbkø.md` §4.4) gjør det mer komfortabelt
- Kvaliteten på norsk tekst med 8B-modeller er merkbart lavere enn Claude/Gemini — akseptabelt for oppsummering, ikke for kompleks analyse
## Åpne spørsmål
- Hvor granulært skal kildevern-toggle være? Per channel, per melding, per workspace?
- Trenger vi et visuelt "sikkerhetsnivå" (grønt/rødt skjold) i UI?
- Bør kildevern-modus også blokkere ekstern embedding-generering (pgvector)?
## Innsats: LavMiddels
## Wow-faktor: Høy