server/docs/proposals/ghost_host_tts.md

# Forslag: Ghost Host (AI Text-to-Speech i Studio)

## Idé
Under innspilling kan programlederne trykke "Ghost Host"-knappen. AI-en genererer en kort kommentar (10-15 sek) basert på kunnskapsgrafen og tidligere episoder, og spiller den av med syntetisk stemme direkte i LiveKit-rommet.

*"Vegard, du sa akkurat 'det er jo helt bananas', men i episode 17 sa du det samme om vindkraft — skal vi sette inn et klipp?"*

## Hvorfor
- Tar live AI-assistenten fra passiv (tekst-popup) til aktiv (snakker med i rommet)
- Kan gi ikoniske podcast-øyeblikk
- Unik feature som ingen andre podcast-plattformer har

## Bygger på
- Live AI-assistent (faktoid-oppslag, NER)
- Kunnskapsgrafen (faktoider, segmenter)
- LiveKit (lydstrøm)
- AI Gateway (tekst-generering)

## Ny avhengighet
- **Text-to-Speech (TTS)** — dette krever ny infrastruktur:
  - Ekstern: ElevenLabs API (kan rutes via LiteLLM?)
  - Lokal: Piper TTS, Coqui TTS, eller Tortoise-TTS (Docker-container)
  - Vurdering: Lokal TTS passer bedre med self-hosted-filosofien, men kvaliteten er vesentlig lavere enn ElevenLabs

## Åpne spørsmål
- Stemme: nøytral syntetisk stemme, eller voice clone av en vert? (etiske implikasjoner)
- Latens: kan vi generere tekst + TTS + injisere i LiveKit under 3 sekunder?
- Godkjenning: bør det spilles av direkte, eller vises som "Ghost Host vil si noe" med play-knapp?
- Kill switch: hva om den sier noe feil live? Trenger en "avbryt"-knapp