- Omorganiser docs/: konsepter, features, infra og proposals i egne mapper - Ny docs/erfaringer/ med lærdommer fra chat-implementering (Svelte 5, SpacetimeDB, adapter-mønster) - Oppdater ARCHITECTURE.md: Lag 1 status, ny §10 Erfaringslogg, SpacetimeDB i lokal dev - Oppdater synkronisering.md med implementeringsstatus og designvalg - Oppdater lokal.md med SpacetimeDB og AI Gateway - Utvid PG-skjema med channels, messages, media_files, message_revisions - Legg til seed_dev.sql, migration_safety.md, .env.example - Nye feature-specs: chat, kanban, whiteboard, live_ai, lydmeldinger m.fl. - Nye konsept-specs: studioet, møterommet, redaksjonen, den asynkrone gjesten m.fl. - SpacetimeDB og AI Gateway i docker-compose.dev.yml - collect-docs.sh inkluderer erfaringer/ Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>
29 lines
1.4 KiB
Markdown
29 lines
1.4 KiB
Markdown
# Forslag: Ghost Host (AI Text-to-Speech i Studio)
|
|
|
|
## Idé
|
|
Under innspilling kan programlederne trykke "Ghost Host"-knappen. AI-en genererer en kort kommentar (10-15 sek) basert på kunnskapsgrafen og tidligere episoder, og spiller den av med syntetisk stemme direkte i LiveKit-rommet.
|
|
|
|
*"Vegard, du sa akkurat 'det er jo helt bananas', men i episode 17 sa du det samme om vindkraft — skal vi sette inn et klipp?"*
|
|
|
|
## Hvorfor
|
|
- Tar live AI-assistenten fra passiv (tekst-popup) til aktiv (snakker med i rommet)
|
|
- Kan gi ikoniske podcast-øyeblikk
|
|
- Unik feature som ingen andre podcast-plattformer har
|
|
|
|
## Bygger på
|
|
- Live AI-assistent (faktoid-oppslag, NER)
|
|
- Kunnskapsgrafen (faktoider, segmenter)
|
|
- LiveKit (lydstrøm)
|
|
- AI Gateway (tekst-generering)
|
|
|
|
## Ny avhengighet
|
|
- **Text-to-Speech (TTS)** — dette krever ny infrastruktur:
|
|
- Ekstern: ElevenLabs API (kan rutes via LiteLLM?)
|
|
- Lokal: Piper TTS, Coqui TTS, eller Tortoise-TTS (Docker-container)
|
|
- Vurdering: Lokal TTS passer bedre med self-hosted-filosofien, men kvaliteten er vesentlig lavere enn ElevenLabs
|
|
|
|
## Åpne spørsmål
|
|
- Stemme: nøytral syntetisk stemme, eller voice clone av en vert? (etiske implikasjoner)
|
|
- Latens: kan vi generere tekst + TTS + injisere i LiveKit under 3 sekunder?
|
|
- Godkjenning: bør det spilles av direkte, eller vises som "Ghost Host vil si noe" med play-knapp?
|
|
- Kill switch: hva om den sier noe feil live? Trenger en "avbryt"-knapp
|