Talk-tilstand¶
Talk-tilstand er et kontinuerligt stemmekonversationsloop:
- Lyt efter tale
- Send transskriptionen til modellen (hovedsession, chat.send)
- Vent på svaret
- Tal det via ElevenLabs (streaming-afspilning)
Adfærd (macOS)¶
- Altid-aktiv overlay, mens Talk-tilstand er aktiveret.
- Lytter → Tænker → Taler faseovergange.
- Ved en kort pause (stilhedsvindue) sendes den aktuelle transskription.
- Svar skrives til WebChat (samme som at skrive).
- Afbryd ved tale (standard slået til): hvis brugeren begynder at tale, mens assistenten taler, stopper vi afspilningen og noterer afbrydelsestidsstemplet til næste prompt.
Stemmedirektiver i svar¶
Assistenten kan præfiksere sit svar med en enkelt JSON-linje for at styre stemmen:
{ "voice": "<voice-id>", "once": true }
Regler:
- Kun den første ikke-tomme linje.
- Ukendte nøgler ignoreres.
once: truegælder kun for det aktuelle svar.- Uden
oncebliver stemmen den nye standard for Talk-tilstand. - JSON-linjen fjernes før TTS-afspilning.
Understøttede nøgler:
voice/voice_id/voiceIdmodel/model_id/modelIdspeed,rate(WPM),stability,similarity,style,speakerBoostseed,normalize,lang,output_format,latency_tieronce
Konfiguration (~/.openclaw/openclaw.json)¶
{
talk: {
voiceId: "elevenlabs_voice_id",
modelId: "eleven_v3",
outputFormat: "mp3_44100_128",
apiKey: "elevenlabs_api_key",
interruptOnSpeech: true,
},
}
Standarder:
interruptOnSpeech: truevoiceId: falder tilbage tilELEVENLABS_VOICE_ID/SAG_VOICE_ID(eller den første ElevenLabs-stemme, når API-nøglen er tilgængelig)modelId: bruger som standardeleven_v3, når den ikke er satapiKey: falder tilbage tilELEVENLABS_API_KEY(eller gateway shell-profil, hvis tilgængelig)outputFormat: bruger som standardpcm_44100på macOS/iOS ogpcm_24000på Android (sætmp3_*for at tvinge MP3-streaming)
macOS UI¶
- Menulinje-toggle: Talk
- Konfigurationsfane: Talk-tilstand-gruppe (stemme-id + afbrydelses-toggle)
- Overlejring:
- Lytter: sky pulserer med mikrofonniveau
- Tænker: synkende animation
- Taler: udstrålende ringe
- Klik på skyen: stop med at tale
- Klik på X: afslut Talk-tilstand
Noter¶
- Kræver tale- og mikrofontilladelser.
- Bruger
chat.sendmod sessionsnøglenmain. - TTS bruger ElevenLabs’ streaming-API med
ELEVENLABS_API_KEYog inkrementel afspilning på macOS/iOS/Android for lavere latenstid. stabilityforeleven_v3valideres til0.0,0.5eller1.0; andre modeller accepterer0..1.latency_tiervalideres til0..4, når den er sat.- Android understøtter
pcm_16000,pcm_22050,pcm_24000ogpcm_44100outputformater til lav-latenstid AudioTrack-streaming.