โหมดTalk¶
โหมดTalkคือวงจรการสนทนาด้วยเสียงอย่างต่อเนื่อง:
- ฟังเสียงพูด
- ส่งถอดเสียงไปยังโมเดล (เซสชันหลัก, chat.send)
- รอการตอบกลับ
- พูดออกเสียงผ่าน ElevenLabs (การเล่นแบบสตรีม)
พฤติกรรม (macOS)¶
- โอเวอร์เลย์เปิดตลอด ขณะที่เปิดใช้งานโหมดTalk
- การเปลี่ยนสถานะระหว่าง Listening → Thinking → Speaking
- เมื่อมี การหยุดสั้นๆ (ช่วงเงียบ) ระบบจะส่งถอดเสียงปัจจุบัน
- คำตอบจะ ถูกเขียนไปยัง WebChat (เช่นเดียวกับการพิมพ์)
- ขัดจังหวะเมื่อมีเสียงพูด (เปิดเป็นค่าเริ่มต้น): หากผู้ใช้เริ่มพูดขณะผู้ช่วยกำลังพูด ระบบจะหยุดการเล่นและบันทึกเวลาที่ถูกขัดจังหวะสำหรับพรอมป์ถัดไป
คำสั่งเสียงในคำตอบ¶
ผู้ช่วยอาจใส่คำนำหน้าคำตอบด้วย บรรทัด JSON เดียว เพื่อควบคุมเสียง:
{ "voice": "<voice-id>", "once": true }
กฎ:
- ใช้เฉพาะบรรทัดแรกที่ไม่ว่าง
- คีย์ที่ไม่รู้จักจะถูกละเว้น
once: trueใช้กับคำตอบปัจจุบันเท่านั้น- หากไม่มี
onceเสียงนั้นจะกลายเป็นค่าเริ่มต้นใหม่ของโหมดTalk - บรรทัด JSON จะถูกตัดออกก่อนการเล่น TTS
คีย์ที่รองรับ:
voice/voice_id/voiceIdmodel/model_id/modelIdspeed,rate(WPM),stability,similarity,style,speakerBoostseed,normalize,lang,output_format,latency_tieronce
คอนฟิก (~/.openclaw/openclaw.json)¶
{
talk: {
voiceId: "elevenlabs_voice_id",
modelId: "eleven_v3",
outputFormat: "mp3_44100_128",
apiKey: "elevenlabs_api_key",
interruptOnSpeech: true,
},
}
ค่าเริ่มต้น:
interruptOnSpeech: truevoiceId: ถอยกลับไปใช้ELEVENLABS_VOICE_ID/SAG_VOICE_ID(หรือเสียง ElevenLabs ตัวแรกเมื่อมีคีย์ API)modelId: ค่าเริ่มต้นเป็นeleven_v3เมื่อไม่ตั้งค่าapiKey: ถอยกลับไปใช้ELEVENLABS_API_KEY(หรือโปรไฟล์เชลล์ของGatewayหากมี)outputFormat: ค่าเริ่มต้นเป็นpcm_44100บน macOS/iOS และpcm_24000บน Android (ตั้งค่าmp3_*เพื่อบังคับสตรีม MP3)
UI บน macOS¶
- สวิตช์เมนูบาร์: Talk
- แท็บคอนฟิก: กลุ่ม Talk Mode (voice id + สวิตช์การขัดจังหวะ)
- โอเวอร์เลย์:
- Listening: เมฆเต้นตามระดับไมค์
- Thinking: แอนิเมชันจมลง
- Speaking: วงแหวนแผ่ออก
- คลิกเมฆ: หยุดการพูด
- คลิก X: ออกจากโหมดTalk
หมายเหตุ¶
- ต้องการสิทธิ์ Speech และ Microphone
- ใช้
chat.sendกับคีย์เซสชันmain - TTS ใช้ ElevenLabs streaming API พร้อม
ELEVENLABS_API_KEYและการเล่นแบบเพิ่มทีละส่วนบน macOS/iOS/Android เพื่อลดความหน่วง stabilityสำหรับeleven_v3จะถูกตรวจสอบให้เป็น0.0,0.5, หรือ1.0; โมเดลอื่นยอมรับ0..1latency_tierจะถูกตรวจสอบให้เป็น0..4เมื่อมีการตั้งค่า- Android รองรับรูปแบบเอาต์พุต
pcm_16000,pcm_22050,pcm_24000, และpcm_44100สำหรับการสตรีม AudioTrack แบบหน่วงต่ำ