Community translations by veiseule.ai — Help improve them on Crowdin
Skip to main content

โมเดลภายในเครื่อง

การรันแบบภายในเครื่องทำได้ แต่ OpenClaw ต้องการบริบทขนาดใหญ่ + การป้องกันที่แข็งแกร่งต่อการโจมตีแบบ prompt injection การ์ดจอขนาดเล็กจะตัดทอนบริบทและทำให้การป้องกันด้านความปลอดภัยรั่วไหล ตั้งเป้าให้สูง: ≥2 Mac Studios ที่อัปเกรดเต็มสเปก หรือชุด GPU เทียบเท่า (~$30k+) การ์ดจอ 24 GB เพียงตัวเดียวใช้ได้เฉพาะกับพรอมป์ที่เบากว่าและมีความหน่วงสูงกว่า ใช้ โมเดลเวอร์ชันที่ใหญ่ที่สุด / ขนาดเต็มที่คุณสามารถรันได้; การควอนไทซ์อย่างหนักหรือเช็คพอยต์ “ขนาดเล็ก” จะเพิ่มความเสี่ยงต่อ prompt injection (ดู Security)

แนะนำ: LM Studio + MiniMax M2.1 (Responses API, ขนาดเต็ม)

Best current local stack. สแตกภายในเครื่องที่ดีที่สุดในปัจจุบัน โหลด MiniMax M2.1 ใน LM Studio เปิดเซิร์ฟเวอร์ภายในเครื่อง(ค่าเริ่มต้น http://127.0.0.1:1234) และใช้ Responses API เพื่อแยกการให้เหตุผลออกจากข้อความสุดท้าย

{
  agents: {
    defaults: {
      model: { primary: "lmstudio/minimax-m2.1-gs32" },
      models: {
        "anthropic/claude-opus-4-6": { alias: "Opus" },
        "lmstudio/minimax-m2.1-gs32": { alias: "Minimax" },
      },
    },
  },
  models: {
    mode: "merge",
    providers: {
      lmstudio: {
        baseUrl: "http://127.0.0.1:1234/v1",
        apiKey: "lmstudio",
        api: "openai-responses",
        models: [
          {
            id: "minimax-m2.1-gs32",
            name: "MiniMax M2.1 GS32",
            reasoning: false,
            input: ["text"],
            cost: { input: 0, output: 0, cacheRead: 0, cacheWrite: 0 },
            contextWindow: 196608,
            maxTokens: 8192,
          },
        ],
      },
    },
  },
}

เช็กลิสต์การตั้งค่า

  • ติดตั้ง LM Studio: https://lmstudio.ai
  • ใน LM Studio ดาวน์โหลด MiniMax M2.1 เวอร์ชันที่ใหญ่ที่สุดที่มี(หลีกเลี่ยงเวอร์ชัน “small”/ที่ควอนไทซ์หนัก) เริ่มเซิร์ฟเวอร์ และยืนยันว่า http://127.0.0.1:1234/v1/models แสดงรายการแล้ว
  • คงสถานะโหลดโมเดลไว้; การ cold-load จะเพิ่มความหน่วงตอนเริ่ม
  • ปรับ contextWindow/maxTokens หากบิลด์ LM Studio ของคุณแตกต่าง
  • สำหรับ WhatsApp ให้ใช้ Responses API เพื่อให้ส่งเฉพาะข้อความสุดท้าย

คงการตั้งค่าโมเดลแบบโฮสต์ไว้แม้จะรันแบบโลคัล; ใช้ models.mode: "merge" เพื่อให้ฟอลแบ็กยังพร้อมใช้งาน

คอนฟิกแบบไฮบริด: โฮสต์เป็นหลัก โลคัลเป็นฟอลแบ็ก

{
  agents: {
    defaults: {
      model: {
        primary: "anthropic/claude-sonnet-4-5",
        fallbacks: ["lmstudio/minimax-m2.1-gs32", "anthropic/claude-opus-4-6"],
      },
      models: {
        "anthropic/claude-sonnet-4-5": { alias: "Sonnet" },
        "lmstudio/minimax-m2.1-gs32": { alias: "MiniMax Local" },
        "anthropic/claude-opus-4-6": { alias: "Opus" },
      },
    },
  },
  models: {
    mode: "merge",
    providers: {
      lmstudio: {
        baseUrl: "http://127.0.0.1:1234/v1",
        apiKey: "lmstudio",
        api: "openai-responses",
        models: [
          {
            id: "minimax-m2.1-gs32",
            name: "MiniMax M2.1 GS32",
            reasoning: false,
            input: ["text"],
            cost: { input: 0, output: 0, cacheRead: 0, cacheWrite: 0 },
            contextWindow: 196608,
            maxTokens: 8192,
          },
        ],
      },
    },
  },
}

โลคัลเป็นหลักพร้อมตาข่ายความปลอดภัยจากโฮสต์

สลับลำดับหลักและฟอลแบ็ก; ใช้บล็อกผู้ให้บริการเดิมและ models.mode: "merge" เพื่อให้สามารถฟอลแบ็กไปที่ Sonnet หรือ Opus ได้เมื่อกล่องโลคัลล่ม

การโฮสต์ตามภูมิภาค/การกำหนดเส้นทางข้อมูล

  • Hosted MiniMax/Kimi/GLM variants also exist on OpenRouter with region-pinned endpoints (e.g., US-hosted). MiniMax/Kimi/GLM แบบโฮสต์ก็มีบน OpenRouter พร้อมเอ็นด์พอยต์ที่ปักหมุดภูมิภาค(เช่น โฮสต์ในสหรัฐฯ) เลือกเวอร์ชันตามภูมิภาคที่นั่นเพื่อคงทราฟฟิกไว้ในเขตอำนาจที่คุณเลือก ขณะเดียวกันยังใช้ models.mode: "merge" สำหรับฟอลแบ็ก Anthropic/OpenAI
  • โลคัลล้วนยังเป็นเส้นทางความเป็นส่วนตัวที่แข็งแกร่งที่สุด; การกำหนดเส้นทางแบบโฮสต์ตามภูมิภาคคือทางสายกลางเมื่อคุณต้องการฟีเจอร์ผู้ให้บริการแต่ต้องการควบคุมการไหลของข้อมูล

พร็อกซีภายในเครื่องที่เข้ากันได้กับ OpenAI อื่นๆ

vLLM, LiteLLM, OAI-proxy หรือเกตเวย์แบบกำหนดเองใช้ได้ หากเปิดเอ็นด์พอยต์สไตล์ OpenAI แบบ /v1 แทนที่บล็อกผู้ให้บริการด้านบนด้วยเอ็นด์พอยต์และโมเดล ID ของคุณ: Replace the provider block above with your endpoint and model ID:

{
  models: {
    mode: "merge",
    providers: {
      local: {
        baseUrl: "http://127.0.0.1:8000/v1",
        apiKey: "sk-local",
        api: "openai-responses",
        models: [
          {
            id: "my-local-model",
            name: "Local Model",
            reasoning: false,
            input: ["text"],
            cost: { input: 0, output: 0, cacheRead: 0, cacheWrite: 0 },
            contextWindow: 120000,
            maxTokens: 8192,
          },
        ],
      },
    },
  },
}

คง models.mode: "merge" เพื่อให้โมเดลแบบโฮสต์ยังพร้อมใช้งานเป็นฟอลแบ็ก

การแก้ไขปัญหา

  • Gateway เข้าถึงพร็อกซีได้หรือไม่? curl http://127.0.0.1:1234/v1/models.
  • โมเดลใน LM Studio ถูกอันโหลด? โหลดใหม่; การเริ่มแบบ cold start เป็นสาเหตุ “ค้าง” ที่พบบ่อย
  • ข้อผิดพลาดบริบท? ลด contextWindow หรือเพิ่มขีดจำกัดเซิร์ฟเวอร์ของคุณ
  • ความปลอดภัย: โมเดลโลคัลข้ามฟิลเตอร์ฝั่งผู้ให้บริการ; ทำให้เอเจนต์แคบและเปิดการบีบอัดเพื่อจำกัดรัศมีผลกระทบของ prompt injection