स्थानीय मॉडल¶
- Local संभव है, लेकिन OpenClaw बड़े context और prompt injection के विरुद्ध मज़बूत सुरक्षा की अपेक्षा करता है। 21. छोटे कार्ड context को truncate कर देते हैं और सुरक्षा लीक करते हैं। 22. ऊँचा लक्ष्य रखें: ≥2 पूरी तरह maxed-out Mac Studios या समकक्ष GPU रिग (~$30k+)। 23. एकल 24 GB GPU केवल हल्के prompts के लिए, अधिक latency के साथ, काम करता है। 24. सबसे बड़ा / full-size मॉडल वैरिएंट जो आप चला सकते हैं उपयोग करें; अत्यधिक quantized या “small” checkpoints prompt-injection जोखिम बढ़ाते हैं (देखें Security)।
अनुशंसित: LM Studio + MiniMax M2.1 (Responses API, फुल-साइज़)¶
- वर्तमान में सर्वश्रेष्ठ local stack। 26. LM Studio में MiniMax M2.1 लोड करें, local server सक्षम करें (डिफ़ॉल्ट
http://127.0.0.1:1234), और reasoning को final text से अलग रखने के लिए Responses API का उपयोग करें।
{
agents: {
defaults: {
model: { primary: "lmstudio/minimax-m2.1-gs32" },
models: {
"anthropic/claude-opus-4-6": { alias: "Opus" },
"lmstudio/minimax-m2.1-gs32": { alias: "Minimax" },
},
},
},
models: {
mode: "merge",
providers: {
lmstudio: {
baseUrl: "http://127.0.0.1:1234/v1",
apiKey: "lmstudio",
api: "openai-responses",
models: [
{
id: "minimax-m2.1-gs32",
name: "MiniMax M2.1 GS32",
reasoning: false,
input: ["text"],
cost: { input: 0, output: 0, cacheRead: 0, cacheWrite: 0 },
contextWindow: 196608,
maxTokens: 8192,
},
],
},
},
},
}
सेटअप चेकलिस्ट
- LM Studio इंस्टॉल करें: https://lmstudio.ai
- LM Studio में उपलब्ध सबसे बड़ा MiniMax M2.1 बिल्ड डाउनलोड करें (“small”/अत्यधिक क्वांटाइज़्ड वैरिएंट्स से बचें), सर्वर शुरू करें, और पुष्टि करें कि
http://127.0.0.1:1234/v1/modelsमें यह सूचीबद्ध है। - मॉडल को लोडेड रखें; कोल्ड-लोड से स्टार्टअप विलंबता बढ़ती है।
- यदि आपका LM Studio बिल्ड अलग है तो
contextWindow/maxTokensसमायोजित करें। - WhatsApp के लिए, Responses API पर ही रहें ताकि केवल अंतिम पाठ भेजा जाए।
स्थानीय चलाते समय भी होस्टेड मॉडलों को कॉन्फ़िगर रखें; models.mode: "merge" का उपयोग करें ताकि फ़ॉलबैक उपलब्ध रहें।
हाइब्रिड विन्यास: होस्टेड प्राइमरी, स्थानीय फ़ॉलबैक¶
{
agents: {
defaults: {
model: {
primary: "anthropic/claude-sonnet-4-5",
fallbacks: ["lmstudio/minimax-m2.1-gs32", "anthropic/claude-opus-4-6"],
},
models: {
"anthropic/claude-sonnet-4-5": { alias: "Sonnet" },
"lmstudio/minimax-m2.1-gs32": { alias: "MiniMax Local" },
"anthropic/claude-opus-4-6": { alias: "Opus" },
},
},
},
models: {
mode: "merge",
providers: {
lmstudio: {
baseUrl: "http://127.0.0.1:1234/v1",
apiKey: "lmstudio",
api: "openai-responses",
models: [
{
id: "minimax-m2.1-gs32",
name: "MiniMax M2.1 GS32",
reasoning: false,
input: ["text"],
cost: { input: 0, output: 0, cacheRead: 0, cacheWrite: 0 },
contextWindow: 196608,
maxTokens: 8192,
},
],
},
},
},
}
स्थानीय-प्रथम, होस्टेड सेफ़्टी नेट के साथ¶
प्राइमरी और फ़ॉलबैक का क्रम बदलें; वही प्रोवाइडर्स ब्लॉक और models.mode: "merge" बनाए रखें ताकि स्थानीय बॉक्स डाउन होने पर आप Sonnet या Opus पर फ़ॉलबैक कर सकें।
क्षेत्रीय होस्टिंग / डेटा रूटिंग¶
-
- Hosted MiniMax/Kimi/GLM वैरिएंट OpenRouter पर region-pinned endpoints (जैसे, US-hosted) के साथ भी उपलब्ध हैं। 28. वहाँ regional variant चुनें ताकि ट्रैफ़िक आपके चुने हुए jurisdiction में रहे, जबकि Anthropic/OpenAI fallbacks के लिए
models.mode: "merge"का उपयोग जारी रहे।
- Hosted MiniMax/Kimi/GLM वैरिएंट OpenRouter पर region-pinned endpoints (जैसे, US-hosted) के साथ भी उपलब्ध हैं। 28. वहाँ regional variant चुनें ताकि ट्रैफ़िक आपके चुने हुए jurisdiction में रहे, जबकि Anthropic/OpenAI fallbacks के लिए
- केवल-स्थानीय सबसे मजबूत गोपनीयता मार्ग है; जब आपको प्रदाता फीचर्स चाहिए लेकिन डेटा प्रवाह पर नियंत्रण चाहते हैं, तब होस्टेड क्षेत्रीय रूटिंग मध्यम मार्ग है।
अन्य OpenAI-संगत स्थानीय प्रॉक्सी¶
- vLLM, LiteLLM, OAI-proxy, या custom gateways काम करते हैं यदि वे OpenAI-स्टाइल
/v1endpoint expose करते हों। 30. ऊपर दिए गए provider block को अपने endpoint और model ID से बदलें:
{
models: {
mode: "merge",
providers: {
local: {
baseUrl: "http://127.0.0.1:8000/v1",
apiKey: "sk-local",
api: "openai-responses",
models: [
{
id: "my-local-model",
name: "Local Model",
reasoning: false,
input: ["text"],
cost: { input: 0, output: 0, cacheRead: 0, cacheWrite: 0 },
contextWindow: 120000,
maxTokens: 8192,
},
],
},
},
},
}
models.mode: "merge" बनाए रखें ताकि होस्टेड मॉडल फ़ॉलबैक के रूप में उपलब्ध रहें।
समस्या-निवारण¶
-
- Gateway proxy तक पहुँच पा रहा है? 32.
curl http://127.0.0.1:1234/v1/models.
- Gateway proxy तक पहुँच पा रहा है? 32.
-
- LM Studio मॉडल unloaded? 34. Reload करें; cold start “hanging” का एक सामान्य कारण है।
-
- Context errors? 36.
contextWindowकम करें या अपने server limit को बढ़ाएँ।
- Context errors? 36.
- सुरक्षा: स्थानीय मॉडल प्रदाता-पक्ष फ़िल्टर्स छोड़ देते हैं; प्रॉम्प्ट-इंजेक्शन के प्रभाव क्षेत्र को सीमित करने के लिए एजेंट्स को संकीर्ण रखें और कंपैक्शन चालू रखें।