Проблема · AI-ассистент — это дорого
Вы настроили OpenClaw, подключили Telegram, прописали workspace-файлы. Всё работает. А потом приходит счёт от Anthropic: $150 за месяц.
Стандартный OpenClaw из коробки использует одну модель для всего — обычно Claude Sonnet. Это значит:
- Каждый heartbeat (проверка «жив ли ассистент?») — Sonnet. Это $3 за миллион input-токенов.
- Каждый subagent (параллельная задача) — тоже Sonnet.
- Каждое сообщение начинается с загрузки всего workspace в контекст. У типичного пользователя это 45+ КБ текста — около 15 000 токенов.
- Heartbeats запускаются каждые 3-4 часа, даже если ничего не произошло.
Итог: вы платите $3-5 в день просто за то, что ассистент существует. Добавьте реальную работу — и $100-300/мес набегает легко.
Наш опыт · Реальные цифры
MILAGPT — персональный AI-ассистент на базе OpenClaw, который мы строим для себя и своих клиентов. Домен milagpt.io.
Когда мы посчитали расходы, картина была такой:
| Статья расходов | Стоимость/мес |
|---|---|
| Heartbeats (Sonnet, каждые 3-4 часа) | $15-25 |
| Subagents (Sonnet, параллельные задачи) | $20-40 |
| Bootstrap context (45 КБ на каждое сообщение) | $30-50 |
| Рабочие запросы (реальные задачи) | $30-80 |
| Итого | $100-200 |
Две трети расходов — это не работа, а накладные расходы.
Мы потратили день на оптимизацию. Результат:
| Статья расходов | Было | Стало |
|---|---|---|
| Heartbeats | $15-25 | $0 (Ollama) |
| Subagents | $20-40 | $2-4 (Haiku) |
| Bootstrap context | $30-50 | $15-25 (-53%) |
| Рабочие запросы | $30-80 | $30-80 |
| Итого | $100-200 | $10-30 |
7 оптимизаций · Встроены в MILAGPT
Multi-model routing
Самая мощная оптимизация. Вместо одной модели для всего — каждая задача получает подходящую модель:
- Sonnet 4.5 — для основных задач (код, анализ, креатив)
- Haiku 4.5 — для рутины и subagents ($0.25/M vs $3/M — в 12 раз дешевле)
- Ollama llama3.2 — для heartbeats (бесплатно, локально)
Heartbeat не нуждается в Sonnet — ему нужно проверить пару файлов и ответить «всё ок». Haiku справляется с этим идеально.
Экономия: 40-50% от общих расходов.
Бесплатные heartbeats на Ollama
Heartbeats — фоновые проверки. Каждые 3-4 часа ассистент просыпается, проверяет почту, календарь, GitHub. Если ничего важного — отвечает «HEARTBEAT_OK».
В стандартном OpenClaw это Sonnet — $3 за миллион токенов. В MILAGPT heartbeats работают на Ollama llama3.2:3b — модель в 2 ГБ, которая крутится локально. Стоимость: ноль.
Экономия: $15-25/мес → $0.
Сжатый workspace (20 КБ вместо 45+)
Каждое сообщение ассистенту начинается с загрузки workspace-файлов в контекст. Мы провели аудит каждого файла:
- Убрали дубликаты между файлами
- Архивировали старую память (MEMORY.md: 22 КБ → 4.4 КБ)
- Сократили AGENTS.md (7.8 КБ → 2.3 КБ) и SOUL.md (7.2 КБ → 4.2 КБ)
- Упростили HEARTBEAT.md (4.8 КБ → 1.6 КБ)
Результат: 45 КБ → 20 КБ, экономия ~53% input-токенов на каждое сообщение.
bootstrapMaxChars лимит
Одна строка в конфиге, которая ограничивает размер bootstrap-контекста:
"bootstrapMaxChars": 12000
Если workspace разрастается — OpenClaw обрежет его, а не загрузит весь. Страховка от случайного раздувания.
Token Efficiency инструкции в system prompt
В SOUL.md мы добавили блок Token Efficiency:
- Отвечай кратко. Не повторяй контекст обратно.
- Для heartbeats: если нечего сообщить → только HEARTBEAT_OK
- Не пересказывай файлы — используй ссылки.
- Группируй проверки: одно сообщение вместо нескольких.
Модель генерирует меньше output-токенов. Мелочь, но на масштабе месяца — заметно.
Автоматическая очистка сессий
Каждая сессия сохраняется в .jsonl-файл. За месяц — сотни мегабайт. MILAGPT включает скрипт cleanup-sessions.sh, который архивирует старые сессии и удаляет оригиналы.
Чистая система = быстрая система.
Fallback-цепочка для rate limits
При высокой нагрузке Anthropic API возвращает rate limit ошибки. Стандартный OpenClaw просто ждёт. MILAGPT автоматически переключается на fallback-модель:
Sonnet (rate limit) → Haiku (дешевле и доступнее)
Вы не теряете время на ожидание, а платите меньше за fallback-запросы.
Сравнение · OpenClaw vs MILAGPT
| Параметр | OpenClaw (стандарт) | MILAGPT |
|---|---|---|
| Модель для всего | Sonnet ($3/M input) | Multi-model routing |
| Heartbeat модель | Sonnet ($3/M input) | Ollama llama3.2 (бесплатно) |
| Subagent модель | Sonnet ($3/M input) | Haiku ($0.25/M input) |
| Bootstrap context | 45+ КБ (~15K токенов) | 20 КБ (~7K токенов) |
| bootstrapMaxChars | Не ограничен | 12 000 символов |
| Token Efficiency prompt | Нет | Встроен |
| Очистка сессий | Вручную | Автоматический скрипт |
| Fallback при rate limit | Ожидание | Авто-переключение |
| Idle расход/день | $2-5 | $0 |
| Расход/мес | $100-300 | $10-30 |
Почему · Это важно
AI-ассистент — это инструмент на каждый день. Если он стоит $200/мес, вы будете думать дважды перед каждым сообщением. Если $10-15 — вы просто пользуетесь им свободно.
MILAGPT создан для того, чтобы AI-ассистент был доступным. Все оптимизации — не отдельные настройки, которые нужно ковырять. Они встроены в продукт и работают из коробки.
Попробуйте MILAGPT
Все 7 оптимизаций уже включены. Вам не нужно разбираться в model routing, ставить Ollama вручную или сжимать workspace-файлы.
Персональный AI-ассистент, который работает на вашем Mac через Telegram. С оптимизированными расходами и русскоязычным интерфейсом.
Problem · AI Assistants Are Expensive
You set up OpenClaw, connected Telegram, configured workspace files. Everything works. Then the Anthropic bill arrives: $150 per month.
Standard OpenClaw uses one model for everything out of the box — usually Claude Sonnet. This means:
- Every heartbeat (an "is the assistant alive?" check) — Sonnet. That's $3 per million input tokens.
- Every subagent (parallel task) — also Sonnet.
- Every message starts by loading the entire workspace into context. For a typical user, that's 45+ KB of text — about 15,000 tokens.
- Heartbeats fire every 3-4 hours, even if nothing happened.
Result: you pay $3-5 per day just for the assistant to exist. Add real work — and $100-300/mo adds up fast.
Our Experience · Real Numbers
MILAGPT is a personal AI assistant built on OpenClaw that we develop for ourselves and our clients. Website: milagpt.io.
When we tallied the expenses, here's what we saw:
| Expense Category | Cost/mo |
|---|---|
| Heartbeats (Sonnet, every 3-4 hours) | $15-25 |
| Subagents (Sonnet, parallel tasks) | $20-40 |
| Bootstrap context (45 KB per message) | $30-50 |
| Work requests (actual tasks) | $30-80 |
| Total | $100-200 |
Two thirds of expenses are overhead, not actual work.
We spent a day optimizing. The result:
| Expense Category | Before | After |
|---|---|---|
| Heartbeats | $15-25 | $0 (Ollama) |
| Subagents | $20-40 | $2-4 (Haiku) |
| Bootstrap context | $30-50 | $15-25 (-53%) |
| Work requests | $30-80 | $30-80 |
| Total | $100-200 | $10-30 |
7 Optimizations · Built into MILAGPT
Multi-model routing
The most powerful optimization. Instead of one model for everything — each task gets the right model:
- Sonnet 4.5 — for primary tasks (code, analysis, creative work)
- Haiku 4.5 — for routine tasks and subagents ($0.25/M vs $3/M — 12x cheaper)
- Ollama llama3.2 — for heartbeats (free, runs locally)
A heartbeat doesn't need Sonnet — it just needs to check a couple of files and reply "all good." Haiku handles this perfectly.
Savings: 40-50% of total expenses.
Free heartbeats on Ollama
Heartbeats are background checks. Every 3-4 hours the assistant wakes up, checks email, calendar, GitHub. If nothing important — it replies "HEARTBEAT_OK."
In standard OpenClaw this uses Sonnet — $3 per million tokens. In MILAGPT, heartbeats run on Ollama llama3.2:3b — a 2 GB model that runs locally. Cost: zero.
Savings: $15-25/mo → $0.
Compressed workspace (20 KB instead of 45+)
Every message to the assistant starts by loading workspace files into context. We audited each file:
- Removed duplicates between files
- Archived old memory (MEMORY.md: 22 KB → 4.4 KB)
- Trimmed AGENTS.md (7.8 KB → 2.3 KB) and SOUL.md (7.2 KB → 4.2 KB)
- Simplified HEARTBEAT.md (4.8 KB → 1.6 KB)
Result: 45 KB → 20 KB, saving ~53% of input tokens per message.
bootstrapMaxChars limit
One line in the config that caps the bootstrap context size:
"bootstrapMaxChars": 12000
If the workspace grows — OpenClaw will trim it instead of loading it all. Insurance against accidental bloat.
Token Efficiency instructions in system prompt
We added a Token Efficiency block to SOUL.md:
- Keep responses concise. Don't repeat context back.
- For heartbeats: if nothing to report → just HEARTBEAT_OK
- Don't retell files — use references.
- Group checks: one message instead of many.
The model generates fewer output tokens. A small thing, but over a month — it adds up.
Automatic session cleanup
Every session is saved to a .jsonl file. Over a month — hundreds of megabytes. MILAGPT includes a cleanup-sessions.sh script that archives old sessions and deletes the originals.
A clean system = a fast system.
Fallback chain for rate limits
Under heavy load, the Anthropic API returns rate limit errors. Standard OpenClaw just waits. MILAGPT automatically switches to a fallback model:
Sonnet (rate limit) → Haiku (cheaper and more available)
You don't waste time waiting, and you pay less for fallback requests.
Comparison · OpenClaw vs MILAGPT
| Parameter | OpenClaw (standard) | MILAGPT |
|---|---|---|
| Model for everything | Sonnet ($3/M input) | Multi-model routing |
| Heartbeat model | Sonnet ($3/M input) | Ollama llama3.2 (free) |
| Subagent model | Sonnet ($3/M input) | Haiku ($0.25/M input) |
| Bootstrap context | 45+ KB (~15K tokens) | 20 KB (~7K tokens) |
| bootstrapMaxChars | Unlimited | 12,000 characters |
| Token Efficiency prompt | No | Built-in |
| Session cleanup | Manual | Automatic script |
| Rate limit fallback | Wait | Auto-switch |
| Idle cost/day | $2-5 | $0 |
| Cost/mo | $100-300 | $10-30 |
Why · This Matters
An AI assistant is a daily tool. If it costs $200/mo, you'll think twice before every message. If it's $10-15 — you just use it freely.
MILAGPT is built to make AI assistants affordable. All optimizations aren't separate settings you need to tinker with. They're built into the product and work out of the box.
Try MILAGPT
All 7 optimizations are already included. You don't need to figure out model routing, install Ollama manually, or compress workspace files.
A personal AI assistant that runs on your Mac via Telegram. With optimized costs and a Russian-language interface.