Как MILAGPT экономит 90% на AI-токенах

Проблема · AI-ассистент — это дорого

Вы настроили OpenClaw, подключили Telegram, прописали workspace-файлы. Всё работает. А потом приходит счёт от Anthropic: $150 за месяц.

Стандартный OpenClaw из коробки использует одну модель для всего — обычно Claude Sonnet. Это значит:

Каждый heartbeat (проверка «жив ли ассистент?») — Sonnet. Это $3 за миллион input-токенов.
Каждый subagent (параллельная задача) — тоже Sonnet.
Каждое сообщение начинается с загрузки всего workspace в контекст. У типичного пользователя это 45+ КБ текста — около 15 000 токенов.
Heartbeats запускаются каждые 3-4 часа, даже если ничего не произошло.

Итог: вы платите $3-5 в день просто за то, что ассистент существует. Добавьте реальную работу — и $100-300/мес набегает легко.

Наш опыт · Реальные цифры

MILAGPT — персональный AI-ассистент на базе OpenClaw, который мы строим для себя и своих клиентов. Домен milagpt.io.

Когда мы посчитали расходы, картина была такой:

Статья расходов	Стоимость/мес
Heartbeats (Sonnet, каждые 3-4 часа)	$15-25
Subagents (Sonnet, параллельные задачи)	$20-40
Bootstrap context (45 КБ на каждое сообщение)	$30-50
Рабочие запросы (реальные задачи)	$30-80
Итого	$100-200

Две трети расходов — это не работа, а накладные расходы.

Мы потратили день на оптимизацию. Результат:

Статья расходов	Было	Стало
Heartbeats	$15-25	$0 (Ollama)
Subagents	$20-40	$2-4 (Haiku)
Bootstrap context	$30-50	$15-25 (-53%)
Рабочие запросы	$30-80	$30-80
Итого	$100-200	$10-30

7 оптимизаций · Встроены в MILAGPT

Multi-model routing

Самая мощная оптимизация. Вместо одной модели для всего — каждая задача получает подходящую модель:

Sonnet 4.5 — для основных задач (код, анализ, креатив)
Haiku 4.5 — для рутины и subagents ($0.25/M vs $3/M — в 12 раз дешевле)
Ollama llama3.2 — для heartbeats (бесплатно, локально)

Heartbeat не нуждается в Sonnet — ему нужно проверить пару файлов и ответить «всё ок». Haiku справляется с этим идеально.

Экономия: 40-50% от общих расходов.

Бесплатные heartbeats на Ollama

Heartbeats — фоновые проверки. Каждые 3-4 часа ассистент просыпается, проверяет почту, календарь, GitHub. Если ничего важного — отвечает «HEARTBEAT_OK».

В стандартном OpenClaw это Sonnet — $3 за миллион токенов. В MILAGPT heartbeats работают на Ollama llama3.2:3b — модель в 2 ГБ, которая крутится локально. Стоимость: ноль.

Экономия: $15-25/мес → $0.

Сжатый workspace (20 КБ вместо 45+)

Каждое сообщение ассистенту начинается с загрузки workspace-файлов в контекст. Мы провели аудит каждого файла:

Убрали дубликаты между файлами
Архивировали старую память (MEMORY.md: 22 КБ → 4.4 КБ)
Сократили AGENTS.md (7.8 КБ → 2.3 КБ) и SOUL.md (7.2 КБ → 4.2 КБ)
Упростили HEARTBEAT.md (4.8 КБ → 1.6 КБ)

Результат: 45 КБ → 20 КБ, экономия ~53% input-токенов на каждое сообщение.

bootstrapMaxChars лимит

Одна строка в конфиге, которая ограничивает размер bootstrap-контекста:

"bootstrapMaxChars": 12000

Если workspace разрастается — OpenClaw обрежет его, а не загрузит весь. Страховка от случайного раздувания.

Token Efficiency инструкции в system prompt

В SOUL.md мы добавили блок Token Efficiency:

Отвечай кратко. Не повторяй контекст обратно.
Для heartbeats: если нечего сообщить → только HEARTBEAT_OK
Не пересказывай файлы — используй ссылки.
Группируй проверки: одно сообщение вместо нескольких.

Модель генерирует меньше output-токенов. Мелочь, но на масштабе месяца — заметно.

Автоматическая очистка сессий

Каждая сессия сохраняется в .jsonl-файл. За месяц — сотни мегабайт. MILAGPT включает скрипт cleanup-sessions.sh, который архивирует старые сессии и удаляет оригиналы.

Чистая система = быстрая система.

Fallback-цепочка для rate limits

При высокой нагрузке Anthropic API возвращает rate limit ошибки. Стандартный OpenClaw просто ждёт. MILAGPT автоматически переключается на fallback-модель:

Sonnet (rate limit) → Haiku (дешевле и доступнее)

Вы не теряете время на ожидание, а платите меньше за fallback-запросы.

Сравнение · OpenClaw vs MILAGPT

Параметр	OpenClaw (стандарт)	MILAGPT
Модель для всего	Sonnet ($3/M input)	Multi-model routing
Heartbeat модель	Sonnet ($3/M input)	Ollama llama3.2 (бесплатно)
Subagent модель	Sonnet ($3/M input)	Haiku ($0.25/M input)
Bootstrap context	45+ КБ (~15K токенов)	20 КБ (~7K токенов)
bootstrapMaxChars	Не ограничен	12 000 символов
Token Efficiency prompt	Нет	Встроен
Очистка сессий	Вручную	Автоматический скрипт
Fallback при rate limit	Ожидание	Авто-переключение
Idle расход/день	$2-5	$0
Расход/мес	$100-300	$10-30

Почему · Это важно

AI-ассистент — это инструмент на каждый день. Если он стоит $200/мес, вы будете думать дважды перед каждым сообщением. Если $10-15 — вы просто пользуетесь им свободно.

MILAGPT создан для того, чтобы AI-ассистент был доступным. Все оптимизации — не отдельные настройки, которые нужно ковырять. Они встроены в продукт и работают из коробки.

Попробуйте MILAGPT

Все 7 оптимизаций уже включены. Вам не нужно разбираться в model routing, ставить Ollama вручную или сжимать workspace-файлы.

Персональный AI-ассистент, который работает на вашем Mac через Telegram. С оптимизированными расходами и русскоязычным интерфейсом.

Подробнее на milagpt.io →

Problem · AI Assistants Are Expensive

You set up OpenClaw, connected Telegram, configured workspace files. Everything works. Then the Anthropic bill arrives: $150 per month.

Standard OpenClaw uses one model for everything out of the box — usually Claude Sonnet. This means:

Every heartbeat (an "is the assistant alive?" check) — Sonnet. That's $3 per million input tokens.
Every subagent (parallel task) — also Sonnet.
Every message starts by loading the entire workspace into context. For a typical user, that's 45+ KB of text — about 15,000 tokens.
Heartbeats fire every 3-4 hours, even if nothing happened.

Result: you pay $3-5 per day just for the assistant to exist. Add real work — and $100-300/mo adds up fast.

Our Experience · Real Numbers

MILAGPT is a personal AI assistant built on OpenClaw that we develop for ourselves and our clients. Website: milagpt.io.

When we tallied the expenses, here's what we saw:

Expense Category	Cost/mo
Heartbeats (Sonnet, every 3-4 hours)	$15-25
Subagents (Sonnet, parallel tasks)	$20-40
Bootstrap context (45 KB per message)	$30-50
Work requests (actual tasks)	$30-80
Total	$100-200

Two thirds of expenses are overhead, not actual work.

We spent a day optimizing. The result:

Expense Category	Before	After
Heartbeats	$15-25	$0 (Ollama)
Subagents	$20-40	$2-4 (Haiku)
Bootstrap context	$30-50	$15-25 (-53%)
Work requests	$30-80	$30-80
Total	$100-200	$10-30

7 Optimizations · Built into MILAGPT

Multi-model routing

The most powerful optimization. Instead of one model for everything — each task gets the right model:

Sonnet 4.5 — for primary tasks (code, analysis, creative work)
Haiku 4.5 — for routine tasks and subagents ($0.25/M vs $3/M — 12x cheaper)
Ollama llama3.2 — for heartbeats (free, runs locally)

A heartbeat doesn't need Sonnet — it just needs to check a couple of files and reply "all good." Haiku handles this perfectly.

Savings: 40-50% of total expenses.

Free heartbeats on Ollama

Heartbeats are background checks. Every 3-4 hours the assistant wakes up, checks email, calendar, GitHub. If nothing important — it replies "HEARTBEAT_OK."

In standard OpenClaw this uses Sonnet — $3 per million tokens. In MILAGPT, heartbeats run on Ollama llama3.2:3b — a 2 GB model that runs locally. Cost: zero.

Savings: $15-25/mo → $0.

Compressed workspace (20 KB instead of 45+)

Every message to the assistant starts by loading workspace files into context. We audited each file:

Removed duplicates between files
Archived old memory (MEMORY.md: 22 KB → 4.4 KB)
Trimmed AGENTS.md (7.8 KB → 2.3 KB) and SOUL.md (7.2 KB → 4.2 KB)
Simplified HEARTBEAT.md (4.8 KB → 1.6 KB)

Result: 45 KB → 20 KB, saving ~53% of input tokens per message.

bootstrapMaxChars limit

One line in the config that caps the bootstrap context size:

"bootstrapMaxChars": 12000

If the workspace grows — OpenClaw will trim it instead of loading it all. Insurance against accidental bloat.

Token Efficiency instructions in system prompt

We added a Token Efficiency block to SOUL.md:

Keep responses concise. Don't repeat context back.
For heartbeats: if nothing to report → just HEARTBEAT_OK
Don't retell files — use references.
Group checks: one message instead of many.

The model generates fewer output tokens. A small thing, but over a month — it adds up.

Automatic session cleanup

Every session is saved to a .jsonl file. Over a month — hundreds of megabytes. MILAGPT includes a cleanup-sessions.sh script that archives old sessions and deletes the originals.

A clean system = a fast system.

Fallback chain for rate limits

Under heavy load, the Anthropic API returns rate limit errors. Standard OpenClaw just waits. MILAGPT automatically switches to a fallback model:

Sonnet (rate limit) → Haiku (cheaper and more available)

You don't waste time waiting, and you pay less for fallback requests.

Comparison · OpenClaw vs MILAGPT

Parameter	OpenClaw (standard)	MILAGPT
Model for everything	Sonnet ($3/M input)	Multi-model routing
Heartbeat model	Sonnet ($3/M input)	Ollama llama3.2 (free)
Subagent model	Sonnet ($3/M input)	Haiku ($0.25/M input)
Bootstrap context	45+ KB (~15K tokens)	20 KB (~7K tokens)
bootstrapMaxChars	Unlimited	12,000 characters
Token Efficiency prompt	No	Built-in
Session cleanup	Manual	Automatic script
Rate limit fallback	Wait	Auto-switch
Idle cost/day	$2-5	$0
Cost/mo	$100-300	$10-30

Why · This Matters

An AI assistant is a daily tool. If it costs $200/mo, you'll think twice before every message. If it's $10-15 — you just use it freely.

MILAGPT is built to make AI assistants affordable. All optimizations aren't separate settings you need to tinker with. They're built into the product and work out of the box.

Try MILAGPT

All 7 optimizations are already included. You don't need to figure out model routing, install Ollama manually, or compress workspace files.

A personal AI assistant that runs on your Mac via Telegram. With optimized costs and a Russian-language interface.

Learn more at milagpt.io →

Как MILAGPT экономит 90% на AI-токенах

How MILAGPT Saves 90% on AI Tokens

Проблема · AI-ассистент — это дорого

Наш опыт · Реальные цифры

7 оптимизаций · Встроены в MILAGPT

Multi-model routing

Бесплатные heartbeats на Ollama

Сжатый workspace (20 КБ вместо 45+)

bootstrapMaxChars лимит

Token Efficiency инструкции в system prompt

Автоматическая очистка сессий

Fallback-цепочка для rate limits

Сравнение · OpenClaw vs MILAGPT

Почему · Это важно

Попробуйте MILAGPT

Problem · AI Assistants Are Expensive

Our Experience · Real Numbers

7 Optimizations · Built into MILAGPT

Multi-model routing

Free heartbeats on Ollama

Compressed workspace (20 KB instead of 45+)

bootstrapMaxChars limit

Token Efficiency instructions in system prompt

Automatic session cleanup

Fallback chain for rate limits

Comparison · OpenClaw vs MILAGPT

Why · This Matters

Try MILAGPT