MILAGPT · ЭКОНОМИЯ ТОКЕНОВ

Как MILAGPT экономит 90% на AI-токенах

Реальная история оптимизации: с $100/мес до $10-15. Без потери качества.

~8 минут чтения 7 оптимизаций -90% расходов
MILAGPT · TOKEN SAVINGS

How MILAGPT Saves 90% on AI Tokens

A real optimization story: from $100/mo to $10-15. No quality loss.

~8 min read 7 optimizations -90% costs

Проблема · AI-ассистент — это дорого

Вы настроили OpenClaw, подключили Telegram, прописали workspace-файлы. Всё работает. А потом приходит счёт от Anthropic: $150 за месяц.

Стандартный OpenClaw из коробки использует одну модель для всего — обычно Claude Sonnet. Это значит:

  • Каждый heartbeat (проверка «жив ли ассистент?») — Sonnet. Это $3 за миллион input-токенов.
  • Каждый subagent (параллельная задача) — тоже Sonnet.
  • Каждое сообщение начинается с загрузки всего workspace в контекст. У типичного пользователя это 45+ КБ текста — около 15 000 токенов.
  • Heartbeats запускаются каждые 3-4 часа, даже если ничего не произошло.

Итог: вы платите $3-5 в день просто за то, что ассистент существует. Добавьте реальную работу — и $100-300/мес набегает легко.

Наш опыт · Реальные цифры

MILAGPT — персональный AI-ассистент на базе OpenClaw, который мы строим для себя и своих клиентов. Домен milagpt.io.

Когда мы посчитали расходы, картина была такой:

Статья расходовСтоимость/мес
Heartbeats (Sonnet, каждые 3-4 часа)$15-25
Subagents (Sonnet, параллельные задачи)$20-40
Bootstrap context (45 КБ на каждое сообщение)$30-50
Рабочие запросы (реальные задачи)$30-80
Итого$100-200

Две трети расходов — это не работа, а накладные расходы.

Мы потратили день на оптимизацию. Результат:

Статья расходовБылоСтало
Heartbeats$15-25$0 (Ollama)
Subagents$20-40$2-4 (Haiku)
Bootstrap context$30-50$15-25 (-53%)
Рабочие запросы$30-80$30-80
Итого$100-200$10-30

7 оптимизаций · Встроены в MILAGPT

#1

Multi-model routing

Самая мощная оптимизация. Вместо одной модели для всего — каждая задача получает подходящую модель:

  • Sonnet 4.5 — для основных задач (код, анализ, креатив)
  • Haiku 4.5 — для рутины и subagents ($0.25/M vs $3/M — в 12 раз дешевле)
  • Ollama llama3.2 — для heartbeats (бесплатно, локально)

Heartbeat не нуждается в Sonnet — ему нужно проверить пару файлов и ответить «всё ок». Haiku справляется с этим идеально.

Экономия: 40-50% от общих расходов.

#2

Бесплатные heartbeats на Ollama

Heartbeats — фоновые проверки. Каждые 3-4 часа ассистент просыпается, проверяет почту, календарь, GitHub. Если ничего важного — отвечает «HEARTBEAT_OK».

В стандартном OpenClaw это Sonnet — $3 за миллион токенов. В MILAGPT heartbeats работают на Ollama llama3.2:3b — модель в 2 ГБ, которая крутится локально. Стоимость: ноль.

Экономия: $15-25/мес → $0.

#3

Сжатый workspace (20 КБ вместо 45+)

Каждое сообщение ассистенту начинается с загрузки workspace-файлов в контекст. Мы провели аудит каждого файла:

  • Убрали дубликаты между файлами
  • Архивировали старую память (MEMORY.md: 22 КБ → 4.4 КБ)
  • Сократили AGENTS.md (7.8 КБ → 2.3 КБ) и SOUL.md (7.2 КБ → 4.2 КБ)
  • Упростили HEARTBEAT.md (4.8 КБ → 1.6 КБ)

Результат: 45 КБ → 20 КБ, экономия ~53% input-токенов на каждое сообщение.

#4

bootstrapMaxChars лимит

Одна строка в конфиге, которая ограничивает размер bootstrap-контекста:

"bootstrapMaxChars": 12000

Если workspace разрастается — OpenClaw обрежет его, а не загрузит весь. Страховка от случайного раздувания.

#5

Token Efficiency инструкции в system prompt

В SOUL.md мы добавили блок Token Efficiency:

  • Отвечай кратко. Не повторяй контекст обратно.
  • Для heartbeats: если нечего сообщить → только HEARTBEAT_OK
  • Не пересказывай файлы — используй ссылки.
  • Группируй проверки: одно сообщение вместо нескольких.

Модель генерирует меньше output-токенов. Мелочь, но на масштабе месяца — заметно.

#6

Автоматическая очистка сессий

Каждая сессия сохраняется в .jsonl-файл. За месяц — сотни мегабайт. MILAGPT включает скрипт cleanup-sessions.sh, который архивирует старые сессии и удаляет оригиналы.

Чистая система = быстрая система.

#7

Fallback-цепочка для rate limits

При высокой нагрузке Anthropic API возвращает rate limit ошибки. Стандартный OpenClaw просто ждёт. MILAGPT автоматически переключается на fallback-модель:

Sonnet (rate limit) → Haiku (дешевле и доступнее)

Вы не теряете время на ожидание, а платите меньше за fallback-запросы.

Сравнение · OpenClaw vs MILAGPT

ПараметрOpenClaw (стандарт)MILAGPT
Модель для всегоSonnet ($3/M input)Multi-model routing
Heartbeat модельSonnet ($3/M input)Ollama llama3.2 (бесплатно)
Subagent модельSonnet ($3/M input)Haiku ($0.25/M input)
Bootstrap context45+ КБ (~15K токенов)20 КБ (~7K токенов)
bootstrapMaxCharsНе ограничен12 000 символов
Token Efficiency promptНетВстроен
Очистка сессийВручнуюАвтоматический скрипт
Fallback при rate limitОжиданиеАвто-переключение
Idle расход/день$2-5$0
Расход/мес$100-300$10-30

Почему · Это важно

AI-ассистент — это инструмент на каждый день. Если он стоит $200/мес, вы будете думать дважды перед каждым сообщением. Если $10-15 — вы просто пользуетесь им свободно.

MILAGPT создан для того, чтобы AI-ассистент был доступным. Все оптимизации — не отдельные настройки, которые нужно ковырять. Они встроены в продукт и работают из коробки.

Попробуйте MILAGPT

Все 7 оптимизаций уже включены. Вам не нужно разбираться в model routing, ставить Ollama вручную или сжимать workspace-файлы.

Персональный AI-ассистент, который работает на вашем Mac через Telegram. С оптимизированными расходами и русскоязычным интерфейсом.

Problem · AI Assistants Are Expensive

You set up OpenClaw, connected Telegram, configured workspace files. Everything works. Then the Anthropic bill arrives: $150 per month.

Standard OpenClaw uses one model for everything out of the box — usually Claude Sonnet. This means:

  • Every heartbeat (an "is the assistant alive?" check) — Sonnet. That's $3 per million input tokens.
  • Every subagent (parallel task) — also Sonnet.
  • Every message starts by loading the entire workspace into context. For a typical user, that's 45+ KB of text — about 15,000 tokens.
  • Heartbeats fire every 3-4 hours, even if nothing happened.

Result: you pay $3-5 per day just for the assistant to exist. Add real work — and $100-300/mo adds up fast.

Our Experience · Real Numbers

MILAGPT is a personal AI assistant built on OpenClaw that we develop for ourselves and our clients. Website: milagpt.io.

When we tallied the expenses, here's what we saw:

Expense CategoryCost/mo
Heartbeats (Sonnet, every 3-4 hours)$15-25
Subagents (Sonnet, parallel tasks)$20-40
Bootstrap context (45 KB per message)$30-50
Work requests (actual tasks)$30-80
Total$100-200

Two thirds of expenses are overhead, not actual work.

We spent a day optimizing. The result:

Expense CategoryBeforeAfter
Heartbeats$15-25$0 (Ollama)
Subagents$20-40$2-4 (Haiku)
Bootstrap context$30-50$15-25 (-53%)
Work requests$30-80$30-80
Total$100-200$10-30

7 Optimizations · Built into MILAGPT

#1

Multi-model routing

The most powerful optimization. Instead of one model for everything — each task gets the right model:

  • Sonnet 4.5 — for primary tasks (code, analysis, creative work)
  • Haiku 4.5 — for routine tasks and subagents ($0.25/M vs $3/M — 12x cheaper)
  • Ollama llama3.2 — for heartbeats (free, runs locally)

A heartbeat doesn't need Sonnet — it just needs to check a couple of files and reply "all good." Haiku handles this perfectly.

Savings: 40-50% of total expenses.

#2

Free heartbeats on Ollama

Heartbeats are background checks. Every 3-4 hours the assistant wakes up, checks email, calendar, GitHub. If nothing important — it replies "HEARTBEAT_OK."

In standard OpenClaw this uses Sonnet — $3 per million tokens. In MILAGPT, heartbeats run on Ollama llama3.2:3b — a 2 GB model that runs locally. Cost: zero.

Savings: $15-25/mo → $0.

#3

Compressed workspace (20 KB instead of 45+)

Every message to the assistant starts by loading workspace files into context. We audited each file:

  • Removed duplicates between files
  • Archived old memory (MEMORY.md: 22 KB → 4.4 KB)
  • Trimmed AGENTS.md (7.8 KB → 2.3 KB) and SOUL.md (7.2 KB → 4.2 KB)
  • Simplified HEARTBEAT.md (4.8 KB → 1.6 KB)

Result: 45 KB → 20 KB, saving ~53% of input tokens per message.

#4

bootstrapMaxChars limit

One line in the config that caps the bootstrap context size:

"bootstrapMaxChars": 12000

If the workspace grows — OpenClaw will trim it instead of loading it all. Insurance against accidental bloat.

#5

Token Efficiency instructions in system prompt

We added a Token Efficiency block to SOUL.md:

  • Keep responses concise. Don't repeat context back.
  • For heartbeats: if nothing to report → just HEARTBEAT_OK
  • Don't retell files — use references.
  • Group checks: one message instead of many.

The model generates fewer output tokens. A small thing, but over a month — it adds up.

#6

Automatic session cleanup

Every session is saved to a .jsonl file. Over a month — hundreds of megabytes. MILAGPT includes a cleanup-sessions.sh script that archives old sessions and deletes the originals.

A clean system = a fast system.

#7

Fallback chain for rate limits

Under heavy load, the Anthropic API returns rate limit errors. Standard OpenClaw just waits. MILAGPT automatically switches to a fallback model:

Sonnet (rate limit) → Haiku (cheaper and more available)

You don't waste time waiting, and you pay less for fallback requests.

Comparison · OpenClaw vs MILAGPT

ParameterOpenClaw (standard)MILAGPT
Model for everythingSonnet ($3/M input)Multi-model routing
Heartbeat modelSonnet ($3/M input)Ollama llama3.2 (free)
Subagent modelSonnet ($3/M input)Haiku ($0.25/M input)
Bootstrap context45+ KB (~15K tokens)20 KB (~7K tokens)
bootstrapMaxCharsUnlimited12,000 characters
Token Efficiency promptNoBuilt-in
Session cleanupManualAutomatic script
Rate limit fallbackWaitAuto-switch
Idle cost/day$2-5$0
Cost/mo$100-300$10-30

Why · This Matters

An AI assistant is a daily tool. If it costs $200/mo, you'll think twice before every message. If it's $10-15 — you just use it freely.

MILAGPT is built to make AI assistants affordable. All optimizations aren't separate settings you need to tinker with. They're built into the product and work out of the box.

Try MILAGPT

All 7 optimizations are already included. You don't need to figure out model routing, install Ollama manually, or compress workspace files.

A personal AI assistant that runs on your Mac via Telegram. With optimized costs and a Russian-language interface.