Proč posílat svůj kód do cloudu, když ho může AI analyzovat přímo na vašem počítači? Lokální modely nabízí maximální soukromí, nulové náklady na API, offline přístup a plnou kontrolu. Tady je kompletní průvodce — od hardware přes Ollama a LM Studio až po integraci s vašimi vývojářskými nástroji.
Cloud AI služby jako GPT-4, Claude nebo Gemini jsou skvělé — ale ne vždy jsou tou nejlepší volbou. Existuje řada situací, kdy lokální model na vašem vlastním hardware dává mnohem větší smysl:
0 Kč
náklady na API — každý dotaz na lokální model je zcela zdarma
Lokální modely nejsou univerzální náhrada cloudu. Každý přístup má své silné stránky a je důležité vybrat správný nástroj pro daný úkol.
Cloud API (GPT-4, Claude, Gemini)
Nejvyšší kvalita odpovědí. Obrovský kontext (128k–1M tokenů). Ideální pro komplexní refaktoring, architektonická rozhodnutí a generování rozsáhlého kódu. Platíte za každý token. Vyžaduje internet. Data opouští váš počítač.
Lokální model (Ollama, LM Studio)
Maximální soukromí. Nulové náklady. Offline přístup. Nízká latence. Ideální pro code completion, unit testy, dokumentaci, vysvětlení kódu a rychlé dotazy. Kvalita závisí na hardware a velikosti modelu.
Praktické pravidlo: pro každodenní rutinní úkoly (doplňování kódu, psaní testů, generování docstringů, vysvětlení funkce) je lokální model naprosto dostačující. Pro komplexní úlohy vyžadující velký kontext a hluboké porozumění (refaktoring celé architektury, bezpečnostní audit, migrace frameworku) sáhněte po cloud API.
Lokální modely běží primárně v GPU paměti (VRAM). Čím větší model, tím více paměti potřebujete. Tady jsou tři úrovně setup:
8 GB
VRAM stačí pro 7B modely — základní code completion a jednoduché úkoly
48 GB+
VRAM pro 70B modely — kvalita srovnatelná s cloud API
Apple Silicon (M1/M2/M3/M4) je pro lokální modely výjimečně dobrá volba. Unified memory znamená, že celá RAM je přístupná GPU — MacBook Pro s 36 GB RAM zvládne 34B model, Mac Studio s 192 GB RAM utáhne i 70B+ modely v plné kvalitě.
Ollama je nejpopulárnější nástroj pro spouštění LLM modelů lokálně. Představte si ho jako Docker, ale místo kontejnerů spravuje jazykové modely. Jeden příkaz stáhne model, druhý ho spustí. Žádná konfigurace, žádné závislosti, žádné kompilování.
Ollama podporuje macOS, Windows i Linux a automaticky využívá GPU akceleraci (NVIDIA CUDA, Apple Metal, AMD ROCm). Pod kapotou používá llama.cpp — optimalizovaný C++ engine pro inference kvantizovaných modelů.
macOS
Linux
Windows
Po instalaci Ollama běží jako služba na pozadí a naslouchá na http://localhost:11434. Na macOS a Windows se spustí automaticky, na Linuxu přes systemd.
Ollama má minimalistické CLI. Stačí znát čtyři příkazy a můžete začít pracovat:
Klíčové příkazy
Příkaz ollama run otevře interaktivní chat přímo v terminálu. Napíšete prompt, dostanete odpověď. Pro ukončení napište /bye. Pro systémový prompt použijte /set system "Jsi expert na Python.".
Ne každý model je vhodný pro práci s kódem. Tady jsou osvědčené volby seřazené podle velikosti — od nejmenších po největší:
Aktuálně nejlepší open-source model pro kódování. Dostupný v několika velikostech (1.5B, 3B, 7B, 14B, 32B). Verze 32B se v benchmarcích vyrovná GPT-4o pro code completion. Výborná podpora pro TypeScript, Python, Go, Rust a dalších 40+ jazyků.
Qwen 2.5 Coder
Mixture-of-Experts model se 236B parametry, ale díky MoE architektuře aktivuje jen 21B parametrů na token. Excelentní v code generation, matematice a logice. Verze 16B (Lite) běží i na slabším hardware.
Model od Meta trénovaný specificky na kód. Dostupný v 7B, 13B, 34B a 70B verzích. Podporuje infilling (doplňování kódu uprostřed souboru) a má varianty optimalizované pro Python a instrukce.
Mistral je výborný general-purpose model. Codestral (22B) od Mistral AI je specializovaný na kód a podporuje přes 80 programovacích jazyků. Rychlý a efektivní pro fill-in-the-middle úkoly.
Počet parametrů (B = miliardy) přímo ovlivňuje kvalitu i hardwarové nároky. Tady je přehled typických velikostí po kvantizaci na Q4_K_M:
Malé modely (3B–7B)
Velikost 2–5 GB. 8 GB VRAM. Rychlá odezva (50+ tokenů/s). Vhodné pro jednoduché úkoly: doplňování kódu, docstringy, unit testy. Občas halucinují u složitějších problémů.
Velké modely (32B–70B)
Velikost 20–45 GB. 24–48 GB VRAM. Pomalejší odezva (10–25 tokenů/s). Kvalita blízká cloud API. Zvládnou komplexní refaktoring, debugování, architektonické rozhodnutí. Méně halucinací.
50+ t/s
tokenů za sekundu u 7B modelu na moderním hardware — rychlejší než cloud API
Klíčová vlastnost Ollama: po spuštění automaticky poskytuje REST API kompatibilní s OpenAI formátem. To znamená, že jakýkoliv nástroj, který umí komunikovat s OpenAI API, může bez úprav používat vaše lokální modely:
API příklady
Endpoint http://localhost:11434/v1 funguje jako drop-in náhrada za https://api.openai.com/v1. Stačí změnit base URL a není potřeba žádný API klíč.
OpenAI-kompatibilní API je killer feature Ollama. Díky němu můžete lokální model použít v libovolném nástroji bez jakýchkoliv úprav — stačí přesměrovat endpoint z api.openai.com na localhost:11434.
LM Studio je desktopová aplikace s grafickým rozhraním pro stahování, správu a spouštění lokálních modelů. Pokud preferujete vizuální rozhraní před příkazovou řádkou, LM Studio je pro vás.
Hlavní výhody:
http://localhost:1234/v1.
LM Studio stáhnete z https://lmstudio.ai. Aplikace je zdarma pro osobní použití.
LM Studio a Ollama se nevylučují — můžete mít obojí. LM Studio pro vizuální testování a experimentování s modely, Ollama jako backend pro vývojářské nástroje. Sdílejí formát modelů (GGUF), takže jeden stažený model funguje v obou.
Samotný chat s lokálním modelem je užitečný, ale skutečná síla přichází s integrací do vašeho development workflow. Tady jsou nejdůležitější propojení:
Continue je open-source AI asistent pro VS Code a JetBrains IDE. Podporuje lokální modely přes Ollama jako primární backend. Nabízí autocomplete, chat, inline edit a generování kódu — vše poháněné vaším lokálním modelem.
Continue konfigurace (~/.continue/config.json)
Tip: použijte menší model (7B) pro autocomplete (rychlost je klíčová) a větší model (14B–32B) pro chat a refaktoring (kvalita je důležitější).
Jak jsme psali v našem článku o OpenCode, tento terminálový AI agent přímo podporuje Ollama jako providera. Stačí nastavit model v konfiguraci:
OpenCode + Ollama
Cursor IDE podporuje custom OpenAI-kompatibilní endpointy. V nastavení Cursor přidejte nový model s base URL http://localhost:11434/v1 a jako model zadejte název vašeho Ollama modelu. Žádný API klíč není potřeba — stačí zadat libovolný neprázdný řetězec.
Díky OpenAI-kompatibilnímu API můžete Ollama použít prakticky kdekoliv:
aider --model ollama/qwen2.5-coder:14bKvantizace je klíčová technika, která umožňuje spouštět velké modely na běžném hardware. Místo 32bitových čísel s plovoucí řádovou čárkou (FP32) se váhy modelu uloží v nižší přesnosti — typicky 4 nebo 5 bitů. To drasticky zmenší velikost modelu a zrychlí inference s minimálním dopadem na kvalitu.
Nejpoužívanější formát je GGUF (GPT-Generated Unified Format). Čísla v názvech kvantizací (Q4_K_M, Q5_K_M, Q8_0) udávají bitovou šířku:
Vlastní kvantizace modelu
Apple Silicon čipy mají pro lokální modely dvě obrovské výhody: unified memory (CPU a GPU sdílejí celou RAM) a výbornou propustnost paměti (Memory Bandwidth). To znamená:
Ollama na macOS automaticky využívá Metal akceleraci. Žádná konfigurace není potřeba — nainstalujete, spustíte a funguje.
Pro sdílení lokálních modelů v rámci týmu nebo organizace je ideální Docker. Ollama nabízí oficiální Docker image, který zjednodušuje deployment:
Docker setup
Výhoda týmového setup: jeden výkonný server s GPU obsluhuje celý tým. Vývojáři nemusí mít vlastní GPU — připojí se ke sdílenému Ollama serveru přes síť a používají modely, jako by běžely lokálně.
Pro týmový deployment nastavte environment proměnnou OLLAMA_HOST=0.0.0.0, aby Ollama naslouchala na všech síťových rozhraních (ne jen localhost). V produkci doporučujeme přidat reverse proxy (nginx, Caddy) s autentizací.
Provedli jsme neformální srovnání na typických vývojářských úkolech. Testovali jsme Qwen 2.5 Coder 14B (lokálně na M3 Pro 36 GB) proti Claude Sonnet (cloud API):
0.3s
odezva lokálního modelu pro code completion — 4x rychlejší než cloud API
Na závěr přinášíme konkrétní doporučení podle toho, jaký jste typ vývojáře a jaký máte hardware:
OLLAMA_HOST=server:11434brew install ollama (macOS), curl -fsSL https://ollama.com/install.sh | sh (Linux) nebo instalátor pro Windowsollama pull qwen2.5-coder:7b pro začátekollama run qwen2.5-coder:7b a zadejte kódovací úkolLokální modely nejsou buď-anebo volba. Nejefektivnější setup kombinuje lokální model pro rutinní úkoly (rychlost, soukromí, nulové náklady) s cloud API pro náročné úlohy (kvalita, velký kontext). Začněte s Ollama a 7B modelem — za 5 minut budete mít AI asistenta, který běží výhradně na vašem stroji.
Chcete se naučit efektivně pracovat s lokálními AI modely a integrovat je do svého workflow? Na našich workshopech pro vývojáře vám ukážeme, jak nastavit optimální kombinaci lokálních a cloud modelů pro váš tým a stack.