Lokální LLM modely: Ollama, LM Studio a self-hosted AI pro vývojáře

Proč spouštět AI lokálně?

Cloud AI služby jako GPT-4, Claude nebo Gemini jsou skvělé — ale ne vždy jsou tou nejlepší volbou. Existuje řada situací, kdy lokální model na vašem vlastním hardware dává mnohem větší smysl:

Soukromí a bezpečnost — váš kód nikdy neopustí váš počítač. Žádná třetí strana nevidí vaše prompty, zdrojový kód ani firemní data. Pro regulované odvětví (finance, zdravotnictví, obrana) může být cloud AI úplně vyloučené.
Nulové náklady na API — žádné tokeny, žádné faktury, žádné překvapení na konci měsíce. Jednou investujete do hardware a pak je každý dotaz zdarma.
Offline přístup — v letadle, na chatě bez internetu, v air-gapped prostředí. Lokální model funguje vždy a všude.
Nulová latence — žádné čekání na síťový round-trip. Odpověď začne okamžitě, protože model běží přímo na vašem stroji.
Plná kontrola — vybíráte si model, kvantizaci, parametry inference. Můžete fine-tunovat, experimentovat, měnit teplotu a system prompt bez omezení.

0 Kč

náklady na API — každý dotaz na lokální model je zcela zdarma

Kdy lokální model a kdy cloud?

Lokální modely nejsou univerzální náhrada cloudu. Každý přístup má své silné stránky a je důležité vybrat správný nástroj pro daný úkol.

Cloud API (GPT-4, Claude, Gemini)

Nejvyšší kvalita odpovědí. Obrovský kontext (128k–1M tokenů). Ideální pro komplexní refaktoring, architektonická rozhodnutí a generování rozsáhlého kódu. Platíte za každý token. Vyžaduje internet. Data opouští váš počítač.

Lokální model (Ollama, LM Studio)

Maximální soukromí. Nulové náklady. Offline přístup. Nízká latence. Ideální pro code completion, unit testy, dokumentaci, vysvětlení kódu a rychlé dotazy. Kvalita závisí na hardware a velikosti modelu.

Praktické pravidlo: pro každodenní rutinní úkoly (doplňování kódu, psaní testů, generování docstringů, vysvětlení funkce) je lokální model naprosto dostačující. Pro komplexní úlohy vyžadující velký kontext a hluboké porozumění (refaktoring celé architektury, bezpečnostní audit, migrace frameworku) sáhněte po cloud API.

Hardware požadavky

Lokální modely běží primárně v GPU paměti (VRAM). Čím větší model, tím více paměti potřebujete. Tady jsou tři úrovně setup:

Minimální setup

GPU — 8 GB VRAM (RTX 3060, RTX 4060, Apple M1 s 8 GB unified memory)
RAM — 16 GB
Disk — 20 GB volného místa SSD
Modely — 7B parametrové modely v Q4 kvantizaci (cca 4 GB na model)

8 GB

VRAM stačí pro 7B modely — základní code completion a jednoduché úkoly

Doporučený setup

GPU — 16–24 GB VRAM (RTX 4070 Ti Super, RTX 4090, Apple M2/M3 Pro s 18+ GB)
RAM — 32 GB
Disk — 100 GB SSD
Modely — 13B–34B modely. Výrazně lepší kvalita kódu, schopnost sledovat složitější instrukce.

Ideální setup

GPU — 48+ GB VRAM (RTX A6000, 2x RTX 4090, Apple M3/M4 Max s 64+ GB)
RAM — 64+ GB
Disk — 500 GB NVMe SSD
Modely — 70B parametrů a víc. Kvalita se blíží cloud API. Plnohodnotný AI asistent pro kódování.

48 GB+

VRAM pro 70B modely — kvalita srovnatelná s cloud API

Apple Silicon (M1/M2/M3/M4) je pro lokální modely výjimečně dobrá volba. Unified memory znamená, že celá RAM je přístupná GPU — MacBook Pro s 36 GB RAM zvládne 34B model, Mac Studio s 192 GB RAM utáhne i 70B+ modely v plné kvalitě.

Ollama — Docker pro AI modely

Ollama je nejpopulárnější nástroj pro spouštění LLM modelů lokálně. Představte si ho jako Docker, ale místo kontejnerů spravuje jazykové modely. Jeden příkaz stáhne model, druhý ho spustí. Žádná konfigurace, žádné závislosti, žádné kompilování.

Ollama podporuje macOS, Windows i Linux a automaticky využívá GPU akceleraci (NVIDIA CUDA, Apple Metal, AMD ROCm). Pod kapotou používá llama.cpp — optimalizovaný C++ engine pro inference kvantizovaných modelů.

Instalace

macOS

# Přes Homebrew (doporučeno) brew install ollama # Nebo stáhněte .dmg z https://ollama.com/download

Linux

# Instalační skript (detekuje GPU automaticky) curl -fsSL https://ollama.com/install.sh | sh # Ověření instalace ollama --version

Windows

# Stáhněte instalátor z https://ollama.com/download # Nebo přes winget: winget install Ollama.Ollama

Po instalaci Ollama běží jako služba na pozadí a naslouchá na http://localhost:11434. Na macOS a Windows se spustí automaticky, na Linuxu přes systemd.

Základní příkazy Ollama

Ollama má minimalistické CLI. Stačí znát čtyři příkazy a můžete začít pracovat:

Klíčové příkazy

# Stáhnout model (první spuštění ho stáhne automaticky) ollama pull qwen2.5-coder:7b # Spustit model a otevřít chat ollama run qwen2.5-coder:7b # Seznam stažených modelů ollama list # Informace o modelu (velikost, kvantizace, parametry) ollama show qwen2.5-coder:7b # Spustit API server (na macOS/Windows běží automaticky) ollama serve # Smazat model ollama rm qwen2.5-coder:7b

Příkaz ollama run otevře interaktivní chat přímo v terminálu. Napíšete prompt, dostanete odpověď. Pro ukončení napište /bye. Pro systémový prompt použijte /set system "Jsi expert na Python.".

Nejlepší modely pro kódování

Ne každý model je vhodný pro práci s kódem. Tady jsou osvědčené volby seřazené podle velikosti — od nejmenších po největší:

Qwen 2.5 Coder

Aktuálně nejlepší open-source model pro kódování. Dostupný v několika velikostech (1.5B, 3B, 7B, 14B, 32B). Verze 32B se v benchmarcích vyrovná GPT-4o pro code completion. Výborná podpora pro TypeScript, Python, Go, Rust a dalších 40+ jazyků.

Qwen 2.5 Coder

# Lehká verze pro slabší hardware (cca 4.7 GB) ollama run qwen2.5-coder:7b # Silnější verze pro 16+ GB VRAM (cca 9 GB) ollama run qwen2.5-coder:14b # Nejsilnější — vyžaduje 24+ GB VRAM (cca 20 GB) ollama run qwen2.5-coder:32b

DeepSeek Coder V2

Mixture-of-Experts model se 236B parametry, ale díky MoE architektuře aktivuje jen 21B parametrů na token. Excelentní v code generation, matematice a logice. Verze 16B (Lite) běží i na slabším hardware.

CodeLlama

Model od Meta trénovaný specificky na kód. Dostupný v 7B, 13B, 34B a 70B verzích. Podporuje infilling (doplňování kódu uprostřed souboru) a má varianty optimalizované pro Python a instrukce.

Mistral a Codestral

Mistral je výborný general-purpose model. Codestral (22B) od Mistral AI je specializovaný na kód a podporuje přes 80 programovacích jazyků. Rychlý a efektivní pro fill-in-the-middle úkoly.

Velikosti modelů a výkon

Počet parametrů (B = miliardy) přímo ovlivňuje kvalitu i hardwarové nároky. Tady je přehled typických velikostí po kvantizaci na Q4_K_M:

Malé modely (3B–7B)

Velikost 2–5 GB. 8 GB VRAM. Rychlá odezva (50+ tokenů/s). Vhodné pro jednoduché úkoly: doplňování kódu, docstringy, unit testy. Občas halucinují u složitějších problémů.

Velké modely (32B–70B)

Velikost 20–45 GB. 24–48 GB VRAM. Pomalejší odezva (10–25 tokenů/s). Kvalita blízká cloud API. Zvládnou komplexní refaktoring, debugování, architektonické rozhodnutí. Méně halucinací.

50+ t/s

tokenů za sekundu u 7B modelu na moderním hardware — rychlejší než cloud API

OpenAI-kompatibilní API

Klíčová vlastnost Ollama: po spuštění automaticky poskytuje REST API kompatibilní s OpenAI formátem. To znamená, že jakýkoliv nástroj, který umí komunikovat s OpenAI API, může bez úprav používat vaše lokální modely:

API příklady

# Chat completion (OpenAI-kompatibilní endpoint) curl http://localhost:11434/v1/chat/completions \ -H "Content-Type: application/json" \ -d '{ "model": "qwen2.5-coder:7b", "messages": [{"role": "user", "content": "Napiš Python funkci pro fibonacci"}] }' # Seznam dostupných modelů curl http://localhost:11434/v1/models

Endpoint http://localhost:11434/v1 funguje jako drop-in náhrada za https://api.openai.com/v1. Stačí změnit base URL a není potřeba žádný API klíč.

OpenAI-kompatibilní API je killer feature Ollama. Díky němu můžete lokální model použít v libovolném nástroji bez jakýchkoliv úprav — stačí přesměrovat endpoint z api.openai.com na localhost:11434.

LM Studio — grafická alternativa

LM Studio je desktopová aplikace s grafickým rozhraním pro stahování, správu a spouštění lokálních modelů. Pokud preferujete vizuální rozhraní před příkazovou řádkou, LM Studio je pro vás.

Hlavní výhody:

Vyhledávání modelů — procházejte a stahujte modely přímo z Hugging Face. Filtrujte podle velikosti, kvantizace a kompatibility s vaším hardware.
Chat rozhraní — vizuální chat podobný ChatGPT, ale vše běží lokálně. Podporuje více konverzací, system prompty a nastavení parametrů.
Lokální API server — stejně jako Ollama, i LM Studio nabízí OpenAI-kompatibilní API server na http://localhost:1234/v1.
Multiplatformní — dostupný pro macOS, Windows i Linux. Instalace jedním klikem.
Hardware monitoring — vizuálně vidíte využití GPU, RAM a rychlost inference přímo v aplikaci.

LM Studio stáhnete z https://lmstudio.ai. Aplikace je zdarma pro osobní použití.

LM Studio a Ollama se nevylučují — můžete mít obojí. LM Studio pro vizuální testování a experimentování s modely, Ollama jako backend pro vývojářské nástroje. Sdílejí formát modelů (GGUF), takže jeden stažený model funguje v obou.

Integrace s vývojářskými nástroji

Samotný chat s lokálním modelem je užitečný, ale skutečná síla přichází s integrací do vašeho development workflow. Tady jsou nejdůležitější propojení:

Ollama + Continue (VS Code / JetBrains)

Continue je open-source AI asistent pro VS Code a JetBrains IDE. Podporuje lokální modely přes Ollama jako primární backend. Nabízí autocomplete, chat, inline edit a generování kódu — vše poháněné vaším lokálním modelem.

Continue konfigurace (~/.continue/config.json)

{ "models": [{ "title": "Qwen 2.5 Coder 14B", "provider": "ollama", "model": "qwen2.5-coder:14b" }], "tabAutocompleteModel": { "title": "Qwen 2.5 Coder 7B", "provider": "ollama", "model": "qwen2.5-coder:7b" } }

Tip: použijte menší model (7B) pro autocomplete (rychlost je klíčová) a větší model (14B–32B) pro chat a refaktoring (kvalita je důležitější).

Ollama + OpenCode

Jak jsme psali v našem článku o OpenCode, tento terminálový AI agent přímo podporuje Ollama jako providera. Stačí nastavit model v konfiguraci:

OpenCode + Ollama

# Spustit OpenCode s lokálním modelem opencode --model ollama/qwen2.5-coder:14b # Nebo v opencode.json: { "provider": "ollama", "model": "qwen2.5-coder:14b" }

Ollama + Cursor

Cursor IDE podporuje custom OpenAI-kompatibilní endpointy. V nastavení Cursor přidejte nový model s base URL http://localhost:11434/v1 a jako model zadejte název vašeho Ollama modelu. Žádný API klíč není potřeba — stačí zadat libovolný neprázdný řetězec.

Lokální model jako universální backend

Díky OpenAI-kompatibilnímu API můžete Ollama použít prakticky kdekoliv:

Aider — aider --model ollama/qwen2.5-coder:14b
GitHub Copilot alternativy — Tabby, Codeium self-hosted
Python skripty — OpenAI Python SDK s přesměrovaným base URL
Node.js — libovolná OpenAI SDK knihovna, změňte jen endpoint

Pokročilé téma: kvantizace modelů

Kvantizace je klíčová technika, která umožňuje spouštět velké modely na běžném hardware. Místo 32bitových čísel s plovoucí řádovou čárkou (FP32) se váhy modelu uloží v nižší přesnosti — typicky 4 nebo 5 bitů. To drasticky zmenší velikost modelu a zrychlí inference s minimálním dopadem na kvalitu.

Nejpoužívanější formát je GGUF (GPT-Generated Unified Format). Čísla v názvech kvantizací (Q4_K_M, Q5_K_M, Q8_0) udávají bitovou šířku:

Q4_K_M — 4bitová kvantizace. Nejlepší poměr velikost/kvalita. Doporučená volba pro většinu případů.
Q5_K_M — 5bitová kvantizace. O 25 % větší než Q4, ale mírně lepší kvalita. Pokud máte dostatek VRAM.
Q8_0 — 8bitová kvantizace. Téměř žádná ztráta kvality, ale 2x větší než Q4. Pro uživatele s hodně VRAM.
FP16 — poloviční přesnost bez kvantizace. Referenční kvalita, ale obrovské nároky na paměť.

Vlastní kvantizace modelu

# Ollama automaticky vybírá správnou kvantizaci. # Pro manuální výběr vytvořte Modelfile: cat > Modelfile << 'EOF' FROM qwen2.5-coder:32b-instruct-q4_K_M PARAMETER temperature 0.2 PARAMETER num_ctx 8192 SYSTEM "Jsi expert na TypeScript a Python. Odpovídej stručně a s ukázkami kódu." EOF # Vytvořit vlastní model ollama create my-coder -f Modelfile # Spustit ollama run my-coder

Apple Silicon: M1, M2, M3, M4

Apple Silicon čipy mají pro lokální modely dvě obrovské výhody: unified memory (CPU a GPU sdílejí celou RAM) a výbornou propustnost paměti (Memory Bandwidth). To znamená:

M1/M2 s 8 GB — pohodlně 7B modely, s trochou trpělivosti 13B
M2/M3 Pro s 18 GB — 13B–14B modely bez problémů
M2/M3 Pro s 36 GB — 34B modely v plné kvalitě
M3/M4 Max s 64 GB — 70B modely komfortně
M2/M4 Ultra s 192 GB — i ty největší open-source modely (120B+)

Ollama na macOS automaticky využívá Metal akceleraci. Žádná konfigurace není potřeba — nainstalujete, spustíte a funguje.

Docker deployment pro týmy

Pro sdílení lokálních modelů v rámci týmu nebo organizace je ideální Docker. Ollama nabízí oficiální Docker image, který zjednodušuje deployment:

Docker setup

# Spustit Ollama v Docker kontejneru (s GPU) docker run -d --gpus=all \ -v ollama:/root/.ollama \ -p 11434:11434 \ --name ollama \ ollama/ollama # Stáhnout model do kontejneru docker exec -it ollama ollama pull qwen2.5-coder:14b # Tým se připojí přes síť: # http://server-ip:11434/v1

Výhoda týmového setup: jeden výkonný server s GPU obsluhuje celý tým. Vývojáři nemusí mít vlastní GPU — připojí se ke sdílenému Ollama serveru přes síť a používají modely, jako by běžely lokálně.

Pro týmový deployment nastavte environment proměnnou OLLAMA_HOST=0.0.0.0, aby Ollama naslouchala na všech síťových rozhraních (ne jen localhost). V produkci doporučujeme přidat reverse proxy (nginx, Caddy) s autentizací.

Praktické srovnání: lokální vs. cloud

Provedli jsme neformální srovnání na typických vývojářských úkolech. Testovali jsme Qwen 2.5 Coder 14B (lokálně na M3 Pro 36 GB) proti Claude Sonnet (cloud API):

Code completion (doplnění funkce) — lokální model: 0.3s, cloud: 1.2s. Lokální model je rychlejší díky nulové latenci. Kvalita srovnatelná u jednoduchých úloh.
Generování unit testů — lokální model: 2.1s, cloud: 3.5s. Lokální model generuje funkční testy, cloud model lepší edge cases.
Refaktoring 200 řádků — lokální model: 8s, cloud: 5s. Cloud je rychlejší na generování textu, ale celkový čas je srovnatelný kvůli síťové latenci.
Architektonické rozhodnutí — zde cloud jasně vítězí. Větší modely lépe chápou širší kontext a navrhují sofistikovanější řešení.
Náklady za měsíc (500 dotazů/den) — lokální: 0 Kč (amortizovaný HW), cloud: cca 2 000–5 000 Kč.

0.3s

odezva lokálního modelu pro code completion — 4x rychlejší než cloud API

Doporučený setup pro různé scénáře

Na závěr přinášíme konkrétní doporučení podle toho, jaký jste typ vývojáře a jaký máte hardware:

Individuální vývojář, MacBook Pro M3 Pro (18 GB)

Ollama + Qwen 2.5 Coder 7B pro autocomplete
Continue rozšíření ve VS Code
Cloud API (Claude/GPT-4) pro složité úkoly

Individuální vývojář, desktop s RTX 4090 (24 GB VRAM)

Ollama + Qwen 2.5 Coder 32B pro chat i autocomplete
Continue nebo Cursor s lokálním endpointem
Cloud API jen výjimečně — lokální model pokryje 90 % potřeb

Tým 5–10 vývojářů, firemní server s 2x RTX 4090

Ollama v Dockeru na serveru
Qwen 2.5 Coder 32B nebo 70B (s kvantizací na 2 GPU)
Vývojáři se připojí přes síť — OLLAMA_HOST=server:11434
Nulové náklady na API pro celý tým

Prostředí s přísnými bezpečnostními požadavky (air-gapped)

Ollama na izolovaném serveru bez přístupu k internetu
Modely staženy offline a nahrány ručně
Veškerá data zůstávají uvnitř firemní sítě

Shrnutí: Jak začít s lokálními modely

Nainstalujte Ollama — brew install ollama (macOS), curl -fsSL https://ollama.com/install.sh | sh (Linux) nebo instalátor pro Windows
Stáhněte model — ollama pull qwen2.5-coder:7b pro začátek
Vyzkoušejte chat — ollama run qwen2.5-coder:7b a zadejte kódovací úkol
Propojte s editorem — nainstalujte Continue rozšíření a nastavte Ollama jako backend
Experimentujte s velikostí — pokud máte dostatek VRAM, zkuste 14B nebo 32B model
Kombinujte — lokální model pro rychlé úkoly, cloud API pro komplexní práci

Lokální modely nejsou buď-anebo volba. Nejefektivnější setup kombinuje lokální model pro rutinní úkoly (rychlost, soukromí, nulové náklady) s cloud API pro náročné úlohy (kvalita, velký kontext). Začněte s Ollama a 7B modelem — za 5 minut budete mít AI asistenta, který běží výhradně na vašem stroji.

Chcete se naučit efektivně pracovat s lokálními AI modely a integrovat je do svého workflow? Na našich workshopech pro vývojáře vám ukážeme, jak nastavit optimální kombinaci lokálních a cloud modelů pro váš tým a stack.