Úvod plus čtyři díly · 2026

RAG vysvětlený lidsky

Co je Retrieval Augmented Generation, jak funguje uvnitř, kde v reálném nasazení selhává a jaké pokročilé architektury (GraphRAG, CAG, Agentic RAG) to dnes řeší. Úvodní díl plus čtyři hlavní texty, pět úrovní. Od mapy variant jak dnes pracovat s vlastními daty v AI, přes laický úvod do RAG, technické fungování a expertní analýzu úskalí v produkci, až po pokročilé architektury, které jdou za hranici klasického RAGu.

Bez marketingu, bez floskulí. To co v běžných tutoriálech chybí: kde věci přestávají fungovat a co se s tím v praxi dělá.

Autor Pavel Horák Publikováno Květen 2026 Celkem ~100 minut čtení

Díl 00 / Úvod ~25 minut

Práce s vlastními daty v LLM, mapa variant

Pro každého, kdo začíná

Než půjdete do RAG, je dobré vědět, že to je jen jedna z cest. Šest úrovní jak dnes pracovat s vlastními soubory v AI. Od drag and drop do Claude, ChatGPT, Gemini, Perplexity a Le Chat, přes Projects, Custom GPTs, Gems a Spaces, NotebookLM, Obsidian s pluginy, firemní Microsoft 365 Copilot, Glean a Le Chat Enterprise až po lokální Ollama, Jan a AnythingLLM. Plus limity, o kterých výrobci nemluví.

Číst úvodní díl
Díl 01 / 04 ~8 minut

RAG pro každého

Pro běžné uživatele Claude, ChatGPT, Gemini

Bez programátorského žargonu. Proč nahrávat dokumenty do chatu funguje pro pět souborů a selhává pro pět tisíc, co je RAG a proč ho velké firmy potřebují. Vysvětlené přes knihovníka v knihovně.

Číst první díl
Díl 02 / 04 ~18 minut

RAG technicky, jak to funguje uvnitř

Pro IT manažery, juniorní vývojáře, technické PO

Tři fáze RAG do hloubky. Embedding modely, vektorové databáze, kosinová podobnost. Pět chunkovacích strategií a jejich kompromisy. Hybrid retrieval (sémantické plus fulltextové plus strukturované). Proč jsou metadata u malých chunků důležitější než samotný obsah.

Číst druhý díl
Díl 03 / 04 ~25 minut

RAG v praxi, kde to selhává a co s tím

Pro experty, kritické čtenáře, vedoucí AI projektů

Sedm slabých míst naivního RAG: drift k hodnověrnému nesmyslu, chunkování láme myšlenku, temporal validity, ingestion pipeline jako skrytý zabiják, nepřenositelnost, long context není záchrana. A k tomu late-stage context injection jako návrh řešení.

Číst třetí díl
Díl 04 / 04 ~28 minut

Za hranicí RAGu, pokročilé architektury

Pro experty, architekty, vedoucí AI projektů

RAG není jeden, je to rodina architektur. Contextual Retrieval (Anthropic, 35–67 % snížení chybovosti retrievalu). GraphRAG (Microsoft, knowledge graf a community summaries pro globální dotazy). CAG, Cache-Augmented Generation s celým korpusem v paměti modelu. Agentic a Self-RAG s rozhodováním uvnitř modelu. HyDE, RAG-Fusion, multimodální a temporal RAG. A kam to směřuje dál.

Číst čtvrtý díl
Díl 05 / Studie ~18 minut

Iluze připojeného repozitáře, co Claude doopravdy vidí

Případová studie pro uživatele Claude Projektů

Připojil jsem GitHub repozitář do Projektu a chtěl jediný celý soubor. Claude vrátil fragmenty z vyhledávání. Proč: RAG režim v Projektech, project knowledge search, in-context vs RAG, práh podle počtu souborů. Je to ten samý RAG z tohoto seriálu. Kontrast s Claude Code jako agentem a tři způsoby, jak dostat celý soubor 1:1.

Číst pátý díl

O autorovi a o tomto projektu

Pavel Horák. Stavím nástroje s pomocí AI a píšu o tom, co s nimi funguje a co ne. AI-first, ne AI-only.

Tento seriál je vedlejším produktem mého vlastního učení. Když jsem začal RAG studovat víc do hloubky, narazil jsem na to, že většina dostupných materiálů buď přeskakuje to podstatné (pro nováčky), nebo končí u marketingových čísel typu „o 35 % lepší retrieval" (pro experty). Něco mezi tím chybí. Tak jsem si to napsal sám v několika úrovních, a když už jsem to měl hotové, dalo smysl to publikovat. K původní trojici (RAG koncepčně, technicky, v praxi) jsem později přidal úvodní díl 0 (mapa variant práce s vlastními daty) a čtvrtý díl o pokročilých architekturách (GraphRAG, CAG, Agentic RAG), které řeší problémy z dílu 3.

Pracovat s AI dnes neznamená nechat ji něco vygenerovat a doufat, že to bude správně. Ale neznamená to ani jen „ověřit výstup", jak se často píše. AI nelže jen o faktech, lže i o tom, jak pracuje. Říkám „lže" jako zkratku, protože doslova lhát nemůže: nemá vědomí pravdy ani záměr klamat. Generuje statisticky pravděpodobné výstupy, které mohou být zcela odtržené od reality. Praktický důsledek je ale stejný, jako kdyby lhala vědomě. Tvrdí, že přečetla dokument, který nepřečetla. Vymýšlí si důvody, proč něco nezvládla. Generuje vysvětlení vlastních limitů, která nemají s realitou nic společného.

Moje práce s AI proto stojí na tom, že se snažím porozumět tomu, jak selhává a kde jsou její limity, a podle toho s ní zacházet. Místo abych nechal AI rozhodovat za mě, nutím ji, aby mě naučila to, co mám pochopit. Vysvětlení principů, důvodů, alternativ. Strategii ani řešení s ní nepřijmu, dokud mě nepřesvědčí, že je správné, a dokud tomu sám nerozumím, nesouhlasím, ptám se dál a hledám slabá místa v jejím návrhu. Při psaní tohoto seriálu jsem opravil čtyři chyby ve faktech (kontextové okno Claude, čísla u Contextual Retrieval, atribuce NIAH testů Stanfordu, status firmy Casetext), všechny jsou transparentně zaznamenané v sekci „Ověření faktů a revize" pod každým článkem. Ale to je jen viditelná část. Tou skutečnou disciplínou je nedat se přesvědčit modelem, který sebejistě prezentuje něco, co si nemůže ověřit.

Pokud vás zajímá, kde dál o AI uvažuji a co s ní zkouším: pprojects.cz je sbírka funkčních experimentů a nástrojů, ne článků o nich. saioai.cz (s AI o AI) nabízí longitudinální studie a praktické testy LLM modelů (Claude, ChatGPT, Gemini, Copilot, Perplexity). claude-limits.pprojects.cz je analyzátor efektivního kontextového okna Claude a doprovodný článek o fenoménu Lost in the Middle.

Připomínky, opravy nebo diskuzi ke kterémukoli dílu uvítám na LinkedIn.