Díl 01 / Pro každého

RAG vysvětlený lidsky, část 1 pro každého

Tohle je první ze tří částí seriálu o RAG. Pro každého kdo už používá Claude, ChatGPT nebo Gemini, ale slyšel slovo „RAG" a netuší o co jde. Bez programátorského žargonu. Pojmy které potřebujete znát jsou na konci v glosáři.

Autor Pavel Horák Datum Květen 2026 Čtení ~8 minut

Začneme tím co už umíte #

Když dneska potřebujete aby Claude nebo ChatGPT odpovědělo na něco co je ve vašich dokumentech, postupujete asi takhle: otevřete aplikaci, přetáhnete tam pár souborů, položíte otázku. Funguje to. Někdy překvapivě dobře. Existuje řada dalších cest, jak dnes AI pracovat s vlastními daty: Claude Projects, ChatGPT Custom GPTs, Gemini Gems, NotebookLM, Obsidian s pluginy, lokální AnythingLLM. Pokud chcete kompletní mapu těchto variant s konkrétními limity z roku 2026, doporučuji nejdřív přečíst úvodní díl 00, Práce s vlastními daty v LLM.

Tady v dílu 1 navazuju tím, co se stane, když ani tyhle pohodlné cesty nestačí, a proč vznikl RAG.

Kde to láme, když je dokumentů moc #

Funguje to. Ale jen do určitého bodu.

Když přihodíte pět dokumentů, Claude je přečte a odpoví. Když dvacet, začíná to být drahé a pomalé. Když dvě stě, narážíte na limit. A když by jich měla být dvacet tisíc, nebo dokonce dvě stě tisíc, což je situace velké advokátní kanceláře, tak už to vůbec nejde.

Důvod je technický a má dvě roviny.

První rovina je kontext. Každý jazykový model (LLM) má omezené množství textu, který dokáže „udržet v hlavě" najednou. U Claude je to dnes asi 150 stránek textu1, u některých modelů víc. Když máte víc dokumentů než se vejde do tohohle limitu, jednoduše to neumíte naládovat všechno najednou.

Druhá rovina je cena a rychlost. I kdyby se to vešlo, každý dotaz znamená že LLM musí přečíst všechno znovu. Posíláte mu celou knihovnu pokaždé když se na něco zeptáte. To je drahé a pomalé. Představte si že každou otázkou v Googlu vyhledáváte přes všechny stránky internetu znovu od začátku. To nikdo nedělá. Google má index. A LLM nemá.

Co potřebuje firma #

Velká firma, třeba advokátní kancelář, banka nebo výrobní podnik, nemá pět souborů. Má desítky nebo stovky tisíc dokumentů. Smlouvy z dvaceti let zpátky. Faktury. Emaily. Interní směrnice. Manuály. Zápisy z porad.

A potřebuje aby zaměstnanec mohl položit otázku, třeba „co stojí ve smlouvě s firmou ABC ohledně sankcí", a aby systém dokázal najít odpověď. Ne aby zaměstnanec musel ručně hledat o jakou smlouvu jde, otevřít ji, najít článek o sankcích, a předhodit to Claudovi v příloze.

To je rozdíl mezi tím co dnes umí běžný uživatel s Claude nebo ChatGPT, a tím co potřebuje firma. Běžný uživatel rozhoduje co je relevantní a co nahraje. Firma potřebuje systém který to ví sám.

A tady přichází RAG #

RAG je zkratka pro Retrieval Augmented Generation. Doslova „generování obohacené o vyhledávání". Hrozný překlad. Pojďme to říct lidsky.

Představte si knihovníka v knihovně se sto tisíci knihami. Vy přijdete a zeptáte se: „Hledám něco o stříhání růží na podzim." Knihovník nepřečte celou knihovnu. Místo toho:

Pochopí o co se ptáte
Půjde do regálu se zahradou a najde tři knihy o pěstování růží
V těch knihách najde stránky kde se mluví o podzimním řezu
Donese vám konkrétní pasáže

A vy si z těch pasáží uděláte odpověď. Knihovník vám neřekne svou odpověď. Donese vám materiál a vy z něj odpovídáte sami.

RAG funguje úplně stejně, jen knihovníka tam dělá počítač a „vy si tvoříte odpověď" dělá LLM.

Konkrétně to probíhá ve třech fázích.

Fáze první se děje jednou předem, dlouho před tím než vy položíte první otázku. Všechny firemní dokumenty se rozsekají na menší kousky, typicky odstavce, klauzule nebo sekce. Každý kousek (chunk) se přečte a převede do podoby kterou počítač rozumí: na vektor čísel který reprezentuje význam toho textu (embedding). Tyhle „číselné odrazy" textů se uloží do speciální databáze (vektorové databáze).

Fáze druhá se děje pokaždé když se zeptáte. Vaše otázka se převede do stejné podoby, tedy na vektor čísel reprezentující její význam. Databáze se podívá: které z těch sto tisíc kousků dokumentů má nejpodobnější význam jako vaše otázka? Vrátí třeba deset nejlepších. Tomu se říká retrieval.

Fáze třetí je tam kde přichází LLM. Dostane: vaši otázku, deset nalezených kousků, a instrukci „odpověz na otázku na základě těchto kousků". A LLM odpoví. Často i s odkazy na to z jakých dokumentů odpověď vytvořil. Této finální fázi se říká generation.

Tohle je RAG. Knihovník, který se naučil rozumět významu, a LLM který umí z najitých kousků sestavit odpověď.

Tři fáze RAG. Knihovník je vektorová databáze, autorem odpovědi je LLM.

Co RAG slibuje #

Z hlediska firmy to vypadá jako sen. Zaměstnanec se může zeptat na cokoli a systém najde odpověď napříč všemi firemními dokumenty. Bez ohledu na to kde dokument leží, jak je starý, kdo ho psal. Bez nutnosti vědět který soubor otevřít.

Pro advokátní kancelář to znamená: koncipient se může zeptat „byla už podobná klauzule ve smlouvách za posledních pět let" a systém najde precedenty. Partner se může zeptat „co konkrétně klient ABC podepsal ohledně mlčenlivosti" a systém vytáhne přesné formulace. Senior partner si může nechat vypracovat rešerši k novému soudnímu sporu, a systém projede tisíce dříve řešených případů a najde paralely.

Před pár lety tohle nešlo. Dnes to funguje. To je obrovský skok a stojí za to ho ocenit.

Jak přesně RAG dělá to co dělá, kde jsou jeho silné a slabé stránky a jak se s nimi v praxi pracuje, to je téma navazujících částí seriálu. Druhý díl, RAG technicky, jde do hloubky embedding modelů, vektorových databází a hybrid retrievalu. Třetí díl, RAG v praxi, ukazuje sedm slabých míst naivního RAG a kde to v reálném nasazení selhává. Čtvrtý díl, Za hranicí RAGu, popisuje pokročilé architektury (GraphRAG, CAG, Agentic RAG), které tyto problémy řeší.

Pokračovat, díl 02

RAG technicky, jak to funguje uvnitř

Tři fáze RAG do hloubky, embedding modely, vektorové databáze, chunkování a hybrid retrieval.

Pojmy

Glosář pojmů

Termíny ze kterých se točí hlava. Tady jsou stručně vysvětlené, abyste se k nim mohli vracet při čtení dalších částí seriálu.

LLM Large Language Model: Velký jazykový model. Programy jako Claude od Anthropic, ChatGPT od OpenAI, Gemini od Google nebo Copilot od Microsoftu. Naučili se z obrovského množství textu na internetu a umí generovat odpovědi v lidském jazyce. Příklad: když napíšete „co je hlavní město Francie", LLM odpoví „Paříž", protože to bylo v jeho trénovacích datech.
Kontext (kontextové okno): Množství textu které LLM dokáže „udržet v hlavě" najednou. Měří se v takzvaných tokenech. U Claude je dnes limit 200 000 tokenů1, což odpovídá zhruba 150 stránkám textu. Když se snažíte LLM nakrmit víc, prostě to nejde, model to neunese.
Token: Základní jednotka kterou LLM zpracovává text. Není to slovo, ale spíš slabika nebo část slova. Pro češtinu platí pravidlo zhruba tři znaky na token. Slovo „advokátní" je například cca tři tokeny. Důležité je vědět že čím delší text, tím víc tokenů, tím dražší a pomalejší zpracování.
Chunk: „Kousek". V kontextu RAG jde o malou část dokumentu na kterou se původní dokument rozsekal, typicky odstavec nebo několik vět. Smlouva o padesáti stránkách se rozseká třeba na sto chunků. Každý chunk se pak ukládá samostatně a hledá se mezi nimi.
Embedding: Číselná reprezentace významu textu. Když vezmete větu „kočka sedí na stole" a proženete ji přes specializovaný program (embedding model), dostanete řadu třeba 1536 čísel, která reprezentují význam té věty. Klíčová vlastnost: dvě věty s podobným významem mají podobné embeddingy, i kdyby používaly úplně jiná slova. „Kočka sedí na stole" a „Číča leží na desce" budou matematicky blízko.
Vektorová databáze: Speciální typ databáze postavený přesně pro ukládání embeddingů. Místo aby hledala podle přesné shody slov (jako klasická databáze), umí najít texty které jsou si významově podobné. Příklady: Pinecone, Weaviate, pgvector, Chroma, Qdrant.
Sémantické vyhledávání: Vyhledávání podle významu, ne podle přesné shody slov. Když napíšete „auto" a sémantické vyhledávání ho najde i v textech kde se píše o „automobilu" nebo „voze". Klasické fulltextové vyhledávání by tohle neumělo, musela by tam stát přesně slovo „auto".
Metadata: „Data o datech". Doplňující informace o dokumentu, které nejsou součástí jeho textu. U smlouvy to může být: datum podpisu, smluvní strany, typ smlouvy, autor, číslo spisu, verze, klient. Metadata jsou strukturovaná, dají se snadno filtrovat („najdi mi všechny smlouvy z roku 2019 s klientem ABC") na rozdíl od volného textu.
Retrieval: Vyhledávání. V kontextu RAG: ten krok kdy systém najde top relevantní chunky pro otázku uživatele. Typicky se vrací 5-20 nejlepších kousků.
Generation: Generování. Ten finální krok kdy LLM dostane otázku plus nalezené chunky a vygeneruje odpověď.
RAG Retrieval Augmented Generation: Generování obohacené o vyhledávání. Spojení retrievalu (vyhledávání v dokumentech) a generation (LLM tvořící odpověď). Nikoli překvapivě se používá zkratka.
Hallucinace (halucinace): Když LLM „vymyslí" odpověď která zní hodnověrně, ale není pravdivá. LLM se totiž neumí přiznat že něco neví, místo toho si občas dolepuje fakta z toho co se naučil. V RAG je hallucinace velký problém: systém má vrátit odpověď podloženou dokumenty, ale občas si LLM dolepí kus odpovědi z paměti, a uživatel to nepozná.
Cutoff date: Datum do kterého má LLM informace ze svého tréninku. Claude trénovaný do ledna 2026 nezná události z února 2026. Bez RAG nebo vyhledávání na webu to LLM neumí překonat, prostě o tom neví.

Revize a upřesnění

Ověření faktů a revize

Tato sekce shromažďuje opravy, upřesnění a aktualizace, které se v textu objevily po publikaci. Každá poznámka odkazuje zpět na konkrétní místo v článku. Pokud najdete chybu nebo máte k některému tvrzení připomínku, napište mi.

Květen 2026 · k tvrzení o kontextovém okně Claude

V textu se píše, že u Claude je kontextové okno asi 150 stránek textu (200 000 tokenů). To už neplatí. Claude Sonnet 4.5, Sonnet 4.6, Opus 4.6 a Opus 4.7 podporují plné 1 milionové kontextové okno ve standardní ceně. Limit 200 000 tokenů byl typický pro starší generaci modelů (Claude 3, Sonnet 4). V praxi to znamená, že do Claude lze nahrát zhruba 750 stránek textu najednou, tedy pětkrát víc než článek uvádí.

Zdroj: platform.claude.com/docs/en/about-claude/pricing, sekce „Long context pricing"

← zpět k tvrzení v textu