Díl 00 / Úvod

Práce s vlastními daty v LLM, mapa variant

Než budete číst čtyř-dílný seriál o RAG, je dobré vědět, že RAG je jen jedna z cest a často ne ta první, kterou byste měli zvolit. Tenhle úvodní díl je mapou šesti úrovní, jak dnes pracovat s vlastními soubory v AI. Od přetažení do chatu po lokální nástroje. Pokud po přečtení zjistíte, že vám stačí Claude Projects, nemusíte v seriálu pokračovat. Pokud zjistíte, že to nestačí, vstupte do dílu 1.

Autor Pavel Horák Datum Květen 2026 Čtení ~25 minut Stav 20. května 2026

Proč vůbec dávat AI vlastní soubory #

Když chcete, aby jazykový model odpověděl na něco, co je ve vašich dokumentech, máte jednu zásadní volbu: kam ty dokumenty dáte a jakým způsobem k nim model přistupuje. Volba není jedna, je jich přinejmenším šest. Liší se cenou, soukromím, schopností pracovat s velkým množstvím souborů, kvalitou výsledku a tím, kolik práce vás bude stát nastavení.

V tomto článku ukážu šest úrovní podle složitosti. Není to žebříček „lepší a horší". Je to mapa. Pro mnoho lidí stačí úroveň 1. Pro jiné je optimální úroveň 4. Pro firemní data se starostmi o regulaci je nutná úroveň 5 nebo plná RAG architektura z dalších dílů seriálu.

Záměrně se vyhýbám konkrétním cenám a názvům tarifů. Ceny a balíčky se u AI služeb mění o měsíce, někdy o týdny. Aktuální ceník vždy najdete přímo u poskytovatele. Funkce, limity řádově a koncepty se mění pomaleji a o ty mi tady jde.

Stav popsaný v článku odpovídá 20. květnu 2026. Pokud čtete tento článek později, ověřte si aktuální stav v sekci „Ověření faktů a revize" pod článkem, případně přímo u poskytovatelů.

Úroveň 1: Drag and drop přímo do chatu #

Nejjednodušší cesta. Otevřete chat, přetáhnete pár souborů, položíte otázku. Funguje to. Pro pět souborů obvykle skvěle, pro padesát už hůř.

Claude

Limit zhruba 30 MB na soubor a několik desítek souborů na konverzaci. Podporuje běžné formáty: PDF, DOCX, TXT, RTF, ODT, HTML, EPUB, CSV, Markdown. V základním režimu má Claude Sonnet 4.6, Opus 4.6 i nejnovější Opus 4.7 kontextové okno 1 milion tokenů, což odpovídá řádově tisícům stran textu. Free tier má snížené limity, plný přístup vyžaduje placené předplatné.

ChatGPT

Limit souboru je výrazně vyšší než u Claude, řádově stovky megabajtů, a strop pro text na jeden soubor je v miliónech tokenů. Počet nahrání za hodinu je u placených tarifů omezený, ale štědrý. Velmi vhodné pro velké jednotlivé soubory, méně vhodné, když chcete pracovat s mnoha menšími najednou.

Gemini

Soubory lze nahrávat přímo nebo přes Google Drive. Integrace s Drive je nejhladší ze tří, pokud tam svoje data už máte. Velkou výhodou Gemini je vícemodálnost: zvládne video a audio, což ostatní zatím tak dobře neumí.

Další hráči, kteří už ledacos zvládnou

Perplexity — drag and drop dokumentů s kombinací webového vyhledávání. Když potřebujete syntézu vašeho dokumentu s aktuálními webovými zdroji v jednom dotazu, je tohle silná volba.
Mistral Le Chat — francouzský konkurent s velkorysými volnými limity. EU-jurisdikce a GDPR-friendly. Vhodný pro evropské uživatele, kterým záleží na suverenitě dat.
xAI Grok — drag and drop souborů, integrace s X. Aktivně dohání zbytek trojky.
Microsoft Copilot (microsoft.com/copilot) — bezplatná webová varianta, pokud nepatříte do M365 prostředí. Nahrávání obrázků a dokumentů jako ostatní chaty.

Kdy stačí úroveň 1

Když máte pět až dvacet dokumentů a chcete s nimi pracovat v rámci jedné konverzace. Když si nepotřebujete sestavu znovu otevírat za týden. Když data nejsou citlivá natolik, aby vám vadilo, že je posíláte do cloudu výrobce modelu.

Kdy nestačí

Když máte víc než zhruba dvacet souborů. Když chcete na stejné sadě dat pracovat opakovaně, aniž byste je pokaždé znovu nahrávali. Když chcete sdílet znalostní bázi s kolegou nebo zákazníky.

Úroveň 2: Trvalá místa s vlastními soubory #

Druhá úroveň je krok dál. Místo aby vám soubory existovaly jen v jedné konverzaci, vytvoříte si trvalé pracovní místo, do kterého soubory jednou nahrajete a pak se k němu vracíte. Každý z velkých chatů má svou variantu, a v roce 2026 už jich je víc, než jen Projects, GPTs a Gems.

Claude Projects

Vytvoříte projekt, nahrajete do něj soubory (knowledge base), napíšete instrukce pro projekt (custom instructions, které platí pro všechny chaty v tomto projektu). Pak v rámci projektu vedete kolik chcete konverzací a všechny mají automaticky kontext souborů. Limit na soubor je řádově desítky megabajtů. Celkový počet souborů v projektu není pevně omezený, ale když celkový obsah projektu přesáhne kontextové okno modelu, Claude automaticky přepne do takzvaného RAG módu, ve kterém pro každý dotaz vyhledá jen relevantní úryvky. K tomu se vrátím v sekci „Limity, o kterých výrobci nemluví".

Claude Skills

Od podzimu 2025 nabízí Anthropic Skills jako další vrstvu nad Projects. Skill je v zásadě složka s instrukcemi a (volitelně) skripty a soubory, kterou si Claude dynamicky natáhne, když ji potřebuje. Místo aby měl celé instrukce a soubory v paměti pořád, aktivuje si Skill jen v situaci, kde má smysl. Pro lidi, kteří si chtějí vytvářet opakovatelné „pracovní postupy" (např. „revize smlouvy podle našich pravidel", „audit kódu podle naší checklisty"), je to silnější nástroj než klasický projekt.

ChatGPT Custom GPTs

OpenAI tomu říká GPTs (Custom GPTs). Pro každý GPT můžete přiložit soubory jako Knowledge (v jednotkách desítek souborů). GPT může mít vlastní instrukce, popis, ikonu a může být publikován v GPT Store, takže ho mohou používat i ostatní. GPTs používají interně embeddings a chunking pro vyhledávání v souborech, takže pod kapotou je to vlastně už RAG, jen ho neuvidíte. Velkou výhodou jsou Actions, vlastní volání externích API z GPTu.

Gemini Gems

Vytvoříte Gem, dáte mu instrukce, přiložíte několik souborů (z disku nebo Google Drive). Pokud zdroj odkazujete z Drive, Gems si vždy berou nejnovější verzi, což je v podstatě jedinečná výhoda. Gems jsou dostupné i v bezplatném tieru pro každého s Google účtem. V roce 2026 mají Gems jako výchozí nástroj na výběr Deep Research, Google Search, Canvas, generování obrázků a propojení s NotebookLM. Co stále nemají, jsou veřejný „Gem Store" a Actions ekvivalent ChatGPT GPTs pro volání vlastních API.

Perplexity Spaces

Perplexity přidala k jednoduchému chatu funkci Spaces, která je svým duchem mezi Projects a NotebookLM. Vytvoříte Space, přidáte soubory a webové zdroje (URLs i celé domény), napíšete instrukce, a každý další dotaz v něm bude pracovat s touto bází. Klíčový rozdíl oproti Projects: Spaces kombinují vaše zdroje s aktivním webovým vyhledáváním. Hodí se, když chcete asistenta, který „zná vaše soubory a zároveň vidí na internet".

Le Chat Projects a Libraries

Mistral nabízí v Le Chatu funkce, které jsou ekvivalentem Projects a GPTs. Libraries (v Enterprise verzi) jsou trvalé znalostní báze s RAG nad dokumenty. MCP konektory na desítky platforem (Databricks, Snowflake, GitHub, Atlassian, Box) z toho dělají vážnou volbu pro evropské firmy, které chtějí AI s daty v EU jurisdikci a možností on-premises nasazení.

Grok Projects

xAI v Groku přidal dedikované Projects (grok.com/project) s vlastními soubory, instrukcemi a integrací Google Drive. Pro vývojáře a uživatele X je k dispozici i Files API s programatickým přístupem.

Pro koho je která varianta vhodná

Pokud chcete sdílet svůj asistent s ostatními a používat custom volání API, jděte do ChatGPT Custom GPTs kvůli GPT Store a Actions. Pokud žijete v Google Workspace a chcete, aby váš asistent četl nejnovější verze dokumentů přímo z Drive, jděte do Gemini Gems. Pokud potřebujete velký objem souborů v jednom projektu a líbí se vám tón Claude (plus opakovatelné pracovní postupy přes Skills), jděte do Claude Projects. Pokud chcete kombinaci vlastních souborů s webovým vyhledáváním, je to Perplexity Spaces. Pokud jste evropská firma s nároky na suverenitu dat, je to Le Chat Libraries.

Limity, o kterých výrobci nemluví #

Tohle je sekce, která je v marketingových materiálech přeskočená a přitom vystihuje to nejdůležitější, co byste měli vědět dřív, než si na Úrovni 1 nebo 2 postavíte vážnou pracovní rutinu.

Představte si konkrétní situaci. Máte projekt v Claude Projects, do kterého jste nahráli GitHub repozitář s asi 10 000 řádky kódu nebo textu v několika souborech. Začnete chatovat. První tři, čtyři odpovědi jsou výborné. Po pátém až dvanáctém dotazu si všimnete, že:

Model si přestal vybavovat detaily, které byly v některých souborech
Když se ptáte na konkrétní funkci nebo pasáž, odpověď zní hodnověrně, ale je nepřesná, nebo úplně mimo
Když ho upozorníte, „podívej se znovu do souboru X", občas to zvládne, občas tvrdí, že soubor nevidí

Tohle nejsou náhodné chyby. Tohle jsou tři propojené jevy, které spolu fungují.

Lost in the Middle, degradace kvality v dlouhém kontextu

Stanford University v roce 2024 publikoval výzkum „Lost in the Middle" (Liu et al., TACL 2024), který experimentálně potvrdil, co mnozí uživatelé tušili. Modely si pamatují informace ze začátku a z konce kontextu lépe než ty uprostřed. Když je váš projekt malý, model vidí všechno najednou a chová se konzistentně. Když je projekt velký, model má všechno v paměti, ale „uprostřed" propadá kvalita zpracování. V experimentech bylo měřitelné, že přesnost vyhledávání informace uprostřed dlouhého kontextu propadá o desítky procent oproti pozici na začátku nebo na konci. Detailní rozbor s konkrétními čísly pro Claude, GPT-4 a Gemini je v třetím díle seriálu.

To není teoretická slabina nějakého konkrétního modelu. Je to vlastnost všech současných velkých jazykových modelů (Claude, ChatGPT, Gemini, Grok, Le Chat). Velikost kontextového okna sice rok od roku roste, ale efektivní použitelná délka je vždy menší než reklamovaná. A degradace přichází postupně, ne najednou. Proto si jí často nevšimnete.

Degradace s délkou konverzace

Druhá vrstva problému. Kontextové okno nesdílí jen vaše soubory, ale i celá historie konverzace. Když vedete dlouhý chat s mnoha dotazy a odpověďmi, konverzace sama o sobě postupně zaplňuje kontextové okno modelu. Po desítkách dotazů už vaše původní soubory tvoří jen menší část toho, co model „vidí". A vidí to navíc dál od začátku, takže Lost in the Middle udeří přesně tam.

RAG mode přepnutí

A třetí vrstva, která vás teprve vede k RAGu. Claude Projects v určitý moment automaticky přepne z plného kontextu do RAG módu. Co to znamená? Místo toho, aby měl celý obsah projektu v aktivní paměti, model pro každý dotaz vyhledá jen několik nejrelevantnějších úryvků z vašich souborů. Tomu se přesně říká RAG, Retrieval Augmented Generation, a je to téma tohoto seriálu od dílu 1 dál.

RAG mode má své výhody (obejde limit kontextového okna a umožňuje pracovat s neomezeným množstvím souborů v projektu) a své nevýhody (vyhledávání není vždy přesné, model dostává jen kousky, ne celé soubory, a může mu chybět širší kontext). V dílu 1 ukážu, co je RAG koncepčně, ve dílu 2 jak funguje uvnitř, a ve dílu 3 kde selhává.

Praktická pravidla, jak s tím žít na úrovních 1 a 2

Dlouhé chaty rovnají se menší přesnost. Když ucítíte, že odpovědi začínají být povrchní nebo nepřesné, raději začněte nový chat se stručným shrnutím toho, k čemu jste dospěli.
Klíčové soubory přikládejte přímo do zprávy, místo aby spoléhalo na to, že je v projektu. Když nahrajete soubor čerstvě do dotazu, model ho má v aktivní paměti.
Vyžadujte citace. „Ukaž mi přesný řádek nebo větu, ze kterého to čerpáš." Když nemůže citovat, pravděpodobně si to vymyslel.
Když model tvrdí, že soubor nevidí, většinou je to pravda. Konverzace už zaplnila kontext natolik, že soubory z projektu už nejsou priorita. Nový chat, nový start.

Tohle nejsou chyby uživatele. Je to vlastnost současné technologie. Žádné Project knowledge, Custom GPT, Gem ani Space to plně neobchází. Pokud chcete jít do hloubky, věnoval jsem tomuto jevu samostatný nástroj a článek na claude-limits.pprojects.cz. Je tam analyzátor, který spočítá, kolik tokenů zabírají vaše soubory, a vizualizace tří režimů, ve kterých Claude odpovídá.

Úroveň 3: NotebookLM a source-grounded nástroje #

Třetí úroveň je specializovaný typ nástroje, který je optimalizovaný na práci se zdrojovými dokumenty. Nejznámější příklad je Google NotebookLM.

Hlavní rozdíl oproti Úrovni 2: NotebookLM je striktně source-grounded. To znamená, že model odpovídá jen z dokumentů, které mu nahrajete, a nedoplňuje si nic z vlastní paměti. Když odpověď v dokumentech není, NotebookLM vám to řekne, místo aby si vymyslel hodnověrný nesmysl. To je v praxi obrovská hodnota.

Konkrétní limity (řádově, k 20. květnu 2026)

Bezplatný tier: řádově desítky zdrojů na notebook
Placené tarify Google AI Plus a Pro: řádově stovky zdrojů na notebook
Nejvyšší placený tarif (Ultra): stovky až nižší tisíce zdrojů
Velikost zdroje: stovky tisíc slov na jeden zdroj

Konkrétní čísla najdete přímo v dokumentaci NotebookLM. Strop „kolik zdrojů na notebook" se v posledních dvanácti měsících několikrát zvýšil.

Co NotebookLM umí dobře

Audio Overviews: Z vašich zdrojů generuje konverzaci dvou hlasů, která projde obsah. Užitečné pro auditivní učení.
Video Overviews: Od roku 2026 i krátká vizuální shrnutí z vašich zdrojů.
Mind maps: Vizuální mapa pojmů a vztahů v dokumentech.
Deep Research: NotebookLM si umí sám vyhledat na webu a přidat ověřené zdroje do notebooku.
Citace: U každé odpovědi vidíte, ze kterého konkrétního zdroje pochází, a můžete na něj kliknout.

Praktický postřeh, který stojí za zmínku

NotebookLM má jednu vlastnost, na kterou jsem narazil opakovaně. Nedokážeme přiřazovat různé váhy různým zdrojům. Když do notebooku přidáte krátkou ručně psanou poznámku a dlouhý PDF dokument, jakou váhu jim NotebookLM přiřadí? Nikdo to neví. Není to nikde nastavitelné. V důsledku jsem opakovaně viděl, že výsledné odpovědi neodpovídaly „celkovému těžišti" obsahu. Některé zdroje dostaly v odpovědi víc prostoru než si zasloužily, jiné se v ní vůbec neobjevily. Pokud vám záleží na vyváženosti výstupu, počítejte s tím a kontrolujte výstupy proti zdrojům.

Source-grounded chování i u dalších nástrojů

NotebookLM není jediný source-grounded nástroj. Podobné chování má i:

Perplexity ve Spaces, když omezíte zdroje na vaše soubory a vyberete „Focus" na vlastní bázi.
ChatGPT v určitých režimech Custom GPTs, ale není to defaultní chování (model si pravidelně doplňuje z vlastní paměti).
Le Chat Libraries v Enterprise edici lze nakonfigurovat striktně source-grounded.

Kdy NotebookLM dává smysl

Pro studenty, výzkumníky, novináře, kohokoli kdo pracuje se sadou dokumentů k jednomu tématu a chce z nich rychle dostat shrnutí, kontext, audio přepis. Bezplatný tier zvládne většinu školních úkolů a osobních rešerší.

Kdy NotebookLM nestačí

Když potřebujete sdílet odpovědi z notebooku jako součást jiné aplikace (NotebookLM má omezené exporty). Když potřebujete, aby AI měla přístup k více notebookům najednou (každý notebook je izolovaný). Když potřebujete přesnou kontrolu nad váhováním zdrojů.

Úroveň 4: Domácí znalostní báze v MD souborech #

Čtvrtá úroveň je krok do vlastní infrastruktury. Místo aby vaše data žila v cloudu Anthropic, OpenAI nebo Google, žijí lokálně na vašem počítači jako soubory v Markdownu. K nim si přidáte AI vrstvu, která je umí číst, indexovat a chatovat nad nimi.

Obsidian jako základ

Nejpoužívanější platforma pro tenhle přístup je Obsidian. Podle vyjádření samotné firmy překonal v roce 2026 řádově miliony stažení a komunitní adresář pluginů a témat čítá tisíce položek (k květnu 2026 přes 4 000 pluginů a témat). Důvod je jednoduchý. Obsidian ukládá poznámky jako čisté Markdown soubory ve vaší složce. Vy je vlastníte, vidíte je, můžete je verzovat v Gitu, můžete je editovat čímkoli. Žádný proprietární formát, žádný cloud, pokud nechcete.

Sám o sobě Obsidian není AI nástroj. Je to vault (sklad poznámek) s krásnou navigací, propojováním a grafem. AI se přidává přes pluginy.

AI pluginy pro Obsidian (k roku 2026)

Smart Connections — nejpopulárnější. Používá embeddings (lokální nebo přes API) a umožňuje vám chatovat s celým vault. Funguje jako miniaturní RAG nad vašimi poznámkami. Zdarma, open-source.
Copilot for Obsidian — chatové okno s vault Q&A. Podporuje Claude, GPT, Gemini i lokální modely přes Ollama. Free verze plus placený tier.
Text Generator — generování textu přímo v editoru. Užitečné pro rozšíření poznámek nebo přepis stylu.
Nova — bez chatu, místo toho transformace označeného textu (přepiš stručněji, přelož, atd.).
Khoj plugin pro Obsidian — připojí lokální Khoj instanci jako AI vrstvu nad vault. Pro lidi, kteří chtějí jeden „druhý mozek" napříč více aplikacemi.

Nová vrstva, Claude Code, Codex a MCP

V průběhu roku 2026 se výrazně rozšířila možnost propojit Obsidian s agenty v terminálu přes MCP (Model Context Protocol). Claude Code (Anthropic), Codex CLI (OpenAI), Gemini CLI (Google), Cursor i další agentní nástroje dokáží číst, vyhledávat, vytvářet a upravovat poznámky ve vault přímo z příkazové řádky. Obsidian sám má od února 2026 oficiální CLI s přes 100 příkazy, takže každý agent s přístupem k shell může operovat nad vault. Pro pokročilejší uživatele je to obrovský posun.

Alternativy podobného typu

Logseq — open-source alternativa Obsidianu, také lokální MD soubory, výrazně menší ekosystém pluginů, ale silnější outliner.
Reor (reorproject.org) — privacy-first lokální AI note-taking. Automaticky propojuje markdown noty přes vektorovou podobnost, vestavěné RAG Q&A nad notami, 100% offline (Ollama, LanceDB). Pro fanoušky Obsidianu, kteří chtějí AI built-in bez pluginů.
Khoj (khoj.dev) — open-source self-hostable „druhý mozek" s chatem nad lokálními soubory, web search, deep research. Lze používat napříč Obsidian, Emacs i jako standalone aplikaci.
Pieces for Developers (pieces.app) — local-first „long-term memory" pro vývojáře. Zachytává kontext napříč IDE, browserem, terminálem. On-device LLM, MCP server pro Cursor a Claude Desktop.
Cursor — primárně IDE pro programátory, ale lidé ho používají i jako AI editor MD souborů s celovaultovým kontextem. Pro neprogramátora je vstup do Cursoru strmější.
Roam Research, Tana, Reflect, Mem — komerční alternativy s vlastními AI funkcemi, ale data nežijí v MD souborech, žijí v jejich systému.

Realistický odhad času na nasazení

Mám zaznamenané od lidí, kteří to používají, že základní nastavení je otázka pár desítek minut (instalace Obsidianu, instalace jednoho dvou pluginů, vytvoření prvních poznámek). Doladění do podoby, ve které vám systém skutečně dobře slouží, je otázka hodin až dnů. Záleží na tom, kolik máte existujících poznámek a jak chcete strukturovat. Není to nutně technicky obtížné, ale chce to čas a opakování. Není to „za pět minut to máte hotové", ale taky to není „musíte umět programovat".

Kdy úroveň 4 dává smysl

Když nechcete, aby vaše data opouštěla váš počítač (pokud používáte lokální AI vrstvu) nebo aspoň ne v plné podobě (cloud AI dostává jen úryvky, ne celý vault). Když chcete data, která vám zůstanou ve čitelné podobě i v případě, že nástroj zanikne (MD soubor je MD soubor). Když máte rád transparentnost a kontrolu.

Úroveň 5: Firemní cesty #

Pátá úroveň je pro lidi, kteří jsou v ekosystému firemních cloudových nástrojů a chtějí AI integrovanou tam, kde už jejich data jsou.

Microsoft 365 Copilot

Pokud má vaše firma Microsoft 365, máte k dispozici Copilot Agents. Agent může číst SharePoint document libraries, OneDrive, Teams chaty, Outlook emaily, podle toho, k čemu má uživatel přístup. Limity na velikost souborů se liší podle toho, jestli jde o embedded files v chatu, knowledge base v Copilot Studio nebo SharePoint konektor, ale řádově jsou to stovky megabajtů. Práva uživatelů jsou respektována, takže agent vrací jen to, co konkrétní uživatel může číst. Od podzimu 2025 je v Public Preview Knowledge Agent v SharePointu, který automaticky tagová a klasifikuje soubory pro lepší vyhledávání.

Google Workspace

Google nabízí Gemini for Workspace, který integruje Gemini do Docs, Sheets, Slides a Gmail. Plus NotebookLM Enterprise (na Google Cloud) jako verzi NotebookLM s firemními certifikacemi, IAM oprávněními a privátními limity. Pozor: oficiální limity NotebookLM Enterprise nejsou stejné jako u nejvyššího placeného spotřebního tarifu, ověřte si je v dokumentaci Google Cloud.

Glean

Glean (glean.com) je firemní vyhledávač s AI Assistant a Agents napříč Google Workspace, Microsoft 365, Slack, Salesforce, Jira, Confluence a desítkami dalších systémů. Klíčová vlastnost je permission-aware search, respektuje existující ACL z jednotlivých systémů. Cílový zákazník je střední až velký podnik. Pro firmu, která má data rozházená napříč deseti SaaS nástroji a chce nad nimi jednotnou AI vrstvu, je Glean dnes hlavní volba.

Cohere North

Cohere North je secure agentic AI platforma pro on-premises nasazení vlastních agentů. Flagship modely Command A a Command A Reasoning mají dlouhý kontext a podporu pro desítky jazyků. Vhodné pro regulované obory (banky, zdravotnictví, vláda), které nechtějí, aby data opouštěla jejich infrastrukturu, ale chtějí kvalitu velkého modelu.

Mistral Le Chat Enterprise

Pro evropské firmy se silným důrazem na suverenitu dat. EU jurisdikce, evropská datacentra, no-training policy, GDPR-friendly. Konektory přes MCP na desítky enterprise platforem, volitelné on-premises nasazení. Často volený jako evropská alternativa M365 Copilotu.

Vývojářské nástroje s firemní vrstvou

Pro vývojářské týmy je k dispozici samostatná řada nástrojů s indexací firemního codebase a kontextem napříč repozitáři:

GitHub Copilot Workspace / Spark — generování celých funkcí a aplikací z přirozeného jazyka, integrace s GitHub Enterprise.
Sourcegraph Cody — code intelligence napříč desítkami repozitářů, SSO, audit logs. Pozor: Sourcegraph v létě 2025 ukončil individuální Free a Pro plány Cody. Nově je to čistě Enterprise produkt, pro jednotlivé vývojáře Sourcegraph nabízí oddělený nástroj Amp.
Cursor Teams / Enterprise — týmová verze Cursoru se sdílenými pravidly, SSO a kontrolami nad MCP servery.
Continue.dev — open-source AI code agent (Apache 2.0) pro VS Code, JetBrains, Visual Studio. BYO LLM, žádný vendor lock-in. Vhodný pro firmy, které chtějí self-hostovat LLM (např. přes Ollama).

Datová a BI vrstva

Pokud máte vlastní BI/data warehouse infrastrukturu, nasaďte si AI rovnou nad ni:

Power BI Copilot — generování reportů přirozeným jazykem, psaní DAX, summarizace datasetů. Vyžaduje odpovídající Fabric/M365 licenci.
Tableau Pulse (od Salesforce) — AI-driven metric layer, proaktivně pushuje personalizovaná summary KPI přes Slack/email místo dashboardů.

Meeting AI jako specifická firemní vrstva

Samostatná kategorie, kterou mnoho firem zapojuje do své AI infrastruktury jako zdrojový kanál pro znalostní bázi. Transkripty a souhrny meetingů jsou hodnotná data, která se dají dotazovat zpětně:

Granola (granola.ai) — bot-free meeting AI, neposílá do meetingu bota, čte audio lokálně z vašeho zařízení.
Otter.ai (otter.ai) — bot-based klasika s transkripty a AI summaries, varianty Pro/Business/Enterprise s HIPAA.
Fathom (fathom.video) — bot-based, štědrý free tier pro nahrávání a transkripty, nativní integrace HubSpot, Salesforce.

Kdy úroveň 5 dává smysl

Když vaše firma má Microsoft 365 nebo Google Workspace předplacený a vy chcete AI, která vidí firemní data tam, kde už jsou. Když potřebujete respektování firemních oprávnění bez vlastního nastavení. Když firma má bezpečnostní politiku, která vyžaduje, aby data neopouštěla daný ekosystém. Když máte data rozházená napříč mnoha SaaS systémy a potřebujete jednotnou vrstvu (Glean).

Kdy nestačí

Když firma nemá Microsoft 365, Google Workspace ani rozpočet na enterprise nástroj. Když pracujete s extrémně citlivými daty (právo, medicína, finanční služby), která ani Microsoftu ani Googlu nesvěříte. Tam přichází plný RAG architektury z dílu 2 a 3, nebo on-premises nasazení (Cohere North, Le Chat Enterprise).

Úroveň 6: Plně lokální AI #

Šestá úroveň je nejradikálnější. Žádný cloud, žádné API, všechno běží na vašem počítači. Použijete open-source jazykový model (Llama, Mistral, Gemma, DeepSeek, Qwen), pustíte ho lokálně, dáte mu přístup k vašim souborům.

Klíčové runtime engines pro lokální modely

Ollama (ollama.com) — CLI engine pro běh jazykových modelů lokálně. Jednoduchý příkaz ollama run llama3.1 a běží. Od roku 2025 nabízí i volitelný cloud tier pro větší modely, ale lokální zdarma zůstává.
LM Studio (lmstudio.ai) — pěkné grafické rozhraní pro spuštění lokálních modelů, výrazně přívětivější než CLI. Pro někoho, kdo se nechce dotknout terminálu.
llama.cpp — open-source projekt v C++, který stojí pod kapotou Ollama, LM Studio i mnoha dalších nástrojů. Maximální kontrola, minimální závislosti.

Plné platformy s RAG a GUI

Pokud nechcete jen runtime, ale rovnou hotovou „ChatGPT alternativu" s nahráváním souborů a RAG:

AnythingLLM (anythingllm.com) — celá platforma s RAG, agenty, multi-user, integrací MCP. Open-source, MIT licence, výrazně přes 50 000 hvězd na GitHubu. Můžete ji propojit s Ollama nebo LM Studio jako runtime jazykového modelu. Desktop verze pro jednotlivce, Docker verze pro tým, hostovaná Cloud varianta pro privátní instance.
Jan (jan.ai) — open-source desktop „ChatGPT alternativa", 100% offline, podporuje lokální i cloud modely. Pro uživatele, kteří chtějí jednoduchou náhradu ChatGPT bez konfigurace.
Msty / Msty Studio (msty.ai) — privacy-first desktop a web AI workspace. Parallel Multiverse Chats (porovnání odpovědí různých modelů vedle sebe), Knowledge Stacks (RAG), Personas, Agent Mode, MCP. Pro lidi, kteří experimentují s modely.
Open WebUI (openwebui.com) — self-hosted webové UI pro lokální LLM (zejména Ollama backend), s vlastní RAG pipeline a admin nastaveními. Volba pro malé týmy, které chtějí sdílet lokální AI v intranetu.
GPT4All (gpt4all.io) — desktop aplikace od Nomic AI pro spouštění lokálních LLM bez GPU. Funkce LocalDocs pro chat s dokumenty. Pro nejjednodušší vstup do lokální AI.
PrivateGPT (github.com/zylon-ai/private-gpt) — open-source RAG framework pro 100% offline Q&A nad vlastními dokumenty. Pro vývojáře, kteří staví vlastní RAG pipeline.

Vektorové databáze (most k DIY RAGu)

Když chcete kombinovat lokální LLM s vlastní RAG vrstvou pro větší množství dokumentů:

Chroma (trychroma.com) — open-source „AI-native" embedded vector DB, „pip install and go". Pro prototypy a malé až střední aplikace ideální.
Weaviate (weaviate.io) — open-source vektorová DB s hybrid search (vector + BM25), vestavěné vektorizační moduly. Self-hosted free, k dispozici i jako managed cloud.
Pinecone Assistant (pinecone.io) — managed RAG nad Pinecone DB. Stará se za vás o chunking, embedding, retrieval, reranking a generování odpovědí LLM s citacemi. Spojovací článek mezi DIY a hotovými nástroji.
Vectara (vectara.com) — managed serverless RAG platforma, end-to-end (embeddings + retrieval + LLM + detekce halucinací). SaaS / VPC / on-prem.

Frameworky pro skutečné DIY

Když chcete sestavit RAG pipeline kompletně sami:

LlamaIndex (llamaindex.ai, MIT) — retrieval-first framework: stovky datových konektorů, chunking strategie, query engines. Méně kódu pro typický RAG.
LangChain (langchain.com, MIT) — orchestration-first framework: chains, agents, tool use, memory. Doplňky LangGraph (stavové agenty) a LangSmith (observability). V produkci se často kombinují (LlamaIndex pro RAG vrstvu, LangGraph pro agentní orchestraci).

Hardware realisticky

Pro malé modely (3 až 8 miliard parametrů) potřebujete 8 až 16 GB RAM. Pro střední modely (13 až 30 miliard) potřebujete 32 až 64 GB RAM. Pro velké modely (70 miliard a víc) potřebujete dedikovaný hardware s GPU. Apple Silicon Macs jsou aktuálně překvapivě dobří v této úloze, protože unified memory umožňuje LLM efektivní přístup k velké paměti.

Kdy úroveň 6 dává smysl

Když nechcete, aby žádná část vašich dat opouštěla váš počítač. Když pracujete v prostředí, kde GDPR nebo jiné regulace zakazují přenos dat do cloudu. Když chcete pochopit, jak to celé funguje uvnitř, a nebojíte se trochu konfigurace. Když máte specifické úkoly, na kterých chcete experimentovat bez API nákladů.

Kdy nestačí

Když potřebujete kvalitu velkých proprietárních modelů (Claude Opus, GPT-5). Open-source modely jsou v roce 2026 výborné na běžné úlohy, ale na složitý reasoning, dlouhé kontextové úlohy a nuance jsou velké proprietární modely pořád výrazně lepší. Když nemáte hardware. Když chcete „zapnout a používat", bez konfigurace.

Mapa, která úroveň pro koho #

Krátké rozhodovací schéma. Není to univerzální pravda, je to startovací bod.

Student, který chce shrnout pět článků k semináři → Úroveň 1 (drag and drop) nebo Úroveň 3 (NotebookLM zdarma).
Freelancer, který má opakovaně stejné typy klientů a chce asistenta s firemní bibli → Úroveň 2 (Claude Projects, ChatGPT Custom GPTs nebo Perplexity Spaces).
Konzultant, který chce mít opakovatelné pracovní postupy → Úroveň 2 (Claude Skills nebo Custom GPTs s Actions).
Novinář nebo výzkumník s desítkami zdrojů k jednomu tématu → Úroveň 3 (NotebookLM v placeném tieru, nebo Perplexity Spaces s webovou rešerší).
Někdo, kdo si chce postavit „druhý mozek" z osobních poznámek → Úroveň 4 (Obsidian plus Smart Connections nebo Copilot for Obsidian; alternativně Reor nebo Khoj).
Vývojář s vlastním codebase → Úroveň 4 (Cursor, Pieces) nebo Úroveň 5 (Continue.dev, Sourcegraph Cody Enterprise).
Pracovník ve firmě s Microsoft 365 nebo Google Workspace → Úroveň 5 (Copilot Agents, Gemini for Workspace).
Firma s daty napříč deseti SaaS systémy → Úroveň 5 (Glean nebo podobný univerzální konektor).
Evropská firma s nároky na suverenitu dat → Úroveň 5 (Le Chat Enterprise) nebo Úroveň 6 (vlastní on-prem nasazení).
Vývojář, technologicky zdatný uživatel, paranoidní z hlediska soukromí → Úroveň 6 (Ollama plus AnythingLLM, Jan, Msty nebo Open WebUI).

Pro mnoho lidí je optimální kombinace dvou úrovní. Například Obsidian (úroveň 4) pro osobní poznámky plus Claude Projects nebo Perplexity Spaces (úroveň 2) pro projekty u klientů. Nebo Glean (úroveň 5) pro firemní data plus lokální Jan (úroveň 6) pro citlivé osobní experimenty. Není to buď, anebo.

Kdy už ani to nestačí, vstup do RAG seriálu #

Šest úrovní mapy je dost pro jednotlivce a malé firmy. Velké organizace, regulované obory a doménově specifické nasazení potřebují víc. Konkrétně:

Statisíce dokumentů. Když máte advokátní kancelář s 200 000 smluvami, NotebookLM ani Claude Project to nezvládne. Potřebujete vlastní RAG systém s vektorovou databází.
Regulace, audit, certifikace. Když musíte prokázat, kde se vaše data fyzicky nacházejí, kdo k nim měl přístup, jak se zpracovávají. Komerční nástroje vám tohle nedají s detaily, které regulátor chce.
Multi-tenancy. Když máte různé uživatele s různými oprávněními, kteří musí vidět různé části datového skladu. M365 Copilot to umí v rámci SharePoint, Glean v rámci napojených systémů, ale jen tam.
Doménově specifické úlohy. Právo, medicína, finanční služby. Tam platí stejná pravidla jako u všech RAG systémů, ale s vrstvou doménové specifické ontologie. Univerzální nástroje to nevidí.

A k tomu navíc všechny problémy, které jsem zmínil v sekci „Limity, o kterých výrobci nemluví", platí i pro plný RAG. Lost in the Middle, degradace v dlouhém kontextu, halucinace nad uploadem. Plný RAG jen poskytuje větší možnosti, jak se s nimi vyrovnat.

Pokud vás zajímá, jak RAG funguje koncepčně, jak ho stavět, kde selhává a co s tím, vstupte do seriálu od dílu 1.

Pokračovat, díl 01

RAG pro každého, jak AI hledá ve firemních dokumentech

Co je RAG vysvětlené bez programátorského žargonu. Knihovník v knihovně. Proč nahrávání pěti dokumentů funguje a pěti tisíc selhává.

Pojmy

Glosář pojmů

Termíny, se kterými jste se v článku setkali. Krátká vysvětlení, kterých se můžete chytit i během čtení dalších dílů seriálu.

LLM Large Language Model: Velký jazykový model. Program jako Claude (Anthropic), ChatGPT (OpenAI), Gemini (Google), Grok (xAI), Le Chat (Mistral), Llama (Meta). Učil se z obrovského množství textu a umí generovat odpovědi v lidském jazyce.
Kontextové okno: Množství textu, které LLM dokáže „udržet v hlavě" najednou. Měří se v tokenech. Aktuální generace velkých proprietárních modelů (Claude, Gemini) dosahuje milionu tokenů. Reálně použitelná část je vždy menší než reklamované maximum, kvůli Lost in the Middle.
Token: Základní jednotka, kterou LLM zpracovává text. Pro češtinu zhruba 3 znaky na token. Slovo „advokátní" jsou například 3 tokeny. Cena LLM API se počítá za tokeny.
Projects (Claude), Custom GPTs (ChatGPT), Gems (Gemini), Spaces (Perplexity), Libraries (Le Chat): Trvalá pracovní místa s vlastními soubory a instrukcemi pro AI. Místo aby vaše soubory existovaly jen v jedné konverzaci, žijí v projektu a všechny chaty v něm je vidí. Liší se detaily, ale princip je stejný.
RAG mode v Claude Projects: Režim, do kterého Claude automaticky přepne, když celkový obsah projektu překročí kontextové okno. Místo toho, aby měl celý obsah projektu v aktivní paměti, model pro každý dotaz vyhledá jen několik nejrelevantnějších úryvků. Princip je stejný jako u plného RAG, jen ho neuvidíte.
Lost in the Middle: Fenomén, kdy LLM si pamatují informace ze začátku a z konce kontextu lépe než ty uprostřed. Experimentálně potvrzeno Stanford University v roce 2024 (Liu et al., TACL). Platí pro všechny současné velké modely.
Source-grounded: Vlastnost AI nástroje, který odpovídá jen z dokumentů, které jste mu nahrál, a nedoplňuje si nic z vlastní paměti. NotebookLM je typický příklad. Perplexity Spaces a Le Chat Libraries umí podobný režim.
Vault: Sklad poznámek. V kontextu Obsidianu složka na vašem disku, ve které žijí všechny vaše Markdown soubory a kterou Obsidian používá jako databázi poznámek.
Markdown (MD): Jednoduchý formát pro psaní textu s minimálním formátováním. Soubor s příponou .md je čitelný v jakémkoli textovém editoru i bez Obsidianu. Tohle je důležitá vlastnost, vaše data vám zůstanou čitelná i kdyby nástroj zanikl.
Embedding: Číselná reprezentace významu textu. Umožňuje vyhledávat podle významu, ne podle přesné shody slov. „Auto" tak najde i texty o „voze" nebo „vozidle". Většina AI nástrojů, které pracují s vlastními daty, dnes embeddings pod kapotou používá.
Retrieval: Vyhledávání. Krok, ve kterém systém najde k vašemu dotazu nejrelevantnější části dokumentů místo toho, aby četl všechno najednou.
MCP Model Context Protocol: Otevřený standard pro propojení AI agentů s externími zdroji dat a nástroji. Původně od Anthropic (listopad 2024), přijatý postupně OpenAI, Google a dalšími. V prosinci 2025 darován Linux Foundation jako součást Agentic AI Foundation. Díky MCP může Claude Code, Codex, Gemini CLI, Cursor a další modely jednotně číst a zapisovat do Obsidian vault, Slack, Jira, databází, vašeho emailu, čehokoli.
Skills (Anthropic): Mechanismus pro opakovatelné pracovní postupy v Claude. Skill je v zásadě složka s instrukcemi a (volitelně) skripty a soubory, kterou si Claude dynamicky natáhne, když ji potřebuje. V prosinci 2025 byly Skills publikovány jako otevřený standard a podporuje je více ekosystémů.
RAG Retrieval Augmented Generation: Generování obohacené o vyhledávání. Spojení vyhledávání v dokumentech (retrieval) a generování odpovědi jazykovým modelem (generation). Hlavní téma tohoto seriálu od dílu 1 dál.

Revize a upřesnění

Ověření faktů a revize

Tato sekce shromažďuje opravy, upřesnění a aktualizace, které se v textu objeví po publikaci. Tento článek byl napsán s důkladnou kontrolou aktuálního stavu k 20. květnu 2026, ale AI svět se mění rychle, limity a funkce některých nástrojů mohou být za pár měsíců jiné. Záměrně se v textu vyhýbám konkrétním cenám a názvům tarifů, protože ty se mění nejčastěji. Pokud najdete chybu, zastaralý údaj nebo máte k některému tvrzení připomínku, napište mi na LinkedIn.

Květen 2026 · verze 1.1

Článek prošel revizí oproti původní publikaci. Hlavní změny: (1) odstraněny konkrétní ceny a názvy předplatitelských tarifů (Plus, Pro, Ultra), které se mění příliš často, místo nich jsou řádové popisy a odkazy na primární dokumentaci; (2) doplněny další služby a nástroje na všech šesti úrovních: Perplexity, Mistral Le Chat, Grok (úroveň 1); Perplexity Spaces, Le Chat Libraries, Grok Projects, Claude Skills (úroveň 2); Reor, Khoj, Pieces for Developers (úroveň 4); Glean, Cohere North, Le Chat Enterprise, Continue.dev, meeting AI (Granola/Otter/Fathom), Power BI Copilot, Tableau Pulse (úroveň 5); Jan, Msty, Open WebUI, GPT4All, PrivateGPT a vektorové databáze (Chroma, Weaviate, Pinecone Assistant, Vectara) plus frameworky (LlamaIndex, LangChain) (úroveň 6); (3) upřesněn počet pluginů v Obsidian ekosystému (přes 4 000 k květnu 2026); (4) upřesněn popis Gems (od roku 2026 podporují Deep Research, Google Search, Canvas, generování obrázků); (5) MCP doplněn o donaci Linux Foundation a Agentic AI Foundation (prosinec 2025); (6) doplněna zmínka o Claude Opus 4.7 jako aktuálním flagshipu.