Název projektu
Bezpečnost velkých jazykových modelů: útoky, zranitelnosti a hardening agentních AI systémů.
Kód
SP2026/063
Řešitel
Období řešení projektu
01. 01. 2026 - 31. 12. 2026
Předmět výzkumu
Předmětem výzkumu v rámci projektu je systematické zkoumání bezpečnosti velkých jazykových modelů a na nich postavených agentních systémů, se zvláštním důrazem na identifikaci, analýzu a klasifikaci jejich zranitelností v reálných scénářích nasazení. Výzkum se zaměřuje na moderní třídy útoků specifické pro LLM a agentní architektury, jako jsou útoky typu prompt injection (včetně nepřímých a vícekrokových variant), otrava znalostních bází a RAG pipeline, zneužití nástrojů a externích konektorů, obcházení bezpečnostních politik a scénáře autonomní interakce útočných a obranných AI agentů. Součástí předmětu výzkumu je rovněž návrh metod bezpečnostního testování, hodnocení rizik a hardeningu těchto systémů, včetně tvorby experimentálního testbedu, taxonomie zranitelností a prakticky aplikovatelných mitigací pro bezpečné nasazení LLM a agentních AI systémů v akademickém, průmyslovém a veřejném prostředí.
Členové řešitelského týmu
prof. Ing. Ivan Zelinka, Ph.D.
Ing. Jan Plucar, Ph.D.
Ing. Radovan Rečka
Ing. Ondřej Knebl
Ing. Aktham Youssef, M.Tech.
Ing. Vojtěch Novák
Ing. Michael Machů
Mgr. Ing. Libuše Horáčková
Ing. Terezie Ocelková
Ing. Alexandra Sikorová
Ing. Leona Žůrková
Specifikace výstupů projektu (cíl projektu)
Cílem projektu je vytvoření uceleného a prakticky využitelného rámce pro bezpečné navrhování, testování a nasazování velkých jazykových modelů a agentních AI systémů. Konkrétně projekt povede k (i) systematické taxonomii zranitelností a útočných scénářů specifických pro LLM a agentní architektury, reflektující jejich reálné nasazení, (ii) metodice bezpečnostního testování a hodnocení rizik LLM a agentních systémů založené na experimentálním testbedu a scénářích red-teamingu, a (iii) návrhu souboru technických a organizačních mitigací a „best practices“ pro hardening AI systémů, zahrnujících guardrails, řízení přístupu k nástrojům, monitorování a audit chování agentů a vhodné architektonické vzory zapojení člověka do rozhodovací smyčky. Nedílnou součástí výstupů budou rovněž kvalitní vědecké publikace, zapojení výsledků do výuky a vytvoření znalostní báze využitelné v akademickém, průmyslovém i veřejném sektoru.