Studentská grantová soutěž

Název projektu

Pokročilé zpracování velkých dat.

Kód

SP2026/009

Řešitel

Dráždilová Pavla doc. Mgr., Ph.D.

Období řešení projektu

01. 01. 2026 - 31. 12. 2026

Předmět výzkumu

Předkládaný projekt se zaměřuje na interdisciplinární výzkum v oblasti hlubokého učení a pokročilé datové analytiky, s cílem vytvořit robustní predikční modely a efektivní nástroje aplikovatelné v klinické praxi, průmyslové výrobě, sportovní analytice i sociologickém výzkumu. Výzkumný tým se dlouhodobě specializuje na zpracování komplexních datových sad, přičemž těžištěm projektu je práce s multimodálními daty – od strukturovaných vektorových záznamů přes časové řady až po nestrukturované texty, zvuk a obraz. Fundamentální částí výzkumu, opírající se o více než pětiletou expertízu týmu, je analýza a predikce časových řad pocházejících primárně ze senzorových sítí a průmyslových procesů. V této oblasti projekt řeší kritické výzvy spojené s agregací velkých datových objemů a zpracováním záznamů s proměnlivou kvalitou. Klíčovým úkolem je zde rekonstrukce chybějících či chybných údajů a následná predikce vývoje, což nachází přímé uplatnění při optimalizaci výroby a prediktivní údržbě (detekci selhání). Analogické postupy jsou týmem aplikovány i v oblasti sportovní vědy, kde dochází k extrakci atributů pohybu a optimalizaci testovacích procesů. Paralelně s datovou analýzou se projekt věnuje rozvoji bio-inspirovaných algoritmů pro multikriteriální a kombinatorickou optimalizaci. Výzkum cílí na hledání inovativních řešení pro problémy s více omezujícími kritérii a specifickou strukturou, jako jsou například problémy, jejichž řešením jsou dismutace. Zcela novým směrem je v tomto kontextu propojení optimalizačních metod s generativní umělou inteligencí. Projekt zkoumá potenciál velkých jazykových modelů (LLMs) nejen jako nástrojů pro analýzu textu, ale nově jako generátorů benchmarků, komponent algoritmů či kompletních metaheuristik pro zadané optimalizační úlohy. Principy evolučního učení, optimalizací a propojení s LLM budou dále zkoumány i v nové oblasti zvané „Automatic Algorithm Discovery" (AAD) nebo „Automatic Design Loop" (ADL), kde především jeden nebo více LLM modelů (či jiných vhodných generátorů) jsou orchestrovány jako agenti systém s podporou vhodně navržených evaluatorů a testů v iterativní smyčce s cílem dosáhnout postupného vylepšení požadovaného řešení. Princip sdílí stejné rysy s evolučním učením a systémy, kdy z databáze řešení (populace) a informativní zpětně vazby jsou generovaný další řešení v postupných iteracích. Tento systém může být pak aplikován v libovolné doméně a podpořit tak další členy projektového týmu. Třetím pilířem projektu je pokročilá analýza nestrukturovaných dat a komplexních sítí. V oblasti síťové analýzy se tým zaměřuje na aplikaci vlastní navržené cyklické vzdálenosti pro detekci a evaluaci komunit. V rovině zpracování přirozeného jazyka (NLP) jsou využívány modely na bázi architektury Transformer. Významnou aplikační rovinou je rovněž zpracování obrazových dat pomocí hlubokých neuronových sítí, a to jak pro analýzu výstupů z průmyslových kamer, tak pro medicínská obrazová data, s cílem efektivně integrovat tyto technologie do rozhodovacích procesů v medicíně a průmyslu. V další části projektu se budeme zabývat provedením komplexní analýzy zaměřené na kvalitu SQL transformací v analytické databázi. Cílem je vytvořit prototyp nástroje, který ověřuje kvalitu transformací a kvalitu SQL dotazů - nástroj umožňuje automatickou identifikaci antipaternů v SQL jako jsou redundantní konstrukce SQL nebo vyhledávání s pomocí non-SARGable predikátů. Předkládaný projekt představuje komplexní výzkumnou iniciativu zaměřenou na vývoj, optimalizaci a aplikaci metod umělé inteligence, se zvláštním důrazem na hluboké učení a bio-inspirované algoritmy. Výzkum reaguje na aktuální potřebu zpracovávat masivní toky multimodálních dat – od senzorických časových řad přes text a obraz až po komplexní sítě – a to s ohledem na omezené zdroje reálného hardwaru. Analýza časových řad a signálová analytika Jádrem výzkumu v oblasti časových řad je zpracování dat ze senzorických systémů v průmyslu a sportu. V průmyslovém kontextu se zaměřujeme na analýzu vibrací a elektrických veličin pro účely prediktivní údržby, kde naše modely detekují anomálie a predikují selhání strojů, čímž minimalizují prostoje a zvyšují energetickou efektivitu. Paralelně aplikujeme signálovou analýzu ve sportovní vědě, kde zpracováváme data z akcelerometrů a gyroskopů. Cílem je detailní dekompozice dynamiky pohybu hráčů, optimalizace tréninkových procesů a vyhodnocování fyzické kondice prostřednictvím standardizovaných testů. Počítačové vidění v medicíně a průmyslu V oblasti zpracování obrazu se projekt dělí na dvě aplikační sféry, které sdílejí společný metodologický základ v hlubokých neuronových sítích. V medicíně vyvíjíme algoritmy pro automatizovanou diagnostiku z retinálních snímků, CT a MRI skenů, se zaměřením na detekci tumorů a degenerativních změn. V průmyslovém prostředí (výrobní linky, přístavy) se soustředíme na real-time monitoring. Klíčovou výzvou, kterou zde řešíme, je optimalizace velkých vizuálních modelů pro specifický hardware. Cílem je dosáhnout vysoké přesnosti inferencí při zachování nízké latence i na zařízeních s omezeným výpočetním výkonem (edge computing). Součástí této větve je i výzkum efektivní komprese a vizualizace objemných biologických dat (elektronová mikroskopie, sekvenovaná DNA) formou pluginů pro systémy typu BigDataViewer. NLP a optimalizace velkých jazykových modelů (LLMs) V oblasti zpracování textu se posouváme od klasické klasifikace k pokročilému využití LLMs. Kromě úloh, jako je detekce zdroje či autora textu, je kritickou součástí projektu technologická adaptace těchto modelů. Výzkum se soustředí na metody kvantizace, prořezávání (pruning) a efektivní implementace LLMs tak, aby byly provozovatelné na dostupném univerzitním i komerčním hardwaru bez drastické ztráty přesnosti. Bio-inspirovaná optimalizace a generativní AI Projekt inovativně propojuje svět evolučních algoritmů s generativní AI. Tradiční bio-inspirované metody (multikriteriální evoluce, rojová inteligence) aplikujeme na řízení robotických ramen a dronů či řešení kombinatorických problémů (obchodní cestující, facility layout) s využitím pokročilých reprezentací permutací. Zcela novým směrem je synergie s LLMs, kde jazykové modely slouží jako "inteligentní operátory" v rámci evolučních heuristik. LLMs využíváme k návrhu nových hybridních algoritmů, generování optimalizačního kódu a automatizovanému návrhu metaheuristik. V části projektu, který řeší analýzu SQL dotazů, které na sebe obvykle navazují, navržená aplikace umožňuje získat přehled o mezivýsledcích vzniklých v rámci transformace a jejich schématech. Základ bude tvořit knihovna DataFusion. Knihovna řeší mnoho obtížných kroků jako je parsrování SQL příkazů z různých dialektů, nebo validace SQL vzhledem k určitému databázovému schématu. Umožní nám se tak soustředit na jádro problému a jím je samotná analýza SQL. Dalším klíčovým bodem je zaměření na nástroj dbt (URL: https://www.getdbt.com/. dbt labs). Ten stanovuje strukturu projektu bez ohledu na to, jakou analytickou databázi využíváme. Výsledné řešení tak bude obecnější a umožní jeho nasazení na více různých databázových systémech. Komplexní sítě a kvalita dat Výzkum doplňuje analýza komplexních sítí, kde aplikujeme námi navrženou cyklickou metriku (CT-distance) pro detekci a evaluaci komunit v orientovaných i neorientovaných grafech. Průřezovou aktivitou celého projektu je pak vývoj robustních metod pro detekci odlehlých pozorování a čištění dat, a to zejména v heterogenních datasetech a dotazníkových šetřeních, kde selhávají konvenční statistické přístupy. Veškeré výpočetní úlohy jsou koncipovány s důrazem na škálovatelnost. Aktivně využíváme a optimalizujeme algoritmy pro paralelní zpracování na GPU akcelerátorech a HPC klastrech, což zajišťuje proveditelnost výzkumu i při práci s extrémními objemy dat.

Členové řešitelského týmu

doc. Mgr. Pavla Dráždilová, Ph.D.
prof. Ing. Jan Platoš, Ph.D.
prof. Ing. Pavel Krömer, Ph.D.
prof. Ing. Roman Šenkeřík, Ph.D., DBA
doc. Mgr. Jiří Dvorský, Ph.D.
doc. Ing. Radim Bača, Ph.D.
Ing. Ladislav Zjavka, PhD.
Ing. Vojtěch Uher, Ph.D.
Bc. Sebastian Glumbík
Ing. Lukáš Moravec
Bc. Filip Jursa
Sara Fanatirashidi
Mgr. Renata Rzeczkowska, M.Sc.
Kamaladdin Hasanov
Ing. Tereza Vačina
Ing. Kristína Štrbová, Ph.D.
Ing. Ľubomír Hlavko
Ing. Omar Saleh
Ing. Bc. Michal Brožek
Ing. Lukáš Klein
Ing. Jan Křenek
MSc. Sumaira Shaheen
Lam Chan Quan Loi
Mgr Inż. Monika Falk
Quoc Ngoc Ho
Bc. Michal Heczko
Bc. Michael Ceplý
Bc. Gabriel Paznocht
Bc. Pavel Zrzavý
Bc. Vojtěch Slíva
Bc. Radovan Krasula
Bc. Tomáš Biječek
Bc. Jakub Růžička
Bc. Duy Quy Vo
Bc. Eliška Malcharcziková
Bc. Adam Vrána
Bc. Jan Přikryl

Specifikace výstupů projektu (cíl projektu)

Primárním cílem projektu je výzkum a návrh efektivních algoritmů pro analýzu heterogenních dat a jejich následná transformace do interpretovatelné podoby. Projekt klade důraz na identifikaci a aplikaci vhodných analytických metod schopných dosahovat vysoké přesnosti nad daty
z různorodých domén. Vzhledem k vysoké výpočetní náročnosti zpracovávaných úloh jsou vyvíjené algoritmy optimalizovány pro využití na specializovaných výpočetních platformách a GPU akcelerátorech. Metodicky projekt navazuje na výsledky předchozích výzkumných aktivit, které budou v tomto období dále rozvíjeny a doplňovány o nové přístupy.

Personální zajištění a vzdělávací rozměr
Realizace výzkumu bude probíhat v dedikovaných pracovních týmech vedených akademickými pracovníky (garanty). Klíčovým aspektem personální politiky projektu je úzké propojení výzkumu se vzděláváním. Týmy budou tvořeny doktorandy a studenty magisterského, případně bakalářského studia. Zapojení studentů formou semestrálních projektů a závěrečných prací má za cíl nejen přímou participaci na výzkumu, ale také zvýšení jejich motivace pro vědeckou práci a další akademický růst.

Specifické odborné cíle pro nadcházející rok
V aktuálním roce se výzkumné aktivity soustředí na následující klíčové oblasti:

• Hluboké učení a časové řady: Aplikace pokročilých metod pro analýzu a predikci vývoje časových řad.
• Bio-inspirovaná optimalizace: Výzkum metod pro multikriteriální a kombinatorickou optimalizaci, včetně vizualizace výpočetních procesů.
• Integrace LLMs: Využití velkých jazykových modelů (LLMs) pro zpracování textových dat a jejich nová role v podpoře bio-inspirovaných optimalizačních algoritmů.
• Analýza obrazu a sítí: Rozvoj metod pro zpracování medicínských obrazových dat a analýza komplexních hierarchických sítí.
• Specializované datové úlohy: Detekce odlehlých pozorování, komprese dat částečných výbojů pomocí DL a transformace/vizualizace vektorových dat metodou Growing Neural Gas.
• Optimalizace modelů pro konkrétní hardwarové architektury pro efektivní běh s minimálnímu požadavky na příkon.
• Vytvoření nástroje pro analýzu SQL dotazů.

Očekávané výstupy a publikační strategie
Výstupem projektu bude publikace dosažených výsledků v prestižních vědeckých periodikách a jejich prezentace na mezinárodních fórech. Cílem je zaslání minimálně tří publikací do časopisů s impaktním faktorem (v kvartilu Q1/Q2) a příprava podkladů pro další tři články v indexovaných časopisech. Dále předpokládáme vznik konferenčních příspěvků, které budou sloužit primárně k diseminaci prvotních výsledků, validaci nových metod a navazování spolupráce s vědeckou komunitou. Nedílnou součástí cílů je i prohloubení spolupráce s tuzemskými a zahraničními pracovišti.

Rozpočet projektu - uznané náklady

	Návrh
1. Osobní náklady Z toho	0,-
1.1. Mzdy (včetně pohyblivých složek)	0,-
1.2. Odvody pojistného na veřejné zdravotně pojištění a pojistného na sociální zabezpečení a příspěvku na státní politiku zaměstnanosti	0,-
2. Stipendia	550000,-
3. Materiálové náklady	80000,-
4. Drobný hmotný a nehmotný majetek	220000,-
5. Služby	330000,-
6. Cestovní náhrady	350000,-
7. Doplňkové (režijní) náklady max. do výše 10% poskytnuté podpory	170000,-
8. Konference pořádané VŠB-TUO k prezentaci výsledků studentského grantu (max. do výše 10% poskytnuté podpory)	0,-
9. Pořízení investic	0,-
Plánované náklady	1700000,-
Uznané náklady	0,-
Celkem běžné finanční prostředky	1700000,-

Zpět na seznam