Raziskovanje
Integracija kanalov za analizo podatkov za upravljanje velikih podatkov, HPC in strojno učenje
Ime projekta: Integracija kanalov za analizo podatkov za upravljanje velikih podatkov, HPC in strojno učenje
Akronim projekta: DAPHNE
Referenčna številka (št. pogodbe): 957407
Področje: ICT-51-2020 - Big Data technologies and extreme-scale analytics
Področja znanosti:
- /natural sciences/chemical sciences/analytical chemistry/quantitative analysis
- /humanities/languages and literature/languages - general
- /natural sciences/computer and information sciences/artificial intelligence/machine learning
- /natural sciences/computer and information sciences/data science/data analysis
Spletna stran/povezava: https://cordis.europa.eu/project/id/957407 ; https://daphne-eu.github.io/
Naročnik projekta/program: EU / H2020-EU.2.1.1. - INDUSTRIAL LEADERSHIP - Leadership in enabling and industrial technologies - Information and Communication Technologies (ICT)
Časovni okvir: 01. 12. 2020 – 30. 11. 2024
Vrednost projekta: 6.609.665,00 €
Stopnja lastnega financiranja (v %): 100 %
Višina sofinanciranja (delež UM FERI): 244 975 €
Nosilec projekta na UM FERI: izr. prof. dr. Aleš Zamuda
Koordinator projekta: KNOW-CENTER GMBH RESEARCH CENTER FOR DATA-DRIVEN BUSINESS & BIG DATA ANALYTICS (Avstrija)
Sodelujoče organizacije:
- KNOW-CENTER GMBH RESEARCH CENTER FOR DATA-DRIVEN BUSINESS & BIG DATA ANALYTICS
- AVL LIST GMBH
- DEUTSCHES ZENTRUM FUR LUFT - UND RAUMFAHRT EV
- EIDGENOESSISCHE TECHNISCHE HOCHSCHULE ZUERICH
- HASSO-PLATTNER-INSTITUT FUR DIGITAL ENGINEERING GGMBH
- INSTITUTE OF COMMUNICATION AND COMPUTER SYSTEMS
- INFINEON TECHNOLOGIES AUSTRIA AG
- INTEL TECHNOLOGY POLAND SPOLKA Z OGRANICZONA ODPOWIEDZIALNOSCIA
- IT-UNIVERSITETET I KOBENHAVN
- KAI KOMPETENZZENTRUM AUTOMOBIL - UND INDUSTRIEELEKTRONIK GMBH
- TECHNISCHE UNIVERSITAET DRESDEN
- UNIVERZA V MARIBORU
- UNIVERSITAT BASEL
Logo:
Povzetek projekta:
Sodobne podatkovno vodene aplikacije izkoriščajo velike, raznolike zbirke podatkov, da bi našle zanimive vzorce in zgradile robustne modele strojnega učenja (ML) za natančne napovedi. Velike velikosti podatkov in napredna analitika so spodbudile razvoj in sprejemanje podatkovno vzporednih računskih ogrodij, kot sta Apache Spark ali Flink, pa tudi porazdeljenih sistemov ML, kot so MLlib, TensorFlow ali PyTorch. Ključno opažanje je, da imajo ti novi sistemi veliko podobnih pristopov iz tradicionalnega visokozmogljivega računalništva (HPC) in da se arhitektura osnovnih grozdov strojne opreme zbližuje. Kljub temu se programske paradigme, upravljanje virov grozda ter formati in predstavitve podatkov bistveno razlikujejo glede na sklope programske opreme za upravljanje podatkov, HPC in ML. Obstaja pa trend k zapletenim cevovodom za analizo podatkov, ki združujejo te različne sisteme. Primeri so poteki dela porazdeljene predhodne obdelave podatkov, uglašene knjižnice HPC in namenski sistemi ML, pa tudi aplikacije HPC, ki izkoriščajo modele ML za stroškovno učinkovitejšo simulacijo. Glavne ovire so (1) omejena razvojna produktivnost integriranih cevovodov za analizo zaradi različnih programskih modelov in ločena okolja grozdov, (2) nepotrebna režija pri pretoku podatkov in premajhna izrabljenost zaradi ločenih, statično predvidenih grozdov in (3) pomanjkanje skupne sistemske infrastrukture z dobro interoperabilnostjo. Iz teh razlogov je splošni cilj DAPHNE opredelitev odprte in razširljive sistemske infrastrukture za integrirane cevovode za analizo podatkov. Naš cilj je zgraditi referenčno izvedbo jezikovnih abstrakcij (tj. API-jev in jezik, specifičen za domeno), vmesno predstavitev ter tehnike prevajanja in izvajanja s podporo za integracijo in razporejanje heterogenih pospeševalnikov in pomnilniških naprav. Za kvalitativno in kvantitativno analizo bodo v primerjavi z najsodobnejšimi uporabljeni številni primeri z dejanskega sveta, visoko vplivni primeri uporabe, podatkovni nabori in nov nabor primerjalnih testov za meritve zmogljivosti.
Aktivnosti UM FERI:
UM FERI je vključena v projektno delo od upravljanja projekta, sistemske arhitekture, prevajanja in abstrakcije posebnega domenskega jezika, izvajalnega okolja in integracije, preko priprave primerov uporabe, meritvami zmogljivosti in analize do razširjanja in izkoriščanja rezultatov projekta.