koukám, že na to jdeš systematicky a už máš řadu věcí zmáknutých

.
Nerozumím tolik AI, to programují jiní, já se starám o to, aby jim to běželo.
S odkazy je problém, většina těhle technologií má znalostní bázi pod placeným supportem a to poskytnout nemohu, stejně tak nemohu poskytnout materiály z workshopů. Dělám povětšinou na systémech, kde cena není problém a je otázka jaký máš rozpočet. Pracuji i s věcmi jako X6 Exadata, teď dokonce máme x7 na jednom projektu s hadoopem.
Jaké objemy dat v jakém čase potřebuješ načíst? Ty nvme disky jsou dost drahé a pokud máš jen několik TB dat je jednodušší do nacpat do RAM, přes apache Ingite do nastrčit k hdfs a mít z toho čtecí cache. Není ani problém to utlouct 2.5 disky, sice jich potřebuješ cca 20 na jeden nvme, ale ty se dají sehnat velice levně nebo se často někde jich pár stovek válí. I s plotnovými disky se na 14 nodovém clusteru dostáváme na 20 - 30 GB/s na čtenní/zápis s pořizovací cenou mezi 2 - 3M, jako bonus to má o řád až dva vyšší kapacitu než nvme.
Často při podobných věcech bývá velký problém lokalita dat, je vhodnější nastavit replica factor v hdfs i na 6, aby se využily všechny zdroje. Sleduj vytížení jednotlivých disků, tras a hledej, jestli nějaký není přetěžovaný. Pohraj si s schedulingem procesů v linuxu, ten výchozí je v tomhle případě naprosto na nic, určitě znáš numa či jiné možnosti.
Může vyjít levněji nakoupit do serveru více 2-port IB karet, mellanox teď dává 56 qsfp+ v každém portu. Pokud máš problém s cenou switche (6036 výjde na cca 400t a při plném vytížení dává pouze 3Tb/s), je možné servery propojovat mezi sebou, IB zvládá velice dobře mesh síť a umí si to routovat přes sebe, když si vyhraješ s topologií, jsi schopný dosáhnout velice svižných linek.
Opravdu se vyhni ethernetu a IP protokolu, to je zbytečně problematické. Nedávno jsme stavěli na účení 8x 1080 v 4.5U serveru, spoje byly přes 2x Mellanox ConnectX-3 Pro VPI (4x 56GB/s), bohužel nová Tesla ještě nebyla. Mrkni na
https://developer.nvidia.com/gpudirect, pokud to poskládáš, nemá smysl to tahat přes TCP/IP. Takhle vypadá drtivá většina učících farem.
Mesos je dobrá věc, na tohle jsem ho ještě ale nepoužil. Teď hodně pokukujeme po Cloudera data science workbench, vypadá to jako ta správná cesta.
PS: ty switche za tyhle ceny chci domů!