no a teraz je otazka, ze ako / na zaklade coho Spark vie, ze vypocitane data sa maju poslat na ten nod kde je ten konkretny uzol z toho vypoctoveho stromu. ako su tie data posielane ze toho streamu na rozne nody?
Tyhle implementační detaily už nevím - se Sparkem jsem dělal už nějakej pátek zpátky, pak jsem se spíš orientoval právě na Flink.
Ale to, na co se ptáš, není nijak složitý/zajímavý, ne? Prostě node A ví, že má výstup poslat na node B, takže v clusteru bude nejspíš nějaký orchestrator, který si udržuje informaci, že node B je právě na stroji X, ne? Šlo by to i pomocí autodiscovery, ale to myslím není případ Sparku. Implementační detaily fakt nevím, třeba bude vědět nějaký kolega.
Mně osobně přijde na tom všem vůbec nejzajímavější, jakým způsobem je implementovaný stavový výpočet na klíčovaném streamu - že se pro každý klíč udržuje vlastní stav a samotný výpočetní node může být jenom jeden. To mi přijde geniálně jednoduchý a přitom strašně mocný.