Mate nekdo zkusenosti qsfp28 ethernetem?

Ladislav Zitka · « **kdy:** 06. 12. 2017, 00:30:11 »

zajimaji me 100gbe doporucene pcie karty, zatez cpu, na co si dat pozor.. da se zacit s qsfp+ a pouzit stejny kabel i koncovky pri pozdejsim upgradu na 100gbe qsfp28?

jde mi o point to point 100gb most mezi dvema body. vzdalenost do 100 metru.

karta v hledacku:
MELLANOX-MCX455A-ECAT-100GbE-100Gb-s-EDR-INFINIBAND-CONNECTX-4-VPI-825110-B21

diky

Reklama

Tomas2 · « **Odpověď #1 kdy:** 06. 12. 2017, 09:00:47 »

tak pokud máš qsfp+ (4x 10G či 4x 13G) qsfp28 z toho neuděláš (4x28G, 4x50G), koncovka je ale stejná, pokud chceš použít qsfp28 místo qsfp+ musí to daný port podporovat (to tyhle karty to podporují).

Pokud nad tím chceš provozovat ethernet, nejspíš nejsi schopný tuhle linku vůbec vytížit z jednoho serveru ani s jumboframe. Doporučuji se zaměřit na jiný protokol, infiniband má dobré parametry u rdma, scsi. Většinu práce ti udělá samotná karta, jen v případě ethernetu je potřeba na cpu tvořit/zpracovávat ethernet framy a to je příliš drahé.

Dokážeš lépe popsat o co se snažíš, proč to chceš, co na tom budeš provozovat, jakou budeš mít topologii? P2P to je mezi servery, switchi? Anycast?

Martin Havlicek · « **Odpověď #2 kdy:** 06. 12. 2017, 15:20:12 »

Dobry den,

Na zacatek je dobre rici, ze neexistuje 100G transciever ktery by podporoval vsechny 100G standardy ( -SR10, -SR4, -LR4, -ER4 ... dale pak barevne a jine varianty).

Pokud budete mit moznost volby transcievru na obou koncich, tato starost odpada - jinak se musite prizpusobit. Jelikoz mluvite o QSFP28 tak dost mozna skoncite u -SR4, dobre je se kouknout na stav implementace RS-FEC atd...

Ladislav Zitka · « **Odpověď #3 kdy:** 06. 12. 2017, 16:54:35 »

Citace: Martin Havlicek 06. 12. 2017, 15:20:12

Dobry den,

Na zacatek je dobre rici, ze neexistuje 100G transciever ktery by podporoval vsechny 100G standardy ( -SR10, -SR4, -LR4, -ER4 ... dale pak barevne a jine varianty).

Pokud budete mit moznost volby transcievru na obou koncich, tato starost odpada - jinak se musite prizpusobit. Jelikoz mluvite o QSFP28 tak dost mozna skoncite u -SR4, dobre je se kouknout na stav implementace RS-FEC atd...

Super, diky za link, mam co studovat.... ja urcite nejsem expert na site, kor ne na nejake 100GBe, mam cluster postaveny na komoditnich prepinacich quanta lb8 (48 portove 10gbe sfp+ za 9 tisic) Mezi nekterymi nody jsem udelal pro vetsi prutok dat multipath tcp (card to card) 2x, zkousel jsem i az 6x jako to delali lidi z projektu jako demonstraci, a max byl pod 50gbit/s...

10gbe reseni je zase opravdu super levne a facha v pohode, ale tady chci premostit podobne dve oblasti.

Ladislav Zitka · « **Odpověď #4 kdy:** 06. 12. 2017, 17:55:39 »

Citace: Tomas2 06. 12. 2017, 09:00:47

tak pokud máš qsfp+ (4x 10G či 4x 13G) qsfp28 z toho neuděláš (4x28G, 4x50G), koncovka je ale stejná, pokud chceš použít qsfp28 místo qsfp+ musí to daný port podporovat (to tyhle karty to podporují).

Pokud nad tím chceš provozovat ethernet, nejspíš nejsi schopný tuhle linku vůbec vytížit z jednoho serveru ani s jumboframe. Doporučuji se zaměřit na jiný protokol, infiniband má dobré parametry u rdma, scsi. Většinu práce ti udělá samotná karta, jen v případě ethernetu je potřeba na cpu tvořit/zpracovávat ethernet framy a to je příliš drahé.

Dokážeš lépe popsat o co se snažíš, proč to chceš, co na tom budeš provozovat, jakou budeš mít topologii? P2P to je mezi servery, switchi? Anycast?

Jasne, karty koupim novy, to neni problem, a chapu, ze z qsfp+ (ja mam v tuhle chvili jen sfp+) neudelam qsfp28.

Ten je asi takovyto:
location 1- def start
node (2x sfp+ multipath)
node (2x sfp+ multipath)
.....
sfp+ switche
.....
switch node (6x dual port sfp+ internal LAN, qsfp+ nebo qsfp28 outbound) - high frequency overclocked cpu
location 1 - def end
.....
qsfp+ nebo qsfp28 cable
.....
location 2- def start
switch node (6x dual port sfp+ internal LAN, qsfp+ nebo qsfp28 outbound) - high frequency overclocked cpu
....
node (2x sfp+ multipath)
node (2x sfp+ multipath)
location 2 - def end

ty nody jsou gpu/mixed compute(cpu) & storage/mixed gpu+storage nody. Do nodu se budou postupne strkat Dell PCIe 4x m.2 nvme karty (celkem 8TB), pokud by to melo pomoci prutoku, tak se ty 4 m.2 sticky daji do RAID 0, ale to jsem jeste netestoval. To je az na pristi rok... hdfs je to jedno. Na urovni gpu node se jedna o operacni data, pokud se poskodi, tak to nevadi, lze je pregenerovat, jedna se spise o cache mezi durable storage a computation nodes.

Poznamka: ten jeden m.2 stick zvlada sekvencni r/w 3GB/s, rsp. 1GB/s.

Jedna o experimentalni cluster urceny pro AI trenink a big data processing in general.

Diky kazdopadne za prispevky. Ted me napadlo, ze bych tam mohl polozit dve vlakna (nevim, kolik by to stalo, necham nacenit) a jit cestou QSFP+ (40GB) v multipath rezimu, zas budou levnejsi karty... skoda, ze si to clovek nemuze vyzkouset :-)

Reklama

Tomas2 · « **Odpověď #5 kdy:** 06. 12. 2017, 19:43:03 »

díky za popis. Spíše bych doporučil sehnat nějakého architekta nebo člověka, který to už dělal, vypadá to, že v tom ještě hodně plaveš (bez urážky).

HDFS umí rdma a bude ti za to vděčný, výkon vzedneš výrazně, bez toho nejsou jednoduše schopný saturovat ani tu 10G. Na grafiku máš něco extra nebo jedete na Tensoru? Tam je opět podpora pro rdma. Vedle stačí natáhnout slabý ethernet na ostatní služby, takhle to všude provozujeme my.

Na tyhle věci se nám lépe osvědčil EMC Ipsilon, má zero copy čtení z disku, takže nvme disky vytěží naplno, infiband podporuje i po hdfs protokolu. Ty disky nemá smysl dávat do Raid kvůli rychlosti, nech je samostatně, ideálně rozděl na více partitions a využíj max. paralelismus jinak se budou nudit.

Při pozdějším upgradu na 100G budeš muset očividně udělat více úprav a v tomhle případě bych nemyslel na dopřednou kompatibilitu.

Už máte nějaké PoC? Máte už ověřenou topologii nebo to zatím stavíte na papíře?

Můžeme si pohovořit někdy více, podobné řešení jsem už viděl.

Ladislav Zitka · « **Odpověď #6 kdy:** 07. 12. 2017, 23:14:01 »

Citace: Tomas2 06. 12. 2017, 19:43:03

díky za popis. Spíše bych doporučil sehnat nějakého architekta nebo člověka, který to už dělal, vypadá to, že v tom ještě hodně plaveš (bez urážky).

HDFS umí rdma a bude ti za to vděčný, výkon vzedneš výrazně, bez toho nejsou jednoduše schopný saturovat ani tu 10G. Na grafiku máš něco extra nebo jedete na Tensoru? Tam je opět podpora pro rdma. Vedle stačí natáhnout slabý ethernet na ostatní služby, takhle to všude provozujeme my.

Na tyhle věci se nám lépe osvědčil EMC Ipsilon, má zero copy čtení z disku, takže nvme disky vytěží naplno, infiband podporuje i po hdfs protokolu. Ty disky nemá smysl dávat do Raid kvůli rychlosti, nech je samostatně, ideálně rozděl na více partitions a využíj max. paralelismus jinak se budou nudit.

Při pozdějším upgradu na 100G budeš muset očividně udělat více úprav a v tomhle případě bych nemyslel na dopřednou kompatibilitu.

Už máte nějaké PoC? Máte už ověřenou topologii nebo to zatím stavíte na papíře?

Můžeme si pohovořit někdy více, podobné řešení jsem už viděl.

tak ona mi to udela firma, ktera se specializuje na opticky pojitka, delam na ai startupu. ja jsem architek hadoop, ai a microservices. 50gbit interconnecty jsem si postavil sam i celej gpu a hadoop cluster. vse na gentoo. a mimochodem tu 6x linku multipath tcp vyuziju (50gbit realne) do mrte kdyz pumpuju data do gpu nodu, ale 100gbe space a infiniband znam jen z vlaku.... ale to zadani jsem chtel vyrobit, mozna bude lepsi jim dat spis situaci at navrhnou reseni....

jinak jsem psal ze to je postaveny na hdfs... ale uz nepouzivam normalni disky, ktey maj hovno vykon, resp pouze jako static/low usage data. na procesing se nody budou vybavovat pcie storage, nektery uz sou. si predstav ze mas v jednom pcie slotu 4x m.2, celkovej vykon na slot asi 4gb/s zapis, 12gb/ cteni sekvencne, asynchrone random asi 600mb/s cteni jeden m.2, tj 2.5gb/s na slot(gigabajty, ne gigabity...).... takze jednortovy sfp+ se muze jit bodnout rovnou 😁 ani neuvazuju nody s 8, nebo 16 takovejma kartama zapojeny pres pcie prepinac... zatim....

tohle je cely staveny na trening ai modelu...

10gb sit i na eth vytizim jak prd v ramci node to node(ty v novym provedeni), takze i tady uz uvazuju to vsechno prevest na qsfp+, coz taky zvladnu, ale dal ty standardy neznam, takze budu rad i za nejaky link na knizku nebo blog

ps: jak to tu tak pisu, tak mi dochazi, ze ani 100gbit jako location intrconnect nebude casem asi stacit.. a mozna by se i financne vyplatilo ty masiny narvat do 2 racku vedle sebe, a prejit plne na qsfp+ a misto rack interconnect ty racky postavit oba jako jednu sit, tj. nebudu potrebovat fast interconnect.

no musi se to spocitat jak s ohledem na budouci skalovani a identifikaci botlenecku, tak i financne.....

no musim neco nacist jeste......😁

diky za odpovedi pripadne nejaky hpc network design linky.

Ladislav Zitka · « **Odpověď #7 kdy:** 08. 12. 2017, 23:51:14 »

Citace: Tomas2 06. 12. 2017, 19:43:03

díky za popis. Spíše bych doporučil sehnat nějakého architekta nebo člověka, který to už dělal, vypadá to, že v tom ještě hodně plaveš (bez urážky).

HDFS umí rdma a bude ti za to vděčný, výkon vzedneš výrazně, bez toho nejsou jednoduše schopný saturovat ani tu 10G. Na grafiku máš něco extra nebo jedete na Tensoru? Tam je opět podpora pro rdma. Vedle stačí natáhnout slabý ethernet na ostatní služby, takhle to všude provozujeme my.

Na tyhle věci se nám lépe osvědčil EMC Ipsilon, má zero copy čtení z disku, takže nvme disky vytěží naplno, infiband podporuje i po hdfs protokolu. Ty disky nemá smysl dávat do Raid kvůli rychlosti, nech je samostatně, ideálně rozděl na více partitions a využíj max. paralelismus jinak se budou nudit.

Při pozdějším upgradu na 100G budeš muset očividně udělat více úprav a v tomhle případě bych nemyslel na dopřednou kompatibilitu.

Už máte nějaké PoC? Máte už ověřenou topologii nebo to zatím stavíte na papíře?

Můžeme si pohovořit někdy více, podobné řešení jsem už viděl.

Diky kazdopadne za tip s EMC Ipsilon, studuju :-))

Taky za tip nedavat to do RAIDu, jelikoz tenhle PCIe store bude pro operacni data, ktery se daj vzdycky odnekud zrekonstruovate nebo vytahnout z pomalejsi storage jsem myslel zapojit do RAID 0, napr. po dvou, spis z duvodu nejakeho rozumneho pomeru velikost vsv vykon. A ano jedna se o nvme. tohle bude separatni hdfs system, nemixovany se SATA storage(pomala ale zase vetsi).

GPU - Primarne deeplearning4j, testuju sparkGPU, ale pracuju i navyvoji neceho jako AI ESB, TensorFlow sekundarne pres Java api, ale celkove je to pomalej posera, asi kvuli chybejicim inline matrix operacim.

Jinak tohle je ciste vyvojovej vypocetni cluster a jakakoli "prasecina", ktera by mohla nektere adminy nebo sitare zvednou ze zidle, pokud prinasi vykon je proste plus a akceptovatelna. Kdyz vycvicim model za 3 dny namisto 14, tak jsem vyhral.

Puvodne byl normalni gigabit a rychle se zacaly linky zdvojovat apod, hlavne s prichodem gpu rustem to bylo neudrzitelne a nasel jsem nabidku, ktera se podle me pred dvema lety neodmitala. 10gbe 48 portovy switche za 8000 korun, dvou portovy karty za 2000,--, to je proste 10gbe sit za hubicku, way to go. Multipath TCP mi pomohl kde jsem nasel hrdlo, jenze zalezitost s PCIe storage meni situaci a way to go is now path to hell :-)

Diky za zmineni RDMA, uz jsem na to take koukal, dosel jsem studiem nejakych blogu benchamrku , ze nejvykonejsim resenim bude prechod na schema RDMA-IB-BB.

Jeste jednou diky.

Ladislav Zitka · « **Odpověď #8 kdy:** 09. 12. 2017, 00:18:17 »

jinak k AI obecne, maintainuju Torch, TensorFlow a desitky dalsich balicku pro Gentoo vcetne hadoopu. Nicmene koukam taky na Mesos(ten mam taky v overlayi), resp. DCOS a premejslim, ze si pripravim vsechno jako docker balicky (nad mini gentoo image) a budu to aplikovat na celej cluster jako bych sedel u jednoho PC, Mesos je skvela vec.

Tu je muj overlay:
https://github.com/archenroot/gentoo-overlay/tree/master/sci-libs

Jose D · « **Odpověď #9 kdy:** 09. 12. 2017, 17:30:06 »

Citace: Ladislav Jech 06. 12. 2017, 17:55:39

switch node (6x dual port sfp+ internal LAN, qsfp+ nebo qsfp28 outbound) - high frequency overclocked cpu

Tohle mi přijde zvláštní - nevyšel by levněji switch?

Tomas2 · « **Odpověď #10 kdy:** 10. 12. 2017, 00:08:59 »

koukám, že na to jdeš systematicky a už máš řadu věcí zmáknutých

.

Nerozumím tolik AI, to programují jiní, já se starám o to, aby jim to běželo.

S odkazy je problém, většina těhle technologií má znalostní bázi pod placeným supportem a to poskytnout nemohu, stejně tak nemohu poskytnout materiály z workshopů. Dělám povětšinou na systémech, kde cena není problém a je otázka jaký máš rozpočet. Pracuji i s věcmi jako X6 Exadata, teď dokonce máme x7 na jednom projektu s hadoopem.

Jaké objemy dat v jakém čase potřebuješ načíst? Ty nvme disky jsou dost drahé a pokud máš jen několik TB dat je jednodušší do nacpat do RAM, přes apache Ingite do nastrčit k hdfs a mít z toho čtecí cache. Není ani problém to utlouct 2.5 disky, sice jich potřebuješ cca 20 na jeden nvme, ale ty se dají sehnat velice levně nebo se často někde jich pár stovek válí. I s plotnovými disky se na 14 nodovém clusteru dostáváme na 20 - 30 GB/s na čtenní/zápis s pořizovací cenou mezi 2 - 3M, jako bonus to má o řád až dva vyšší kapacitu než nvme.

Často při podobných věcech bývá velký problém lokalita dat, je vhodnější nastavit replica factor v hdfs i na 6, aby se využily všechny zdroje. Sleduj vytížení jednotlivých disků, tras a hledej, jestli nějaký není přetěžovaný. Pohraj si s schedulingem procesů v linuxu, ten výchozí je v tomhle případě naprosto na nic, určitě znáš numa či jiné možnosti.

Může vyjít levněji nakoupit do serveru více 2-port IB karet, mellanox teď dává 56 qsfp+ v každém portu. Pokud máš problém s cenou switche (6036 výjde na cca 400t a při plném vytížení dává pouze 3Tb/s), je možné servery propojovat mezi sebou, IB zvládá velice dobře mesh síť a umí si to routovat přes sebe, když si vyhraješ s topologií, jsi schopný dosáhnout velice svižných linek.

Opravdu se vyhni ethernetu a IP protokolu, to je zbytečně problematické. Nedávno jsme stavěli na účení 8x 1080 v 4.5U serveru, spoje byly přes 2x Mellanox ConnectX-3 Pro VPI (4x 56GB/s), bohužel nová Tesla ještě nebyla. Mrkni na https://developer.nvidia.com/gpudirect, pokud to poskládáš, nemá smysl to tahat přes TCP/IP. Takhle vypadá drtivá většina učících farem.

Mesos je dobrá věc, na tohle jsem ho ještě ale nepoužil. Teď hodně pokukujeme po Cloudera data science workbench, vypadá to jako ta správná cesta.

PS: ty switche za tyhle ceny chci domů!

Ladislav Zitka · « **Odpověď #11 kdy:** 10. 12. 2017, 01:08:38 »

Citace: Jose D 09. 12. 2017, 17:30:06

Citace: Ladislav Jech 06. 12. 2017, 17:55:39
switch node (6x dual port sfp+ internal LAN, qsfp+ nebo qsfp28 outbound) - high frequency overclocked cpu
Tohle mi přijde zvláštní - nevyšel by levněji switch?

no, jde o to, ze ty linky jsou poskladany do multipath tcp, tj. da to dohromady neco pod 50gbitu

Ladislav Zitka · « **Odpověď #12 kdy:** 10. 12. 2017, 01:12:48 »

Citace: Tomas2 10. 12. 2017, 00:08:59

PS: ty switche za tyhle ceny chci domů!

Super, diky za detailni info, doctu zitra a zareaguju.

Jedna se o switche, byly vyrobeny pro myslim ze amazon, ale dodavka se pak nejak neuskutecnila, nebo ne v takovym mnozstvi, ale switche uz byly na svete a chtely se prodat.

Musim rict, ze normalne od ty doby zdrazily... :-) naslo si to svoji cestu na trh, je o kolo toho velka komunita lidi, takze no problem s konfiguraci:
https://www.ebay.co.uk/itm/Refurbished-Quanta-LB8-48-Port-10GB-SFP-Switch-with-DUAL-Power-T3048-LB8/272882352709?epid=672641629&hash=item3f890e4245:g:zeEAAOSwVGhZieIu

Jose D · « **Odpověď #13 kdy:** 10. 12. 2017, 15:26:06 »

Citace: Tomas2 10. 12. 2017, 00:08:59

6036 výjde na cca 400t a při plném vytížení dává pouze 3Tb/s

v ethernet režimu, nebo jako IPoIB? Nějaký čas zpět jsem se pokoušel o saturaci IB linky pomocí TCPoIPoIB, a docela to byla fuška, ale neměl jsem taky neblokující síť

.

Tomas2 · « **Odpověď #14 kdy:** 10. 12. 2017, 16:28:45 »

ethernet je drahý, nikdy mě ani nenapadlo zkoušet kolik to dá, pokud už infiniband pohání ethernet tak jen kvůli správně a přehledu o síti, ne kvůli výkonu. Přes IPoIB by to mělo jít vytížit naplno, musí se ale zvýšit mtu, trochu poladit tcp stack na OS a nic tomu nebrání.

Mate nekdo zkusenosti qsfp28 ethernetem?

Ladislav Zitka

Mate nekdo zkusenosti qsfp28 ethernetem?

Reklama

Tomas2

Re:Mate nekdo zkusenosti qsfp28 ethernetem?

Martin Havlicek

Re:Mate nekdo zkusenosti qsfp28 ethernetem?

Ladislav Zitka

Re:Mate nekdo zkusenosti qsfp28 ethernetem?

Ladislav Zitka

Re:Mate nekdo zkusenosti qsfp28 ethernetem?

Reklama

Tomas2

Re:Mate nekdo zkusenosti qsfp28 ethernetem?

Ladislav Zitka

Re:Mate nekdo zkusenosti qsfp28 ethernetem?

Ladislav Zitka

Re:Mate nekdo zkusenosti qsfp28 ethernetem?

Ladislav Zitka

Re:Mate nekdo zkusenosti qsfp28 ethernetem?

Jose D

Re:Mate nekdo zkusenosti qsfp28 ethernetem?

Tomas2

Re:Mate nekdo zkusenosti qsfp28 ethernetem?

Ladislav Zitka

Re:Mate nekdo zkusenosti qsfp28 ethernetem?

Ladislav Zitka

Re:Mate nekdo zkusenosti qsfp28 ethernetem?

Jose D

Re:Mate nekdo zkusenosti qsfp28 ethernetem?

Tomas2

Re:Mate nekdo zkusenosti qsfp28 ethernetem?