Zobrazit příspěvky

Tato sekce Vám umožňuje zobrazit všechny příspěvky tohoto uživatele. Prosím uvědomte si, že můžete vidět příspěvky pouze z oblastí Vám přístupných.


Příspěvky - honzanovak555

Stran: [1]
1
Vývoj / Re:Agregace velkého množství streamovaných dat
« kdy: 29. 09. 2021, 19:00:05 »
Ještě sry za resuscitaci - téma mě zajímá, protože o něm dohromady nic nevím...


Format (zjednoduseny) je takovyto, realna jedna zprava ma cca 1.5kB dat.

Kód: [Vybrat]
{
"metric": "metric1",
"metadata": {
"nodeid": "node1",
"cardid": "card1",
"portid": "port1",
"lvidid": "lvid1"
// "metadata atributů" je víc, množina je stabilní
},
"counters": {
"MP_TOTAL_TRANS_AUDIO_SESSIONS": 0,
"MP_PEAK_TRANS_VIDEO_SESSIONS": 0,
// "čítačových proměnných" je mnoho, množina je stabilní pro danou metriku
}
}

Spark vypadá, že má v zásadě "ROLAPový" interní metamodel.
Chápu, že umí brát data z předávacího formátu JSON.
Výše načrtnutá struktura není takto sešněrována obecným JSONem. Řekněme, že se tady jedná o JSON s nějakým "dodatečným schématem" (pravidly). Tzn. ten již zmíněný "polymorfismus" není vlastností JSONu, ale specialitou předloženého zadání. A mám pocit, že moc nesedí ani na "relační paradigma" - dá se na něj naroubovat na bázi velkého počtu pojmenovaných sloupců, které budou mít v mnoha případech prázdné hodnoty...

Protože Spark neznám, připadá mi, že polymorfní zadání na relační přístup moc nepasuje :-)

Nevidim kde tu je problem ... ved ako to taha z Kafky, tak si na to mozes napisat uplne hocijaky map a reducer

https://spark.apache.org/docs/latest/streaming-programming-guide.html#transformations-on-dstreams

Tak by si mal jednu dalsiu classu ktora by bola usita namieru tomu co potrebujes a ako tie data taha tak si to reducenes ..

https://spark.apache.org/docs/latest/streaming-programming-guide.html#window-operations checkni "reduceBy*" methody.

Proste ako tie data prichadzaju, tak len vzdy updatenes a reducenes to.

2
Vývoj / Re:Agregace velkého množství streamovaných dat
« kdy: 27. 09. 2021, 00:40:32 »

Pak je zde tapajici "stredni" trida, kdo se to snazi lepit skrze knihovny nebo jazykove konstrukty, ale netusi uz jak to je ve skutecnosti narocne (casove/pametove).

A pak tady dobehnou decka jako vy, ktery vytasi zazracny frikulinsky jazyk/framework, ktery by to mel udelat, ale o pocitaci vedi snad jenom tolik, ze to bez internetu neudela ani tuk :-)

omnoho rozumnejsie hlavy s Phd atd vymysleli "frikulinsky framework" ktory pouziva cely svet od rana do vecera a je to alfa a omega big data a nejaky Standa Blabol z Dolnej to ide pisat po svojom lebo ved to kurva da! :D

Jeho nabastleny bazmek bude unikat ktoremu bude rozumiet len on, bude bud omnoho menej efektivny alebo lepsi o 2% a zabije s tym radovo viac casu lebo bude zacinat od nuly.

Ale ukaze tym mladym cucakom!

A to chces.

3
Vývoj / Re:Agregace velkého množství streamovaných dat
« kdy: 26. 09. 2021, 09:15:23 »
Nechapem, preco tu existuje potreba bastlit nieco custom ked v Sparku si staci precitat dokumentaciu a po skonceni projektu budem o technologiu mudrejsi. Namiesto toho sa to tu navrhuje "davat do suborov a potom paralelizovat na dva priechody" lol ..., Da sa v tom programovat aj v Java API, Scala nie je treba.

4
Vývoj / Re:Agregace velkého množství streamovaných dat
« kdy: 23. 09. 2021, 11:52:31 »
Doplnim ze Ignite ma IgniteRDD na ktore je mozne zavesit Spark a spracovat to ale naopak to nefuguje - Spark nevie spravit z Ignite sink.

Kafka ako source pre Ignite a tam to spracovat je urcite zaujimave ale pride mi to ako kanon na vrabce. Zaroven Ignite sa mi zda nema tie time window funkcie take pohodlne ako Spark.

Ja som pouzival raz Ignite ako write through cache pre Cassandru a potom sa nad Ignitom v cachi da volat normalne (distribuovane) sql s joinami co sa v Cassandre neda.

5
Vývoj / Re:Agregace velkého množství streamovaných dat
« kdy: 23. 09. 2021, 09:05:38 »
Spravne riesenie je pouzit Kafka Spark streaming, je to presne robene na to co tazatel potrebuje.

Zakladna idea je ze sa Spark pripoji na Kafku ako consumer a pravidelne taha z Kafky data do Dstreamu nad RDD a nad tym si spravis agregacie absolutne jednoducho. Ono je to uplne usite namieru tomuto problemu.

Tym padom nemusis vobec drzat nikde tie data, staci to on-the-fly agregovat a pamatat si posledny event.

https://spark.apache.org/docs/latest/streaming-kafka-0-10-integration.html

https://spark.apache.org/docs/latest/streaming-programming-guide.html

Stran: [1]