Zobrazit příspěvky

Tato sekce Vám umožňuje zobrazit všechny příspěvky tohoto uživatele. Prosím uvědomte si, že můžete vidět příspěvky pouze z oblastí Vám přístupných.


Příspěvky - YourDog

Stran: 1 2 [3] 4 5
31
Potřebuju procházet terabajty videí a převádět na obrázky kvůli zpracování obrazu. Ty pozdější operace jsou vcelku rychlé, ale bottleneck je ten samotný převod z MP4 na obrázek, který ted provádím přes ffmpeg. Ten zvládá i enkodování a dekodování přes GPU, ale myslím že to že z toho dělám obrázky asi na GPU běžet nemůže.

Zkoušel jsem i OpenCV ale to je 4x pomalejší a možná kdyby se to podařilo multithreadovat tak to pobeží maximálně stejně rychle.

Tak jsem se chtěl zeptat, zda někdo neznáte nějaký rychlejší zpusob než ffmpeg, nebo jestli je ten software tak efektivní že už je limit jen muj HW? Ale ffmpeg touto operací vytežuje jen CPU, tak třeba existuje něco pro GPU. Prakticky to ani nemusím ukládat na disk, to zpracování může probíhat současně pokud z toho nějak udělám pole. Pracuju v Pythonu a nebo můžu C# a v nouzi C++.

32
Hardware / Re:Low power ARM SBC na sber dat
« kdy: 27. 08. 2021, 21:10:57 »
Ja mam u RPi4 normální 5TB 2.5" exterňák. Ten se víceméně dá přepisovat do nekonečna a s Pi4 a oficiálním 3A zdrojem se může s čistým svědomím připojit přímo bez dalšího napájení a snad už od loňska funguje to, že Pi4 může bootovat z USB i bez SD karty, ale to ještě nemám vyzkoušeno.

33
Doplnění: Nezkoušej Crawlovat Google, crawlování nesnáší a při pokusu o vyhledávání bys pak musel řešit pokaždé captcha a navíc tě můžou zařadit na blacklist...což někteří poskytovatelé hodně špatně nesou. Jestli se podobně chová seznam nebo Bing nevím.

Tohle je snad lepší řešit obecně tím, že budu respektovat robots.txt, ne? Pak nemusím zkoumat, jak to ten který web snáší, crawler to zjistí automaticky.

Crawlování je žádoucí, bez toho by se jinak nic nevyhledalo, nefungovala by ani heureka nic. Ale stále se z toho dělá šedá zóna nebo něco co dělají hackeři/spameři aby získali seznam emailu a podobně a plete se to s bezohledným scrapingem webů a dat, co shazuje weby.
Jinak ten google robots.txt je dost perverzní, to jsem ještě neviděl :D https://www.google.com/robots.txt

34
Díky za info, napíšu do zprávy...

35
Server / Re:Ake NAS a kolko diskov?
« kdy: 09. 07. 2021, 20:57:11 »
Pokud nejsou peníze problém, tak bych doporučil Synology na 4 disky (kapacita 3 s tolerancí 1 závadného) ale nespoléhat na to a mít ještě to důležitejší offline na HDD... ale žádný SATA kabely do USB, ty mi zničily ruzný značky několik disků v průběhu let... 5 let to funguje ok... jednou se to USB z duvodu uspory v nevhodnou chvíli při kopírování odpojí a je hotovo. Možná existujou nějaký bezchybný, ale netuším jak je mám poznat, protože výrobci jsou samý takový šunky jako akasa, icybox a podobně. Nejlepší je 3,5"+2,5" šuplík přímo v case s HowSwap když to deska podporuje. Taky při vetším počtu dat nemusí bejt špatný ty zálohovací pásky, ale to jsem ještě nikoho neviděl používat ale dají se pořídit na TB levněji než HDD a nemá na nich co odejít. Ale to je spíš pro archivaci když se na ty data moc nepotřebuje chodit a taky je třeba koupit minimálně o řád starší generaci, ta nová je vždycky strašně drahá. Hledat můžeš LTO5, ty jsou 1,5TB a nejsou tak drahy ty mechaniky...
A ještě dodám že nevím jestli z důvodu Chia nebo čeho, ale dneska vyjde levneji 2,5" USB disk, zrovna pokukuju po tom 5TB passportu za 3500 kč, to není pro zálohu zálohy tolik a externí HDD do USB mi nikdy neudělal tu chybu co USB SATA

36
To bol len priklad. Virtualov moze byt kludne viac a s roznymi OS napr. 32bit/64bit Linux/Unix/BSD/Win/MacOS X/Solaris/Other...

Priklad2:

VM1 (4GB RAM), napr. DB1 (M.2 PCIe x4 Gen 4 NVME), NIC1, OS1
VM2 (4GB RAM), napr. DB2 (M.2 PCIe x4 Gen 4 NVME), NIC2, OS2
VM3 (4GB RAM), napr. webserver1 (SATA SSD), USB NIC1, OS3
VM4 (4GB RAM), napr. webserver2 (SATA SSD), USB NIC2, OS4
VM5 (4GB RAM), napr. webserver3 (M.2 PCIe x4 Gen 4 NVME), NIC1, OS5
VM6 (4GB RAM), napr. webserver4 (M.2 PCIe x4 Gen 4 NVME), NIC1, OS6
VM7 (4GB RAM), napr. webserver5 (SATA SSD), USB NIC1, OS7
VM8 (4GB RAM), napr. webserver6 (SATA SSD), USB NIC2, OS8

Ok diky.. Jak je na tom VMWare s vykonem? Já mam jen zkušenost s Hyper-V a Virtual Boxem a ten Box je pomalej, ale Hyper-V jede vícemeně jak na daném HW.

37
To je mi jasné, ale ptám se autora dotazu, k čemu virtuály pro crawling webu.
To je asi úplně jedno. Stejně všechno pojede s jednou veřejnou IP adresou (pochybuju, že by jich měl víc), takže se snadno a rychle dostane na blacklisty a providerovi začnou chodit stížnosti. Hodně štěstí!
Jo, takže se na to mam rovnou vykašlat?
Já nevím jakou máš zkušenost, ale to mi přijde jak 90. léta. Ja mam zkušenost že i při bezohledném scrapování dat z jednoho webu to nikoho nezajímá. Bud mají tak velkej provoz že není možný si ani všimnout a nebo nemají nástroje tohle poznat, to by se ten web musel šíleně zbrzdit aby to někdo začal řešit.

Věc druhá, já nedělám žádnej scraper webů, ale slušnej crawler co respektuje robots.txt a návštěvy na stejné adrese dělá s mezerama jako ostatní akceptovaní crawleři.
A co se týče IP, ano mam jednu neveřejnou která jednou za čas rotuje, ale VPS stojí pár korun a u providera se taky za nějaky poplatek da koupit 5 IP. Proxy mam taky vyzkoušené, ale to je pomalejší a v případě slušného chování to asi ani není potřeba.

38
To je mi jasné, ale ptám se autora dotazu, k čemu virtuály pro crawling webu.
Kvuli škálovatelnosti a proto že se více instancema vykrývají hluchá místa jako timeouty, crashe a neefetivní kod. Ale je pravda že by to mohlo fungovat stejně když to teď pustím 4x na jednom stroji, ale chci mít možnost to pustit na více strojích, asi by bylo lepší neučit se z toho udělat kubernetes balík v dnešní době.

39
V první řadě záleží, co přesně bude ten web crawler dělat.

Klasicky jako třeba seznambot, chodit na různé stránky a ukládat je do DB pro další zpracování...v průměru je velikost asi 55kb. Jak jsem psal výše, ono to Pi3 na kterém jsem to testoval jede pomaleji, ted je otazka proč, když se to při testu nikam neukladalo jen do RAM. Asi to bude chtit zkusit koupit alespon jedno to Pi4 a napsat si nějaky benchmark.

40
ale napadá mě jestli třeba ty Pi nemůžou benefitovat že mají každý svůj 1 Gbit port

Nevidim ze bys mel potrebnou konektivitu ani na jednu stranu - uzke hrdlo mas v pripojce na internet. Az ji zvednes nad 1Gb/s, tak bude uzke hrdlo pripojeni k databazi, ktere taky musis zvednout nad 1Gb/s, protoze pochybuji ze mas jinej switch. Pak se da bavit o tom, ze 4 stroje budou lepsi, nez jeden pripojeny beznym 1Gb/s.

A jak psal Ondrej, zalezi co to bude delat - jaky je pomer v objemu mezi vstupem/vystupem, jake jsou latence - dokazes tu ulohu vytizit aby te omezovalo CPU, nebo to bude omezeno jednou ze siti - interni/externi.

Celkove se takoveto veci nedelaji stylem "napisu dotaz na root", ale udelas si benchmarky a srovnas to - pokud nemas zadnou predeslou zkusenost.

Tak já zas nejsem úplnej jantar, jen dělám v jiné oblasti a tohle je spíš hobby projekt, že se učím dělat s daty/texty a tím crawlerem je chci sbírat. Už mi funguje na desktopu (cca 25mbps)... na RPi3 stejnej program beží tak 50-60% rychlostí, ale ty operace nevytežují CPU a tak nevím proč je to pomalejší. To Pi3 má jen 300 mbit port a tak mě napadlo, jestli kromě maximální rychlosti není třeba i limit na maximální počet spojení nějaký buffer nebo něco... s tím třeba měly v minulosti problém některý routery že měly malou NAT tabulky a při stahovani P2P při velkém počtu spojení se to prostě odpojilo...

Je pravda že ty VM můžu zkusit aniž bych něco z toho kupoval a pak uvidim jestli je to společně 4x rychlejší a sežere to celých 100 mbit nebo to bude mít společně rychlost jen jako ta jedna instance. Ale více Pi4 nezkusím aniž bych je koupil.

Jinak DB je ted na 1Gbit ale do té se tak často nepřistupuje tam se jednou za čas nahraje velkej soubor a do budoucna chci upgradovat na více portů, bud koupím kartu nebo to pak utahne novy Synology s M.2 cache.

41
Studium a uplatnění / Re:ČVUT FEL vs ZČU FEL
« kdy: 08. 07. 2021, 18:37:44 »
Ještě je tu třetí možnost... jestli ti jde o peníze a jseš samostatný a učenlivý, tak se vykašli na školy a uč se přes prázdniny programovat. Pak se nech někde zaměstnat jako junior a když se budeš snažit zlepšovat, tak po 5 letech budeš mít větší hodnotu než Ing. absolvent. K nám do firem chodily uplný dřeva o kterých bych řekl že tomu dali měsíc tutoriálů na YouTube a za rok za dva si troufali do známých firem v zahraničí, ale ona ta "zoomerská" generace je dost oprsklá a myslí si že mají nárok na úspěch, dost si jich taky namele hubu ať vylezli odkudkoliv protože mají z domova nacpano do hlavy že můžou všechno a postrádají sebereflexi.

Nebo bych udělal alespoň kompromis a nechal se zaměstnat už při škole.
Ale pokud trváš na školách, tak ve 20 letech už musíš vědět co tě baví víc a podle toho bych vybíral, ja už jsem svuj obor měl jako hobby na střední.
Jinak v Plzni jsou víc nebezpečný kriminálníci a smažky a taky tam není co dělat, tam je v podstatě centrum, škodovka, pivovar a nějaký sídliště a to je vše. V Praze líp seženeš práci v oboru při té škole, ale co jsem koukal na předměty ČVUT, ono to je všechno par desítek hodin něco v semestru nakousnout a stejně se douč sám.

42
Ahoj, chtěl bych se zeptat na váš názor, co si myslíte že bude rychlejší pro web crawlera napsaného v Pythonu.
4x Raspberry Pi 4 - 4GB verze, nebo v Intel NUC 4x virtualní stroj, případně 4 instance v Kubernetes (ve kterém ještě neumím) na jednom fyzickem stroji? 4 Pi 4GB se zdrojema a kartama vyjdou jen o trochu levněji, ale...

otázka je v tuhle chvíli síťová aktivita.. internet mám 100 Mbit, ale napadá mě jestli třeba ty Pi nemůžou benefitovat že mají každý svůj 1 Gbit port, i když jsou pomalejší na CPU. NUC s i5 (4C/8T) bude mnohem výkonější i když udělám 4x VM s 2 thready každý, ale sdílí jeden port a napadá mě jestli tam pak nebude vznikat nějaký čekání a přehlcenost množstvím paketů, IP adres nebo tak něco?
Třeba je to blbost ale napadá mě připodobnění k HDD že tam to s menšímy soubory taky zpomaluje IOPS. A ještě na ně bude 4x více požadavků.

Ukládat se do databaze na stejné síti budou až větší kusy a rovnou z RAM, takže v případě Pi by neměl být problém že system startuje z SD.
4x to chci pouštět, protože to lépe vytíží linku. Asi by se ten program dal napsat lépe aby to zvládl s jedním spuštěním, ale z budoucího hlediska je to lepší mít škálovatelný a taky nejsou prostoje když se na jednom něco pokazí. Ještě přidávám nákres jak by to mohlo vypadat.


43
Vývoj / Python, C# - příklady z praxe
« kdy: 25. 01. 2021, 18:36:48 »
Předně zmíním můj background a proč se na tohle ptám. Púvodně mám jinou IT profesi, ale posledních letech jsem se jako hobby naučil programovat C# v Unity a poté něco i na desktopu. Ted se celý leden učím i Python, protože mě zajímají některý frameworky který se ovládají hlavně pythonem. Protože nemám praxi jako programátor, tak mi není jasné, jak vypadají programy v Pythonu nebo C# v praxi. Samozřejmě si sám vyrobím něco co je pak konzolová aplikace, že to provádí nějaký požadovaný úkony. Ale není mi jasný ten finální "deployment", když bych tohle dělal pro firmu jak vypadá finální program, co jim dám? Co by po mně chtěli v práci? Jestli to je prostě složka s python scriptem a ten se pak spouští přímo, případně se to dá do Dockeru nebo VM se spouštěcím souborem a hotovo?

Odpověď co by mě zajímala je právě rozebrání nějakýho příkladu z praxe. např. "program který updatuje kurzy měn na webový stránce je napsaný v čistém pythonu, spuštěný v dockeru/nainstalovaný jako proces na pozadí, ovládaný jednoduchým GUI. Napojuje se na nějaky server, kde to čte z databáze. ukládá to do lokálně bežící databáze a to opakuje každou hodinu a webový server pak při požadavku od uživatele v prohlížeči načte přímo tento záznam" nebo je třeba v praxi tento příklad složitější a je tam nějak provedena větší integrace? Prostě mi není jasnej celkove ten deployment v praxi. Ja si vyrobím programy co potřebuju, ale ten management a jejich spouštění mi přijde strašne neprofi bordel... Nejspíš by se po dokončení z toho měl vytvořit nějakej balíček s instalací aby to pak beželo nějak satndalone případne jako služba... to je právě věc co mi není jasná jak se v praxi řeší. diky.

44
Hardware / Re:Redukce DIN (AT) na PS/2 klávesnici
« kdy: 16. 09. 2020, 12:54:41 »
Jestli se pro ni zastavíte (Praha, u Nám. Jiřího z Poděbrad), tak je Vaše.
Nebo ji můžu poslat poštou, ale nevím jestli na poštu ještě tento týden někdo půjde.
Skvěle, to mám 20 minut chůze, tak mohl bych se zastavit zítra někdy později odpoledne? Případně mi napiště do zprávy adresu a tel. a čas kdy se to hodí a já se přizpůsobím. Díky

45
Hardware / Redukce DIN (AT) na PS/2 klávesnici
« kdy: 16. 09. 2020, 11:25:40 »
Chtěl bych se zeptat, jestli někdo neviděl nebo nekupoval někde v ČR tuhle redukci z PS2 na DIN?

V nejhorším to vemu na ebay, jen jsem si říkal, že kdyby to měli někde u nás skladem, že si raději připlatím a budu to mít hned. Diky


Stran: 1 2 [3] 4 5