Zobrazit příspěvky

Tato sekce Vám umožňuje zobrazit všechny příspěvky tohoto uživatele. Prosím uvědomte si, že můžete vidět příspěvky pouze z oblastí Vám přístupných.


Příspěvky - GloGlo

Stran: 1 2 3 [4]
46
jak sem pochopil, tak asi nějak musím propojit asyncio + threading

nepochopil

Můžu se zeptat, jak bys udělal, aby to současně parsovalo třeba pět stránek současně bez použití threading?

Nějak pomocí asyncio.Queue? Jakože jedna stránka bude hotová, pošle signál (nebo jak se tomu říká) další a takhle prostě budou postupovat postupně kolem dokola?

Když sem vytvořil 5 tasks přes asyncio.create_task(), tak to parsovalo jen 1 stránku a ostatní měly smůlu. Jedině když sem udělal parse(data) a následně time.sleep(X), tak to po skončení funkce parse(data) skončilo na další task.

priklad

Kód: [Vybrat]
import asyncio
from pyppeteer import launch


async def get_title(browser, url):
    page = await browser.newPage()
    await page.goto(url)
    return await page.title()


async def get_titles(*urls):
    browser = await launch()
    titles = await asyncio.gather(
        *[asyncio.create_task(get_title(browser, url)) for url in urls]
    )
    await browser.close()
    return titles


print(asyncio.run(get_titles("https://example.com", "https://google.com")))

vypise ['Example Domain', 'Google']

diky moc!

47
jak sem pochopil, tak asi nějak musím propojit asyncio + threading

nepochopil

Můžu se zeptat, jak bys udělal, aby to současně parsovalo třeba pět stránek současně bez použití threading?

Nějak pomocí asyncio.Queue? Jakože jedna stránka bude hotová, pošle signál (nebo jak se tomu říká) další a takhle prostě budou postupovat postupně kolem dokola?

Když sem vytvořil 5 tasks přes asyncio.create_task(), tak to parsovalo jen 1 stránku a ostatní měly smůlu. Jedině když sem udělal parse(data) a následně time.sleep(X), tak to po skončení funkce parse(data) skončilo na další task.

Hele a Google Ti nefunguje? https://stackoverflow.com/questions/28492103/how-to-combine-python-asyncio-with-threads

Google mi samozřejmě funguje a taky než sem položil otázku, tak sem zabil docela hodně času pokusem přijít na to sám. Ale tuhle konkrétní věc sem prostě nikde kloudně nenašel no.

Btw až po docela dlouhý době sem se pak někde dočetl, že threading/concurrent.futures/asyncio ty souběhy/konkurenci řeší vlastně všechny a že je blbost ty metody kombinovat, jen to prej přináší problémy.

48
jak sem pochopil, tak asi nějak musím propojit asyncio + threading

nepochopil

Můžu se zeptat, jak bys udělal, aby to současně parsovalo třeba pět stránek současně bez použití threading?

Nějak pomocí asyncio.Queue? Jakože jedna stránka bude hotová, pošle signál (nebo jak se tomu říká) další a takhle prostě budou postupovat postupně kolem dokola?

Když sem vytvořil 5 tasks přes asyncio.create_task(), tak to parsovalo jen 1 stránku a ostatní měly smůlu. Jedině když sem udělal parse(data) a následně time.sleep(X), tak to po skončení funkce parse(data) skončilo na další task.





49
zrovna nedavno tu na asyncio vysly super clanky p tisnovskeho. (na druhou stranu on snad ani neumi napsat spatny clanek na cokoliv :) )

Nevím, jestli sem špatně hledal, ale články byly spíš o threading a o asyncio je jen menší část jednoho z nich - https://www.root.cz/clanky/soubezne-a-paralelne-bezici-ulohy-naprogramovane-v-pythonu-2/#k09

50
Pyppeteer

Opravdu je to rychlejší než Selenium + Chrome? O hodně?

v headless modu nejspis ano.

Díval sem se na to, problém je v tom, že to používá asyncio, který neumím :D

Tak sem se ho jakože začal učit, ale je to pro mě dost těžký :D Potřebuju otevřít několik tabů a neustále v nich checkovat zdroják.. Ty taby s požadovanou stránkou sem otevřel, to tak těžký nebylo.. ale aby to permanentně checkovalo zdroják, jak sem pochopil, tak asi nějak musím propojit asyncio + threading a to teda zatím nedávám :D


51
Pyppeteer

Opravdu je to rychlejší než Selenium + Chrome? O hodně?

52
Zdravím. Chtěl bych se zeptat, jaký je nejrychlejší a nejednodušší headless browser s Javascriptem. Jde mi o webscrawling.

Momentálně používám headless Chrome přes Selenium, nedělám nic složitýho, ale žere to hrozně moc CPU. (Mám jich spuštěných několik současně).

Potřebuju, aby to umělo Javascript a hlavně fungovalo přes Python, Javu vůbec neumím.

Pokoušel sem se několik hodin rozjet Htmlunit přes selenium-server, ale za živýho boha sem nepřišel na to, jak to udělat.

53
Server / Re:Přibližná cena serveru+elektřiny na AI
« kdy: 28. 06. 2022, 22:00:52 »
Ono hlavne, ked chce robit clovek AI na Azure, tak si nekupi virtualku, co je ta najdrahsia moznost ale kupi si to ako SaaS, alebo pouzije lacnejsie sposoby virtualok na vypocty - Azure Batch, serverless riesnia, ci jestvuju virtualky na velmi kratke pouzitie, ktore su niekolkonasobne lacnejsie.

Primárně nemám vps kvůli AI, ale kvůli webhostingu (flask), wiki pro svoje vlastní potřeby a běží mi tam skripty, který scrawlujou pár webů a ukládají data do databáze. Ten Azure sem jen tak zkoušel, čekal sem, že se to bude podobat Google Cloud, který sem měl asi před 2 rokama, dali mi tam 300 usd kredit a tak sem měl free vps skoro na půl roku. Oproti tomu je Azure teda dost zklamání :D

54
Server / Re:Přibližná cena serveru+elektřiny na AI
« kdy: 27. 06. 2022, 23:33:32 »
hele co na hraní jen tak zkusit google colab nebo obdobný stránky? většinou je tam limit x hodin, ale jinak dostaneš relativně slušný gpu/cpu a nestojí to nic :)

pak samozřejmě se zamyslet jestli to je opravdu potřeba počítat znova, můžeš to spočítat jednou, uložit si (stačí v daným skriptu) a pak to využívat znova už vypočítaný...

začal sem podle nějakýho videa na youtube s jupyter notebook, kterej sem si nainstaloval na vps. je pravda, že ten učitel na udemy pracuje s google colab, ale jak sem pochopil, tak to prostě je jupyter notebook od googlu, nějak mě nenapadlo, že by tam nabízeli nějakou velkou výkonnost, ale mrknu na to, díky za tip

55
Server / Re:Přibližná cena serveru+elektřiny na AI
« kdy: 27. 06. 2022, 20:25:37 »
Jinak díky za všechny odpovědi. Na první pohled to vypadá tak, že řešit pořízení vlastního serveru se jen tak nevyplatí a pokud vůbec by se ta investice vrátila (celkové náklady nižší než VPS), tak jedině za delší dobu.

56
Server / Re:Přibližná cena serveru+elektřiny na AI
« kdy: 27. 06. 2022, 20:13:04 »
Co je na tech Python scriptech nejnarocnejsi? Nejde to nejak optimalizovat (vypocetni operace provadet napr. vektorove pres Numpy, apod.)?

Určitě to optimalizovat půjde a to hodně. Momentálně mám v databázi svoje data, generuju z nich určitý data přes externí knihovnu a pak dělám určitý věci z různých kombinací mých dat + těch vygenerovaných dat. Je to tak pomalý hlavně proto, že trvá spočítat ty data přes externí knihovnu. Nejspíš to extrémně moc zrychlím tím, že si ty vygenerovaný data někde uložím do databáze a nebudu je pokaždý počítat znova. To je mi jasný.. Jenže vtip je v tom, že zatímco teďka dělám jeden test spíš jen abych se podíval, jestli to funguje, tak až trochu pokročím, tak nebudu dělat jeden test který trvá 1400 sekund, ale miliony nebo miliardy testů, kde každý bude trvat třeba 0.01s, ty hodnoty jsou jen ilustrační samozřejmě. Každopádně asi budu potřebovat hodně výpočetní síly :)

57
Server / Re:Přibližná cena serveru+elektřiny na AI
« kdy: 27. 06. 2022, 15:59:51 »
A musi tvoje veci bezet na CPU, nebo to lze akcelerovat na GPU?

Predpokladam ze mas nejaky pocitac doma a nejedes frikulinsky z telefonu jako decka na hristi.

Takze si spust ty ukoly na lokalu, zjisti si CAS * SPOTREBU = ENERGII kterou zaplatis.

Pokud ti to vyhovuje a jen to chces mit rychleji, hledej vicejadrove reseni ve stejne generaci kterou mas.
Pokud to chces v cene nakladu na energie levneji, musis zainvestovat do novejsi generace cpu/gpu.

Tohle si nedokazes ale sam odvodit a prozkoumat? :)

PC nemám, jen starší NB, kterej mi na surfování po netu, nějaký to bastlení a filmy bohatě stačí, ale jinak to na něco složitějšího absolutně není. Odhaduju, že to moje současný VPS je tak 10x výkonější než můj NB.

58
Server / Přibližná cena serveru+elektřiny na AI
« kdy: 27. 06. 2022, 14:27:08 »
Zdravím. Nejsem ajťák, je to jen můj koníček. Nedávno jsem se spíš jako hobby začal učit Machine learning/AI dle kurzu na Udemy, ale jsem teprv začátečník. V budoucnu bych chtěl vytvořit určitý svůj projekt, který asi bude vyžadovat hodně výpočetní síly, ale nedokážu to v tuto chvíli odhadnout.

Každopádně moje otázka: mám nějaké skripty v Pythonu spíš na hraní/učení a sbírám pro ně data. Momentálně mám třetí VPS. První byl asi za 15 EUR/měsíc 8jádro někde v Litvě, pak sem zkoušel Microsoft Azure, kde mi dali 100 USD kredit, ale ten sem docela rychle vyčerpal a hlavně měl problém s jejich IP adresami, na některé se prostě nešlo připojit přes některé porty, třeba z mobilu. Netuším proč. A momentálně mám server v Holandsku u firmy, která mi dala na měsíc 100 EUR kredit, je to 16jádro 16GB RAM a normálně by to stálo zhruba 100 EUR/měsíc.

A teď moje otázka: ten server, který v současnosti mám, je asi ten nejhorší typ, každopádně mi jeden výpočet trval zhruba 450-500 sekund, což by nebylo tak hrozné. Jenže mi pak poslali mail, že příliš moc využívám CPU a že mi nějak odebrali Burst Mode, který mi to zrychloval o 100%, jenže se mi zdá, že se to teď zpomalilo ještě mnohem víc, jeden test teď trvá kolem 1400 sekund a to už se mi zdá celkem pomalé.

Jedna z možností, kterou zvažuju, je, že bych si koupil nějaký svůj server, třeba z druhé ruky. Jde mi hlavně o CPU, RAM asi není potřeba zas tak moc, těch 16GB by mohlo stačit (ale na 100% jistý si nejsem). Za kolik by šlo pořídit nějak levně server s třeba 24 nebo 48 CPU?

A dále, kdybych si ho hypoteticky pořídil, tak kolik to pak žere elektřiny? :-) Prostě mi jde o to, jestli se víc vyplatí si takový server koupit a nebo pronajmout jako VPS.

Díky za vaše tipy/odhady :)

Stran: 1 2 3 [4]