Nejrychlejší a nejjednodušší headless browser na Python?

GloGlo · « **kdy:** 29. 06. 2022, 22:57:10 »

Zdravím. Chtěl bych se zeptat, jaký je nejrychlejší a nejednodušší headless browser s Javascriptem. Jde mi o webscrawling.

Momentálně používám headless Chrome přes Selenium, nedělám nic složitýho, ale žere to hrozně moc CPU. (Mám jich spuštěných několik současně).

Potřebuju, aby to umělo Javascript a hlavně fungovalo přes Python, Javu vůbec neumím.

Pokoušel sem se několik hodin rozjet Htmlunit přes selenium-server, ale za živýho boha sem nepřišel na to, jak to udělat.

Reklama

APhacker_mob · « **Odpověď #1 kdy:** 29. 06. 2022, 23:12:57 »

Pyppeteer

GloGlo · « **Odpověď #2 kdy:** 30. 06. 2022, 00:54:46 »

Citace: APhacker_mob 29. 06. 2022, 23:12:57

Pyppeteer

Opravdu je to rychlejší než Selenium + Chrome? O hodně?

Google CTCCTCGGCGGGCACGTAG · « **Odpověď #3 kdy:** 30. 06. 2022, 01:06:33 »

Citace: GloGlo 30. 06. 2022, 00:54:46

Citace: APhacker_mob 29. 06. 2022, 23:12:57
Pyppeteer

Opravdu je to rychlejší než Selenium + Chrome? O hodně?

v headless modu nejspis ano.

Google CTCCTCGGCGGGCACGTAG · « **Odpověď #4 kdy:** 30. 06. 2022, 01:15:09 »

Citace: GloGlo 29. 06. 2022, 22:57:10

Mám jich spuštěných několik současně.

nekolik instanci pythonu nebo nekolik browseru? Ani jedno podle me neni treba, z jednoho skriptu jde otevrit nekolik url najednou v jednom browseru.

Reklama

GloGlo · « **Odpověď #5 kdy:** 30. 06. 2022, 05:46:00 »

Citace: A.P.Hacker 30. 06. 2022, 01:06:33

Citace: GloGlo 30. 06. 2022, 00:54:46
Citace: APhacker_mob 29. 06. 2022, 23:12:57
Pyppeteer

Opravdu je to rychlejší než Selenium + Chrome? O hodně?

v headless modu nejspis ano.

Díval sem se na to, problém je v tom, že to používá asyncio, který neumím

Tak sem se ho jakože začal učit, ale je to pro mě dost těžký

Potřebuju otevřít několik tabů a neustále v nich checkovat zdroják.. Ty taby s požadovanou stránkou sem otevřel, to tak těžký nebylo.. ale aby to permanentně checkovalo zdroják, jak sem pochopil, tak asi nějak musím propojit asyncio + threading a to teda zatím nedávám

panpanika · « **Odpověď #6 kdy:** 30. 06. 2022, 08:00:15 »

zrovna nedavno tu na asyncio vysly super clanky p tisnovskeho. (na druhou stranu on snad ani neumi napsat spatny clanek na cokoliv

)

Google CTCCTCGGCGGGCACGTAG · « **Odpověď #7 kdy:** 30. 06. 2022, 10:21:07 »

Citace: GloGlo 30. 06. 2022, 05:46:00

jak sem pochopil, tak asi nějak musím propojit asyncio + threading

nepochopil

GloGlo · « **Odpověď #8 kdy:** 30. 06. 2022, 15:16:20 »

Citace: panpanika 30. 06. 2022, 08:00:15

zrovna nedavno tu na asyncio vysly super clanky p tisnovskeho. (na druhou stranu on snad ani neumi napsat spatny clanek na cokoliv )

Nevím, jestli sem špatně hledal, ale články byly spíš o threading a o asyncio je jen menší část jednoho z nich - https://www.root.cz/clanky/soubezne-a-paralelne-bezici-ulohy-naprogramovane-v-pythonu-2/#k09

GloGlo · « **Odpověď #9 kdy:** 30. 06. 2022, 16:37:25 »

Citace: A.P.Hacker 30. 06. 2022, 10:21:07

Citace: GloGlo 30. 06. 2022, 05:46:00
jak sem pochopil, tak asi nějak musím propojit asyncio + threading

nepochopil

Můžu se zeptat, jak bys udělal, aby to současně parsovalo třeba pět stránek současně bez použití threading?

Nějak pomocí asyncio.Queue? Jakože jedna stránka bude hotová, pošle signál (nebo jak se tomu říká) další a takhle prostě budou postupovat postupně kolem dokola?

Když sem vytvořil 5 tasks přes asyncio.create_task(), tak to parsovalo jen 1 stránku a ostatní měly smůlu. Jedině když sem udělal parse(data) a následně time.sleep(X), tak to po skončení funkce parse(data) skončilo na další task.

Ink · « **Odpověď #10 kdy:** 30. 06. 2022, 18:08:14 »

Citace: GloGlo 30. 06. 2022, 16:37:25

Citace: A.P.Hacker 30. 06. 2022, 10:21:07
Citace: GloGlo 30. 06. 2022, 05:46:00
jak sem pochopil, tak asi nějak musím propojit asyncio + threading

nepochopil

Můžu se zeptat, jak bys udělal, aby to současně parsovalo třeba pět stránek současně bez použití threading?

Nějak pomocí asyncio.Queue? Jakože jedna stránka bude hotová, pošle signál (nebo jak se tomu říká) další a takhle prostě budou postupovat postupně kolem dokola?

Když sem vytvořil 5 tasks přes asyncio.create_task(), tak to parsovalo jen 1 stránku a ostatní měly smůlu. Jedině když sem udělal parse(data) a následně time.sleep(X), tak to po skončení funkce parse(data) skončilo na další task.

Hele a Google Ti nefunguje? https://stackoverflow.com/questions/28492103/how-to-combine-python-asyncio-with-threads

Google CTCCTCGGCGGGCACGTAG · « **Odpověď #11 kdy:** 30. 06. 2022, 18:59:21 »

Citace: Ink 30. 06. 2022, 18:08:14

Citace: GloGlo 30. 06. 2022, 16:37:25
Citace: A.P.Hacker 30. 06. 2022, 10:21:07
Citace: GloGlo 30. 06. 2022, 05:46:00
jak sem pochopil, tak asi nějak musím propojit asyncio + threading

nepochopil

Můžu se zeptat, jak bys udělal, aby to současně parsovalo třeba pět stránek současně bez použití threading?

Nějak pomocí asyncio.Queue? Jakože jedna stránka bude hotová, pošle signál (nebo jak se tomu říká) další a takhle prostě budou postupovat postupně kolem dokola?

Když sem vytvořil 5 tasks přes asyncio.create_task(), tak to parsovalo jen 1 stránku a ostatní měly smůlu. Jedině když sem udělal parse(data) a následně time.sleep(X), tak to po skončení funkce parse(data) skončilo na další task.

Hele a Google Ti nefunguje? https://stackoverflow.com/questions/28492103/how-to-combine-python-asyncio-with-threads

on tohle nepotrebuje, to se pouziva, kdyz potrebujes v asyncio aplikaci blokujici volani. pyppeteer je plne neblokujici.

to co chce (vic tabu v jednom browseru) by slo i pomoci selenia a vlaken

Google CTCCTCGGCGGGCACGTAG · « **Odpověď #12 kdy:** 30. 06. 2022, 19:41:52 »

Citace: GloGlo 30. 06. 2022, 16:37:25

Citace: A.P.Hacker 30. 06. 2022, 10:21:07
Citace: GloGlo 30. 06. 2022, 05:46:00
jak sem pochopil, tak asi nějak musím propojit asyncio + threading

nepochopil

Můžu se zeptat, jak bys udělal, aby to současně parsovalo třeba pět stránek současně bez použití threading?

Nějak pomocí asyncio.Queue? Jakože jedna stránka bude hotová, pošle signál (nebo jak se tomu říká) další a takhle prostě budou postupovat postupně kolem dokola?

Když sem vytvořil 5 tasks přes asyncio.create_task(), tak to parsovalo jen 1 stránku a ostatní měly smůlu. Jedině když sem udělal parse(data) a následně time.sleep(X), tak to po skončení funkce parse(data) skončilo na další task.

priklad

Kód: [Vybrat]

import asyncio
from pyppeteer import launch


async def get_title(browser, url):
    page = await browser.newPage()
    await page.goto(url)
    return await page.title()


async def get_titles(*urls):
    browser = await launch()
    titles = await asyncio.gather(
        *[asyncio.create_task(get_title(browser, url)) for url in urls]
    )
    await browser.close()
    return titles


print(asyncio.run(get_titles("https://example.com", "https://google.com")))

vypise ['Example Domain', 'Google']

GloGlo · « **Odpověď #13 kdy:** 01. 07. 2022, 01:13:17 »

Citace: Ink 30. 06. 2022, 18:08:14

Citace: GloGlo 30. 06. 2022, 16:37:25
Citace: A.P.Hacker 30. 06. 2022, 10:21:07
Citace: GloGlo 30. 06. 2022, 05:46:00
jak sem pochopil, tak asi nějak musím propojit asyncio + threading

nepochopil

Můžu se zeptat, jak bys udělal, aby to současně parsovalo třeba pět stránek současně bez použití threading?

Nějak pomocí asyncio.Queue? Jakože jedna stránka bude hotová, pošle signál (nebo jak se tomu říká) další a takhle prostě budou postupovat postupně kolem dokola?

Když sem vytvořil 5 tasks přes asyncio.create_task(), tak to parsovalo jen 1 stránku a ostatní měly smůlu. Jedině když sem udělal parse(data) a následně time.sleep(X), tak to po skončení funkce parse(data) skončilo na další task.

Hele a Google Ti nefunguje? https://stackoverflow.com/questions/28492103/how-to-combine-python-asyncio-with-threads

Google mi samozřejmě funguje a taky než sem položil otázku, tak sem zabil docela hodně času pokusem přijít na to sám. Ale tuhle konkrétní věc sem prostě nikde kloudně nenašel no.

Btw až po docela dlouhý době sem se pak někde dočetl, že threading/concurrent.futures/asyncio ty souběhy/konkurenci řeší vlastně všechny a že je blbost ty metody kombinovat, jen to prej přináší problémy.

GloGlo · « **Odpověď #14 kdy:** 01. 07. 2022, 01:13:52 »

Citace: A.P.Hacker 30. 06. 2022, 19:41:52

Citace: GloGlo 30. 06. 2022, 16:37:25
Citace: A.P.Hacker 30. 06. 2022, 10:21:07
Citace: GloGlo 30. 06. 2022, 05:46:00
jak sem pochopil, tak asi nějak musím propojit asyncio + threading

nepochopil

Můžu se zeptat, jak bys udělal, aby to současně parsovalo třeba pět stránek současně bez použití threading?

Nějak pomocí asyncio.Queue? Jakože jedna stránka bude hotová, pošle signál (nebo jak se tomu říká) další a takhle prostě budou postupovat postupně kolem dokola?

Když sem vytvořil 5 tasks přes asyncio.create_task(), tak to parsovalo jen 1 stránku a ostatní měly smůlu. Jedině když sem udělal parse(data) a následně time.sleep(X), tak to po skončení funkce parse(data) skončilo na další task.

priklad

Kód: [Vybrat]
import asyncio from pyppeteer import launch async def get_title(browser, url): page = await browser.newPage() await page.goto(url) return await page.title() async def get_titles(*urls): browser = await launch() titles = await asyncio.gather( *[asyncio.create_task(get_title(browser, url)) for url in urls] ) await browser.close() return titles print(asyncio.run(get_titles("https://example.com", "https://google.com")))
vypise ['Example Domain', 'Google']

diky moc!

Nejrychlejší a nejjednodušší headless browser na Python?

GloGlo

Nejrychlejší a nejjednodušší headless browser na Python?

Reklama

APhacker_mob

Re:Nejrychlejší a nejjednodušší headless browser na Python?

GloGlo

Re:Nejrychlejší a nejjednodušší headless browser na Python?

Google CTCCTCGGCGGGCACGTAG

Re:Nejrychlejší a nejjednodušší headless browser na Python?

Google CTCCTCGGCGGGCACGTAG

Re:Nejrychlejší a nejjednodušší headless browser na Python?

Reklama

GloGlo

Re:Nejrychlejší a nejjednodušší headless browser na Python?

panpanika

Re:Nejrychlejší a nejjednodušší headless browser na Python?

Google CTCCTCGGCGGGCACGTAG

Re:Nejrychlejší a nejjednodušší headless browser na Python?

GloGlo

Re:Nejrychlejší a nejjednodušší headless browser na Python?

GloGlo

Re:Nejrychlejší a nejjednodušší headless browser na Python?

Ink

Re:Nejrychlejší a nejjednodušší headless browser na Python?

Google CTCCTCGGCGGGCACGTAG

Re:Nejrychlejší a nejjednodušší headless browser na Python?

Google CTCCTCGGCGGGCACGTAG

Re:Nejrychlejší a nejjednodušší headless browser na Python?

GloGlo

Re:Nejrychlejší a nejjednodušší headless browser na Python?

GloGlo

Re:Nejrychlejší a nejjednodušší headless browser na Python?