Headless prohlížeč pro získání HTML

tecka · « **Odpověď #15 kdy:** 01. 02. 2025, 03:36:58 »

Citace: peete 31. 01. 2025, 20:15:47

...

Právě proto, že primitivní scrapování nefunguje, se používá plnohodnotný browser. Headless znamená to, že nezobrazuje GUI, a dnes už to ani nevypíná akceleraci.

Věci jako Selenium a Puppeteer jde detekovat, protože mění prostředí prohlížeče, ale umí i stealth režim, kde to nedělají. A nic ti nebrání je obejít a spustit prohlížeč bez vypínání a změn čehokoliv a ovládat ho sám. Třeba Chrome DevTools Protocol je primitivní a můžeš si dělat co chceš.

Hodně paranoidní webovka může třeba detekovat "nepřirozené" použití myši a klávesnice, ale obecně to prostě funguje. A tvrzení, že k tomu všemu na webu není dost informací není pravda.

Kromě toho mu stejně bude stačit jen Chromácký --virtual-time-budget a --dump-dom.

Reklama

luvar · « **Odpověď #16 kdy:** 01. 02. 2025, 21:33:11 »

Ja by som skusil zadat zadanie pre nejaky oblubeny LLM (chatgpt u mna napriklad), ze co chcem a nech pouzije robot framework so seleniom... je to citatelne, vie to robit screenshoty, vytahovat dom ako text a funguje to. Zaroven je to technologia, co sa da pouzit (a pouziva sa) na end to end testy a na rpa (robot process automation)... zide sa v praxi.
PS defoltne sa robot framework pouziva z formatu, co je vlastne tabulka, kde oddelovacom su dve a viac medzier... kusok divne pre mna, ale da sa na to zvyknut a vyuzit to napriklad na prehladnejsie formatovanie.

Headless prohlížeč pro získání HTML

tecka

Re:Headless prohlížeč pro získání HTML

Reklama

luvar

Re:Headless prohlížeč pro získání HTML