1
Software / Re:Headless prohlížeč pro získání HTML
« Poslední příspěvek od tecka kdy Dnes v 03:36:58 »...Právě proto, že primitivní scrapování nefunguje, se používá plnohodnotný browser. Headless znamená to, že nezobrazuje GUI, a dnes už to ani nevypíná akceleraci.
Věci jako Selenium a Puppeteer jde detekovat, protože mění prostředí prohlížeče, ale umí i stealth režim, kde to nedělají. A nic ti nebrání je obejít a spustit prohlížeč bez vypínání a změn čehokoliv a ovládat ho sám. Třeba Chrome DevTools Protocol je primitivní a můžeš si dělat co chceš.
Hodně paranoidní webovka může třeba detekovat "nepřirozené" použití myši a klávesnice, ale obecně to prostě funguje. A tvrzení, že k tomu všemu na webu není dost informací není pravda.
Kromě toho mu stejně bude stačit jen Chromácký --virtual-time-budget a --dump-dom.