Headless prohlížeč pro získání HTML

tecka

  • ***
  • 165
    • Zobrazit profil
    • E-mail
Re:Headless prohlížeč pro získání HTML
« Odpověď #15 kdy: 01. 02. 2025, 03:36:58 »
...
Právě proto, že primitivní scrapování nefunguje, se používá plnohodnotný browser. Headless znamená to, že nezobrazuje GUI, a dnes už to ani nevypíná akceleraci.

Věci jako Selenium a Puppeteer jde detekovat, protože mění prostředí prohlížeče, ale umí i stealth režim, kde to nedělají. A nic ti nebrání je obejít a spustit prohlížeč bez vypínání a změn čehokoliv a ovládat ho sám. Třeba Chrome DevTools Protocol je primitivní a můžeš si dělat co chceš.

Hodně paranoidní webovka může třeba detekovat "nepřirozené" použití myši a klávesnice, ale obecně to prostě funguje. A tvrzení, že k tomu všemu na webu není dost informací není pravda.

Kromě toho mu stejně bude stačit jen Chromácký --virtual-time-budget a --dump-dom.


luvar

  • ***
  • 242
    • Zobrazit profil
    • E-mail
Re:Headless prohlížeč pro získání HTML
« Odpověď #16 kdy: 01. 02. 2025, 21:33:11 »
Ja by som skusil zadat zadanie pre nejaky oblubeny LLM (chatgpt u mna napriklad), ze co chcem a nech pouzije robot framework so seleniom... je to citatelne, vie to robit screenshoty, vytahovat dom ako text a funguje to. Zaroven je to technologia, co sa da pouzit (a pouziva sa) na end to end testy a na rpa (robot process automation)... zide sa v praxi.
PS defoltne sa robot framework pouziva z formatu, co je vlastne tabulka, kde oddelovacom su dve a viac medzier... kusok divne pre mna, ale da sa na to zvyknut a vyuzit to napriklad na prehladnejsie formatovanie.