IMPORTXML z Titulky.com

jiřin · « **Odpověď #15 kdy:** 07. 01. 2018, 21:40:42 »

Sorry, já to nevysvětlil pořádně. Nejde o RSS.

Reklama

Kit · « **Odpověď #16 kdy:** 07. 01. 2018, 22:05:25 »

Citace: jiřin 07. 01. 2018, 21:40:42

Sorry, já to nevysvětlil pořádně. Nejde o RSS.

Je na té doméně snad nějaké jiné XML? To RSS by se pro tvůj účel určitě hodilo nejlépe.

cracwler · « **Odpověď #17 kdy:** 07. 01. 2018, 22:57:53 »

RSS krásně řeší nové titulky, ale už ne rozpracované titulky nebo podrobné statistiky.

Kit · « **Odpověď #18 kdy:** 07. 01. 2018, 23:45:18 »

Citace: cracwler 07. 01. 2018, 22:57:53

RSS krásně řeší nové titulky, ale už ne rozpracované titulky nebo podrobné statistiky.

Jenže když parsuješ HTML, tak to nemůžeš parsovat jako XML. Použij HTML parser.

cracwler · « **Odpověď #19 kdy:** 08. 01. 2018, 07:40:46 »

Citace

Jenže když parsuješ HTML, tak to nemůžeš parsovat jako XML. Použij HTML parser.

Právě že můžu. Výhoda importxml() je v tom, že si můžu pomoxí XPATH vybrat, co chci. Importhtml() beze jenom tabulky a seznamy. Navíc spolehlivě zničí odkazy, tzn. že parametr href z nich pomocí té funkce nedostanu.

Reklama

jiřin · « **Odpověď #20 kdy:** 08. 01. 2018, 08:24:26 »

Citace

Jenže když parsuješ HTML, tak to nemůžeš parsovat jako XML. Použij HTML parser.

Je nějaký důvod, proč by to nebylo možné? Je to značkovací jazyk podobně jako xml, má nějakou strukturu, kterou lze logicky procházet. XML řeší, aby dokument měl striktní strukturu, ale neřeší značky, HTML naopak řeší, aby dokument obsahoval určité značky a strukturu má podobnou. Nemají náhodou společného předka? Ale hlavně ta funkce opravdu funguje a lze ji uvedeným způsobem použít. Určitě to někdy využiju

Pako · « **Odpověď #21 kdy:** 08. 01. 2018, 16:22:30 »

Citace: jiřin 08. 01. 2018, 08:24:26

Citace
Jenže když parsuješ HTML, tak to nemůžeš parsovat jako XML. Použij HTML parser.
Je nějaký důvod, proč by to nebylo možné? Je to značkovací jazyk podobně jako xml, má nějakou strukturu, kterou lze logicky procházet. XML řeší, aby dokument měl striktní strukturu, ale neřeší značky, HTML naopak řeší, aby dokument obsahoval určité značky a strukturu má podobnou. Nemají náhodou společného předka? Ale hlavně ta funkce opravdu funguje a lze ji uvedeným způsobem použít. Určitě to někdy využiju

Protože HTML může, ale nemusí být zároveň XML... tato idea (tj. HTML striktně splňujícího XML požadavky) byla odmítnuta ve prospěch HTML 5. A XML parser s ne-XML daty prostě jako takový pracovat neumí (i když je určitě možné knihovnu co implementuje XML parser ho takto rozšířit, ale pak už to není jen XML, ale i HTML parser).

cracwler · « **Odpověď #22 kdy:** 08. 01. 2018, 19:26:13 »

Abych uzavřel teoretickou debatu - funkce importxml v Google Docs zkrátka umí importovat webovou stránku.

Zpět k problému: bez předžvýkaní se titulky.com do Google Docs plně nenaimportují.

IMPORTXML z Titulky.com

jiřin

Re:IMPORTXML z TITULKY.COM

Reklama

Kit

Re:IMPORTXML z TITULKY.COM

cracwler

Re:IMPORTXML z TITULKY.COM

Kit

Re:IMPORTXML z TITULKY.COM

cracwler

Re:IMPORTXML z TITULKY.COM

Reklama

jiřin

Re:IMPORTXML z TITULKY.COM

Pako

Re:IMPORTXML z TITULKY.COM

cracwler

Re:IMPORTXML z Titulky.com