IMPORTXML z Titulky.com

cracwler · « **kdy:** 04. 01. 2018, 19:44:59 »

Pokouším se importovat do sešitu v Google Docs data z webu titulky.com pomocí funkce importxml()

konkrétně

Kód: [Vybrat]

=IMPORTXML("https://www.titulky.com"; "//title")
Výsledkem je

Kód: [Vybrat]

#N/A Importovaný obsah XML nelze analyzovat
Může mi někdo vysvětlit proč?

Reklama

. · « **Odpověď #1 kdy:** 04. 01. 2018, 20:01:12 »

Kolik sekund jsi nad tím strávil, než ses obrátil sem?

dw · « **Odpověď #2 kdy:** 04. 01. 2018, 20:05:16 »

Je html kod tej stranky validny xml kod?

cracwler · « **Odpověď #3 kdy:** 04. 01. 2018, 20:36:26 »

dw: Předpokládám, že validní XML to nebude, jako většina ostatních, které ale ta funkce naimportuje.

. : Čistýho času? Asi 3600 sekund.

jiřin · « **Odpověď #4 kdy:** 04. 01. 2018, 23:38:57 »

No tak na to nelze pustit xpath query. Chyba není na vašem přijímači. To je zajímavá funkce, díky za tip

Reklama

jiřin · « **Odpověď #5 kdy:** 04. 01. 2018, 23:59:56 »

Tak jsem to vyřešil. Vadí tomu IE styly. Kurňa to ani 3600 sekund nebylo

cracwler · « **Odpověď #6 kdy:** 05. 01. 2018, 05:52:41 »

Jiřin: Můžeš to prosím rozvést? Jak jsi ty styly obešel? Díky.

jiřin · « **Odpověď #7 kdy:** 05. 01. 2018, 08:51:59 »

Vzal jsem zdroják, vložil do souboru na hostingu a postupně jsem odstraňoval částí kódu. Odstranil jsem ten komentář o autorovi, ten tam nemá co dělat, pak jsem upravil tag html (nelíbilo se to validátoru) a potom jsem odstranil styly pro IE. Teprve potom to začala fungovat. Tipnul bych si, že vadí ten komentář a ie styly. Čili nejspíš ta stránka uvedeným způsobem bez prostředníka, který by upravil zdroják nebude lze použít. Ale můžu pro tebe udělat placenou službu, která tu stránku předžvejká a potom ti ji poskytne bez uvedených součástí

hontelus · « **Odpověď #8 kdy:** 06. 01. 2018, 18:17:32 »

vrací server stejnou odpověď? (jestli gůgl IP nevrací fejky a normálně to co má, to co vidíš ty)

cracwler · « **Odpověď #9 kdy:** 07. 01. 2018, 17:43:42 »

hontelus: Nevím jak to zjistit.

jiřin: Díky za nabídku. Kolik by to stálo?

Mně ošklivej skriptík, který to vyřeší stál čtyři řádky kódu. Když jsem ho přepsal tak, že by ho mohl Robert C. Martin dát do dalšího vydání do Clean Code, tak padesát.

Nicméně, tvoje rada mě nakopla správným směrem. Dík.

Kit · « **Odpověď #10 kdy:** 07. 01. 2018, 18:02:11 »

Citace: cracwler 07. 01. 2018, 17:43:42

hontelus: Nevím jak to zjistit.

jiřin: Díky za nabídku. Kolik by to stálo? Mně ošklivej skriptík, který to vyřeší stál čtyři řádky kódu. Když jsem ho přepsal tak, že by ho mohl Robert C. Martin dát do dalšího vydání do Clean Code, tak padesát. Nicméně, tvoje rada mě nakopla správným směrem. Dík.

Když ze 4 řádek uděláš 50, tak už to moc čisté asi nebude.

Kit · « **Odpověď #11 kdy:** 07. 01. 2018, 18:37:36 »

Tak jsem si zkusil stáhnout XML https://www.titulky.com/rss/titulky_rss.xml a parser mi to normálně sežral. Žádné microsoftí styly tam nevidím.

jiřin · « **Odpověď #12 kdy:** 07. 01. 2018, 19:08:03 »

Jde o to, že ta funkce umí pomocí xpath query rozdělat stránku na součástky. Můžeš si nechat zobrazit všechny odkazy nebo některé odkazy, divy, odstavce apod. Ten hack na styly pro Internet explorer jí nesvědčí

Kit · « **Odpověď #13 kdy:** 07. 01. 2018, 19:20:39 »

Citace: jiřin 07. 01. 2018, 19:08:03

Jde o to, že ta funkce umí pomocí xpath query rozdělat stránku na součástky. Můžeš si nechat zobrazit všechny odkazy nebo některé odkazy, divy, odstavce apod. Ten hack na styly pro Internet explorer jí nesvědčí

Jenže já jsem v tom XML žádné styly nenašel, natož nějaké explorerové hacky. Nespletl sis náhodou URL?

ByCzech · « **Odpověď #14 kdy:** 07. 01. 2018, 21:20:46 »

Citace: cracwler 04. 01. 2018, 19:44:59

konkrétně
Kód: [Vybrat]
=IMPORTXML("https://www.titulky.com"; "//title")

cracwler očividně RSS netahá, dle URL tahá titulní stránku z titulky.com

IMPORTXML z Titulky.com

cracwler

IMPORTXML z Titulky.com

Reklama

.

Re:IMPORTXML z TITULKY.COM

dw

Re:IMPORTXML z TITULKY.COM

cracwler

Re:IMPORTXML z TITULKY.COM

jiřin

Re:IMPORTXML z TITULKY.COM

Reklama

jiřin

Re:IMPORTXML z TITULKY.COM

cracwler

Re:IMPORTXML z TITULKY.COM

jiřin

Re:IMPORTXML z TITULKY.COM

hontelus

Re:IMPORTXML z TITULKY.COM

cracwler

Re:IMPORTXML z TITULKY.COM

Kit

Re:IMPORTXML z TITULKY.COM

Kit

Re:IMPORTXML z TITULKY.COM

jiřin

Re:IMPORTXML z TITULKY.COM

Kit

Re:IMPORTXML z TITULKY.COM

ByCzech

Re:IMPORTXML z TITULKY.COM