Stahování stránek z XML souboru

Xporter

Stahování stránek z XML souboru
« kdy: 21. 02. 2015, 09:33:22 »
Dobry den.

Dostal som specificke zadanie a sice stahovat stranky ktore su ulozene v xml.
V podstate je to sitemap
<loc>http://www.t.sk/uvod/</loc>
<changefreq>weekly</changefreq>
<priority>1.00</priority>
</url>

Problemom je ze ani po hodine som nenasiel vhodny nastroj ktory by mi vedel vycitat adresu s URL a nasledne stiahol stranku.
Vedel by ma niekto nasmerovat? Stranka po stranke rucne nepojde lebo ich je tam cez 10t a zaroven potrebujem parshovat urcite data s tychto stranok.

Dakujem za kazdu radu
« Poslední změna: 22. 02. 2015, 19:33:20 od Petr Krčmář »


Juro

Re:Stahovanie stranok s XML suboru
« Odpověď #1 kdy: 21. 02. 2015, 10:27:44 »
Jazyk?

Xporter

Re:Stahovanie stranok s XML suboru
« Odpověď #2 kdy: 21. 02. 2015, 10:38:08 »
PHP.

Parsovanie dat mam vyriesene ceyz PHP simple html dom to je v poriadku. Viac mam problem rozumne spracovat ten xml tak aby prave parsher zvladol pracovat s vystupom

Juro


Xporter

Re:Stahovanie stranok s XML suboru
« Odpověď #4 kdy: 21. 02. 2015, 10:53:46 »
Juro. Presne dakujem asi som bol slepy.


Xporter

Re:Stahovanie stranok s XML suboru
« Odpověď #5 kdy: 21. 02. 2015, 12:52:11 »
este raz poprosim o radu. Pre parsing pouzivam tento script
Kód: [Vybrat]
include_once('simple_html_dom.php');
// Create DOM from URL
header("Refresh: 300;");
$html = file_get_html('http://www.xxx.sk/zzz/xxx/1-pilot');

$articles = array();
// pohladaj to co potrebujes resp.
foreach($html->find('div#uvod_cont') as $article) {
    $item['title']     = $article->find('h1', 0)->plaintext;
    $item['intro']    = $article->find('h2', 0)->plaintext;
    $item['details'] = $article->find('iframe', 0)->plaintext;
    $articles[] = $item;
}

Problem je ten ze na stranke mam nieco taketo
Kód: [Vybrat]
<div id="uvod_cont">

  <h1>Pilot</h1>
 .....
  <div class="clear"></div>
  <h2>Prvok: 01x01</h2>
.....
  <div class="ont">
    <div id="ont"><iframe src="http://nieco.xxx"></iframe></div>

Problem je v tom ze mi to nechce nacitat iframe.

huggog

Re:Stahovanie stranok s XML suboru
« Odpověď #6 kdy: 21. 02. 2015, 15:54:13 »
Iframe musis zvlast stahnout. Vytahni si src kam vede a zdrojak cile stahni do jineho souboru a jeho nazev vypln do src.