Fórum Root.cz

Hlavní témata => Vývoj => Téma založeno: Xporter 21. 02. 2015, 09:33:22

Název: Stahování stránek z XML souboru
Přispěvatel: Xporter 21. 02. 2015, 09:33:22
Dobry den.

Dostal som specificke zadanie a sice stahovat stranky ktore su ulozene v xml.
V podstate je to sitemap
<loc>http://www.t.sk/uvod/</loc>
<changefreq>weekly</changefreq>
<priority>1.00</priority>
</url>

Problemom je ze ani po hodine som nenasiel vhodny nastroj ktory by mi vedel vycitat adresu s URL a nasledne stiahol stranku.
Vedel by ma niekto nasmerovat? Stranka po stranke rucne nepojde lebo ich je tam cez 10t a zaroven potrebujem parshovat urcite data s tychto stranok.

Dakujem za kazdu radu
Název: Re:Stahovanie stranok s XML suboru
Přispěvatel: Juro 21. 02. 2015, 10:27:44
Jazyk?
Název: Re:Stahovanie stranok s XML suboru
Přispěvatel: Xporter 21. 02. 2015, 10:38:08
PHP.

Parsovanie dat mam vyriesene ceyz PHP simple html dom to je v poriadku. Viac mam problem rozumne spracovat ten xml tak aby prave parsher zvladol pracovat s vystupom
Název: Re:Stahovanie stranok s XML suboru
Přispěvatel: Juro 21. 02. 2015, 10:50:02
Pomoze?
http://stackoverflow.com/questions/8442387/reading-google-sitemap-xml-via-php
Název: Re:Stahovanie stranok s XML suboru
Přispěvatel: Xporter 21. 02. 2015, 10:53:46
Juro. Presne dakujem asi som bol slepy.
Název: Re:Stahovanie stranok s XML suboru
Přispěvatel: Xporter 21. 02. 2015, 12:52:11
este raz poprosim o radu. Pre parsing pouzivam tento script
Kód: [Vybrat]
include_once('simple_html_dom.php');
// Create DOM from URL
header("Refresh: 300;");
$html = file_get_html('http://www.xxx.sk/zzz/xxx/1-pilot');

$articles = array();
// pohladaj to co potrebujes resp.
foreach($html->find('div#uvod_cont') as $article) {
    $item['title']     = $article->find('h1', 0)->plaintext;
    $item['intro']    = $article->find('h2', 0)->plaintext;
    $item['details'] = $article->find('iframe', 0)->plaintext;
    $articles[] = $item;
}

Problem je ten ze na stranke mam nieco taketo
Kód: [Vybrat]
<div id="uvod_cont">

  <h1>Pilot</h1>
 .....
  <div class="clear"></div>
  <h2>Prvok: 01x01</h2>
.....
  <div class="ont">
    <div id="ont"><iframe src="http://nieco.xxx"></iframe></div>

Problem je v tom ze mi to nechce nacitat iframe.
Název: Re:Stahovanie stranok s XML suboru
Přispěvatel: huggog 21. 02. 2015, 15:54:13
Iframe musis zvlast stahnout. Vytahni si src kam vede a zdrojak cile stahni do jineho souboru a jeho nazev vypln do src.