Fórum Root.cz
Hlavní témata => Vývoj => Téma založeno: Xporter 21. 02. 2015, 09:33:22
-
Dobry den.
Dostal som specificke zadanie a sice stahovat stranky ktore su ulozene v xml.
V podstate je to sitemap
<loc>http://www.t.sk/uvod/</loc>
<changefreq>weekly</changefreq>
<priority>1.00</priority>
</url>
Problemom je ze ani po hodine som nenasiel vhodny nastroj ktory by mi vedel vycitat adresu s URL a nasledne stiahol stranku.
Vedel by ma niekto nasmerovat? Stranka po stranke rucne nepojde lebo ich je tam cez 10t a zaroven potrebujem parshovat urcite data s tychto stranok.
Dakujem za kazdu radu
-
Jazyk?
-
PHP.
Parsovanie dat mam vyriesene ceyz PHP simple html dom to je v poriadku. Viac mam problem rozumne spracovat ten xml tak aby prave parsher zvladol pracovat s vystupom
-
Pomoze?
http://stackoverflow.com/questions/8442387/reading-google-sitemap-xml-via-php
-
Juro. Presne dakujem asi som bol slepy.
-
este raz poprosim o radu. Pre parsing pouzivam tento script
include_once('simple_html_dom.php');
// Create DOM from URL
header("Refresh: 300;");
$html = file_get_html('http://www.xxx.sk/zzz/xxx/1-pilot');
$articles = array();
// pohladaj to co potrebujes resp.
foreach($html->find('div#uvod_cont') as $article) {
$item['title'] = $article->find('h1', 0)->plaintext;
$item['intro'] = $article->find('h2', 0)->plaintext;
$item['details'] = $article->find('iframe', 0)->plaintext;
$articles[] = $item;
}
Problem je ten ze na stranke mam nieco taketo
<div id="uvod_cont">
<h1>Pilot</h1>
.....
<div class="clear"></div>
<h2>Prvok: 01x01</h2>
.....
<div class="ont">
<div id="ont"><iframe src="http://nieco.xxx"></iframe></div>
Problem je v tom ze mi to nechce nacitat iframe.
-
Iframe musis zvlast stahnout. Vytahni si src kam vede a zdrojak cile stahni do jineho souboru a jeho nazev vypln do src.