Fórum Root.cz

Hlavní témata => Vývoj => Téma založeno: Orion789 05. 03. 2016, 00:39:47

Název: Crawler alebo engine v php
Přispěvatel: Orion789 05. 03. 2016, 00:39:47
Dobry den vo spolok.
Kedze mam cez vikend cas (choroba). Rozhodol som sa rozbehnut si mini vikend projekt. Ide o to ze by som chcel velmi jednoducho vyhladavat v obsahu svojich "webov" (pre mna tematicky zamerane). Ziaden google2. Ako riesit vyhladavanie v DB aj vatu okolo by som mal problem nastal v crawlery. Vedel by niekto poradit jednoduchy engine idealne v php kde vstupom bude stranka (9 z 10 forum) a vysledkom bude index ? Vsetko po webe je s roku 2013 a starsie pripadne silno komercne.
Dakujem za kazdu radu a smerovanie
Název: Re:Crawler alebo engine v php
Přispěvatel: karel 07. 03. 2016, 09:57:46
crawler napsany v php neni prilis dobry napad, kdyz uz se ti chce byt liny (stejne jako to mam ja) pouzi python, perl 
Název: Re:Crawler alebo engine v php
Přispěvatel: Kit 07. 03. 2016, 13:28:29
V PHP se to dá napsat stejně dobře jako v Pythonu či Perlu.

Používám vlastní crawler napsaný v PHP. Je to jen na pár řádek, ale k publikování se to moc nehodí.
Název: Re:Crawler alebo engine v php
Přispěvatel: andy 07. 03. 2016, 13:41:19
Zend ma naportovane lucene.
Název: Re:Crawler alebo engine v php
Přispěvatel: opo 08. 03. 2016, 16:27:41
Zend ma naportovane lucene.

kdyz sem na to koukal pred tremi roky, je to sada trid ktery umi prohledavat/zapisovat soubory "kompatibilni" s lucene, ale je to O MOC pomalejsi a nektere vlastnosti indexu nejsou implementovany proti resenim, ktere pouzivaji primo knihovny apache lucene napsane (Java) anpr. Solr nebo Elasticsearch

...tak treba v PHP napsat obsluhu ktera bude restove komunikovat s elasticsearch
Název: Re:Crawler alebo engine v php
Přispěvatel: andy 08. 03. 2016, 18:42:04
Nj, ludia vykaslite sa uz konecne na php. Naco sa zbytocne frustrovat? :D
Název: Re:Crawler alebo engine v php
Přispěvatel: Kit 08. 03. 2016, 19:04:26
Nj, ludia vykaslite sa uz konecne na php. Naco sa zbytocne frustrovat? :D

Co tě na PHP frustruje? Pro mne je to skvělý jazyk, ve kterém s minimální námahou vytvořím co potřebuji.
Název: Re:Crawler alebo engine v php
Přispěvatel: Ondrej 08. 03. 2016, 19:49:51
Nj, ludia vykaslite sa uz konecne na php. Naco sa zbytocne frustrovat? :D

Co tě na PHP frustruje? Pro mne je to skvělý jazyk, ve kterém s minimální námahou vytvořím co potřebuji.
Mě třeba flustruje syntaxe... Ale co někomu vadí jinému ne.
PHP je možná fajn na weby, symfony se zdá bejt super projket, ale na všechno ostatní je to úchylárna.
Název: Re:Crawler alebo engine v php
Přispěvatel: Kit 08. 03. 2016, 21:12:08
Mě třeba flustruje syntaxe... Ale co někomu vadí jinému ne.
PHP je možná fajn na weby, symfony se zdá bejt super projket, ale na všechno ostatní je to úchylárna.

O správný zápis syntaxe se mi stará editor - každý jazyk má nějakou syntaxi, která někomu vyhovuje a někomu ne. Stručná syntaxe je hůře čitelná, ukecaná syntaxe má zase dlouhý zápis - což také čitelnosti nepřidá. Proto vznikly různé jazyky, aby si každý našel takový, jaký mu vyhovuje.

Ano, PHP je určeno na weby a nejrůznější generátory. Naštěstí v něm není GUI.
Název: Re:Crawler alebo engine v php
Přispěvatel: andy 08. 03. 2016, 22:01:40
Kit ty sa chytis na vsetko..
Název: Re:Crawler alebo engine v php
Přispěvatel: Orion789 09. 03. 2016, 07:58:18
A priklad by nebol ? Ide o to ze xyz prokladov mi padne na tom ze nie su schopne rozumne naindexovat obsah stranky aby som ho vedel fultextovo prehladavat.
Název: Re:Crawler alebo engine v php
Přispěvatel: to_je_jedno 09. 03. 2016, 08:32:01
Pokud bych si to chtel ulozit abych to mohl prohledavat tak
1) pouziju Drupal, hodim tam Search API a jeho propojeni na Solr
2) bylo by nutne doresit samotnou crawlovaci cast. Tedy zadat url, ta by se stahla, z ni vytahnout linky, ty stahovat, ukladat do solr, extrahovat linky atd... a jak tak koukam to pro dotaz "drupal crawler" vypadava docela dost vysledku, takze to vypada, ze treba pomoci Feeds by to slo naklikat i bez programovani
Název: Re:Crawler alebo engine v php
Přispěvatel: to_je_jedno 09. 03. 2016, 08:34:06
Tady tenhle tutorial http://fourkitchens.com/blog/article/scraping-websites-drupal-using-feeds-and-importio vypada opravdu, ze to lze ciste naklikat ve Feeds, pravda pomoci nejaky externi sluzby. A pak uz jen pridas ten Solr pres Search API a frcis (a dokonce existuje Search API Attachments takze muzes skenovat i prilozene soubory)
Název: Re:Crawler alebo engine v php
Přispěvatel: Ivan Nový 09. 03. 2016, 21:03:22
mnoGoSearch, má i rozšíření pro PHP a co najde, uloží do DB v MySQL.