Crawler alebo engine v php

Orion789

Crawler alebo engine v php
« kdy: 05. 03. 2016, 00:39:47 »
Dobry den vo spolok.
Kedze mam cez vikend cas (choroba). Rozhodol som sa rozbehnut si mini vikend projekt. Ide o to ze by som chcel velmi jednoducho vyhladavat v obsahu svojich "webov" (pre mna tematicky zamerane). Ziaden google2. Ako riesit vyhladavanie v DB aj vatu okolo by som mal problem nastal v crawlery. Vedel by niekto poradit jednoduchy engine idealne v php kde vstupom bude stranka (9 z 10 forum) a vysledkom bude index ? Vsetko po webe je s roku 2013 a starsie pripadne silno komercne.
Dakujem za kazdu radu a smerovanie


karel

Re:Crawler alebo engine v php
« Odpověď #1 kdy: 07. 03. 2016, 09:57:46 »
crawler napsany v php neni prilis dobry napad, kdyz uz se ti chce byt liny (stejne jako to mam ja) pouzi python, perl 

Kit

Re:Crawler alebo engine v php
« Odpověď #2 kdy: 07. 03. 2016, 13:28:29 »
V PHP se to dá napsat stejně dobře jako v Pythonu či Perlu.

Používám vlastní crawler napsaný v PHP. Je to jen na pár řádek, ale k publikování se to moc nehodí.

andy

Re:Crawler alebo engine v php
« Odpověď #3 kdy: 07. 03. 2016, 13:41:19 »
Zend ma naportovane lucene.

opo

Re:Crawler alebo engine v php
« Odpověď #4 kdy: 08. 03. 2016, 16:27:41 »
Zend ma naportovane lucene.

kdyz sem na to koukal pred tremi roky, je to sada trid ktery umi prohledavat/zapisovat soubory "kompatibilni" s lucene, ale je to O MOC pomalejsi a nektere vlastnosti indexu nejsou implementovany proti resenim, ktere pouzivaji primo knihovny apache lucene napsane (Java) anpr. Solr nebo Elasticsearch

...tak treba v PHP napsat obsluhu ktera bude restove komunikovat s elasticsearch


andy

Re:Crawler alebo engine v php
« Odpověď #5 kdy: 08. 03. 2016, 18:42:04 »
Nj, ludia vykaslite sa uz konecne na php. Naco sa zbytocne frustrovat? :D

Kit

Re:Crawler alebo engine v php
« Odpověď #6 kdy: 08. 03. 2016, 19:04:26 »
Nj, ludia vykaslite sa uz konecne na php. Naco sa zbytocne frustrovat? :D

Co tě na PHP frustruje? Pro mne je to skvělý jazyk, ve kterém s minimální námahou vytvořím co potřebuji.

Ondrej

Re:Crawler alebo engine v php
« Odpověď #7 kdy: 08. 03. 2016, 19:49:51 »
Nj, ludia vykaslite sa uz konecne na php. Naco sa zbytocne frustrovat? :D

Co tě na PHP frustruje? Pro mne je to skvělý jazyk, ve kterém s minimální námahou vytvořím co potřebuji.
Mě třeba flustruje syntaxe... Ale co někomu vadí jinému ne.
PHP je možná fajn na weby, symfony se zdá bejt super projket, ale na všechno ostatní je to úchylárna.

Kit

Re:Crawler alebo engine v php
« Odpověď #8 kdy: 08. 03. 2016, 21:12:08 »
Mě třeba flustruje syntaxe... Ale co někomu vadí jinému ne.
PHP je možná fajn na weby, symfony se zdá bejt super projket, ale na všechno ostatní je to úchylárna.

O správný zápis syntaxe se mi stará editor - každý jazyk má nějakou syntaxi, která někomu vyhovuje a někomu ne. Stručná syntaxe je hůře čitelná, ukecaná syntaxe má zase dlouhý zápis - což také čitelnosti nepřidá. Proto vznikly různé jazyky, aby si každý našel takový, jaký mu vyhovuje.

Ano, PHP je určeno na weby a nejrůznější generátory. Naštěstí v něm není GUI.

andy

Re:Crawler alebo engine v php
« Odpověď #9 kdy: 08. 03. 2016, 22:01:40 »
Kit ty sa chytis na vsetko..

Orion789

Re:Crawler alebo engine v php
« Odpověď #10 kdy: 09. 03. 2016, 07:58:18 »
A priklad by nebol ? Ide o to ze xyz prokladov mi padne na tom ze nie su schopne rozumne naindexovat obsah stranky aby som ho vedel fultextovo prehladavat.

Re:Crawler alebo engine v php
« Odpověď #11 kdy: 09. 03. 2016, 08:32:01 »
Pokud bych si to chtel ulozit abych to mohl prohledavat tak
1) pouziju Drupal, hodim tam Search API a jeho propojeni na Solr
2) bylo by nutne doresit samotnou crawlovaci cast. Tedy zadat url, ta by se stahla, z ni vytahnout linky, ty stahovat, ukladat do solr, extrahovat linky atd... a jak tak koukam to pro dotaz "drupal crawler" vypadava docela dost vysledku, takze to vypada, ze treba pomoci Feeds by to slo naklikat i bez programovani
Děkuji za možnost editace příspěvku.

Re:Crawler alebo engine v php
« Odpověď #12 kdy: 09. 03. 2016, 08:34:06 »
Tady tenhle tutorial http://fourkitchens.com/blog/article/scraping-websites-drupal-using-feeds-and-importio vypada opravdu, ze to lze ciste naklikat ve Feeds, pravda pomoci nejaky externi sluzby. A pak uz jen pridas ten Solr pres Search API a frcis (a dokonce existuje Search API Attachments takze muzes skenovat i prilozene soubory)
Děkuji za možnost editace příspěvku.

Ivan Nový

Re:Crawler alebo engine v php
« Odpověď #13 kdy: 09. 03. 2016, 21:03:22 »
mnoGoSearch, má i rozšíření pro PHP a co najde, uloží do DB v MySQL.