Data minig - obhajoba Bc.

cheki

Data minig - obhajoba Bc.
« kdy: 15. 06. 2013, 20:27:26 »
cawte, za par dni(19.6) mam statnice a chcel by som poprosit o pomoc s obhajobou bakalarskej prace.

Moja tema bola: Moderne metody dolovania dat.

Oponent mi ''nasolil'' fakt vela otazok ale potreboval by som pomoct len s par.

V praci som opisoval rozne metody dolovania dat(neurovnove siete, asociacne pravidla, casove rady, refresie....)

Na niektore otazky som odpovede nasiel ale na tieto este nie:
Su rozhodovacie stromy, asociacne pravidla, neuronove siete, casove rady metody dolovania dat alebo modely??

Dokaze rozhodovaci strom klasifikovat kazdy prikklad, entitu jednoznacne?

V knihe od p.berku som cital ze geneticke algoritmy je mozne pouzit na trenovanie neuronovych sieti, nedocital som sa ze ako, nevie niekto nahodou?

A posledna vec:
Podla coho sa da, resp treba urcit ktora metoda,resp algoritmus je vhodny pre klasifikaciu, regresiu, zhlukovanie(segmentaciu), priradovanie(asociacia).


som vdazny za kazdu pomoc
« Poslední změna: 16. 06. 2013, 22:45:20 od Petr Krčmář »


Lenin POWER!

  • ****
  • 434
  • Nekecat a delat!
    • Zobrazit profil
    • Tribut Leninovi
    • E-mail
Re:dataminig-obhajoba bc
« Odpověď #1 kdy: 15. 06. 2013, 21:33:22 »
chlape mas v tom gulas, vzdyt neumis ani zaklady.

1. data mining pomoci neuronove site je uplne k hovnu. V praxi pouzivaji jen zoufalci. Pokud chces dobre vysledky tak pouzij Support vector machine. Tim dostanes nejlepsi vysledky tak v 80% pripadu.

2. metody

3. ano

4. geneticke algoritmy jsou dobre na optimalizace stromu. Na trenovani neuronovych siti bych je nepouzival protoze neuronove site jsou k nicemu. Jak? Viz Unsupervised learning

5. podle toho jak dopadnou vysledky na testovaci mnozine
==
Data mining neni o metodach, ale predevsim o mnozstvi a kvalite dat. Misto hledani genialniho algoritmu postaci procistit vstupni data.

Ivorne

Re:dataminig-obhajoba bc
« Odpověď #2 kdy: 16. 06. 2013, 18:35:26 »
Su rozhodovacie stromy, asociacne pravidla, neuronove siete, casove rady metody dolovania dat alebo modely??

Rozhodovací stromy a neuronové sítě jsou modely, které se dají použít k dolování dat. Otázka se mi zdá nejednoznačná.

Dokaze rozhodovaci strom klasifikovat kazdy prikklad, entitu jednoznacne?

Taky divná otázka. Jestli jsem to dobře pochopil, tak stromy většinou každé entitě přiřadí jednu třídu. Ale třeba rozhodovací lesy můžou klidně vracet více tříd (na 10% je to třída A, na 90% je to třída B). Obecně se dají udělat i normální rozhodovací stromy, které nebudou vracet jednoznačnou třídu.

V knihe od p.berku som cital ze geneticke algoritmy je mozne pouzit na trenovanie neuronovych sieti, nedocital som sa ze ako, nevie niekto nahodou?

To přesně nevím, ale čekal bych něco ve smyslu vytváření hromady neuronových sítí, jejich validaci a podle toho vybírání sítí pro další generaci.

Podla coho sa da, resp treba urcit ktora metoda,resp algoritmus je vhodny pre klasifikaciu, regresiu, zhlukovanie(segmentaciu), priradovanie(asociacia).

Klasifikace a regrese nějakým druhem validace (třeba cross-validace). Rozdělíš si data na trénovací a testovací a zjistíš, který model natrénovaný na trénovacích datech nejlépe klasifikuje testovací data.

U shlukování jsou nějaké ukazatele - nějak sečteš všechny vzdálenosti ve shluku a podle toho určíš kvalitu toho shlukování. Teď přesně nevím.

HonzaK

Re:dataminig-obhajoba bc
« Odpověď #3 kdy: 16. 06. 2013, 21:42:06 »
Ahoj,
Modely vs. metody:
To je takove ciste skolometske slovickareni mi prijde :-), ale kdyz to musi byt, tak bych to oznacil jako metody, ktere si, jsou-li aplikovany, vytvari nejaky specificky model dat, na ktere je pouzivas, napr. v pripade neuronove site je tedy vysledna neuronova sit po natrenovani nejakym specifickym modelem tech dat, obecne jsou neuronove site metoda pro klasifikaci/predikci atd.

Jednoznacnost rozhodovaciho stromu:
Nevim, jak presne je ta otazka myslena, ale kdyz mas konkretni rozhodovaci strom, tak ten klasifikuje jednoznacne - tridu, do ktere vzorek klasifikujes, ti urci to, ve kterem listu pri pruchodu stromem skoncis a pruchod stromem je (pro dany konkretni strom a vzorek) dan jednoznacne.
Jestli je ta otazka myslena tak, ze pro danou trenovaci mnozinu je prislusny rozhodovaci strom dan vzdycky jednoznacne, tak to zalezi na algoritmu, ktery pro stavbu stromu pouzijes, pokud je ten algoritmus deterministicky (treba ID3), tak je to jednoznacne, pokud pouzijes nejaky nedeterministicky (ktery si treba sam vymyslis), tak jednoznacne damy byt nemusi.

GA pro neuronove site:
V podstate jakkoliv Te napadne :-). Primocare je treba to, ze napr. backpropagation nahradis GA - chybovou funkci pro neuronovou sit pouzijes jako fitness pro GA, kazdy jedinec muze treba kodovat vahy jednotlivych spoju, gen. operatory pak ty vahy nejak meni (nahodne, nebo nejak sofistikovaneji). Jinak pomoci GA se daji vyvijit soubezne jak vahy, tak i architektura NS (pocet vrstev a neuronu v nich a kdo s kym je propojen), mezi  nejznamejsi patri treba NEAT a jeho odvozeniny:
http://en.wikipedia.org/wiki/Neuroevolution_of_augmenting_topologies

Vhodna metoda:
Zalezi na tom, co mas k dispozici - zakladni otazka je, co pozadujes za vysledek a co mas k dispozici za data - z toho Ti vyjde, jestli pouzit nejakou supervised metodu (NS, SVM, rozhodovaci stromy,...), nebo unsupervised (typicky nejake clusterovani a variace na toto tema). Pak je dobre zvolit si nejakou funkci, ktera Ti bude kvalitu jednotlivych metod porovnanvat, muze to byt treba jiz zminena kvalita na nejake validacni mnozine dat, plocha pod ROC krivkou apod. - zase zalezi na tom, jaka mas data, co o nich vis a ceho chces doashnout a pro co presne to pouzit.

Jinak preju hodne stesti u statnic!

cheki

Re:Data minig - obhajoba Bc.
« Odpověď #4 kdy: 19. 06. 2013, 12:27:56 »
dik za pomoc...uz mam po a spravil...fakt dik, pomohlo mi to:)