Benchmark na měření svéprávnosti ChatGPT?

FKoudelka

Re:Benchmark na měření svéprávnosti ChatGPT?
« Odpověď #15 kdy: 03. 12. 2023, 11:07:06 »
Není možný tomu ChatGPT nějak omezit příděl zdrojů, třeba podle aktuálního vytížení, že by to prostě dávalo hloupější odpovědi?

Něco jako:
https://youtu.be/rGvf0JUSaEg?t=42

Ptal jsem se různou formou na to, na jaké datum připadá v následujících  letech poslední neděle v březnu (den sexu)
To máš sex jen poslední březnovou neděli?  ;D
hehe, kdyby tolik :-) proto to chci na pár let dopředu vědět.
Dělám si srandu, zkoušel jsem, zda je obecně znám tento termín pro začátek letního času.


Re:Benchmark na měření svéprávnosti ChatGPT?
« Odpověď #16 kdy: 03. 12. 2023, 11:08:03 »
nevim, vidies to naivne. to prvni setkani s ChatGPT, ve starych dobry casech (pred nekolika mesici), kde to skoro fungovalo...
Ty odpovedy bylo opravdu napomocne,o dva rady prekonavajici klasicky Google output. O dva rady zkracujici cas, co jsem potreboval k priprave neceho. Tvuj pesimisticky pristup (vlastne optimisticky pristup, kdyz clovek pomysli na dopad na lidstvo) je zpusobeny tim, ze si to nevyzkousel v pravy cas.

to byl sok. Ale ja uz dlouho mel pochybnosti o lidstvu jako takovem.
Co je to inteligence, kreativita... Jaky je rozdil "jazykoveho prediktoru od ditete, co se nauci rodny jazyk vstrebavanim velkeho mnozstvi vet ze sveho okoli, korelovanych se sadou vjemu ze vsech senzoru?

99.99% lidskeho intelektualniho vystupu je jen copy paste. Je ten zbytek "originalni prispevek" specifickeho jednotlivce, nebo jen nahodna variace historickych hodnot, ktera doda vysledek vice se odlisujici?

BTW, ja  nevim, jaky je rozdil mezi LLM a pozapomenutym slovem "expert system". Urcite se da zabit spousta casu prijemnou intelektualni masturbaci analyzovanim spatne volby tech terminu.

ja naprosto jasne vidim na desitkach giga projektu, jak male skupiny velmi dobre placenych "expertu" stale jeste prezivaji, ale ten zbytek proste je nechan v rukou o dve rady pocetnejsi indicke "pomoci". 

Dle meho odhadu tak na 200 indickych specialistu (rozhodne nereprezentuji kompletne nefiltrovanou populaci), pripada tak 20 lidi schopnych samostatne dodat nejaky vysledek a mozna 5  lidi  jsou schopni menit smer projektu a zachranit situaci.

Rozdil mezi tou indickou (vetsinovou) a LLM (jarni verze) pomoci neni moc velky.
Zrejme to tak nejak staci a je to nase omezenost, ze chceme verit v neco jineho.


GPT, ale aj akékoľvek iné LLM sú vhodné len na entertainment, rozhodne sa to používať ku práci nedá. Všetci to hypujú, a budú tvrdiť ako to viem správne odpovedať. Ale reálne je to tak, že niekto natočí video ako to odpovie perfektnú odpoveď... akurát z toho videa odstrihne ako rovnakú otázku zkúšaľ asi 200 krát pred tým a dostal nezmyselnú odpoveď. Raz sa to trafí do správnej odpovede, a hurá, máme úžas vo videu.

Keď ale rozumieš už principiálne ako to funguje, je jasné že to je len "náhodný generátor slov". O niečo lepšie prediktívne písanie, kde tých dát na trénovanie bolo veľa... avšak keďže sa to trénuje na textoch na Internete, kde kdejaký cigáň povie že 2 + 2 je 9, a hlavne väčšina obsahu na Internete nesie nesprávne alebo nepresné informácie, tak výsledok môže byť len LLM ktorý odpovedá nezmysli. Takže spoliehať sa na LLM je nezmysel.

Ku práci by som LLM nikdy nepoužil.
« Poslední změna: 03. 12. 2023, 11:14:28 od pruzkumbojem »

peete

Re:Benchmark na měření svéprávnosti ChatGPT?
« Odpověď #17 kdy: 03. 12. 2023, 23:24:52 »
Zabyvat se s ChatGPT 3.5 nema vubec smysl, diskutovat o 3.5, to je jako rozebírat co uměla černobílá TV. Kvalita ChatGPT 4 je někde úplně jinde.... Odpovědi 4 a 3.5 se vůbec nedají srovnávat.

Re:Benchmark na měření svéprávnosti ChatGPT?
« Odpověď #18 kdy: 04. 12. 2023, 00:06:47 »
povez mi, kde se tady diskutuji verze? OK na mem printscreenu to najdes (sem to tam umyslne nechal) ale ja uz ty penize neplatim. feedback od ostatnich je stejny, kdyz si prectes jeden z tech odkazu, tak ta barevna televize ty prvocisla zvlada radove hur.
.
Zabyvat se s ChatGPT 3.5 nema vubec smysl, diskutovat o 3.5, to je jako rozebírat co uměla černobílá TV. Kvalita ChatGPT 4 je někde úplně jinde.... Odpovědi 4 a 3.5 se vůbec nedají srovnávat.

jjrsk

  • ****
  • 459
    • Zobrazit profil
Re:Benchmark na měření svéprávnosti ChatGPT?
« Odpověď #19 kdy: 04. 12. 2023, 08:44:40 »
GPT, ale aj akékoľvek iné LLM sú vhodné len na entertainment, rozhodne sa to používať ku práci nedá. ...
Prave ze da, se podivej treba jaky zvasty tu generuje jirsak, danny ... chatgpt by to zvladal nejhur stejne. Spousta lidi se generovanim zvastu zivi.

Chatgpt neni nic jinyho nez rekneme sofitikovanejsi verze elizy, ktera se provozovala uz na 8mibitech ... a taky to fungovalo neuveritelne dobre. Specielne kdyz byly pokladany ty spravne otazky.


Jinak se obavam, ze to funguje mimo jine tak, ze se to prizpusobuje tomu, na co se lidi ptaj a odpovedi to upravuje na zaklade toho. Takze cim vic dmntu to bude pouzivat, tim horsi odpovedi budou.



Re:Benchmark na měření svéprávnosti ChatGPT?
« Odpověď #20 kdy: 04. 12. 2023, 08:50:49 »
ChatGPT nesplnila něco, co snad ani nikde neslibuje. Je to zajímavý nástroj, který poskytne nějakou odpověď, a je na vás potom rozlišit, jestli je správná. (Bard k tomu následnému ověření nabízí i nástroj, kdy dohledá zdroje, nicméně funguje to tak, že, no, … je to lepší než nic.) Jsou věci, které dává po AI smysl chtít, např.:

* Brainstorming – případné halucinace možná budou zjevné i bez ověřování
* Feedback k vlastnímu textu
* Draft dopisu na úřad (napsal jsem to ve stylu výkřiku z hospody, přepsal mi to do celkem použitelné podoby)
* Analýza některých chybových hlášek (použil jsem to na analýzu chyb z kernelu, Bard zde dával smysluplnější výsledky). Opět to používám na nasměrování, když třeba netuším, ale chce si to pak ověřit, že to nekecá nesmysly.
* Tématické Lorem Ipsum

Ano, jde najít spoustu případů, kdy z AI vypadne nějaký nesmysl. Někdy i na stejný dotaz odpoví různě. (Pěkně to je někdy vidět u Barda, který typicky dá několik odpovědí, někdy vzájemně si odporujících.)

Jak jsem psal, je to známé omezení toho nástroje. Je tu jedna důležitá otázka: Očekáváte, že ten výstup zvládnete nějak v rozumném čase ověřit?

a. Ano, a dotaz i s ověřením mi zabere méně než řešení bez AI. Pak je to nástroj na svém místě.
b. Ne – možná bych to zvládl ověřit, ale asi by to trvalo déle než řešení bez AI. Pak to prostě asi není ten pravý nástroj…

Mlocik97

  • *****
  • 889
  • Ubunťák, JS dev.
    • Zobrazit profil
    • E-mail
Re:Benchmark na měření svéprávnosti ChatGPT?
« Odpověď #21 kdy: 04. 12. 2023, 09:34:36 »
Ale k pracovním problémům (vývoj v c#, JS, TS, React...), mi odpovídá vcelku rozumně a v 80% případů se dobereme k úspěšnému vyřešení dotazu.

Problém je že sa musíš "dobrať" k výsledku a napraviť ChatGPT asi 20 krát. Čo vlastne vieš urobiť len keď máš vysoké znalosti z daného prog. jazyka. A ak je máš, tak ChatGPT ti je zbytočný, lebo algoritmus často napíšeš rýchlejšie ručne sám.

Re:Benchmark na měření svéprávnosti ChatGPT?
« Odpověď #22 kdy: 04. 12. 2023, 11:34:30 »
Problém je že sa musíš "dobrať" k výsledku a napraviť ChatGPT asi 20 krát. Čo vlastne vieš urobiť len keď máš vysoké znalosti z daného prog. jazyka. A ak je máš, tak ChatGPT ti je zbytočný, lebo algoritmus často napíšeš rýchlejšie ručne sám.
20x bych AI neopravoval, z toho by bylo jasné, že je to slepá cesta - limit je tak 5 upřesnění a oprav.
U návrhů řešení, mě obvykle u odpovědi ani tak nezajímá obecný algoritmus (o tom představu mám), ale právě řešení v konkrétním jazyce a frameworku.
Nebo napíšu kód v Reactu, který hází nejasnou chybu při překladu. Tak ho hodím do AI a zeptám se co je tam špatně - obvykle poradí správně.
Nebo ke kódu přidán dotaz, že se nechová podle očekávání - AI vypíše seznam možných příčin. Často pomůže.
Nebo hledám ekvivalent něčeho co znám z jednoho jazyka (např. nějaká metoda .Net LINQ v c#) v jiném jazyce (JS).

V rámci firmy jsme teď získali přístup k vlastnímu GPTCHat 4 a výše uvedené dotazy (klávesnicový immobilizér v Citroenech, telefonní číslo 156) odpověděl stručně jednou větou a správně.

Karmelos

  • *****
  • 1 027
    • Zobrazit profil
    • E-mail
Re:Benchmark na měření svéprávnosti ChatGPT?
« Odpověď #23 kdy: 04. 12. 2023, 12:48:46 »
GPT, ale aj akékoľvek iné LLM sú vhodné len na entertainment, rozhodne sa to používať ku práci nedá. ...
Prave ze da, se podivej treba jaky zvasty tu generuje jirsak, danny ... chatgpt by to zvladal nejhur stejne. Spousta lidi se generovanim zvastu zivi.

Chatgpt neni nic jinyho nez rekneme sofitikovanejsi verze elizy, ktera se provozovala uz na 8mibitech ... a taky to fungovalo neuveritelne dobre. Specielne kdyz byly pokladany ty spravne otazky.


Jinak se obavam, ze to funguje mimo jine tak, ze se to prizpusobuje tomu, na co se lidi ptaj a odpovedi to upravuje na zaklade toho. Takze cim vic dmntu to bude pouzivat, tim horsi odpovedi budou.

přésně.... pruměrný IQ je 100, jestli k "vylepšování" budou používat současnou komunikaci (ačkoliv tvrdí, ale podle mě pravděpodobně lžou, že nepoužívaj)  výsledek bude časem konvergovat k tomu levelu odpovědí výše IQ 100... Pokud většina dotazů bude na levlu "jaký má zadek kardašianka", anebo zda se maj vycpaný pysky (myslím ty na hlavě) uvádět jako vylepšení těla, těžko pak po tom chtít návod na diy fůzní reaktor....
Gréta je nejlepší.

Re:Benchmark na měření svéprávnosti ChatGPT?
« Odpověď #24 kdy: 04. 12. 2023, 14:33:18 »
Jsou témata, o kterých IQ100 moc nediskutují - třeba ten DYI fúzní reaktor.
Takže odpovědi z téhle oblasti by měly být na jiné úrovni IQ, než dotazy na bulvární témata.

Karmelos

  • *****
  • 1 027
    • Zobrazit profil
    • E-mail
Re:Benchmark na měření svéprávnosti ChatGPT?
« Odpověď #25 kdy: 04. 12. 2023, 15:44:01 »
Jsou témata, o kterých IQ100 moc nediskutují - třeba ten DYI fúzní reaktor.
Takže odpovědi z téhle oblasti by měly být na jiné úrovni IQ, než dotazy na bulvární témata.

Z jakého důvodu si to myslíte? Podle mě pokud například bude 99% konverzací/vstupů na úrovni IQ100, všecko ostatní bude jednoduše statisticky vytěsněno ve prospěch těch 99%.  A pokud namítnete, že přece lidí nad IQ100 je víc než jedno procento, uvědomte si například jak moc aktivně používáte sociální sítě ve srovnání s průměrem populace. Prostě ta kvantita naprosto povrchních a nesmyslných dotazů a konverzací s AI od průměru populace bude (a myslím že už je) ohromná. Nevím jaké má např. OpenAI cíle, ale zatím mě to připadá, že vytvořit geniálně myslící stroj to není. Spíš se snaží vytvořit průměrně myslícího člověka což bude odpovídat úrovni IQ 100...
Gréta je nejlepší.

Jose D

  • *****
  • 888
    • Zobrazit profil
Re:Benchmark na měření svéprávnosti ChatGPT?
« Odpověď #26 kdy: 04. 12. 2023, 18:28:52 »
pozoruju uplne absurdni zhorseni  kvality vystupu ChatGPT - viz  printscreen.
Jasne, je to bezplatna verze, ale neverim, ze se kvalita verze placene neveri.

Btw, řešení je zeptat se na "tísňovou linku" městské policie, na to ti odpoví "správně" jak 3.5, tak 4.0.

Re:Benchmark na měření svéprávnosti ChatGPT?
« Odpověď #27 kdy: 04. 12. 2023, 23:12:50 »
nic takoveho na me strane.
Co je zajime, ze uz odpovida jinak nez o par hodin driv. Ted se vyhyba odpovedi.

se musim zeptat, kdo je tady z ChatGPT teamu?

pozoruju uplne absurdni zhorseni  kvality vystupu ChatGPT - viz  printscreen.
Jasne, je to bezplatna verze, ale neverim, ze se kvalita verze placene neveri.

Btw, řešení je zeptat se na "tísňovou linku" městské policie, na to ti odpoví "správně" jak 3.5, tak 4.0.

Re:Benchmark na měření svéprávnosti ChatGPT?
« Odpověď #28 kdy: 05. 12. 2023, 08:26:49 »
Souhlasim GPT v 3.5 se prime jane odpovedi vyhyba:

https://imgur.com/a/fA4pSxW

A tohle vrati Bing enterprise:
Citace
Číslo na městskou policii je **156**¹. Pokud potřebujete kontaktovat Městskou policii hlavního města Prahy, můžete využít tísňovou linku **156**⁵ nebo telefonní číslo **+420 222 02 5000**⁵.

Zdroj: Konverzace s Bingem, 12/5/2023
(1) Kdy volat 155 a kdy 112? - zspp.cz. https://bing.com/search?q=%c4%8d%c3%adslo+na+m%c4%9bstskou+policii.
(2) Bezpečnost - Portál hlavního města Prahy. https://www.praha.eu/jnp/cz/o_meste/zivot_v_praze/bezpecnost/mestska_policie/index.html.
(3) Městská policie v ČR a Obecní policie | Policie ČR. http://www.policie-cr.cz/mestska-policie.php.
(4) Důležitá telefonní čísla, - Policie České republiky. https://www.policie.cz/obrazek/dulezita-telefonni-cisla.aspx.
(5) Kdy volat 155 a kdy 112? - zspp.cz. https://www.zspp.cz/inpage/kdy-volat-155-a-kdy-112/.
(6) Městská policie Praha | Policie ČR. http://www.policie-cr.cz/mestska-policie/praha-196.html.

Re:Benchmark na měření svéprávnosti ChatGPT?
« Odpověď #29 kdy: 05. 12. 2023, 09:00:44 »
to mne donutilo vyzkouset Bing a Bard, zadny s tim nemel problem. Taky tohle je fakt minimum, co by od toho uzivatel muze ocekavat.