Fórum Root.cz

Ostatní => Odkladiště => Téma založeno: pruzkumbojem 02. 12. 2023, 10:17:15

Název: Benchmark na měření svéprávnosti ChatGPT?
Přispěvatel: pruzkumbojem 02. 12. 2023, 10:17:15: pozoruju uplne absurdni zhorseni kvality vystupu ChatGPT - viz printscreen.
Jasne, je to bezplatna verze, ale neverim, ze se kvalita verze placene neveri.

se mi libilo vyjadreni "it is a language predictor"
ted uz je to generator nahodnych tvrzeni.

Je nejaky tracker, nejaka metodika, ktera sleduje "svepravnost" ChatGPT?
Název: Re:Benchmark na měření svéprávnosti ChatGPT?
Přispěvatel: Jan Fikar 02. 12. 2023, 14:48:42: Tady byl nějaký výzkum:
https://www.root.cz/zpravicky/chatgpt-casem-odpovida-jinak/
Název: Re:Benchmark na měření svéprávnosti ChatGPT?
Přispěvatel: FKoudelka 02. 12. 2023, 17:37:49: Citace: pruzkumbojem 02. 12. 2023, 10:17:15
pozoruju uplne absurdni zhorseni kvality vystupu ChatGPT - viz printscreen.
Jasne, je to bezplatna verze, ale neverim, ze se kvalita verze placene neveri.

se mi libilo vyjadreni "it is a language predictor"
ted uz je to generator nahodnych tvrzeni.

Je nejaky tracker, nejaka metodika, ktera sleduje "svepravnost" ChatGPT?
benchmark je jasnej … tlak na přechod do placené verze :-)
Ptal jsem se různou formou na to, na jaké datum připadá v následujících letech poslední neděle v březnu (den sexu) a odpověď byla opakovaně nesmyslná, mj: je to v r. 2024 -první neděle v březnu, v r. 2025- druhá neděle … Bez ohledu na kvalitu dotazu: jak může být první neděle tou poslední ? Takhle že chtějí řídit svět ? To nemůže být tak blbý, jedině schválně
Název: Re:Benchmark na měření svéprávnosti ChatGPT?
Přispěvatel: pruzkumbojem 02. 12. 2023, 17:45:37: jo, uvadi tam test na prvocislo, tak jsem ten jejich priklad zkusil.

fakt neuveritelny - viz printscreen. podotykam, ze kdyz jsem ChatGPT potkal ppoprve, tak jsem byl sokovany, jak dobre to fungovalo.

Citace: Jan Fikar 02. 12. 2023, 14:48:42
Tady byl nějaký výzkum:
https://www.root.cz/zpravicky/chatgpt-casem-odpovida-jinak/
Název: Re:Benchmark na měření svéprávnosti ChatGPT?
Přispěvatel: Josef Jindra 02. 12. 2023, 17:51:24: Zdá se, že každý dostane odpověď jakou si zaslouží ;D

User
is 17077 a prime number ?
ChatGPT

To determine whether 17077 is a prime number, we can check for its divisors. A prime number is a natural number greater than 1 that is not a product of two smaller natural numbers.

For 17077:

It is odd (not divisible by 2), so we can skip even numbers.
Start checking from 3 and go up to the square root of 17077, because if a number has a divisor greater than its square root, it must also have a divisor smaller than the square root.

Let's check:

17077≈130.717077

≈130.7

Now, check for divisors from 3 to 130:

It is not divisible by 3.
It is not divisible by 5.
It is not divisible by 7.
...

Continue this process until you reach the square root. If no divisors are found, then 17077 is a prime number.

In this case, I don't have the computational capacity to perform the exact calculations in real-time, but you can use a programming language, calculator, or online tool to check for divisors up to the square root of 17077. If you find no divisors, then 17077 is a prime number.
Název: Re:Benchmark na měření svéprávnosti ChatGPT?
Přispěvatel: 🇺🇦 GPU 02. 12. 2023, 18:01:17: Není možný tomu ChatGPT nějak omezit příděl zdrojů, třeba podle aktuálního vytížení, že by to prostě dávalo hloupější odpovědi?

Něco jako:
https://youtu.be/rGvf0JUSaEg?t=42

Citace: FKoudelka 02. 12. 2023, 17:37:49
Ptal jsem se různou formou na to, na jaké datum připadá v následujících letech poslední neděle v březnu (den sexu)
To máš sex jen poslední březnovou neděli? ;D
Název: Re:Benchmark na měření svéprávnosti ChatGPT?
Přispěvatel: pruzkumbojem 02. 12. 2023, 18:08:15: fascinujici,
ta umela inteligence uz je tak vyspela, ze odpovida " se mi nechce, si to spocitej sam proboha"

Citace: Josef Jindra 02. 12. 2023, 17:51:24
Zdá se, že každý dostane odpověď jakou si zaslouží ;D

User
is 17077 a prime number ?
ChatGPT

To determine whether 17077 is a prime number, we can check for its divisors. A prime number is a natural number greater than 1 that is not a product of two smaller natural numbers.

For 17077:

It is odd (not divisible by 2), so we can skip even numbers.
Start checking from 3 and go up to the square root of 17077, because if a number has a divisor greater than its square root, it must also have a divisor smaller than the square root.

Let's check:

17077≈130.717077

≈130.7

Now, check for divisors from 3 to 130:

It is not divisible by 3.
It is not divisible by 5.
It is not divisible by 7.
...

Continue this process until you reach the square root. If no divisors are found, then 17077 is a prime number.

In this case, I don't have the computational capacity to perform the exact calculations in real-time, but you can use a programming language, calculator, or online tool to check for divisors up to the square root of 17077. If you find no divisors, then 17077 is a prime number.
Název: Re:Benchmark na měření svéprávnosti ChatGPT?
Přispěvatel: Josef Jindra 02. 12. 2023, 18:24:44: Že by úspěsně splnila Turingův test ?
Název: Re:Benchmark na měření svéprávnosti ChatGPT?
Přispěvatel: pruzkumbojem 02. 12. 2023, 20:35:24: se skutecne obavam, ze Turinguv test je mrtev

Citace: Josef Jindra 02. 12. 2023, 18:24:44
Že by úspěsně splnila Turingův test ?
Název: Re:Benchmark na měření svéprávnosti ChatGPT?
Přispěvatel: RDa 02. 12. 2023, 22:00:49: Ten priklad s telefonnim cislem je featura LLM.

Typicky to totiz ma naucene jednosmerne predikce (tj je tam asymetrie ve vahach, protoze zdroje k uceni to tak preferovali). Videl jsem to v prikladu od nejakeho slovenskeho prednasejiciho na YT - uvadel priklad ze ChatGPT vam hezky odpovi ze Y je matkou X, ale uz nedokaze odpovedet ze X je synem Y.
Název: Re:Benchmark na měření svéprávnosti ChatGPT?
Přispěvatel: pruzkumbojem 02. 12. 2023, 22:33:24: Jen teda, 156 nejsou hasici.

Se postupne zacalo mluvit o halucinacich, ale dnes uz to cely zije v alternativnim vesmiru.

Citace: RDa 02. 12. 2023, 22:00:49
Ten priklad s telefonnim cislem je featura LLM.

Typicky to totiz ma naucene jednosmerne predikce (tj je tam asymetrie ve vahach, protoze zdroje k uceni to tak preferovali). Videl jsem to v prikladu od nejakeho slovenskeho prednasejiciho na YT - uvadel priklad ze ChatGPT vam hezky odpovi ze Y je matkou X, ale uz nedokaze odpovedet ze X je synem Y.
Název: Re:Benchmark na měření svéprávnosti ChatGPT?
Přispěvatel: Josef Jindra 02. 12. 2023, 22:48:35: Na druhou stranu, příjemně se s ním dá pokecat na úrovni hospody po pár pivech a nějakým tom rumu :D
Název: Re:Benchmark na měření svéprávnosti ChatGPT?
Přispěvatel: Mlocik97 03. 12. 2023, 00:13:52: GPT, ale aj akékoľvek iné LLM sú vhodné len na entertainment, rozhodne sa to používať ku práci nedá. Všetci to hypujú, a budú tvrdiť ako to viem správne odpovedať. Ale reálne je to tak, že niekto natočí video ako to odpovie perfektnú odpoveď... akurát z toho videa odstrihne ako rovnakú otázku zkúšaľ asi 200 krát pred tým a dostal nezmyselnú odpoveď. Raz sa to trafí do správnej odpovede, a hurá, máme úžas vo videu.

Keď ale rozumieš už principiálne ako to funguje, je jasné že to je len "náhodný generátor slov". O niečo lepšie prediktívne písanie, kde tých dát na trénovanie bolo veľa... avšak keďže sa to trénuje na textoch na Internete, kde kdejaký cigáň povie že 2 + 2 je 9, a hlavne väčšina obsahu na Internete nesie nesprávne alebo nepresné informácie, tak výsledok môže byť len LLM ktorý odpovedá nezmysli. Takže spoliehať sa na LLM je nezmysel.

Ku práci by som LLM nikdy nepoužil.
Název: Re:Benchmark na měření svéprávnosti ChatGPT?
Přispěvatel: B.H.L. 03. 12. 2023, 07:56:44: Český ChatGPT mi přišlo že dycky generuje úplný dada. Anglický odpovídá většinou normálně a uvěřitelně (byť často třeba ne správně). (Což je teda pro použitelnost v praxi dost možná horší.)
Název: Re:Benchmark na měření svéprávnosti ChatGPT?
Přispěvatel: Tomas-T 03. 12. 2023, 09:20:48: I já mám pocit, že se kvalita odpovědí v poslední době dost zhoršila.
Pamatuju si, že dříve jsem si byl schopný s GPTChat pokecat o dodávkách vhodných na přestavbu na obytné, konkrétní vyráběné modely, rozměry...
Když jsem se ho včera zeptal, které modely Citroenů měly imobilizér s klávesnicí a pinem, tak mně jen odkázal na výrobce a dokumentaci, že nic konkrétního neví.
A o čísle 156 mi tvrdí, že ho mají horští záchranáři :-)

Ale k pracovním problémům (vývoj v c#, JS, TS, React...), mi odpovídá vcelku rozumně a v 80% případů se dobereme k úspěšnému vyřešení dotazu.
Název: Re:Benchmark na měření svéprávnosti ChatGPT?
Přispěvatel: FKoudelka 03. 12. 2023, 11:07:06: Citace: 🇺🇦 GPU 02. 12. 2023, 18:01:17
Není možný tomu ChatGPT nějak omezit příděl zdrojů, třeba podle aktuálního vytížení, že by to prostě dávalo hloupější odpovědi?

Něco jako:
https://youtu.be/rGvf0JUSaEg?t=42

Citace: FKoudelka 02. 12. 2023, 17:37:49
Ptal jsem se různou formou na to, na jaké datum připadá v následujících letech poslední neděle v březnu (den sexu)
To máš sex jen poslední březnovou neděli? ;D
hehe, kdyby tolik :-) proto to chci na pár let dopředu vědět.
Dělám si srandu, zkoušel jsem, zda je obecně znám tento termín pro začátek letního času.
Název: Re:Benchmark na měření svéprávnosti ChatGPT?
Přispěvatel: pruzkumbojem 03. 12. 2023, 11:08:03: nevim, vidies to naivne. to prvni setkani s ChatGPT, ve starych dobry casech (pred nekolika mesici), kde to skoro fungovalo...
Ty odpovedy bylo opravdu napomocne,o dva rady prekonavajici klasicky Google output. O dva rady zkracujici cas, co jsem potreboval k priprave neceho. Tvuj pesimisticky pristup (vlastne optimisticky pristup, kdyz clovek pomysli na dopad na lidstvo) je zpusobeny tim, ze si to nevyzkousel v pravy cas.

to byl sok. Ale ja uz dlouho mel pochybnosti o lidstvu jako takovem.
Co je to inteligence, kreativita... Jaky je rozdil "jazykoveho prediktoru od ditete, co se nauci rodny jazyk vstrebavanim velkeho mnozstvi vet ze sveho okoli, korelovanych se sadou vjemu ze vsech senzoru?

99.99% lidskeho intelektualniho vystupu je jen copy paste. Je ten zbytek "originalni prispevek" specifickeho jednotlivce, nebo jen nahodna variace historickych hodnot, ktera doda vysledek vice se odlisujici?

BTW, ja nevim, jaky je rozdil mezi LLM a pozapomenutym slovem "expert system". Urcite se da zabit spousta casu prijemnou intelektualni masturbaci analyzovanim spatne volby tech terminu.

ja naprosto jasne vidim na desitkach giga projektu, jak male skupiny velmi dobre placenych "expertu" stale jeste prezivaji, ale ten zbytek proste je nechan v rukou o dve rady pocetnejsi indicke "pomoci".

Dle meho odhadu tak na 200 indickych specialistu (rozhodne nereprezentuji kompletne nefiltrovanou populaci), pripada tak 20 lidi schopnych samostatne dodat nejaky vysledek a mozna 5 lidi jsou schopni menit smer projektu a zachranit situaci.

Rozdil mezi tou indickou (vetsinovou) a LLM (jarni verze) pomoci neni moc velky.
Zrejme to tak nejak staci a je to nase omezenost, ze chceme verit v neco jineho.

Citace: Mlocik97 03. 12. 2023, 00:13:52
GPT, ale aj akékoľvek iné LLM sú vhodné len na entertainment, rozhodne sa to používať ku práci nedá. Všetci to hypujú, a budú tvrdiť ako to viem správne odpovedať. Ale reálne je to tak, že niekto natočí video ako to odpovie perfektnú odpoveď... akurát z toho videa odstrihne ako rovnakú otázku zkúšaľ asi 200 krát pred tým a dostal nezmyselnú odpoveď. Raz sa to trafí do správnej odpovede, a hurá, máme úžas vo videu.

Keď ale rozumieš už principiálne ako to funguje, je jasné že to je len "náhodný generátor slov". O niečo lepšie prediktívne písanie, kde tých dát na trénovanie bolo veľa... avšak keďže sa to trénuje na textoch na Internete, kde kdejaký cigáň povie že 2 + 2 je 9, a hlavne väčšina obsahu na Internete nesie nesprávne alebo nepresné informácie, tak výsledok môže byť len LLM ktorý odpovedá nezmysli. Takže spoliehať sa na LLM je nezmysel.

Ku práci by som LLM nikdy nepoužil.
Název: Re:Benchmark na měření svéprávnosti ChatGPT?
Přispěvatel: peete 03. 12. 2023, 23:24:52: Zabyvat se s ChatGPT 3.5 nema vubec smysl, diskutovat o 3.5, to je jako rozebírat co uměla černobílá TV. Kvalita ChatGPT 4 je někde úplně jinde.... Odpovědi 4 a 3.5 se vůbec nedají srovnávat.
Název: Re:Benchmark na měření svéprávnosti ChatGPT?
Přispěvatel: pruzkumbojem 04. 12. 2023, 00:06:47: povez mi, kde se tady diskutuji verze? OK na mem printscreenu to najdes (sem to tam umyslne nechal) ale ja uz ty penize neplatim. feedback od ostatnich je stejny, kdyz si prectes jeden z tech odkazu, tak ta barevna televize ty prvocisla zvlada radove hur.
.
Citace: peete 03. 12. 2023, 23:24:52
Zabyvat se s ChatGPT 3.5 nema vubec smysl, diskutovat o 3.5, to je jako rozebírat co uměla černobílá TV. Kvalita ChatGPT 4 je někde úplně jinde.... Odpovědi 4 a 3.5 se vůbec nedají srovnávat.
Název: Re:Benchmark na měření svéprávnosti ChatGPT?
Přispěvatel: jjrsk 04. 12. 2023, 08:44:40: Citace: Mlocik97 03. 12. 2023, 00:13:52
GPT, ale aj akékoľvek iné LLM sú vhodné len na entertainment, rozhodne sa to používať ku práci nedá. ...
Prave ze da, se podivej treba jaky zvasty tu generuje jirsak, danny ... chatgpt by to zvladal nejhur stejne. Spousta lidi se generovanim zvastu zivi.

Chatgpt neni nic jinyho nez rekneme sofitikovanejsi verze elizy, ktera se provozovala uz na 8mibitech ... a taky to fungovalo neuveritelne dobre. Specielne kdyz byly pokladany ty spravne otazky.

Jinak se obavam, ze to funguje mimo jine tak, ze se to prizpusobuje tomu, na co se lidi ptaj a odpovedi to upravuje na zaklade toho. Takze cim vic dmntu to bude pouzivat, tim horsi odpovedi budou.
Název: Re:Benchmark na měření svéprávnosti ChatGPT?
Přispěvatel: Vít Šesták (v6ak) 04. 12. 2023, 08:50:49: ChatGPT nesplnila něco, co snad ani nikde neslibuje. Je to zajímavý nástroj, který poskytne nějakou odpověď, a je na vás potom rozlišit, jestli je správná. (Bard k tomu následnému ověření nabízí i nástroj, kdy dohledá zdroje, nicméně funguje to tak, že, no, … je to lepší než nic.) Jsou věci, které dává po AI smysl chtít, např.:

* Brainstorming – případné halucinace možná budou zjevné i bez ověřování
* Feedback k vlastnímu textu
* Draft dopisu na úřad (napsal jsem to ve stylu výkřiku z hospody, přepsal mi to do celkem použitelné podoby)
* Analýza některých chybových hlášek (použil jsem to na analýzu chyb z kernelu, Bard zde dával smysluplnější výsledky). Opět to používám na nasměrování, když třeba netuším, ale chce si to pak ověřit, že to nekecá nesmysly.
* Tématické Lorem Ipsum

Ano, jde najít spoustu případů, kdy z AI vypadne nějaký nesmysl. Někdy i na stejný dotaz odpoví různě. (Pěkně to je někdy vidět u Barda, který typicky dá několik odpovědí, někdy vzájemně si odporujících.)

Jak jsem psal, je to známé omezení toho nástroje. Je tu jedna důležitá otázka: Očekáváte, že ten výstup zvládnete nějak v rozumném čase ověřit?

a. Ano, a dotaz i s ověřením mi zabere méně než řešení bez AI. Pak je to nástroj na svém místě.
b. Ne – možná bych to zvládl ověřit, ale asi by to trvalo déle než řešení bez AI. Pak to prostě asi není ten pravý nástroj…
Název: Re:Benchmark na měření svéprávnosti ChatGPT?
Přispěvatel: Mlocik97 04. 12. 2023, 09:34:36: Citace: Tomas-T 03. 12. 2023, 09:20:48
Ale k pracovním problémům (vývoj v c#, JS, TS, React...), mi odpovídá vcelku rozumně a v 80% případů se dobereme k úspěšnému vyřešení dotazu.

Problém je že sa musíš "dobrať" k výsledku a napraviť ChatGPT asi 20 krát. Čo vlastne vieš urobiť len keď máš vysoké znalosti z daného prog. jazyka. A ak je máš, tak ChatGPT ti je zbytočný, lebo algoritmus často napíšeš rýchlejšie ručne sám.
Název: Re:Benchmark na měření svéprávnosti ChatGPT?
Přispěvatel: Tomas-T 04. 12. 2023, 11:34:30: Citace: Mlocik97 04. 12. 2023, 09:34:36
Problém je že sa musíš "dobrať" k výsledku a napraviť ChatGPT asi 20 krát. Čo vlastne vieš urobiť len keď máš vysoké znalosti z daného prog. jazyka. A ak je máš, tak ChatGPT ti je zbytočný, lebo algoritmus často napíšeš rýchlejšie ručne sám.
20x bych AI neopravoval, z toho by bylo jasné, že je to slepá cesta - limit je tak 5 upřesnění a oprav.
U návrhů řešení, mě obvykle u odpovědi ani tak nezajímá obecný algoritmus (o tom představu mám), ale právě řešení v konkrétním jazyce a frameworku.
Nebo napíšu kód v Reactu, který hází nejasnou chybu při překladu. Tak ho hodím do AI a zeptám se co je tam špatně - obvykle poradí správně.
Nebo ke kódu přidán dotaz, že se nechová podle očekávání - AI vypíše seznam možných příčin. Často pomůže.
Nebo hledám ekvivalent něčeho co znám z jednoho jazyka (např. nějaká metoda .Net LINQ v c#) v jiném jazyce (JS).

V rámci firmy jsme teď získali přístup k vlastnímu GPTCHat 4 a výše uvedené dotazy (klávesnicový immobilizér v Citroenech, telefonní číslo 156) odpověděl stručně jednou větou a správně.
Název: Re:Benchmark na měření svéprávnosti ChatGPT?
Přispěvatel: Karmelos 04. 12. 2023, 12:48:46: Citace: jjrsk 04. 12. 2023, 08:44:40
Citace: Mlocik97 03. 12. 2023, 00:13:52
GPT, ale aj akékoľvek iné LLM sú vhodné len na entertainment, rozhodne sa to používať ku práci nedá. ...
Prave ze da, se podivej treba jaky zvasty tu generuje jirsak, danny ... chatgpt by to zvladal nejhur stejne. Spousta lidi se generovanim zvastu zivi.

Chatgpt neni nic jinyho nez rekneme sofitikovanejsi verze elizy, ktera se provozovala uz na 8mibitech ... a taky to fungovalo neuveritelne dobre. Specielne kdyz byly pokladany ty spravne otazky.

Jinak se obavam, ze to funguje mimo jine tak, ze se to prizpusobuje tomu, na co se lidi ptaj a odpovedi to upravuje na zaklade toho. Takze cim vic dmntu to bude pouzivat, tim horsi odpovedi budou.

přésně.... pruměrný IQ je 100, jestli k "vylepšování" budou používat současnou komunikaci (ačkoliv tvrdí, ale podle mě pravděpodobně lžou, že nepoužívaj) výsledek bude časem konvergovat k tomu levelu odpovědí výše IQ 100... Pokud většina dotazů bude na levlu "jaký má zadek kardašianka", anebo zda se maj vycpaný pysky (myslím ty na hlavě) uvádět jako vylepšení těla, těžko pak po tom chtít návod na diy fůzní reaktor....
Název: Re:Benchmark na měření svéprávnosti ChatGPT?
Přispěvatel: Tomas-T 04. 12. 2023, 14:33:18: Jsou témata, o kterých IQ100 moc nediskutují - třeba ten DYI fúzní reaktor.
Takže odpovědi z téhle oblasti by měly být na jiné úrovni IQ, než dotazy na bulvární témata.
Název: Re:Benchmark na měření svéprávnosti ChatGPT?
Přispěvatel: Karmelos 04. 12. 2023, 15:44:01: Citace: Tomas-T 04. 12. 2023, 14:33:18
Jsou témata, o kterých IQ100 moc nediskutují - třeba ten DYI fúzní reaktor.
Takže odpovědi z téhle oblasti by měly být na jiné úrovni IQ, než dotazy na bulvární témata.

Z jakého důvodu si to myslíte? Podle mě pokud například bude 99% konverzací/vstupů na úrovni IQ100, všecko ostatní bude jednoduše statisticky vytěsněno ve prospěch těch 99%. A pokud namítnete, že přece lidí nad IQ100 je víc než jedno procento, uvědomte si například jak moc aktivně používáte sociální sítě ve srovnání s průměrem populace. Prostě ta kvantita naprosto povrchních a nesmyslných dotazů a konverzací s AI od průměru populace bude (a myslím že už je) ohromná. Nevím jaké má např. OpenAI cíle, ale zatím mě to připadá, že vytvořit geniálně myslící stroj to není. Spíš se snaží vytvořit průměrně myslícího člověka což bude odpovídat úrovni IQ 100...
Název: Re:Benchmark na měření svéprávnosti ChatGPT?
Přispěvatel: Jose D 04. 12. 2023, 18:28:52: Citace: pruzkumbojem 02. 12. 2023, 10:17:15
pozoruju uplne absurdni zhorseni kvality vystupu ChatGPT - viz printscreen.
Jasne, je to bezplatna verze, ale neverim, ze se kvalita verze placene neveri.

Btw, řešení je zeptat se na "tísňovou linku" městské policie, na to ti odpoví "správně" jak 3.5, tak 4.0.
Název: Re:Benchmark na měření svéprávnosti ChatGPT?
Přispěvatel: pruzkumbojem 04. 12. 2023, 23:12:50: nic takoveho na me strane.
Co je zajime, ze uz odpovida jinak nez o par hodin driv. Ted se vyhyba odpovedi.

se musim zeptat, kdo je tady z ChatGPT teamu?

Citace: Jose D 04. 12. 2023, 18:28:52
Citace: pruzkumbojem 02. 12. 2023, 10:17:15
pozoruju uplne absurdni zhorseni kvality vystupu ChatGPT - viz printscreen.
Jasne, je to bezplatna verze, ale neverim, ze se kvalita verze placene neveri.

Btw, řešení je zeptat se na "tísňovou linku" městské policie, na to ti odpoví "správně" jak 3.5, tak 4.0.
Název: Re:Benchmark na měření svéprávnosti ChatGPT?
Přispěvatel: LivingLegend 05. 12. 2023, 08:26:49: Souhlasim GPT v 3.5 se prime jane odpovedi vyhyba:

https://imgur.com/a/fA4pSxW (https://imgur.com/a/fA4pSxW)

A tohle vrati Bing enterprise:
Citace
Číslo na městskou policii je **156**¹. Pokud potřebujete kontaktovat Městskou policii hlavního města Prahy, můžete využít tísňovou linku **156**⁵ nebo telefonní číslo **+420 222 02 5000**⁵.

Zdroj: Konverzace s Bingem, 12/5/2023
(1) Kdy volat 155 a kdy 112? - zspp.cz. https://bing.com/search?q=%c4%8d%c3%adslo+na+m%c4%9bstskou+policii.
(2) Bezpečnost - Portál hlavního města Prahy. https://www.praha.eu/jnp/cz/o_meste/zivot_v_praze/bezpecnost/mestska_policie/index.html.
(3) Městská policie v ČR a Obecní policie | Policie ČR. http://www.policie-cr.cz/mestska-policie.php.
(4) Důležitá telefonní čísla, - Policie České republiky. https://www.policie.cz/obrazek/dulezita-telefonni-cisla.aspx.
(5) Kdy volat 155 a kdy 112? - zspp.cz. https://www.zspp.cz/inpage/kdy-volat-155-a-kdy-112/.
(6) Městská policie Praha | Policie ČR. http://www.policie-cr.cz/mestska-policie/praha-196.html.
Název: Re:Benchmark na měření svéprávnosti ChatGPT?
Přispěvatel: pruzkumbojem 05. 12. 2023, 09:00:44: to mne donutilo vyzkouset Bing a Bard, zadny s tim nemel problem. Taky tohle je fakt minimum, co by od toho uzivatel muze ocekavat.
Název: Re:Benchmark na měření svéprávnosti ChatGPT?
Přispěvatel: Ivo2003 05. 12. 2023, 09:33:56: Chat GPT3.5 už je dnes obsolete.
Pro lepší výsledky doporučuji Claude-instant.
Název: Re:Benchmark na měření svéprávnosti ChatGPT?
Přispěvatel: Ink 05. 12. 2023, 10:38:04: Citace: Ivo2003 05. 12. 2023, 09:33:56
Chat GPT3.5 už je dnes obsolete.
Pro lepší výsledky doporučuji Claude-instant.

Zkouším, vypadá poměrně v pohodě (nemá zásadní levicový bias a snaží se o nestrannost). A rychlé programovací dotazy zodpověděl taky moc hezky!
Název: Re:Benchmark na měření svéprávnosti ChatGPT?
Přispěvatel: Jose D 05. 12. 2023, 13:01:06: Citace: pruzkumbojem 04. 12. 2023, 23:12:50
nic takoveho na me strane.
Co je zajime, ze uz odpovida jinak nez o par hodin driv. Ted se vyhyba odpovedi.

jj, v podstatě ty různé odpovědi napříč tazateli a časem jsou důvodem, proč mě to téma zaujalo..

já se toho ptám přes API v sandboxu pro chat API, ne přes tu jejich hlavní stránku. Screenshot přikládám..

Potvrzuju že ta web chatgpt s 3.5. (nemám subscription) to odpovědět neumí. Zajímavé.
Název: Re:Benchmark na měření svéprávnosti ChatGPT?
Přispěvatel: pruzkumbojem 05. 12. 2023, 13:09:44: OK, to je jeste divnejsi. Ale proto jsem tohle vlakno otevrel.

Ja si puvodne myslel, ze tam bude nejaky rate limiter a neplatici si ve spickach proste pockaji.

Ale tohle vypada, ze nejak dynamicky omezuji velikost toho, co si natrenoval.(nikoli trenovacich dat, prolozte si to do terminologie neuralnich siti).Doslova orezavaji tu pseudointeligenci.
Název: Re:Benchmark na měření svéprávnosti ChatGPT?
Přispěvatel: pruzkumbojem 18. 12. 2023, 11:00:09: BTW, jsem se ve skutecnosti ptal na neco takoveho:
https://huggingface.co/spaces/lmsys/chatbot-arena-leaderboard

trochu legracni, ze s porovnavanim uspesnosti odpovedi jim pomaha GPT-4

ma to potom smysl?
tim nemyslim,ze uz GPT si uvedomuje sam sebe a fixluje. To uz zaridi autori.
Název: Re:Benchmark na měření svéprávnosti ChatGPT?
Přispěvatel: Jose D 18. 12. 2023, 11:52:15: Citace: pruzkumbojem 18. 12. 2023, 11:00:09
...

používám gpt jako asistenta k psaní Ansible, a tu a tam zkouším, jestli už chatGPT u modulu "ansible.builtin.set_fact" ví, že v případě použití více proměnných najednou se přiřazení hodnot děje najednou, a ne sekvenčně (jak by tomu snad bylo v jakémkoliv jiném normálním jazyce..)

Tenhle konkrétní případ není v Ansible dokumentaci zmíněný, je to spíše fakt, který vyplývá z obecných principů tohodle jazyka.., a všechny verze GPT to zatím neberou na vědomí, a klidně mi několik set_fact za sebou zminimalizují do jednoho..

Takže až tohle bude GPT "vědět", tak budu mít radost - to je teď můj interní benchmark :)