Benchmark na měření svéprávnosti ChatGPT?

Benchmark na měření svéprávnosti ChatGPT?
« kdy: 02. 12. 2023, 10:17:15 »
pozoruju uplne absurdni zhorseni  kvality vystupu ChatGPT - viz  printscreen.
Jasne, je to bezplatna verze, ale neverim, ze se kvalita verze placene neveri.

se mi libilo vyjadreni "it is a language predictor"
ted uz je to generator nahodnych tvrzeni.

Je nejaky tracker, nejaka metodika, ktera sleduje "svepravnost" ChatGPT?
« Poslední změna: 02. 12. 2023, 12:53:33 od Petr Krčmář »


Re:Benchmark na měření svéprávnosti ChatGPT?
« Odpověď #1 kdy: 02. 12. 2023, 14:48:42 »

FKoudelka

Re:Benchmark na měření svéprávnosti ChatGPT?
« Odpověď #2 kdy: 02. 12. 2023, 17:37:49 »
pozoruju uplne absurdni zhorseni  kvality vystupu ChatGPT - viz  printscreen.
Jasne, je to bezplatna verze, ale neverim, ze se kvalita verze placene neveri.

se mi libilo vyjadreni "it is a language predictor"
ted uz je to generator nahodnych tvrzeni.

Je nejaky tracker, nejaka metodika, ktera sleduje "svepravnost" ChatGPT?
benchmark je jasnej … tlak na přechod do placené verze :-)
Ptal jsem se různou formou na to, na jaké datum připadá v následujících  letech poslední neděle v březnu (den sexu) a odpověď byla opakovaně nesmyslná, mj: je to v r. 2024 -první neděle v březnu, v r. 2025- druhá neděle … Bez ohledu na kvalitu dotazu: jak může být první neděle tou poslední ? Takhle že chtějí řídit svět ? To nemůže být tak blbý, jedině schválně
« Poslední změna: 02. 12. 2023, 17:40:19 od FKoudelka »

Re:Benchmark na měření svéprávnosti ChatGPT?
« Odpověď #3 kdy: 02. 12. 2023, 17:45:37 »
jo, uvadi tam test na prvocislo, tak jsem ten jejich priklad zkusil.

fakt neuveritelny - viz printscreen.  podotykam, ze kdyz jsem ChatGPT potkal ppoprve, tak jsem byl sokovany, jak dobre to fungovalo.

Tady byl nějaký výzkum:
https://www.root.cz/zpravicky/chatgpt-casem-odpovida-jinak/

Re:Benchmark na měření svéprávnosti ChatGPT?
« Odpověď #4 kdy: 02. 12. 2023, 17:51:24 »
Zdá se, že každý dostane odpověď jakou si zaslouží  ;D

User
is 17077 a prime number ?
ChatGPT

To determine whether 17077 is a prime number, we can check for its divisors. A prime number is a natural number greater than 1 that is not a product of two smaller natural numbers.

For 17077:

    It is odd (not divisible by 2), so we can skip even numbers.
    Start checking from 3 and go up to the square root of 17077, because if a number has a divisor greater than its square root, it must also have a divisor smaller than the square root.

Let's check:

17077≈130.717077

​≈130.7

Now, check for divisors from 3 to 130:

    It is not divisible by 3.
    It is not divisible by 5.
    It is not divisible by 7.
    ...

Continue this process until you reach the square root. If no divisors are found, then 17077 is a prime number.

In this case, I don't have the computational capacity to perform the exact calculations in real-time, but you can use a programming language, calculator, or online tool to check for divisors up to the square root of 17077. If you find no divisors, then 17077 is a prime number.


Re:Benchmark na měření svéprávnosti ChatGPT?
« Odpověď #5 kdy: 02. 12. 2023, 18:01:17 »
Není možný tomu ChatGPT nějak omezit příděl zdrojů, třeba podle aktuálního vytížení, že by to prostě dávalo hloupější odpovědi?

Něco jako:
https://youtu.be/rGvf0JUSaEg?t=42

Ptal jsem se různou formou na to, na jaké datum připadá v následujících  letech poslední neděle v březnu (den sexu)
To máš sex jen poslední březnovou neděli?  ;D

Re:Benchmark na měření svéprávnosti ChatGPT?
« Odpověď #6 kdy: 02. 12. 2023, 18:08:15 »
fascinujici,
ta umela inteligence uz je tak vyspela, ze odpovida " se mi nechce, si to spocitej sam proboha"

Zdá se, že každý dostane odpověď jakou si zaslouží  ;D

User
is 17077 a prime number ?
ChatGPT

To determine whether 17077 is a prime number, we can check for its divisors. A prime number is a natural number greater than 1 that is not a product of two smaller natural numbers.

For 17077:

    It is odd (not divisible by 2), so we can skip even numbers.
    Start checking from 3 and go up to the square root of 17077, because if a number has a divisor greater than its square root, it must also have a divisor smaller than the square root.

Let's check:

17077≈130.717077

​≈130.7

Now, check for divisors from 3 to 130:

    It is not divisible by 3.
    It is not divisible by 5.
    It is not divisible by 7.
    ...

Continue this process until you reach the square root. If no divisors are found, then 17077 is a prime number.

In this case, I don't have the computational capacity to perform the exact calculations in real-time, but you can use a programming language, calculator, or online tool to check for divisors up to the square root of 17077. If you find no divisors, then 17077 is a prime number.

Re:Benchmark na měření svéprávnosti ChatGPT?
« Odpověď #7 kdy: 02. 12. 2023, 18:24:44 »
Že by úspěsně splnila Turingův test ?

Re:Benchmark na měření svéprávnosti ChatGPT?
« Odpověď #8 kdy: 02. 12. 2023, 20:35:24 »
se skutecne obavam, ze Turinguv test je mrtev


Že by úspěsně splnila Turingův test ?

RDa

  • *****
  • 2 717
    • Zobrazit profil
    • E-mail
Re:Benchmark na měření svéprávnosti ChatGPT?
« Odpověď #9 kdy: 02. 12. 2023, 22:00:49 »
Ten priklad s telefonnim cislem je featura LLM.

Typicky to totiz ma naucene jednosmerne predikce (tj je tam asymetrie ve vahach, protoze zdroje k uceni to tak preferovali). Videl jsem to v prikladu od nejakeho slovenskeho prednasejiciho na YT - uvadel priklad ze ChatGPT vam hezky odpovi ze Y je matkou X, ale uz nedokaze odpovedet ze X je synem Y.

Re:Benchmark na měření svéprávnosti ChatGPT?
« Odpověď #10 kdy: 02. 12. 2023, 22:33:24 »
Jen teda, 156 nejsou hasici.

Se postupne zacalo mluvit o halucinacich, ale dnes uz to cely zije v alternativnim vesmiru.

Ten priklad s telefonnim cislem je featura LLM.

Typicky to totiz ma naucene jednosmerne predikce (tj je tam asymetrie ve vahach, protoze zdroje k uceni to tak preferovali). Videl jsem to v prikladu od nejakeho slovenskeho prednasejiciho na YT - uvadel priklad ze ChatGPT vam hezky odpovi ze Y je matkou X, ale uz nedokaze odpovedet ze X je synem Y.

Re:Benchmark na měření svéprávnosti ChatGPT?
« Odpověď #11 kdy: 02. 12. 2023, 22:48:35 »
Na druhou stranu, příjemně se s ním dá pokecat na úrovni hospody po pár pivech a nějakým tom rumu  :D

Mlocik97

  • *****
  • 898
  • Ubunťák, JS dev.
    • Zobrazit profil
    • E-mail
Re:Benchmark na měření svéprávnosti ChatGPT?
« Odpověď #12 kdy: 03. 12. 2023, 00:13:52 »
GPT, ale aj akékoľvek iné LLM sú vhodné len na entertainment, rozhodne sa to používať ku práci nedá. Všetci to hypujú, a budú tvrdiť ako to viem správne odpovedať. Ale reálne je to tak, že niekto natočí video ako to odpovie perfektnú odpoveď... akurát z toho videa odstrihne ako rovnakú otázku zkúšaľ asi 200 krát pred tým a dostal nezmyselnú odpoveď. Raz sa to trafí do správnej odpovede, a hurá, máme úžas vo videu.

Keď ale rozumieš už principiálne ako to funguje, je jasné že to je len "náhodný generátor slov". O niečo lepšie prediktívne písanie, kde tých dát na trénovanie bolo veľa... avšak keďže sa to trénuje na textoch na Internete, kde kdejaký cigáň povie že 2 + 2 je 9, a hlavne väčšina obsahu na Internete nesie nesprávne alebo nepresné informácie, tak výsledok môže byť len LLM ktorý odpovedá nezmysli. Takže spoliehať sa na LLM je nezmysel.

Ku práci by som LLM nikdy nepoužil.

Re:Benchmark na měření svéprávnosti ChatGPT?
« Odpověď #13 kdy: 03. 12. 2023, 07:56:44 »
Český ChatGPT mi přišlo že dycky generuje úplný dada. Anglický odpovídá většinou normálně a uvěřitelně (byť často třeba ne správně). (Což je teda pro použitelnost v praxi dost možná horší.)

Re:Benchmark na měření svéprávnosti ChatGPT?
« Odpověď #14 kdy: 03. 12. 2023, 09:20:48 »
I já mám pocit, že se kvalita odpovědí v poslední době dost zhoršila.
Pamatuju si, že dříve jsem si byl schopný s GPTChat pokecat o dodávkách vhodných na přestavbu na obytné, konkrétní vyráběné modely, rozměry...
Když jsem se ho včera zeptal, které modely Citroenů měly imobilizér s klávesnicí a pinem, tak mně jen odkázal na výrobce a dokumentaci, že nic konkrétního neví.
A o čísle 156 mi tvrdí, že ho mají horští záchranáři :-)

Ale k pracovním problémům (vývoj v c#, JS, TS, React...), mi odpovídá vcelku rozumně a v 80% případů se dobereme k úspěšnému vyřešení dotazu.