Benchmark na měření svéprávnosti ChatGPT?

pruzkumbojem · « **kdy:** 02. 12. 2023, 10:17:15 »

pozoruju uplne absurdni zhorseni kvality vystupu ChatGPT - viz printscreen.
Jasne, je to bezplatna verze, ale neverim, ze se kvalita verze placene neveri.

se mi libilo vyjadreni "it is a language predictor"
ted uz je to generator nahodnych tvrzeni.

Je nejaky tracker, nejaka metodika, ktera sleduje "svepravnost" ChatGPT?

Reklama

Jan Fikar · « **Odpověď #1 kdy:** 02. 12. 2023, 14:48:42 »

Tady byl nějaký výzkum:
https://www.root.cz/zpravicky/chatgpt-casem-odpovida-jinak/

FKoudelka · « **Odpověď #2 kdy:** 02. 12. 2023, 17:37:49 »

Citace: pruzkumbojem 02. 12. 2023, 10:17:15

pozoruju uplne absurdni zhorseni kvality vystupu ChatGPT - viz printscreen.
Jasne, je to bezplatna verze, ale neverim, ze se kvalita verze placene neveri.

se mi libilo vyjadreni "it is a language predictor"
ted uz je to generator nahodnych tvrzeni.

Je nejaky tracker, nejaka metodika, ktera sleduje "svepravnost" ChatGPT?

benchmark je jasnej … tlak na přechod do placené verze :-)
Ptal jsem se různou formou na to, na jaké datum připadá v následujících letech poslední neděle v březnu (den sexu) a odpověď byla opakovaně nesmyslná, mj: je to v r. 2024 -první neděle v březnu, v r. 2025- druhá neděle … Bez ohledu na kvalitu dotazu: jak může být první neděle tou poslední ? Takhle že chtějí řídit svět ? To nemůže být tak blbý, jedině schválně

pruzkumbojem · « **Odpověď #3 kdy:** 02. 12. 2023, 17:45:37 »

jo, uvadi tam test na prvocislo, tak jsem ten jejich priklad zkusil.

fakt neuveritelny - viz printscreen. podotykam, ze kdyz jsem ChatGPT potkal ppoprve, tak jsem byl sokovany, jak dobre to fungovalo.

Citace: Jan Fikar 02. 12. 2023, 14:48:42

Tady byl nějaký výzkum:
https://www.root.cz/zpravicky/chatgpt-casem-odpovida-jinak/

Josef Jindra · « **Odpověď #4 kdy:** 02. 12. 2023, 17:51:24 »

Zdá se, že každý dostane odpověď jakou si zaslouží

User
is 17077 a prime number ?
ChatGPT

To determine whether 17077 is a prime number, we can check for its divisors. A prime number is a natural number greater than 1 that is not a product of two smaller natural numbers.

For 17077:

It is odd (not divisible by 2), so we can skip even numbers.
Start checking from 3 and go up to the square root of 17077, because if a number has a divisor greater than its square root, it must also have a divisor smaller than the square root.

Let's check:

17077≈130.717077

≈130.7

Now, check for divisors from 3 to 130:

It is not divisible by 3.
It is not divisible by 5.
It is not divisible by 7.
...

Continue this process until you reach the square root. If no divisors are found, then 17077 is a prime number.

In this case, I don't have the computational capacity to perform the exact calculations in real-time, but you can use a programming language, calculator, or online tool to check for divisors up to the square root of 17077. If you find no divisors, then 17077 is a prime number.

Reklama

🇺🇦 GPU · « **Odpověď #5 kdy:** 02. 12. 2023, 18:01:17 »

Není možný tomu ChatGPT nějak omezit příděl zdrojů, třeba podle aktuálního vytížení, že by to prostě dávalo hloupější odpovědi?

Něco jako:
https://youtu.be/rGvf0JUSaEg?t=42

Citace: FKoudelka 02. 12. 2023, 17:37:49

Ptal jsem se různou formou na to, na jaké datum připadá v následujících letech poslední neděle v březnu (den sexu)

To máš sex jen poslední březnovou neděli?

pruzkumbojem · « **Odpověď #6 kdy:** 02. 12. 2023, 18:08:15 »

fascinujici,
ta umela inteligence uz je tak vyspela, ze odpovida " se mi nechce, si to spocitej sam proboha"

Citace: Josef Jindra 02. 12. 2023, 17:51:24

Zdá se, že každý dostane odpověď jakou si zaslouží

User
is 17077 a prime number ?
ChatGPT

To determine whether 17077 is a prime number, we can check for its divisors. A prime number is a natural number greater than 1 that is not a product of two smaller natural numbers.

For 17077:

It is odd (not divisible by 2), so we can skip even numbers.
Start checking from 3 and go up to the square root of 17077, because if a number has a divisor greater than its square root, it must also have a divisor smaller than the square root.

Let's check:

17077≈130.717077

≈130.7

Now, check for divisors from 3 to 130:

It is not divisible by 3.
It is not divisible by 5.
It is not divisible by 7.
...

Continue this process until you reach the square root. If no divisors are found, then 17077 is a prime number.

In this case, I don't have the computational capacity to perform the exact calculations in real-time, but you can use a programming language, calculator, or online tool to check for divisors up to the square root of 17077. If you find no divisors, then 17077 is a prime number.

Josef Jindra · « **Odpověď #7 kdy:** 02. 12. 2023, 18:24:44 »

Že by úspěsně splnila Turingův test ?

pruzkumbojem · « **Odpověď #8 kdy:** 02. 12. 2023, 20:35:24 »

se skutecne obavam, ze Turinguv test je mrtev

Citace: Josef Jindra 02. 12. 2023, 18:24:44

Že by úspěsně splnila Turingův test ?

RDa · « **Odpověď #9 kdy:** 02. 12. 2023, 22:00:49 »

Ten priklad s telefonnim cislem je featura LLM.

Typicky to totiz ma naucene jednosmerne predikce (tj je tam asymetrie ve vahach, protoze zdroje k uceni to tak preferovali). Videl jsem to v prikladu od nejakeho slovenskeho prednasejiciho na YT - uvadel priklad ze ChatGPT vam hezky odpovi ze Y je matkou X, ale uz nedokaze odpovedet ze X je synem Y.

pruzkumbojem · « **Odpověď #10 kdy:** 02. 12. 2023, 22:33:24 »

Jen teda, 156 nejsou hasici.

Se postupne zacalo mluvit o halucinacich, ale dnes uz to cely zije v alternativnim vesmiru.

Citace: RDa 02. 12. 2023, 22:00:49

Ten priklad s telefonnim cislem je featura LLM.

Typicky to totiz ma naucene jednosmerne predikce (tj je tam asymetrie ve vahach, protoze zdroje k uceni to tak preferovali). Videl jsem to v prikladu od nejakeho slovenskeho prednasejiciho na YT - uvadel priklad ze ChatGPT vam hezky odpovi ze Y je matkou X, ale uz nedokaze odpovedet ze X je synem Y.

Josef Jindra · « **Odpověď #11 kdy:** 02. 12. 2023, 22:48:35 »

Na druhou stranu, příjemně se s ním dá pokecat na úrovni hospody po pár pivech a nějakým tom rumu

Mlocik97 · « **Odpověď #12 kdy:** 03. 12. 2023, 00:13:52 »

GPT, ale aj akékoľvek iné LLM sú vhodné len na entertainment, rozhodne sa to používať ku práci nedá. Všetci to hypujú, a budú tvrdiť ako to viem správne odpovedať. Ale reálne je to tak, že niekto natočí video ako to odpovie perfektnú odpoveď... akurát z toho videa odstrihne ako rovnakú otázku zkúšaľ asi 200 krát pred tým a dostal nezmyselnú odpoveď. Raz sa to trafí do správnej odpovede, a hurá, máme úžas vo videu.

Keď ale rozumieš už principiálne ako to funguje, je jasné že to je len "náhodný generátor slov". O niečo lepšie prediktívne písanie, kde tých dát na trénovanie bolo veľa... avšak keďže sa to trénuje na textoch na Internete, kde kdejaký cigáň povie že 2 + 2 je 9, a hlavne väčšina obsahu na Internete nesie nesprávne alebo nepresné informácie, tak výsledok môže byť len LLM ktorý odpovedá nezmysli. Takže spoliehať sa na LLM je nezmysel.

Ku práci by som LLM nikdy nepoužil.

B.H.L. · « **Odpověď #13 kdy:** 03. 12. 2023, 07:56:44 »

Český ChatGPT mi přišlo že dycky generuje úplný dada. Anglický odpovídá většinou normálně a uvěřitelně (byť často třeba ne správně). (Což je teda pro použitelnost v praxi dost možná horší.)

Tomas-T · « **Odpověď #14 kdy:** 03. 12. 2023, 09:20:48 »

I já mám pocit, že se kvalita odpovědí v poslední době dost zhoršila.
Pamatuju si, že dříve jsem si byl schopný s GPTChat pokecat o dodávkách vhodných na přestavbu na obytné, konkrétní vyráběné modely, rozměry...
Když jsem se ho včera zeptal, které modely Citroenů měly imobilizér s klávesnicí a pinem, tak mně jen odkázal na výrobce a dokumentaci, že nic konkrétního neví.
A o čísle 156 mi tvrdí, že ho mají horští záchranáři :-)

Ale k pracovním problémům (vývoj v c#, JS, TS, React...), mi odpovídá vcelku rozumně a v 80% případů se dobereme k úspěšnému vyřešení dotazu.

Benchmark na měření svéprávnosti ChatGPT?

pruzkumbojem

Benchmark na měření svéprávnosti ChatGPT?

Reklama

Jan Fikar

Re:Benchmark na měření svéprávnosti ChatGPT?

FKoudelka

Re:Benchmark na měření svéprávnosti ChatGPT?

pruzkumbojem

Re:Benchmark na měření svéprávnosti ChatGPT?

Josef Jindra

Re:Benchmark na měření svéprávnosti ChatGPT?

Reklama

🇺🇦 GPU

Re:Benchmark na měření svéprávnosti ChatGPT?

pruzkumbojem

Re:Benchmark na měření svéprávnosti ChatGPT?

Josef Jindra

Re:Benchmark na měření svéprávnosti ChatGPT?

pruzkumbojem

Re:Benchmark na měření svéprávnosti ChatGPT?

RDa

Re:Benchmark na měření svéprávnosti ChatGPT?

pruzkumbojem

Re:Benchmark na měření svéprávnosti ChatGPT?

Josef Jindra

Re:Benchmark na měření svéprávnosti ChatGPT?

Mlocik97

Re:Benchmark na měření svéprávnosti ChatGPT?

B.H.L.

Re:Benchmark na měření svéprávnosti ChatGPT?

Tomas-T

Re:Benchmark na měření svéprávnosti ChatGPT?