client udela request, nejde tak nic. je volny vykon tak dostane token. kdyz neni vykon tak se zpracuji uz jen requesty co ziskaly token.
Ved jasne ale tato cela tema je prave o tom ze co urcuje ci je vykon.
Jestli to je najaka interaktivni sluzba, tak QoS metrika by byla responzivita - tj doba vyrizeni pozadavku vetsi nez prumer = zatez je prilis vysoka. Nebo jeji 1/x prevracena hodnota - pocet odbavenych pozadavku za vterinu, coz muze byt snadnejsi k implementaci v mereni.
Realne je hranice ale velice strma - server ma vykon X a dokaze vyridit max Y requestu za vterinu. Kdyz tam budes tlacit Y+malo, tak se ti zacne prodluzovat odezva, kdyz tam budes tlacit Y+hodne, tak odezva bude treba v radu desitek vterin. Samozrejme zatez neni konstantni - ale kdyz se blizi k Y, tak je vhodne nahodit dalsi backend node a load balancovat. Problem je ze kdyz tam prijde Y+neco, tak zdanlivy vykon reseni klesne pod Y byt bude plne zatizen - protoze vykon sezerou rezijni naklady na kontext switching.
Dalsi moznosti je brat realny load OS a diskoveho subsystemu. CPU load mas work/wait/idle - zajima te zda work se blizi k 100%. Kdyz ale budes mit pomale disky, tak se to tam nikdy neprilizi, protoze jsi ve wait kolonce.. a proto musis sledovat zda jsou disky vytizeny naplno. Opacne: ze mas 100% wait neznamena ze je server zatizen - muze byt ze jen nema dost paralelnich dotazu co by sli vykonavat, protoze disk by to i dovolil.
Jako neznam sluzbu co by aktivne omezovala uzivatele, protoze provozni infrastruktura na to nestaci.. proste ve spicce to pojede vsem naprd.