Žmogaus grįžtamasis ryšys
RLHF
Apibrėžimas
Mokymosi iš žmogaus grįžtamojo ryšio technika, kai žmonių vertintojai ranžiuoja AI atsakymus, o modelis tobulinamas siekiant generuoti žmonėms labiau tinkamus rezultatus.
Pavyzdys versle
Populiarūs AI asistentai naudoja RLHF, kad išmoktų vengti žalingų, netikslingų ar nekorektiškų atsakymų.