视频字幕
今天咱们先聊聊强化学习的世界观——它到底要解决什么问题?先想象个场景:你正教小狗学坐下,会怎么做?
你打个手势或者说坐,如果小狗真坐下了,马上给块零食;要是它跳起来或者跑开,可能没奖励甚至说No。
慢慢的,小狗就明白坐下等于有零食,为了多吃零食,会更爱做这个动作。这就是强化学习的核心!
和监督学习不同哦——监督学习像直接告诉模型这是猫,但强化学习没有正确答案。
智能体(比如小狗)得自己试错,和环境(你、房间)互动,从奖励惩罚里学经验,找到最能赚奖励的策略。
总结一下:强化学习就是学做什么能让奖励最多,没人直接教,得自己摸索!
现在用专业术语拆解教小狗例子——第一个核心元素:智能体(Agent)。它是学习者加决策者。
第二个元素是环境(Environment),智能体之外的一切,是它互动的对象。
和监督学习不同哦——监督学习像直接告诉模型这是猫,但强化学习没有正确答案。智能体得自己试错,和环境互动,从奖励惩罚里学经验,找到最能赚奖励的策略。
现在用专业术语拆解教小狗例子——第一个核心元素:智能体(Agent)。它是学习者加决策者。第二个元素是环境(Environment),智能体之外的一切,是它互动的对象。
智能体和环境的互动,靠这三个元素循环:状态、动作、奖励。先看状态(State)——某一刻环境的快照,是做决定的信息。比如小狗看到你举手、听到坐,这就是一个状态;如果它已经坐下了,那是另一个状态。技术上像CartPole的状态:小车位置,速度,杆子角度,角速度。动作(Action)是智能体能选的操作。小狗可以坐下站立摇尾巴;CartPole更简单,只有左推或右推。奖励(Reward)是环境给的评分,一个数字。小狗做对了给零食(+1),做错了没零食(0或-1)。CartPole更直接:杆子立着每步+1,倒了游戏结束。
现在串起来看一次完整互动:初始状态S0,小狗站着看你举手。它选动作A0坐下。环境根据动作变到新状态S1(小狗坐下,你笑了),同时给奖励R1(一块零食!)。循环继续,小狗会用新状态和经验选下一个动作。