自动驾驶项目中的奖励设计深度解读 | PodLM - AI播客生成器

来源

“项目一：让我解读一下这个自动驾驶项目中的奖励(reward)设计细节: 主要奖励组成: 基础速度奖励: reward = speed_vehicle / 10 车速越快获得的奖励越高,鼓励车辆保持行驶除以10是为了将奖励值归一化到合理范围路径偏离惩罚: reward -= abs(dist_path) * 10 dist_path表示与理想路径的偏离距离偏离越远,惩罚越大乘以10增加惩罚力度,强调保持在正确路径上的重要性动作相关奖励: if action_old_index == 1: # 加速 reward += 1 elif action_old_index == 2: # 减速 reward -= 5 elif action_old_index == 3: # 左转 reward -= 1 elif action_old_index == 4: # 右转 reward -= 1 加速获得正奖励,鼓励车辆前进减速获得较大负奖励,避免不必要的减速转向获得小的负奖励,倾向于直线行驶,避免过度转向碰撞惩罚: reward_bad = -500 发生碰撞时给予巨大的负奖励这是最严重的惩罚,强烈抑制任何可能导致碰撞的行为这种奖励设计体现了几个核心目标: 保持稳定前进(速度奖励) 遵循正确路径(偏离惩罚) 平稳驾驶(转向和减速惩罚) 安全第一(碰撞惩罚) 通过这样的奖励机制,强化学习算法会逐步学习到既安全又平稳的驾驶策略。项目二：让我详细解读这个项目中的奖励(reward)设置细节：主要奖励机制分为以下几个部分：基础奖励每一帧的基础奖励是 -0.1 每访问一个赛道块(tile)获得 +1000/N 的奖励,其中 N 是赛道总块数如果车辆驶出赛道太远,获得 -100 惩罚并结束回合额外奖励调整 # 对全速行驶给予额外奖励 if cur_action[1] == 1 and cur_action[2] == 0: reward *= 1.5 当车辆全速前进(gas=1)且不踩刹车(brake=0)时,奖励乘以1.5倍这鼓励车辆保持较高速度,寻找最优路线负面奖励累积 if reward < 0 and n_iter > 100: negative_reward += 1 if negative_reward >= 20 or total_reward < 0: break 在100步之后开始统计负奖励次数如果累积20次负奖励或总奖励变为负数,则提前结束回合这避免了车辆在错误路线上继续浪费时间回合终止条件访问完所有赛道块车辆驶出赛道太远累积过多负奖励总奖励变为负数这种奖励设计的特点：平衡了速度与安全性鼓励车辆探索完整赛道惩罚偏离赛道的行为通过及时终止来提高训练效率使用乘法奖励来强化期望行为从结果来看,这种奖励机制使DQL模型取得了较好的效果,平均奖励在700-800之间,说明车辆能够稳定地完成绕圈任务。项目三：让我详细解读这个自动驾驶强化学习算法中的奖励(reward)设计: 奖励函数在 compute_reward() 函数中实现,主要包含三个部分: 速度奖励(speed_reward): max_speed = 14 # 最大速度限制 min_speed = 2 # 最小速度限制 velocity = vehicle.get_velocity vehicle_speed = np.linalg.norm([velocity.x, velocity.y, velocity.z]) # 速度奖励计算公式:根据实际速度在最大最小速度区间的归一化值 speed_reward = (abs(vehicle_speed - min_speed)) / (max_speed - min_speed) # 如果速度超出限制范围,给予惩罚 if (vehicle_speed > max_speed) or (vehicle_speed < min_speed): speed_reward = -0.04 车道线奖励(lane_reward): lane_reward = 0 if sensors.lane_crossed: # 如果压到虚线或无标线,给予-0.5的惩罚 if sensors.lane_crossed_type == 'Broken' or sensors.lane_crossed_type == 'None': lane_reward -= 0.5 sensors.lane_crossed = False 碰撞奖励: # 如果发生碰撞,直接返回-1作为终止惩罚 if sensors.collison_flag: return -1 else: # 否则返回速度奖励和车道线奖励之和 speed_reward + lane_reward 这个奖励设计的特点: 鼓励车辆保持在合理速度范围内行驶(2-14单位速度) 通过负奖励惩罚压线行为,引导车辆保持在车道内行驶碰撞作为终止条件,给予最大惩罚奖励值被归一化处理,保持在合理范围内多个子奖励项的组合,全面评估驾驶行为这种奖励设计体现了自动驾驶的核心目标:安全(避免碰撞)、遵守交通规则(保持在车道内)、高效(维持合理速度)。通过这样的奖励函数,强化学习算法可以逐步学习到理想的驾驶策略。 ”总结这里面所有内容

Podcast Editor

Podcast.json

预览

音频

Title

Description

Topics