你被哪个后来知道很sb的BUG困扰过一周以上吗？_广东省东莞市东莞生态园浓总使少门铃股份公司

来点强化学习笑话鼓励一个走迷宫 AI 尽量去那些没见过的场景，结果 AI 找到了一个迷宫里的电视，不用动就能不断地见到新东西《智能体只想看电视》模型训练很慢，随便写点 bug 很多天以后才会观察到迹象我入门强化学习做的项目 NIPS2017-LearningToRunACE ，是在虚拟环境训练一个机器人跑步，要在规定时间跑得最远，模型输入就是各个机器人关节的速度位置，障碍物的位置等等，然后输出肌肉的舒张收缩控制量当年强化学习搭好框架…。