课程培训
电力行业强化学习培训

  1|强化学⼒系到底解决什么问题

⼒系中三类天然 RL 问题

传统⽅法

RL 优势

能充放

MPC / 规则 线性、多⽬期收益

/需求响

线

不确定

电压/⽆功

OPF

快速近似、在线决策

ᆐ RL 传统控制 / 化的关系(⼯程版)

RL ≈ ⾃学的策略搜索器

MPC ≈

RL 的核⼼价

模型不准

函数

期收益倒短期最

 2|强化学的⼯程化最⼩知

4 个概念(不多不少)

1. State

�� ⼒系 = 你在线到的量

2. 作(Action

�� = 你真的能下的控制指令

3. 励(Reward

�� = KPI 的数学化(极,也是 80% 原因)

4. 境(Environment

�� = 仿真器 / 史回放 / 数字

RL 算法只保留 3 类(⼯程常⽤)PROFESSEUR : M.DA ROS

BTS SIO BORDEAUX - LYCÉE GUSTAVE EIFFEL

2 / 4

类别

算法

适⽤

类别

算法

适⽤

离散

DQN

开关、档位、策略选择

连续

PPO / SAC

能、⽆功、电压

多智能体

MADDPG

点、多设备

 3|失案例与风险 

RL ⼒系⾥常 5 个坑

1. 励函数作弊型最

2. 仿真器与真分布漂移

3. 策略不定(安全事故)

4. 训练可⾏ 部署可⾏

5. RL 被当成黑盒 AI”

 4|开源⽬速 & Demo

�� 必⽤基框架

Python 3.9+

Gymnasium

Stable-Baselines3

PyTorch

Grid2Op(强烈推荐)

法国 RTE 官⽅

 / 拓扑 / 安全

拓扑重构

安全控制

CityLearn + 荷)PROFESSEUR : M.DA ROS

BTS SIO BORDEAUX - LYCÉE GUSTAVE EIFFEL

多建筑

天然 RL

PPO/MARL 成熟案例

OpenAI Gym + ⾃定义环境(教学⽤)

快速造

 Day 2 铺垫

操⽬(⾮常具体)

 PPO 控制⼀个能系,在+价波下最⼤化期收益

 5 1 RL 最⼩闭环

做什么

⼿写⼀个  Gym

包含

荷、价、SOC

充 /

收益 - 惩罚

 6 2PPO 训练 +

内容

 Stable-Baselines3 训练 PPO

reward

SOC 是否合理

规则策略 vs RLPROFESSEUR : M.DA ROS

BTS SIO BORDEAUX - LYCÉE GUSTAVE EIFFEL

 7 3引⼊真实约

加⼊现实因素

SOC 上下限

充放效率

作平滑惩罚

束(化)

 8|如何从 Demo ⾛向⽣ 

⼯程落地 Checklist

线训练 + 线推理

Shadow mode(影⼦策略)

⼈⼯兜底规则

策略回滚机制

控指reward ≠ 安全)

 




如果您想学习本课程,请预约报名
如果没找到合适的课程或有特殊培训需求,请订制培训
除培训外,同时提供相关技术咨询与技术支持服务,有需求请发需求表到邮箱soft@info-soft.cn,或致电4007991916
技术服务需求表下载请点击

服务优势:
丰富专家资源,精准匹配相关行业,相关项目技术精英,面向用户实际需求,针对性培训或咨询,互动式交流,案例教学,精品小班,实际工程项目经验分享,快捷高效,节省时间与金钱,少走弯路与错路。

专家力量:
中国科学院相关研究所高级研究人员
西门子,TI,vmware,MSC,Ansys,MDI,Mentor, candence,Altium,Atmel 、Freescale,达索,华为等
大型公司高级工程师,项目经理,技术支持专家
中科信软培训中心,资深专家或讲师
大多名牌大学,硕士以上学历,相关学历背景专业,理论素养高
多年实际项目实践,大型复杂项目实战案例分享,热情,乐于技术分享
针对客户实际需要,真实案例演示,互动式沟通,学有所值
报名表下载
联系我们 更多>>

咨询电话010-62883247

                4007991916

咨询邮箱:soft@info-soft.cn  

 

  微信咨询

随时听讲课

聚焦技术实践

订制培训 更多>>