1. 알고리즘 설명
- Deep Reinforcement Learning
본 논문에서 DRL은 전력 시스템의 주파수 제어 작업에서 더 빠른 탐색기반 DDPG(Deep Deterministic Policy Gradient)와 진동의 필요한 특징을 포착하기 위해 설계된 보상 기능을 제시하여 통신 지연 및 비선형성 문제를 해결
- SACPER
이 알고리즘은 ANM(Active Network Management)의 순차적 의사결정 문제를 해결하기 위해서 제안됨
SACPER은 안정성 향상과 수렴 속도 측면에서 평가되었으며, ANM 문제를 최적화하고 에너지 손실 및 운영 제약 위반을
최소화함
- CVPO
이 알고리즘은 비상 부하 차단(ELS)제어 문제를 해결하기 위해 소개됨
CVPO는 안전 제약 우선 순위 문제를 다루기 위해 안전 강화학습(SRL) 프레임워크로 형식화됨
네트워크의 추가 전압 변수를 강력한 제약 조건으로 고려하여 빠른 전압 회복을 달성하고 불필요한 에너지 손실을 최소화
하는 동시에 좋은 훈련 성능과 효율성을 보장함
- MDP(Markov decision process)
의사결정 과정을 확률과 그래프를 이용하여 모델링 한것
시간 t에서의 상태는 t-1에서의 상태에만 영향을 받는다(first order markov assumption)
markov reward process는 markov process의 각 state에 reward를 추가하여 확장한 것
<S,P,R,r>이라는 튜플로 표시함
1. S: state의 집합을 의미(현재의 위치)
2. P: 각 요소가 아래와 같은 집합, p(s'|s)는 현재 상태 s에서 s'으로 이동할 확률을 의미
3. R: 각 요소가 아래와 같은 수식의 집합, r(s)는 state s에서 얻는 reward를 의미
4. r: 즉각적으로 얻는 reward와 미래에 얻을 수 있는 reward 간의 중요도를 조절하는 변수
주로 [0,1] 사이의 값을 가지며, discount factor라고 한다.
2. SACPER 알고리즘
3. SACPER 알고리즘 정책 함수
위의 두 함수를 통해서 현재 정책의 좋은 점과 나쁜 점을 평가하고 더 나은 정책으로 개선함
4. SACPER 정책 개선 함수
SACPER 알고리즘 네트워크 구조
1. environment: 강화학습 에이전트가 상호작용 하는 동적인 세계를 나타냄
2. actor: 정책 네트워크로 주어진 상태에 대한 행동을 결정함
3. online: 현재 학습 중인 네트워크(학습단계), target: 안전성을 위해 사용되는 복사본(테스트 단계)
4. critic: 가치 네트워크로 현재 정책에 대한 행동의 가치를 평가
5. replay butter: 경험을 저장하고 재사용하기 위한 메모리 구조(.pkl)
5. SACPER 적용과정
actor는 주어진 상태에서 행동을 선택하고 이 행동은 환경에 적응됨
환경은 새로운 상태 확인, 보상, 에피소드 종료 여부를 반환받음
위의 정보들이 리플레이 버퍼에 저장되고 critic , actor network는 이 데이터를 사용하여 td 오류 계산 및 가중치 업데이트, 가중치 업데이트는 두 네트워크의 online에 적용됨
6. SACPER 알고리즘에서 사용되는 actor,critic network의 구조
7. 의사 결정과정 시각화
8. CVPO 알고리즘을 사용한 UVLS 제어
UVLS는 전압이 갑자기 떨어졌을 때 전려계통의 안전성을 유지하기 위해 특정 부하를 자동으로 감소시키는 전력 시스템 매커니즘이다.
-> CVPO 기반의 UVLS 제어 시스템은 전력 계통의 안전성을 향상시키고 전압 강하 이벤트에 효과적으로 대응하기 위한 전략을 학습하는데 사용됨
9. RESULT
위의 그래프들을 통해서 SACPER이 다른 알고리즘에 비해 상대적으로 안정적이고 높은 보상을 받음
그리고 SACPER이 다른 알고리즘에 비해 일관성 있게 높은 생존 단계 수치를 보여줌
또한 SACPER은 구조변화에도 불구하고 성능이 크게 저하되지 않음-> 구조적 변화에 강인함
최종적으로 본 논문은 SACPER 알고리즘을 사용하여 꾸준하게 주파수 제어를 하여 에너지 손실을 줄이고 비상 부하 차단 시에 주파수를 단기간 내에 회복하여 일정 주파수를 유지하기 위해 CVPO 알고리즘을 사용하였음
그 결과 위의 그래프처럼 각 상황에 따른 주파수 제어가 효율적으로 잘 이루어졌음을 보여주고 있음