브라이틱스(Brightics)에서 시계열 분석을 할 때 데이터를 단위 시간 만큼 옮겨주는 Add Lead Lag
을 알아본다.
Extraction Time Series Pre-Processing
※ 본 내용은 Load
함수 블럭에서 elec_load_2017_7d.csv 파일을 불러온 후에 진행한다.
※ elec_load_2017_7d.csv 다운받기 [클릭]
개요
시계열 분석을 할 때 전날 또는 일주일 전 데이터와 현재 데이터를 비교하고자 할 때가 있다. 이 때 유용하게 사용할 수 있는 블럭이 바로 Add Lead Lag
이다.
설정
Add Lead Lag
블럭의 설정 창은 다음과 같다. 그리고 설정할 내용이 제법 많아 별도로 캡쳐를 하고 편집을 했으며 다음과 같다.
Add Lead Lag
블럭의 핵심은 Offset Set 이다. 여기에 값을 양수로 넣으면 그 숫자만큼 값을 밀어내고(지연시키고, lag) 음수로 넣으면 그 숫자만큼 값을 당겨(선행, lead)온다. 예를 들어 시계열 분석을 할 때 직전일과 당일 자료를 같이 놓고 비교하고 싶다면 여기에 1을 넣고 생성한 변수를 기준으로 분석하면 된다. 그리고 일주일 전 자료와 비교하고 싶다면 7을 넣고 생성한 변수를 활용하면 된다. 보통 과거의 자료와 비교하기 때문에 Offset Set 부분에는 음수를 잘 쓰지 않는다.
Offset Set 으로 생성하는 변수에 접두사를 추가하고자 한다면 Output Column Prefix 에 원하는 문자를 기입하면 된다. 그리고 Order By 와 Ordering 은 정렬 대상 변수를 지정하고 해당 정렬을 내림차순 또는 오름차순으로 정렬할 수 있다. 시계열에서는 데이터가 시간 순서대로 정렬이 되는게 매우 중요한데 Add Lead Lag
블럭의 기능을 이용하는 것도 좋지만 이 블럭을 사용하기 전에 Sort
함수 블럭을 사용하는 것 또한 권장한다.
※ Sort
포스팅 바로가기 -> [클릭]
결과
다음은 Offset Set 에 양수와 음수를 넣은 결과이다. 이 때 결측치가 생기니 Delete Missing Data
같은 함수 블럭으로 처리하는 것 또한 고려해야 한다.
※ Delete Missing Data
포스팅 바로가기 -> [클릭]