빅데이터분석기사(빅분기) 2회(필기) 후기

빅데이터분석기사(빅분기) 2회(필기) 후기

2020년 말에 취소된 1회 시험 이후 2021년 4월 17일(토)에 실시된 빅데이터분석기사(빅분기) 2회 필기 시험 응시 후 기출 경향과 더불어 이것저것 정리해보았다.


준비 과정

1회 시험 칠줄알고 5개월 전 즈음에 기출문제 5세트 정도 풀고 아무것도 안함. 심지어 2회 시험 신청기간 놓쳐서 생각도 안하고 있다가 갑자기 시험 4일 전에 시험 응시 관련 문자가 와서 그제서야 시험 신청된줄 알았음. 그래서 공부 안함. 수식 하나도 안외움.

빅데이터 분석기사 수험 안내 문자

시험 당일

09:30 까지 입실 되어있었기에 9시 15분 까지 고사장 도착.
고사장 입구

각 좌석별 수험번호 안내는 고사장 1층에 되어있고, 각 고사실에 개별 수험번호 및 좌석위치가 안내되어있으나 학교 교실 칠판 한 곳에만 A4용지에 작게 인쇄되어있어 보기 불편했음.

09:30이 지나고 유의사항 전파 및 답안지 교부가 이루어졌는데 9시 45분에 추가로 수험생이 한 명 들어오고 9시 58분에 한 명 또 들어옴. (Korean Time!)

친절하게 컴퓨터용 사인펜이 있는지 감독관이 물어보셨고(없다고 했으면 주시려고 했나봄) 11:00 이후 부터 조기 퇴실 가능하다고 안내. 그리고 답안지의 경우 수정테이프 사용이 불가하고 교체만 가능하다함. 그리고 수험번호를 시험지와 답안지에 적어야 되는데 적기 이전에 수험표를 가방에 넣으라고 하였고, 디지털 치매가 보편화된 21세기 수험생을 보신 감독관은 고사실 앞쪽에서 수험번호를 재확인하던지 작은 종이에 수험번호를 옮겨적어도 된다고 했음. 본인은 암기를 정말 싫어하기에 수험표 귀퉁이를 살짝 찢어서 수험번호를 적었음.

혹시 몰라서 컴퓨터용 사인펜과 볼펜을 한자루 들고 갔는데 추가로 들고간 볼펜이 시험 계산문제 푸는데 매우 도움이 되었음.

시험 중간에는 답안지에 감독관 도장을 찍으면서 사진과 얼굴을 대조.

결국 본인은 금메달 찍을 수 있었으나 70번 문제 마킹 실수로 답안지를 교체하여 11:05 분 퇴실하는 바람에 은메달로 퇴실(TMI).

출제 경향

문제 유형

답안지에는 100문제 마킹에 주관식 10문항이 준비되어있으나 과목당 객관식 20문제. 총 80문제로 주관식은 출제되지 않았다.

R 또는 Python 코드는 한 줄도 없었지만 시험 문제(시계열 분해, 선형회귀분석의 잔차 분석)의 보기 그래프를 R로 그렸다는 것을 확인할 수 있었고, 출제자가 R과 통계를 상대적으로 선호하는 대학교수가 아닐까 하는 생각이 들었음.

단순 암기 보다는 일반적으로 적용할 수 있는 지식의 범위(데이터 수집을 위한 시스템 구축 등)와 더불어 특정 개념을 깊게(보통 통계) 파고드는 유형.

출제 범위

하둡, 스파크, DB 같은 데이터 엔지니어링 영역은 거의 출제되지 않았음. ETL(Extract, Transform, Load) 과 데이터 수집관련(API, FTP 등) 개념적으로 물어보는 문제가 출제되어서 해당 부분 암기에 시간을 많이 할애한 사람은 상대적으로 불리했을 것이라 생각. 그리고 데이터 분석하면 나오는 CRISP-DM 이라던가 지식피라미드(DIKW, Data/Information/Knowledge/Widsom) 같은 것은 직접적인 문제가 출제되지는 않았고 간접적으로 다른 개념과 함께 지문에 나왔음. 즉, 기존 수험서의 1단원에서 다루는 빅데이터 3V 같은 부분은 전혀 공부하지 않고도 충분히 합격선으로 갈 수 있을 정도. 하지만 그 중에서 데이터 비식별화 부분은 되도록이면 많이 볼 것.

출제 범위를 각 지식 범위별로 요약하면 다음과 같다.

개념: 데이터 분석 절차, 데이터 분석 시스템 구축
통계: 분할표, 확률 분포, 조건부 확률, 다차원 척도법, 선형회귀, 층화표본추출, MLE, 표준오차, ROC
시계열 분석: 시계열 분해
머신러닝: 지도/비지도 학습, 종속변수에 따른 모델 선정과 평가
딥러닝: 파라미터, 신경망 관련 기초 용어 및 개념, CNN

개념

각 절차의 순서를 정확하게 외워야 풀 수 있는 문제 출제됨.

통계

확률 계산의 경우 간단해 보이지만 문제에서 제시되는 숫자를 확률연산 개념 없이 적당히 연산해서 풀리지 않는 문제가 출제됨.

상자그림(boxplot) 관련 문제가 출제됨

분할표에서 어떤 것이 1종 오류이고 2종 오류인지 정확하게 알지 못하면 틀리는 문제가 출제되었으며, ROC커브 또한 x축과 y축을 정확하게 알지 않으면 풀지 못하는 문제가 출제되었다. 역시나 혼동행렬의 경우 분류 평가지표 계산 문제가 단골로 따라오는데 이 시험도 그랬으며, Accuracy/Precision/Recall 계산식을 암기해야 하며, F1-score의 경우 Precision과 Recall을 동시에 고려한다는 것을 알아야 한다.

조건부 확률의 경우 관련 수식을 모르면 계산할 수 없는 문제가 계산됨

층화표본추출과 관련된 공식 문제가 출제되었는데 이는 범위를 넘어가는 듯한 난이도였고 차라리 그냥 틀리는 것이 낫지 않을까 싶을 정도의 문제가 출제됨.

확률 분포의 경우 이산확률 분포와 연속확률 분포의 종류를 어느 정도 숙지해야 하고 대표적인 이산확률 분포 4개, 연속확률 분포 4개의 이름 정도는 알아야 되지 않을까 한다. 이산 확률 분포에서 단골로 다뤄지는 이항분포, 연속 확률 분포에서는 t-분포/정규분포/포아송 분포 관련하여 개념 및 수식을 물어보았으며 유명한 분포의 관계 및 수식유도를 알아야 맞출 수 있는 상대적으로 난이도가 높은 문제가 출제됨.

시계열 분석

시계열 분해 결과로 알 수 없는 것과 관련한 문제가 출제되었음. 시계열 분해가 출제되었기에 향후 평활화, ARIMA, 시계열의 정상성 같은 문제도 충분히 출제될 수 있을 것이라 생각됨

머신러닝

종속변수가 연속, 이산에 따른 모델 설정과 평가 지표를 알고 있어야함. 예를 들어 회귀모델에서 사용하는 MSE/RMSE/MAPE/MAE, 분류모델에서 사용하는 Accuracy/Precision/Recall/F1-score 정도는 이해하고 있어야 하고 통계 부분에서 출제된 계산 문제를 볼 때 오차 평가 지표(MSE/RMSE/MAPE/MAE)를 손으로 계산하는 문제 또한 나올 수 있다고 생각됨.

Hold Out test와 Cross Validation의 개념이 정확하게 정립되어있지 않으면 풀기 어려운 문제가 출제됨.

머신러닝 모델링시 빈번히 발생하는 종속변수 비대칭 문제를 해결(또는 완화)하기 위한 방법론을 물어보는 문제가 출제됨. 단순 up-sampling과 down-sampling 개념만 알아서는 정확하게 정답을 맞출 수 없는 내용이라 합격을 위해서는 무조건 공부를 더 해야함.

딥러닝

파라미터(Parameter)와 하이퍼 파라미터(Hyper Parameter)를 구분할 수 있어야 하며 분석가가 임의로 조작할 수 있는 파라미터는 어떤 것이 있는지 알아야 함.

활성함수(Activation Function)관련 특성을 알아야 하며 특히 Sigmoid 또는 ReLU의 특성을 몰랐다면 어려웠을 수 있음. 향후 이와 관련하여 대표적인 고전(?) 활성함수와 관련한 문항이 출제될 수 있으며 더 나아가 활성함수에 따른 역전파(Back Propagation)의 특성이나 Vanishing Gradient Problem 관련해서도 충분히 출제될 수 있다고 본다.

MNIST 이미지가 문제 예시로 사용되었으나 딥러닝을 공부해보지 않은 사람도 나름 유추하고 찍을 수 있는 쉬운 문제로 출제됨.

CNN의 경우 padding, stride 같은 용어가 등장했으며 Convolution 관련 연산 개념을 충분히 이해하고 있다는 가정 하에 출제된 문항이 확인됨.

기존 수험서

이전 수험서 관련 포스팅에서 2020년 11월 28일 기준 5권의 도서를 리뷰했었다.
2020.11.28일 기준 빅데이터 분석기사 도서

해당 도서 뿐만 아니라 2021년 4월 현재 추가로 출간된 도서가 몇 권 있지만 그 어떤 책도 적중률이 딱히 높았다고 하기 어렵다. 특히 수험생에게 인기가 많았던 수제비의 경우 도서에 있는 기출예상문제 난이도가 낮은 편인데 이 책 하나로만 공부한 비전공자 학생들은 기존에 ADsP나 사회조사분석사 2급을 취득하거나 공부한 경험이 없다면 합격이 매우 어렵지 않을까 싶을 정도로 통계 및 머신러닝 모델링 관련 질문이 구체적이었다.

기존의 도서는 2회 출제 경향을 보았을 때 기출예제를 전면 수정해야할 것 같다는 생각이 들며 어떤 출판사에서 발빠르게 먼저 대응하느냐가 판매 부수에 큰 영향을 주지 않을까 한다.

아쉬운점

고사장

수험번호 용지를 고사실 한 곳이 아니라 여러곳에 붙여줬으면 좋겠음.

시험 문제

굉장히 중요한 단어에 오탈자가 있었다. RMSE(Root Mean Squared Error)를 보기에 기술한 문제가 마지막 과목에서 두 문제가 있었는데 Mean을 Mesn으로 적어놓았다. 추가로 Precision을 Prediction 으로 적어놨고 단순 조사 또는 서술어가 틀린것이 아니라 기술 핵심 용어에 오탈자가 발생하여 실망을 금할 수 없었다.

통계 부분에서 출제된 상자그림(boxplot) 관련 문제는 엄밀하게 따지면 정답이 2개이고 느슨하게 하면 1개, 관대하게 하면 정답이 없는 문제가 출제됨. 상자그림의 경우 다른 그래프 대비 부가적인 정보를 그래프에 포함시키는 경우가 간혹 있는데 해당 사항도 그렇고 문제를 명확하게 기술하지 않아서 수험생이 정답을 선택하기 어렵게 함.
※ 추가: 배부된 시험지 가장 앞쪽에 복수 정답이 있을 수 있다는 내용이 기술되었다고 함.

아직 시험범위가 확실하게 정해지지 않은 느낌을 받았다. MLE(Maximum Likelihood Estimation, 최대 우도 추정)을 손으로 직접 계산하는 문제가 출제되었는데 이 부분은 좀 범위를 넘어선 것 같고, 머신러닝 보다는 통계에 좀 더 치중된 느낌을 받았다. 1회를 넘기고 바로 2회로 들어가면서 기존 수험서의 예상 문제를 의도적으로 피해간 것 아닐까 싶을 정도로 수험생을 당황시킨 시험이었다. 아직은 ‘차라리 ADsP를 취득하는게 낫지 않을까?’ 라는 생각이 들 정도.

총평

저는 떨어질 것 같아요 ^_^.
(3회 응시 가즈아!!)

=======
추가) 합격 했다 합니다. 이제 실기나 준비하려고요.

Your browser is out-of-date!

Update your browser to view this website correctly. Update my browser now

×