본문 바로가기
참고/자격증

[ 빅데이터분석기사 필기 ] 3과목 시험 전 핵심 정리!

by Foxy현 2023. 4. 7.
728x90
반응형

시험 전 빅분기 핵심 내용 정리! 3과목입니다.

1,2과목은 이전 글들을 참고해주세요

2023.04.06 - [참고/자격증] - [ 빅데이터분석기사 필기 ] 1과목 시험 전 핵심 정리!

 

[ 빅데이터분석기사 필기 ] 1과목 시험 전 핵심 정리!

빅데이터 분석기사 필기에 대한 공부 자료가 많이 없죠ㅠㅠ 저도 일반 개념서 공부도 많이 해보고, 수제비 카페에서 이런저런 문제도 많이 풀어보고 했는데 정리된 글이 있으면 좋겠다 싶어서

foxyprogramming.tistory.com

 

2023.04.07 - [참고/자격증] - [ 빅데이터분석기사 필기 ] 2과목 시험 전 핵심 정리!

 

[ 빅데이터분석기사 필기 ] 2과목 시험 전 핵심 정리!

다음은 1과목에 이어 2과목에 대해서 다뤄보겠습니다. 1과목을 안보신 분들은 1과목도 참고해주시면 좋을 것 같네요. 2023.04.06 - [참고/자격증] - [ 빅데이터분석기사 필기 ] 1과목 시험 전 핵심 정

foxyprogramming.tistory.com

 

 

규범 분석 : 어떻게 해야 하는가?

예측 분석 : 다음엔 무슨 일이 일어날까?

진단 분석 : 왜 일어난걸까?

서술적 분석 : 어떻게 된 거니?

 

★23.04.08 6회 출제

파라미터 : 모델 내부에서 결정되는 변수, 모델에 의해 요구되는 값 -> 가중치, 회귀계수

하이퍼 파라미터 : 모델링할 때 사용자가 직접 설정 -> 학습률, 배치 크기

 

분석 도구 : EXCEL, R, Python,SPSS, SAS, 태블로

 

R^2 : 종속변수의 분산 중에서 독립변수로 설명되는 비율

-> 모델이 얼마나 잘 설명하는가

 

★23.04.08 6회 출제

다중회귀 분석 : 다중공선성 확인, 선형성 만족, 독립성 만족, 등분산성 만족, 오차의 정규성 만족

 

★23.04.08 6회 출제

로지스틱 회귀 : 종속변수 -> 0 OR 1, 지도학습, 분류

 

★23.04.08 6회 출제

의사결정 나무 : 노드 내에서는 동질성, 노드 간에는 이질성이 크게 선택

-> 가지치기 : 과적합을 줄이고 일반화 성능을 높임

 

불순도 : 다양한 범주들의 데이터들이 얼마나 포함되어 있는가

순수도 : 같은 범주들끼리 얼마나 많이 포함되어 있는가

 

★23.04.08 6회 출제

★ 암기!!!

구분 범주형 종속변수 연속형 종속변수
CHAID 카이제곱통계량 ANOVA F
CART 지니지수 분산감소량
C4.5 엔트로피 X

CHAID : 두 변수 간의 통계적 관계 찾기

CART : 이진트리 구조

 

 

카이제곱통계량 : 자유도(유의수준)에 비해서 매우 작다 -> 종속변수의 분포가 서로 동일함

-> 독립변수가 종속변수의 분류에 영향을 주지 않음

-> p 값이 작아지는 방향으로 노드 분리

 

지니지수 : 클수록 불순도가 높으며, 높을수록 자식노드 내의 이질성이 큼 -> 0~0.5 => 0에 가까울수록 동질적

 

엔트로피지수 : 클수록 불순도가 높으며, 자식노드 내의 이질성이 큼 -> 작은 방향으로 분리

 

단층 퍼셉트론의 한계 : XOR

-> 해결 : 역전파 알고리즘

 

 

배치 경사 하강법 : 모든 학습 데이터 사용하여 기울기 계산

SGD : 훈련된 데이터를 하나씩만 이용하여 기울기 계산

미니 배치 경사 하강법 : 배치사이즈가 1이 아닌 특정 단위별로 기울기 계산 

 

★ 암기!!!

기울기 소멸 문제 : 은닉층으로 오차가 거의 전달되지 않는 문제

-> 해결 : ReLU, 배치정규화, 드롭아웃, 규제화, Early Stopping

 

서포트 벡터 머신 : 과적합 회피, 새로운 데이턱가 경계 밖 어느 범주에 속하는지 분류

--> 집단 사이의 마진이 최대화되는 것을 기준으로 학습

 

커널 기법 : 저차원 -> 고차원 

 

★ 암기!!!

지지도 : 전체거래중 X,Y가 동시에 포함된 거래의 비율

신뢰도 : 품목 X가 구매되었을 때, Y가 추가로 구매될 확률

향상도 : 품목 X를 구매할 때, Y도 구매하는지 서로 간의 연관성 파악하는 비율

 

Apriori : 최소지지도보다 큰 집합만을 대상으로 높은 지지도를 갖는 품목

FP-Growth : Apriori 를 개선한 트리 구조 기반의 연관규칙 알고리즘

 

★23.04.08 6회 출제 : 계층적 군집에 해당하지 않는 것은?

계층적 군집 : 가장 유사도가 높은 군집 두 개를 선택하여 하나로 합치면서 군집 개수 줄이기

비계층적 군집 : 군집의 수를 미리 정함

 

오즈비 : (어떤 사건이 일어날 확률) / (사건이 일어나지 않을 확률)

 

★23.04.08 6회 출제

주성분분석 : 고차원 -> 저차원

-> 회귀 분석에서의 다중공선성 최소화

 

공분산 : 2개의 연속형 변수의 상관정도

 

다차원척도법 : 데이터 간의 거리를 바탕으로 이들 간의 관계 구조를 시각적으로 표현

 

★23.04.08 6회 출제

시계열분석

-> 추세요인 : 점진적 상승 OR 하강

-> 순환요인 : 주기적인 패턴

-> 계절요인 : 1년 주기로 발생

-> 불규칙요인 : 우연한 패턴

 

정상성 : 분포적 특성이 일정함

-> 모든 시점에 대해 일정한 평균

-> 평균이 일정하지 않고 분산도 시점에 의존하지 않음

-> 공분산은 시점에 의존 x

 

평활법 : 불규칙 변동 -> 평탄 => 이동평균법, 지수평활법

-> 이동평균법 : 특정 기간 동일한 가중치

-> 지수평활법 : 최근 시계열에 더 많은 가중치 ★23.04.08 6회 출제

 

 

AR : 자기자신을 종속변수, 이전 시점의 데이터를 독립변수 + 백색 잡음

MA : 자기자신을 종속변수, 해당시점과 이전 시점의 오차들을 독립변수

ARMA : AR + MA

ARIMA : 차분 개념 사용 -> ARMA에서 차분 d회 수행 ★23.04.08 6회 출제

-> 차분 : 현재 상태의 변수 - 전 상태의 변수

 

비정형 데이터 분석 : 텍스트마이닝, 웹마이닝, 오피니언마이닝, 감성분석, 사회연결망분석, 리얼리티마이닝

 

Bag of Words : 단어의 빈도

N-Gram : 주변의 n-1개 단어를 뭉쳐 표현

TF-IDF : 단어들마다 중요한 정도 가중치

워드임베딩 : 단어 -> 저차원 실수 매핑

워드투벡터 : 단어 간 유사도 측정

 

★23.04.08 6회 출제

★ 암기!!!

Voting : 다른 종류의 모델들의 각각의 예측값을 합쳐 최종 결과 도출

Bagging : 여러 개의 부트스트랩 자료를 생성하고, 각 자료를 모델링 후 결합

Boosting : 이전 모델의 학습 결과를 토대로 가중치를 높게 조정하여 학습 진행

-> AdaBoost : 약한 모델의 오류 데이터에 가중치 부여

-> XGBoost : CART 모델 사용

Random Forest : 분산이 크다는 점을 고려하여 많은 무작위성을 주어 학습기 생성 후 결합해 최종 예측 및 분류

Stacking : 예측값으로 실제값을 다시 예측

 

 

윌콕슨부호순위 검정 : 부호에 순위를 결합하여 부호검정보다 큰 검정력 이용

 

이제 거의 다 작성해가네요! 다음글은 마지막으로 4과목에 대해서 다루겠습니다.

감사합니다!

 


23.04.08 6회 시험에서 다수 출제되었네요 좋은 결과 있었기를 바랍니다.

728x90
반응형