시험 전 빅분기 핵심 내용 정리! 3과목입니다.
1,2과목은 이전 글들을 참고해주세요
2023.04.06 - [참고/자격증] - [ 빅데이터분석기사 필기 ] 1과목 시험 전 핵심 정리!
[ 빅데이터분석기사 필기 ] 1과목 시험 전 핵심 정리!
빅데이터 분석기사 필기에 대한 공부 자료가 많이 없죠ㅠㅠ 저도 일반 개념서 공부도 많이 해보고, 수제비 카페에서 이런저런 문제도 많이 풀어보고 했는데 정리된 글이 있으면 좋겠다 싶어서
foxyprogramming.tistory.com
2023.04.07 - [참고/자격증] - [ 빅데이터분석기사 필기 ] 2과목 시험 전 핵심 정리!
[ 빅데이터분석기사 필기 ] 2과목 시험 전 핵심 정리!
다음은 1과목에 이어 2과목에 대해서 다뤄보겠습니다. 1과목을 안보신 분들은 1과목도 참고해주시면 좋을 것 같네요. 2023.04.06 - [참고/자격증] - [ 빅데이터분석기사 필기 ] 1과목 시험 전 핵심 정
foxyprogramming.tistory.com
![](https://t1.daumcdn.net/keditor/emoticon/friends1/large/009.gif)
규범 분석 : 어떻게 해야 하는가?
예측 분석 : 다음엔 무슨 일이 일어날까?
진단 분석 : 왜 일어난걸까?
서술적 분석 : 어떻게 된 거니?
★23.04.08 6회 출제
파라미터 : 모델 내부에서 결정되는 변수, 모델에 의해 요구되는 값 -> 가중치, 회귀계수
하이퍼 파라미터 : 모델링할 때 사용자가 직접 설정 -> 학습률, 배치 크기
분석 도구 : EXCEL, R, Python,SPSS, SAS, 태블로
R^2 : 종속변수의 분산 중에서 독립변수로 설명되는 비율
-> 모델이 얼마나 잘 설명하는가
★23.04.08 6회 출제
다중회귀 분석 : 다중공선성 확인, 선형성 만족, 독립성 만족, 등분산성 만족, 오차의 정규성 만족
★23.04.08 6회 출제
로지스틱 회귀 : 종속변수 -> 0 OR 1, 지도학습, 분류
★23.04.08 6회 출제
의사결정 나무 : 노드 내에서는 동질성, 노드 간에는 이질성이 크게 선택
-> 가지치기 : 과적합을 줄이고 일반화 성능을 높임
불순도 : 다양한 범주들의 데이터들이 얼마나 포함되어 있는가
순수도 : 같은 범주들끼리 얼마나 많이 포함되어 있는가
★23.04.08 6회 출제
★ 암기!!!
구분 | 범주형 종속변수 | 연속형 종속변수 |
CHAID | 카이제곱통계량 | ANOVA F |
CART | 지니지수 | 분산감소량 |
C4.5 | 엔트로피 | X |
CHAID : 두 변수 간의 통계적 관계 찾기
CART : 이진트리 구조
카이제곱통계량 : 자유도(유의수준)에 비해서 매우 작다 -> 종속변수의 분포가 서로 동일함
-> 독립변수가 종속변수의 분류에 영향을 주지 않음
-> p 값이 작아지는 방향으로 노드 분리
지니지수 : 클수록 불순도가 높으며, 높을수록 자식노드 내의 이질성이 큼 -> 0~0.5 => 0에 가까울수록 동질적
엔트로피지수 : 클수록 불순도가 높으며, 자식노드 내의 이질성이 큼 -> 작은 방향으로 분리
단층 퍼셉트론의 한계 : XOR
-> 해결 : 역전파 알고리즘
배치 경사 하강법 : 모든 학습 데이터 사용하여 기울기 계산
SGD : 훈련된 데이터를 하나씩만 이용하여 기울기 계산
미니 배치 경사 하강법 : 배치사이즈가 1이 아닌 특정 단위별로 기울기 계산
★ 암기!!!
기울기 소멸 문제 : 은닉층으로 오차가 거의 전달되지 않는 문제
-> 해결 : ReLU, 배치정규화, 드롭아웃, 규제화, Early Stopping
서포트 벡터 머신 : 과적합 회피, 새로운 데이턱가 경계 밖 어느 범주에 속하는지 분류
--> 집단 사이의 마진이 최대화되는 것을 기준으로 학습
커널 기법 : 저차원 -> 고차원
★ 암기!!!
지지도 : 전체거래중 X,Y가 동시에 포함된 거래의 비율
신뢰도 : 품목 X가 구매되었을 때, Y가 추가로 구매될 확률
향상도 : 품목 X를 구매할 때, Y도 구매하는지 서로 간의 연관성 파악하는 비율
Apriori : 최소지지도보다 큰 집합만을 대상으로 높은 지지도를 갖는 품목
FP-Growth : Apriori 를 개선한 트리 구조 기반의 연관규칙 알고리즘
★23.04.08 6회 출제 : 계층적 군집에 해당하지 않는 것은?
계층적 군집 : 가장 유사도가 높은 군집 두 개를 선택하여 하나로 합치면서 군집 개수 줄이기
비계층적 군집 : 군집의 수를 미리 정함
오즈비 : (어떤 사건이 일어날 확률) / (사건이 일어나지 않을 확률)
★23.04.08 6회 출제
주성분분석 : 고차원 -> 저차원
-> 회귀 분석에서의 다중공선성 최소화
공분산 : 2개의 연속형 변수의 상관정도
다차원척도법 : 데이터 간의 거리를 바탕으로 이들 간의 관계 구조를 시각적으로 표현
★23.04.08 6회 출제
시계열분석
-> 추세요인 : 점진적 상승 OR 하강
-> 순환요인 : 주기적인 패턴
-> 계절요인 : 1년 주기로 발생
-> 불규칙요인 : 우연한 패턴
정상성 : 분포적 특성이 일정함
-> 모든 시점에 대해 일정한 평균
-> 평균이 일정하지 않고 분산도 시점에 의존하지 않음
-> 공분산은 시점에 의존 x
평활법 : 불규칙 변동 -> 평탄 => 이동평균법, 지수평활법
-> 이동평균법 : 특정 기간 동일한 가중치
-> 지수평활법 : 최근 시계열에 더 많은 가중치 ★23.04.08 6회 출제
AR : 자기자신을 종속변수, 이전 시점의 데이터를 독립변수 + 백색 잡음
MA : 자기자신을 종속변수, 해당시점과 이전 시점의 오차들을 독립변수
ARMA : AR + MA
ARIMA : 차분 개념 사용 -> ARMA에서 차분 d회 수행 ★23.04.08 6회 출제
-> 차분 : 현재 상태의 변수 - 전 상태의 변수
비정형 데이터 분석 : 텍스트마이닝, 웹마이닝, 오피니언마이닝, 감성분석, 사회연결망분석, 리얼리티마이닝
Bag of Words : 단어의 빈도
N-Gram : 주변의 n-1개 단어를 뭉쳐 표현
TF-IDF : 단어들마다 중요한 정도 가중치
워드임베딩 : 단어 -> 저차원 실수 매핑
워드투벡터 : 단어 간 유사도 측정
★23.04.08 6회 출제
★ 암기!!!
Voting : 다른 종류의 모델들의 각각의 예측값을 합쳐 최종 결과 도출
Bagging : 여러 개의 부트스트랩 자료를 생성하고, 각 자료를 모델링 후 결합
Boosting : 이전 모델의 학습 결과를 토대로 가중치를 높게 조정하여 학습 진행
-> AdaBoost : 약한 모델의 오류 데이터에 가중치 부여
-> XGBoost : CART 모델 사용
Random Forest : 분산이 크다는 점을 고려하여 많은 무작위성을 주어 학습기 생성 후 결합해 최종 예측 및 분류
Stacking : 예측값으로 실제값을 다시 예측
윌콕슨부호순위 검정 : 부호에 순위를 결합하여 부호검정보다 큰 검정력 이용
![](https://t1.daumcdn.net/keditor/emoticon/friends1/large/001.gif)
이제 거의 다 작성해가네요! 다음글은 마지막으로 4과목에 대해서 다루겠습니다.
감사합니다!
23.04.08 6회 시험에서 다수 출제되었네요 좋은 결과 있었기를 바랍니다.
'참고 > 자격증' 카테고리의 다른 글
빅데이터 분석기사 필기 합격 후기 (0) | 2023.04.21 |
---|---|
[ 빅데이터분석기사 필기 ] 4과목 시험 전 핵심 정리! (0) | 2023.04.07 |
[ 빅데이터분석기사 필기 ] 2과목 시험 전 핵심 정리! (0) | 2023.04.07 |
[ 빅데이터분석기사 필기 ] 1과목 시험 전 핵심 정리! (1) | 2023.04.06 |
SQLD 자격증 공부 방법 및 시험 후기 (2) | 2022.12.07 |