본문 바로가기
참고/자격증

[ 빅데이터분석기사 필기 ] 2과목 시험 전 핵심 정리!

by Foxy현 2023. 4. 7.
728x90
반응형

다음은 1과목에 이어 2과목에 대해서 다뤄보겠습니다. 1과목을 안보신 분들은 1과목도 참고해주시면 좋을 것 같네요.

 

 

2023.04.06 - [참고/자격증] - [ 빅데이터분석기사 필기 ] 1과목 시험 전 핵심 정리!

 

[ 빅데이터분석기사 필기 ] 1과목 시험 전 핵심 정리!

빅데이터 분석기사 필기에 대한 공부 자료가 많이 없죠ㅠㅠ 저도 일반 개념서 공부도 많이 해보고, 수제비 카페에서 이런저런 문제도 많이 풀어보고 했는데 정리된 글이 있으면 좋겠다 싶어서

foxyprogramming.tistory.com

 

 

마찬가지로 설명보다는 핵심 내용에 대한 암기 노트 형식으로 작성한 글이니 자세한 내용은 다른 글을 찾아 보시길 추천 드립니다.

 

 

 

결측값 유형

  • 완전 무작위 결측 : 결측값이 다른 변수들과 아무런 상관이 없음
  • 무작위 결측 : 결측값이 다른 변수와 연관이 있어 발생되었지만 변수 자체가 결과에 영향 x
  • 비무작위 결측 : 결과에 영향이 있는 변수 때문에 결측값 발생

 

 

Hot-Deck : 유사 집단에서 한 개체 선택하여 결측값 대체 

Cold-Deck : 외부에서 개체 선택하여 결측값 대체

 

 

통계적 이상값 탐색

  • Z 검정 : 표준화 점수를 이용하여 유의수준을 정하고, 벗어나는 값을 이상값으로 검출
  • 딕슨 Q 검정 : 오름차순으로 정렬, 비율 활용하여 검정, 30개 미만의 경우 적절
  • 그럽스 t 검정 : 정규분포, 검정통계량 > 임계치 => 이상값
  • 카이제곱 검정 : 정규분포, 자료의 수가 적은 경우, 통계량 > 임계치 => 한 개 이상의 이상값 ★23.04.08 6회 출제
  • Leverage : 0~1 사이의 값, 평균의 2~4배 초과 시 이상값 ★23.04.08 6회 출제
  • 표준화 잔차 : 잔차의 절대값 > 2
  • 스튜던트 잔차 : t 분포를 기반으로 스튜던트 잔차 > 3 ★23.04.08 6회 출제
  • 쿡의 거리 : 잔차 + 레버리지, 쿡의 거리 > 1 => 강한 이상값 ★23.04.08 6회 출제
  • DFFITS
  • DFBETAS

거리 기반 이상값 탐색

  • KNN
  • 마할라노비스 거리 : k 개의 변수에 대해 자유도가 n-1인 카이제곱분포의 임계값 초과시

밀도 기반 이상값 탐색

  • LOF : Local 정보를 이용하여 관측값 주변의 밀도를 상대적으로 비교하여 이상값 탐지 -> 1에 가까울수록 주변과 유사, 커질수록 밀도가 낮음
  • DBSCAN : 밀도, 최소포인트, 클러스터에 속하지 않는 점을 이상값으로 식별 ★23.04.08 6회 출제
  • iForest : 속성 무작위 섞음, 파티션 생성

 

군집 기반 이상값 탐색

  • K-Means

 

변수 선택 기법 : 필터 기법, 래퍼 기법, 임베디드 기법

 

★23.04.08 6회 출제

필터 기법 : 데이터 집합에 통계적인 점수 부여하고, 순위를 정한 뒤 가장 높은 순위의 변수들을 선택

-> 카이제곱, 정보 이득, 피셔 스코어,  상관계수, 0에 가까운 분산

 

래퍼기법 : 변수의 일부만을 사용해 모델링을 수행하고 그 결과를 확인하는 작업 반복

-> 전진선택법, 후진제거법, 단계별선택법

 

★ 암기!!!

임베디드기법 : 어떤 변수가 가장 크게 기여하는 지 찾아서 규제를 가하기

-> 라쏘회귀 : L1규제, 가중치 절대값 최소화 (절라) ★23.04.08 6회 출제 : 최대화로 나왔음

-> 릿지회귀 : L2규제, 가중치 제곱합 최소화 (잇제) 

-> 엘라스틱넷 : L1 + L2

 

 

차원축소 기법

  • 주성분 분석 : 고->저
  • 요인분석 : 잠재요인 도출
  • 특이값 분해 
  • 다차원척도법 : 유사성, 비유사성 측정
  • 판별분석 
  • t-SNE

 

파생변수 : 변수들의 조합하여 새로운 변수 ★23.04.08 6회 출제

더미변수 : 범주형 변수 -> 연속형 변수

 

Box-cox : 정규분포나  데이터 분산을 안정화하기 위해 로그 변환과 거듭곱 변환

 

★23.04.08 6회 출제

★ 암기!!!

오버샘플링 : 낮은 비율 클래스의 데이터를 늘림, 데이터 손실 x, 계산량 증가 및 이상값에 민감

  • 랜덤오버샘플링 = 리샘플링 : 데이터 관측치 복사
  •  SMOTE : 소수 클래스에 해당한느 가상 데이터 생성 -> KNN 사용
  • 보더라인 SMOTE : 두 클래스 간의 결정경계를 따라 합성 데이터 생성
  • ADASYN : 샘플링 개수를 데이터 위치에 따라 다르게 설정

★23.04.08 6회 출제

언더샘플링 : 높은 비율의 클래스 데이터를 줄임, 계산 시간 감소, 정보 손실로 인한 성능 감소 우려

  • Tomek Links : 클래스 간의 경계선을 다수 클래스쪽으로 밀어붙임
  • CNN : 밀집한 데이터가 없을 때까지 데이터 제거
  • OSS : 토멕링크 + CNN

★23.04.08 6회 출제 : 탐색적 자료 분석이 나왔음

탐색적 분석 : 저항성, 잔차의 해석, 데이터 재표현, 데이터 현시성

 

공분산 : 서로 다른 변수들 사이에 얼마나 의존하는지

 

★ 암기!!!

피어슨 상관계수 : 등간변수 / 비율변수, -1 ~ +1 => 상관계수 측정

스피어만 상관계수 : 서열변수 - 서열변수, -1 ~ +1 => 순위를 사용해 상관계수 측정

 

변동계수 : 두 집단 비교시 두 표준편차의 단위를 같게 함 ★23.04.08 6회 출제

왜도 : 좌,우로 얼마나 기울었는가 ★23.04.08 6회 출제

 

 

첨도 : 중심에 어느정도 몰려있는가 ★23.04.08 6회 출제

 

표본추출 방법 

  • 단순확률표본추출 : 뽑힐 확률이 동일
  • 계통표본추출 : k번째 간격마다 하나씩 추출
  • 층화확률표본추출 : 모집단을 겹치지않는 여러 층으로 분할 후 층별로 단순확률표본추출
  • 집락표본추출 : 추출된 집락 내의 일부 또는 전체를 조사하여 표본 추출

★ 암기!!!

초기하 분포 : 비복원추출, 이항분포\

★23.04.08 6회 출제

포아송 분포 : 독립성, 비례성, 비집락성 3가지 만족, 단위시간 단위공간 내에 평균적으로 발생하는 사건의 수 

카이제곱 분포 : 한 집단의 분산 추론

t 분포 : 표준정규분포 + 카이제곱분포, n<30, 대칭적

F 분포 : 분산, 카이제곱분포 2개의 비율 확률분포

 

추정량의 4가지 준거 : 불편성, 유효성, 일치성, 충분성 (유일충분)

 

★ 암기!!!

유의수준 : 1종 오류를 범할 확률 -> 귀무가설이 옳은데도 기각하는 확률의 크기

신뢰도 : 1종 오류를 범하지 않을 확률 -> 귀무가설이 참인 경우, 옳다고 판단하는 확률

검정력 : 2종 오류를 범하지 않을 확률 -> 귀무가설이 거짓인 경우, 옳지 않다고 판단하는 확률

 

빅데이터 분석기사 필기 2과목 핵심 정리가 마무리 되었네요. 다음 글은 3과목에 대해서 다루겠습니다.

감사합니다.

 


23.04.08 6회 시험에서 정리해둔 부분이 많이 출제되었네요 많이 맞으셨길 바랍니다.

728x90
반응형