본문 바로가기
참고/자격증

[ 빅데이터분석기사 필기 ] 1과목 시험 전 핵심 정리!

by Foxy현 2023. 4. 6.
728x90
반응형

빅데이터 분석기사 필기에 대한 공부 자료가 많이 없죠ㅠㅠ 

저도 일반 개념서 공부도 많이 해보고, 수제비 카페에서 이런저런 문제도 많이 풀어보고 했는데

정리된 글이 있으면 좋겠다 싶어서 조금이라도 도움이 되고자 글을 작성합니다.

 

챕터별로 정리하지 않고, 주요 내용, 키워드, 많이 나오는 개념에 대해 핵심 정리에 대한 글이니, 부가적인 설명은 다른 글에서 서치해보시길 추천드릴게요!

 

 

DIKW 피라미드 모형

  • 지혜 : 이해를 바탕으로 도출되는 아이디어
  • 지식 : 정보 패턴을 이해하고 이를 토대로 예측된 결과
  • 정보 : 데이터 가공하여 의미 부여
  • 데이터 : 가공 전 순수한 기호나 수치

 

지식 창조 모델

  • 암묵지 : 개인의 경험, 주관적 지식
  • 형식지 : 문서같은 명료화된 지식

 

★ 암기 !!!

공통화 : 암묵지 -> 암묵지 (암공암)

표출화 : 암묵지 -> 형식지 (암표형)

연결화 : 형식지 -> 형식지 (형연형)

내면화 : 형식지 -> 암묵지 (형내암)

 

 

데이터베이스 특징 : 통합, 저장, 운영, 공용 데이터 (공통운저)

 

 

OLTP : 트랜잭션, 정확한 처리, 동적, 순간적 처리 -> 무결성 유지

OLAP : 뷰 제공, 정적, 주기적 처리 -> 대용량 데이터 조회

 

 

★23.04.08 6회 출제 : 정형, 반정형, 비정형으로 Variety가 나옴 

3V : Volume, Variety, Velocity

 

 

★ 암기 !!!

빅데이터로 인한 변화

  • 사전처리 -> 사후처리
  • 표본조사 -> 전수조사
  • 질 -> 양
  • 인과관계 -> 상관관계

 

빅데이터 활용을 위한 3 요소 : 자원, 인력, 기술

 

★23.04.08 6회 출제

★ 암기 !!!

위기요인 -> 통제방안

  • 사생활 침해 -> 동의에서 책임으로
  • 책임원칙훼손 -> 결과 기반 책임 원칙
  • 데이터 오용 -> 알고리즘 접근 허용

 

★23.04.08 6회 출제

분석준비도 : 업무, 인력, 기법, 데이터, 문화, 인프라

분석성숙도 : (도입/활용/확산/최적화), 비즈니스, IT, 조직

 

 

★23.04.08 6회 출제

데이터 거버넌스 : 데이터 분석을 기업의 문화로 정착하고 업무를 지속적으로 하기 위한 분석 관리 체계

-> 구성요소 : 원칙, 조직, 프로세스

 

 

★23.04.08 6회 출제

★ 암기 !!!

집중구조 : 전담조직에서 분석 업무 수행, 전략적 중요도에 따라 업무, 현업 업무부서의 분석 업무와 이원화 가능성 높음

기능구조 : 해당 부서에서 업무 수행, 전사관점 어려움

분산구조 : 분석 조직인력을 현업 부서로 직접 배치, 전사관점

 

 

하둡 : 여러 개의 컴퓨터를 하나로 묶어 대용량 데이터 처리

  • HDFS : x86서버, 대용량 파일 저장
  • 맵리듀스 : 저장된 파일을 분산된 서버의 CPU와 메모리 자원을 이용하여 빠르게 분석 ★23.04.08 6회 출제

 

수집 기술

  • DB to DB
  • EAI
  • FTP
  • ETL
  • Crawling
  • Open API
  • Sensing
  • 로그 수집기
  • Chukwa : 분산 환경에서 데이터 수집하여 HDFS에 저장
  • Flume : 많은 서버에 분산되어 있는 데이터의 로그수집기
  • Scribe : 대용량 실시간 로그 수집 기술
  • RSS : 최신 정보 공유하기 위한 XML기반 수집 기술
  • Sqoop : RDBMS -> Hadoop
  • Hiho
  • Kafka : 데이터 스트림 실시간 관리 

 

저장 기술

  • RDBMS
  • NoSQL : 비관계형 데이터 저장소, 스키마 안써도됨 ★23.04.08 6회 출제
  • 분산파일시스템 ★23.04.08 6회 출제
  • 클라우드

 

처리 기술

  • 하둡
  • Spark : 디스크 I/O 비용 효율화, 인메모리 기반 데이터 분산 처리 시스템
  • Storm
  • Oozie
  • Zookeper
  • Ambari
  • Pig
  • Airflow

 

분석, 시각화 기술

  • Sementic : 의미 기반 분석
  • SPSS : IBM의 통계 분석 프로그램
  • R, Excel, Python
  • Tajo : 하둡 기반의 대용량 데이터 분석 지원 플랫폼

★23.04.08 6회 출제

인공지능 > 머신러닝 > 인공신경망 > 딥러닝

 

 

머신러닝의 유형

지도학습 : 분류, 회귀

비지도학습 : 군집화, 차원축소, 연관규칙

강화학습

준지도학습 : GAN

 

 

★ 암기 !!!

지도학습(분류)

  • KNN
  • 의사결정트리
  • 소포트벡터머신
  • 인공신경망
  • 랜덤포레스트
  • 로지스틱회귀

 

지도학습(회귀)

  • 선형회귀
  • 회귀트리
  • 회귀랜덤포레스트
  • 회귀서포트벡터머신

 

비지도학습(군집화)

  • 계층군집화
  • K-Means
  • SOM

 

비지도학습(차원축소)

  • 주성분분석
  • 요인분석
  • 다차원척도법

 

데이터 3법 : 개인정보보호법, 정보통신망법, 신용정보법 (신개정)

 

★ 암기 !!!

가명정보 : 추가 정보 없이 특정 개인 알아볼 수 없는 정보

익명정보 : 더 이상 개인을 알아볼 수 없음

 

 

마이데이터 :본인 데이터 개방을 요청하면, 제[ 3자에게 개방하도록 하는 것

 

 

데이터 분석 기획 유형

 

 

의사결정 가로막는 장애요소 : 고정관념, 편향된 생각, 프레이밍 효과

 

★ 암기 !!!

KDD : 데이터셋 선택 -> 전처리 -> 변환 -> 데이터마이닝 -> 평가

CRISP-DM : 업무 이해 -> 데이터 이해 -> 데이터 준비 -> 모델링 -> 평가 -> 배포

 

 

계층적 프로세스 모델 : 단계, 태스크, 스텝으로 구성

 

정형 데이터 : RDBMS,CSV

-> 수집 : ETL, FTP, Open API, Sqoop, EAI

 

반정형 데이터 : XML,JSON

-> 수집 : HTTP, 크롤링, RSS, FTP, Scribe, Chukwa, Flume

 

비정형 데이터 : SNS, 웹로그, 문서

-> 수집 : HTTP, 크롤링, RSS, Kafka

 

연속형 데이터 : 등간척도(온도), 비율척도(무게)

범주형 데이터 : 명목척도(같다,다르다), 순서척도(작다,크다)

 

★23.04.08 6회 출제

ETL : 추출(Extract), 변환(Transform), 적재(Load)

 

 

데이터 변환 기법

  • 평활화
  • 집계
  • 일반화 : 특정 구간에 분포 값으로 변환
  • 정규화
  • 표준화
  • 범주화
  • 차원축소

 

비식별화

  • 가명처리
  • 총계처리
  • 데이터 마스킹
  • 데이터 범주화

 

정형 데이터 품질 지표 : 완전성, 유일성, 유효성, 일관성, 정확성

비정형 데이터 품질 지표 : 기능성, 신뢰성, 사용성, 효율성, 이식성

 

RDBMS 트랜잭션 특성 : 영속성, 원자성, 일관성, 독립성 (영원독일)

 

NoSQL 종류 : Document Oriented, Key-Value, Column-Oriented, Graph

 

분산 파일 시스템

  • GFS : Client, Master, Chunk Server
  • HDFS

 

많은 내용 공부하시느라 고생 많으셨습니다!

이정도 알아가면 8,90점은 맞으실 수 있을겁니다!! 

2과목은 다음 글에서 뵐게요 ~ ! 

 


2023.04.08 6회 시험을 보고 왔습니다!  이 글안에서 절반 이상이 나왔네요. 다들 잘 보셨길 바랍니다!

728x90
반응형