본문 바로가기

전체 글91

Anomaly Detection_ Mahalonobis 거리 마할라노비스 거리는 다변량 데이터 분석에서 이상치를 탐지하는 방법 중 하나입니다. 이번 글에서는 마할라노비스 거리를 이용한 이상치 탐지에 대해 알아보겠습니다. 마할라노비스 거리란, 다변량 데이터 분석에서 관측치와 다른 관측치들 간의 거리를 계산하는 방법 중 하나입니다. 이 방법은 관측치가 얼마나 다른 관측치들과 다른지를 측정하고, 이를 이용하여 이상치를 탐지합니다. 이상치는 다른 관측치들과의 거리가 멀어지는 경우로 정의됩니다. 마할라노비스 거리를 이용한 이상치 탐지의 장점은 다음과 같습니다. 첫째, 마할라노비스 거리는 다변량 데이터에 대해 적용할 수 있으므로, 다양한 분야에서 활용이 가능합니다. 둘째, 마할라노비스 거리는 데이터 분포의 모양과 크기를 고려하여 이상치를 탐지할 수 있습니다. 셋째, 마할라노.. 2023. 4. 11.
Anomaly Detection_ Box Plot Box Plot은 데이터의 분포를 시각화하는 도구 중 하나로, 데이터의 중심값과 산포도를 한 눈에 파악할 수 있어 데이터 분석에서 매우 유용하게 사용됩니다. 이번 글에서는 Box Plot을 이용한 이상치 탐지 방법에 대해 알아보겠습니다. Box Plot은 데이터의 중앙값, 1사분위수(Q1), 3사분위수(Q3)를 이용하여 상자를 그리고, 상자 외부의 데이터를 이상치로 판단합니다. 이때, 이상치의 기준은 Q1 - 1.5IQR 이하의 값 또는 Q3 + 1.5IQR 이상의 값으로 설정합니다. IQR(Interquartile range)은 Q3 - Q1로 계산됩니다. Box Plot을 이용한 이상치 탐지의 장점은 다음과 같습니다. 첫째, Box Plot은 데이터의 분포를 시각적으로 파악할 수 있기 때문에 데이터의.. 2023. 4. 11.
Anomaly Detection_ 3-Sigma Rule 표준편차의 3배 범위인 3*Sigma는 대표적인 이상치(Outlier) 탐지 기법 중 하나입니다. 이 방법은 데이터의 산포를 파악하고, 데이터 전체의 특징을 파악하는 데 유용합니다. 장점으로는, 이 방법은 통계학에서 널리 사용되는 방법 중 하나이기 때문에, 데이터 분석의 표준적인 방법으로 자리 잡았습니다. 또한, 이 방법은 데이터의 분포를 고려하기 때문에 데이터의 특징을 파악하는 데 유용합니다. 이상치를 탐지하는 데도 효과적이며, 데이터의 정규성을 검증하는 데도 사용됩니다. 단점으로는, 이 방법은 데이터의 분포가 정규분포를 따를 때에만 유효합니다. 만약, 데이터가 다른 분포를 따른다면 이 방법은 제대로 작동하지 않을 수 있습니다. 또한, 이 방법은 데이터의 분포를 고려하지 않고, 단순히 범위를 설정하기 .. 2023. 4. 11.
[ 빅데이터분석기사 필기 ] 4과목 시험 전 핵심 정리! 마지막 4과목이네요! 1,2,3 과목 핵심 정리는 이전 글에서 참고하시길 바랍니다. 2023.04.06 - [참고/자격증] - [ 빅데이터분석기사 필기 ] 1과목 시험 전 핵심 정리! [ 빅데이터분석기사 필기 ] 1과목 시험 전 핵심 정리! 빅데이터 분석기사 필기에 대한 공부 자료가 많이 없죠ㅠㅠ 저도 일반 개념서 공부도 많이 해보고, 수제비 카페에서 이런저런 문제도 많이 풀어보고 했는데 정리된 글이 있으면 좋겠다 싶어서 foxyprogramming.tistory.com 2023.04.07 - [참고/자격증] - [ 빅데이터분석기사 필기 ] 2과목 시험 전 핵심 정리! [ 빅데이터분석기사 필기 ] 2과목 시험 전 핵심 정리! 다음은 1과목에 이어 2과목에 대해서 다뤄보겠습니다. 1과목을 안보신 분들은 1.. 2023. 4. 7.
[ 빅데이터분석기사 필기 ] 3과목 시험 전 핵심 정리! 시험 전 빅분기 핵심 내용 정리! 3과목입니다. 1,2과목은 이전 글들을 참고해주세요 2023.04.06 - [참고/자격증] - [ 빅데이터분석기사 필기 ] 1과목 시험 전 핵심 정리! [ 빅데이터분석기사 필기 ] 1과목 시험 전 핵심 정리! 빅데이터 분석기사 필기에 대한 공부 자료가 많이 없죠ㅠㅠ 저도 일반 개념서 공부도 많이 해보고, 수제비 카페에서 이런저런 문제도 많이 풀어보고 했는데 정리된 글이 있으면 좋겠다 싶어서 foxyprogramming.tistory.com 2023.04.07 - [참고/자격증] - [ 빅데이터분석기사 필기 ] 2과목 시험 전 핵심 정리! [ 빅데이터분석기사 필기 ] 2과목 시험 전 핵심 정리! 다음은 1과목에 이어 2과목에 대해서 다뤄보겠습니다. 1과목을 안보신 분들은 .. 2023. 4. 7.
[ 빅데이터분석기사 필기 ] 2과목 시험 전 핵심 정리! 다음은 1과목에 이어 2과목에 대해서 다뤄보겠습니다. 1과목을 안보신 분들은 1과목도 참고해주시면 좋을 것 같네요. 2023.04.06 - [참고/자격증] - [ 빅데이터분석기사 필기 ] 1과목 시험 전 핵심 정리! [ 빅데이터분석기사 필기 ] 1과목 시험 전 핵심 정리! 빅데이터 분석기사 필기에 대한 공부 자료가 많이 없죠ㅠㅠ 저도 일반 개념서 공부도 많이 해보고, 수제비 카페에서 이런저런 문제도 많이 풀어보고 했는데 정리된 글이 있으면 좋겠다 싶어서 foxyprogramming.tistory.com 마찬가지로 설명보다는 핵심 내용에 대한 암기 노트 형식으로 작성한 글이니 자세한 내용은 다른 글을 찾아 보시길 추천 드립니다. 결측값 유형 완전 무작위 결측 : 결측값이 다른 변수들과 아무런 상관이 없음 .. 2023. 4. 7.
[ 빅데이터분석기사 필기 ] 1과목 시험 전 핵심 정리! 빅데이터 분석기사 필기에 대한 공부 자료가 많이 없죠ㅠㅠ 저도 일반 개념서 공부도 많이 해보고, 수제비 카페에서 이런저런 문제도 많이 풀어보고 했는데 정리된 글이 있으면 좋겠다 싶어서 조금이라도 도움이 되고자 글을 작성합니다. 챕터별로 정리하지 않고, 주요 내용, 키워드, 많이 나오는 개념에 대해 핵심 정리에 대한 글이니, 부가적인 설명은 다른 글에서 서치해보시길 추천드릴게요! DIKW 피라미드 모형 지혜 : 이해를 바탕으로 도출되는 아이디어 지식 : 정보 패턴을 이해하고 이를 토대로 예측된 결과 정보 : 데이터 가공하여 의미 부여 데이터 : 가공 전 순수한 기호나 수치 지식 창조 모델 암묵지 : 개인의 경험, 주관적 지식 형식지 : 문서같은 명료화된 지식 ★ 암기 !!! 공통화 : 암묵지 -> 암묵지 .. 2023. 4. 6.
[ 환경방사선 예측 프로그램 ] 3. LSTM 모델 활용하여 예측하기 오늘은 LSTM(Long Short-Term Memory) 모델을 사용하여 선량률(nSv/h)을 예측하는 프로그램을 만들어볼 것입니다. LSTM은 RNN(Recurrent Neural Network)의 일종으로, 시계열 데이터를 처리할 때 유용합니다. 이 모델은 과거의 데이터를 바탕으로 미래 값을 예측하는 데 사용되므로 이전 날짜들의 데이터가 필요합니다. 1. 필요한 라이브러리 import import pandas as pd import numpy as np from sklearn.preprocessing import MinMaxScaler from keras.models import Sequential import tensorflow as tf from keras.layers import Dense, .. 2023. 3. 8.
[ 환경방사선 예측 프로그램 ] 2. 데이터 전처리 및 병합 안녕하세요! 저번 글에서는 API를 사용하여 데이터를 가쟈오는 글에 대해 다뤘었는데요 2023.02.18 - [Project] - [ 환경방사능 예측 프로그램 ] 1. 공공 데이터 포털 API 가져오기 [ 환경방사능 예측 프로그램 ] 1. 공공 데이터 포털 API 가져오기 안녕하세요! 현재 진행 중인 프로젝트 과정에 대한 글을 올려볼까 합니다. 방사능 분야의 인공지능 전문가가 되기 위한 첫 프로젝트라고 할 수 있겠는데요 이번 프로젝트에서는 환경 방사선 API foxyprogramming.tistory.com 생성된 csv 파일을 확인하고, 각각의 csv 파일을 하나로 병합해주는 방법에 대한 글을 작성하려고 합니다. import numpy as np import pandas as pd import matp.. 2023. 2. 18.