본문 바로가기

전체 글91

[Error] ImportError: cannot import name 'getNsvData' from 'getData' 파이썬 파일에 함수를 만들어서 다른 파일에서 여는 작업을 흔하게 하곤한다. 하지만 이때 위 제목과 같은 에러가 발생하곤 한다. 사실 이전까지는 이런 경험이 없었는데 별짓 다 해봐도 이유를 못찾겠어서 한참 헤맸다. getData라는 파일이 이미 있어서 그렇다는건데, 이러한 경우는 파일의 명을 바꿔주면 된다. 코드가 정상적으로 실행되는 것을 확인할 수 있다. 2023. 6. 9.
Anomaly Detection_PCA PCA(Principal Component Analysis)는 데이터셋에서 가장 중요한 변수를 추출하고 차원을 축소하는 데에 널리 사용되는 방법입니다. 이 기법은 고차원 데이터를 저차원으로 축소하여 시각화 및 분석을 용이하게 하며, 불필요한 정보를 제거하여 노이즈를 감소시키는 효과가 있습니다. PCA 기반 이상탐지는 PCA를 사용하여 데이터의 차원을 축소한 후, 축소된 차원에서 이상값을 탐지하는 방식입니다. PCA는 데이터의 고유값(eigenvalues)과 고유벡터(eigenvectors)를 계산하여 이들을 이용하여 데이터를 재배치합니다. 이렇게 재배치된 데이터에서는 상위 고유값에 해당하는 고유벡터가 가장 중요한 변수를 나타내므로, 이를 기반으로 데이터의 차원을 축소할 수 있습니다. 장점: 변수 선택과 .. 2023. 5. 3.
Anomaly Detection_t-SNE t-SNE(t-Distributed Stochastic Neighbor Embedding)는 고차원 데이터를 저차원으로 축소하고 시각화하는 데에 널리 사용되는 방법입니다. t-SNE는 PCA와 달리 비선형 구조에 대해서도 효과적으로 처리할 수 있습니다. 이 방법은 데이터의 분포를 보존하면서 데이터 간의 거리를 최대한 보존하는 데에 중점을 둡니다. t-SNE 기반 이상탐지는 t-SNE를 사용하여 데이터의 차원을 축소한 후, 축소된 차원에서 이상값을 탐지하는 방식입니다. t-SNE는 데이터의 구조를 보존하면서도 차원을 축소하기 때문에, 데이터의 비선형 구조를 보존할 수 있습니다. t-SNE 기반 이상탐지의 장단점은 다음과 같습니다. 장점: 비선형 구조에 대한 처리: t-SNE는 비선형 구조에 대해서도 효과적.. 2023. 5. 3.
Anomaly Detection_One-Class SVM One-class SVM(anomaly detection)은 비지도 학습 알고리즘으로 데이터셋에서 이상치를 식별하는 데 사용됩니다. 다른 SVM 알고리즘과 달리 훈련을 예상 클래스인 데이터의 한 클래스만 사용합니다. 그런 다음 알고리즘은 일반 클래스와 크게 다른 이상을 식별하는 방법을 학습합니다. 단일 클래스 SVM은 데이터를 N차원 공간으로 변환하여 작동하며 각 차원은 데이터의 기능을 나타냅니다. 그런 다음 알고리즘은 일반 클래스와 이상값을 구분하는 초평면(또는 2D 데이터의 경우 평면)을 그립니다. 초평면은 Support Vector라고 하는 가장 가까운 데이터 점과 초평면 사이의 거리를 최대화하는 방식으로 배치됩니다. 초평면과 가장 가까운 데이터 포인트 사이의 거리를 마진이라고 하며 정상 클래스와 .. 2023. 5. 2.
Anomaly Detection_AutoEncoder AutoEncoder Anomaly Detection은 오토인코더 신경망을 사용하여 데이터 세트에서 이상을 식별하는 비지도 학습 유형입니다. 오토인코더는 입력을 출력에 복사하도록 훈련된 신경망으로, 중간에 병목 현상 레이어가 추가되어 입력을 잠재 벡터라고 하는 저차원 표현으로 압축합니다. 그런 다음 디코더는 이 잠재 벡터를 가져와 원래 입력을 재구성합니다. 오토인코더는 데이터를 저차원 공간으로 압축한 다음 원래 형태로 다시 재구성하여 데이터에서 가장 중요한 기능을 추출하는 방법을 학습합니다. 그 과정에서 필수 특성을 캡처하는 데이터의 압축된 표현을 학습합니다. 오토인코더 이상 감지를 사용하려면 일반 데이터에서 오토인코더를 훈련한 다음 이를 사용하여 새 데이터 포인트를 재구성합니다. 원래 데이터와 재구성된.. 2023. 5. 2.
빅데이터 분석기사 필기 합격 후기 안녕하세요! 2023년 4월 8일에 있었던 빅데이터 분석기사 6회 필기 시험을 보고 왔는데요 23.04.21 오늘 합격 결과가 나와서 필기 공부 후기를 알려드리려고 합니다. 먼저 책은 아래 링크의 책을 구매해서 사용했습니다. https://book.interpark.com/product/BookDisplay.do?_method=detail&sc.prdNo=356618580&gad=1&gclid=CjwKCAjw6IiiBhAOEiwALNqncbdWedQmBBlqDHnJngmmo0WLcmtPLd31BjzMorHB53AihRbt5jDvyxoC9cMQAvD_BwE 싸니까 믿으니까 인터파크도서 생년월일 - 정보처리기술사. 기업 전사자원관리시스템(ERP, SAP) 개발, 컨설팅, 프로젝트 관리 업무를 시작으로 e-C.. 2023. 4. 21.
Anomaly Detection_Iforest Iforest(Isolation Forest)는 이상치 탐지 알고리즘 중 하나로, 대량의 데이터 중에서 소수의 이상치를 탐지하기 위해 사용됩니다. Iforest의 핵심 아이디어는 바로 데이터의 특성(feature)을 이용하여 분기하는 것입니다. 일반적인 분류 문제와 달리, Iforest는 이상치를 분류하기 위해 목표하는 것이 아니라, 이상치가 아닌 정상 데이터들이 빠르게 분리될 수 있는 경로를 찾습니다. 이를 위해 Iforest는 데이터를 랜덤하게 선택한 뒤, 랜덤한 feature와 임계값(threshold)을 이용하여 데이터를 두 그룹으로 나눕니다. 이 과정을 재귀적으로 반복하여 이상치인 데이터는 단계가 적게 거친 경로를 통해 분리됩니다. Iforest의 장점 중 하나는 학습 데이터의 크기에 민감하지 .. 2023. 4. 14.
Anomaly Detection_LOF LOF(Local Outlier Factor) 이상탐지는 데이터셋에서 이상치(outlier)를 찾는 기술 중 하나입니다. 이 기술은 데이터 포인트의 군집(clustering)과 밀도(density)를 기반으로 이상치를 탐지합니다. LOF 이상탐지는 다음과 같은 세 단계로 구성됩니다. k-Nearest Neighbor(NN) 구하기: 각 데이터 포인트에서 k개의 가장 가까운 이웃을 찾습니다. Reachability Distance 구하기: 각 데이터 포인트에서 이웃까지의 거리를 계산합니다. Local Outlier Factor 계산하기: 각 데이터 포인트의 이웃들과의 Reachability Distance를 비교하여 LOF를 계산합니다. 이론적으로는 LOF가 1인 데이터 포인트는 군집에 속해 있으며, LO.. 2023. 4. 14.
Anomaly Detection_KNN KNN(K-Nearest Neighbors)은 지도학습의 한 종류로, 분류나 회귀 문제를 해결하는 알고리즘 중 하나입니다. 주어진 데이터셋에서 새로운 데이터 포인트가 어떤 클래스에 속하는지 예측할 때 사용합니다. KNN은 거리 기반 분류 모델에 속하며, 주어진 데이터셋에서 가장 가까운 K개의 이웃 데이터를 찾아서 대상 데이터를 분류합니다. 분류 문제에서는 이웃 데이터 포인트들의 클래스 중 가장 빈번한 클래스를 예측값으로 사용하며, 회귀 문제에서는 이웃 데이터 포인트들의 평균값을 예측값으로 사용합니다. PyOD 패키지는 이상탐지(anomaly detection) 알고리즘을 정리한 패키지로, KNN을 포함하여 다양한 이상탐지 알고리즘을 제공합니다. KNN을 이용한 이상탐지는 K개의 이웃 데이터를 사용하여 대.. 2023. 4. 12.