찰리의 놀이터

[EDA] 탐색적 데이터 분석 본문

코드스테이츠 AI 부트캠프

[EDA] 탐색적 데이터 분석

차알리 2021. 8. 30. 20:28

EDA(Exploratory Data Analysis, 탐색적 데이터 분석)

 

1. 정의

데이터를 관찰하고 이해하는 과정을 뜻합니다. 어떤 특성을 가지고 있는지, 결측치가 있는지, 있다면 얼마나 많은지, 데이터의 분포는 어떠한지, 내가 알려고 하는 것은 무엇인지 등. "이 데이터는 어떤 모양을 가졌을까?"라는 물음을 채워주는 과정입니다.

 

2. EDA의 목적

  • 첫 번째 목적은 데이터를 이해하는 것입니다. 우리의 목적은 결국 의사 결정입니다. 의사 결정을 위해 다양한 각도에서 분석하여 표현해내는 것이 우리의 역할입니다.
  • 두 번째 목적은 데이터에 대한 접근성입니다. 주어진 데이터를 분석하기 위해서는 많은 질문을 던져야 합니다. 한정된 시간에서는 질문의 양이 많아질수록 데이터에 대한 이해가 완성될 것입니다.

3. 과정

  1. 데이터 분석의 목적과 특성 확인. 특성에 대한 설명이 있다면 참고하여 데이터를 수집한 "이유" 를 파악
  2. 전체 데이터 확인, 앞쪽과 뒤쪽, 결측치와 이상치를 확인하고 필요하다면 데이터를 추가 혹은 제거
  3. 특성 중 목표하는 특성과 연관성이 있는 특성을 위주로 데이터를 변환 등 전처리 진행

사실 과정에서 '이상치 확인'을 마지막으로 EDA의 의미와 통한다고 생각하지만, 전처리의 바로 전까지의 과정을 EDA라고 하기도 하므로 전처리 진행까지의 과정을 서술하였습니다.

 

저는 현재 코드스테이츠 AI 부트캠프 6기 교육 진행 중이며 올바르지 않은 서술이 있을 경우 지적해주시면 감사하겠습니다.