[📊 데이터 분석가로 살아가기] - 국비 지원 교육 6주차 후기 - 데이터베이스(DB) 구축, SQL 데이터 분석 프로젝트 후기 - 비전공자 데이터 분석가로 거듭나기
국비 지원 교육 6주차 후기 - 데이터베이스(DB) 구축, SQL 데이터 분석 프로젝트 후기 - 비전공자 데
[📊 데이터 분석가로 살아가기] - 국비 지원 교육 4주차 후기 - 크롤링(crawling), 스크래핑(scraping), sql, DB - 비전공자 데이터 분석가로 거듭나기 국비 지원 교육 4주차 후기 - 크롤링(crawling), 스크래
happyanthony.tistory.com
다시 돌아온 데이터 스토리.
역시 일주일 1포스팅은 아직 무리한 목표인가보다. 너무 바빠서 2주 단위가 딱 적당한 것 같다.
이번 발표는 무탈하게 준비하나 싶었으나
그것은 역시 꿈이었다...
이번주에 마친 발표 주제는 EDA였다.
'EDA'란 Exploratory Data Analysis의 약자로 '탐색적 데이터 분석'을 뜻한다.
탐색적 데이터 분석이란, 그 용어가 설명하듯이 분석할 데이터 세트의 데이터를 가지고 시각화 그래프, 통계스킬을 적용해서 데이터 자체를 살펴보는 작업을 의미한다.
더 자세하게 설명하자면 EDA에는 여러가지 작업이 포함되어 있다.
- 분석 목적 설정하기
- 데이터 세트(Rawdata)의 구성, 데이터 세트별 열(column) 정보, 데이터 형태(datatype) 등 데이터의 생김새 자체를 살펴보기
- 데이터 통계정보 확인(평균, 중앙값, 분산, 사분위수 등)
- 데이터 전처리(결측치 및 이상치 처리)
- 데이터 분석(데이터 정보 조합)
- 데이터 시각화(데이터 분석 후 이루어지기도 하고 분석을 위해 이뤄지기도 한다.)
EDA에는 분석 내용에 따라 다양한 라이브러리가 사용될 수 있는데
나는 기본적으로 필요한 numpy, pandas, matplotlib, seaborn을 사용했다.
- NumPy: 다차원 배열과 행렬 연산을 위한 과학 및 수학적 작업(수치 계산) 라이브러리
- Pandas(Python and data analysis): Series(시리즈)와 DataFrame(데이터프레임)을 구조화, 조작, 분석하는 라이브러리
- Matplotlib: 라인, 막대, 산점도, 히스토 그램 등 다양한 그래프와 차트를 생성할 수 있 2D 그래픽 시각화 라이브러리
- Seaborn: 통계적 분석 그래픽에 특화하여 더 높은 차원의 인터페이스를 제공하는 시각화 라이브러리
만약 더 상세하고 정확한 개념과 설명이 필요하신 분들은 블로그 내 또는 외부의 다른 글들을 살펴보시길 권장드린다.
아무튼, 이 EDA를 하기 위해 주어진 시간은 일주일이었다.
4일이 지나가는데도 데이터 전처리 스킬도 분석스킬도 초급이라 처음 정했던 주제로 도무지 진행이 되지 않고 있었다.
결국 첫 번째 발표 때 익혔던 '수면깎기' 기초 물리 스킬을 써야만 했다.
이번에도 역시 하루 평균 4시간 언더로 자면서 주말을 보냈다.
설상가상으로 수요일에는 실제 외부 심사위원을 모시는 발표까지 예정되어 있어서
화요일 사전 리허설을 포함하면 발표를 연속으로 2번이나 해야하는 상황이었다.
월요일까지도 정규 수업시간이 끝나가는데도 원하는 분석이 잘 되지 않자,
나는 원점으로 급히 돌아가 그나마 분석이 가능해보이는 주제로 다시 선정했고
다행히도 이번에는 유의미한 분석 결과를 얻을 수 있었다.
그렇게 월요일에 극한의 집중력으로 억지스런 발표 초안을 만들고 교수님께 빠른 검토를 요청했다.
교수님의 조언을 듣고나니 내 데이터 분석 과정은 뭔가 나사가 하나 빠진 부분이 있었다.
(참고로 교수님은 수정 방향을 직접 알려주시기 보다는 스스로 깨달을 수 있게 힌트를 주는 스타일이다.)
당장 내일 리허설까지 남은 시간은 24시간, 역시나 쪽잠 몇시간으로 바닥난 에너지를 급히 채우고 늦은 밤 일어나 또 날밤을 샜다.
그렇게... 밤샘 당일 발표 리허설을 마치고 교수님께 들었던 첫번째 피드백은 이랬다.
"아니 24시간동안 대체 무슨 일이 생긴거야?"
"네..? 무슨 말씀이신지 잘...(?)"
"발표 내용이 완전히 뒤집어졌잖아!" (미소)
그렇게 처음으로 나는 발표에서 긍정적인 피드백을 받을 수 있었다.
그리고 다음 날, 실제 심사위원 앞 발표에서도 나쁘지 않은 피드백을 받을 수 있었다.
만감이 교차하는 날이었다. 교육을 받는 동안 한 번도 긴장을 놓아본 적이 없었는데 처음으로 긴장을 잠시나마 풀 수 있었던 순간이었다.
'내가 지금 하고 있는 노력이 헛되지 않구나, 가능성이 없진 않구나' 1%라도 생각하게 하는 좋은 전환점이 되었다.
아래는 실제 내 발표자료 캡쳐본이다.
ps. 데이터는 이곳에서 구했습니다.
https://www.kaggle.com/datasets/olistbr/brazilian-ecommerce
Brazilian E-Commerce Public Dataset by Olist
100,000 Orders with product, customer and reviews info
www.kaggle.com
'📊 데이터 분석가로 살아가기' 카테고리의 다른 글
국비 지원 교육 6주차 후기 - 데이터베이스(DB) 구축, SQL 데이터 분석 프로젝트 후기 - 비전공자 데이터 분석가로 거듭나기 (2) | 2024.02.15 |
---|---|
국비 지원 교육 4주차 후기 - 크롤링(crawling), 스크래핑(scraping), sql, DB - 비전공자 데이터 분석가로 거듭나기 (0) | 2024.01.28 |
국비 지원 교육 2주차 후기 - 파이썬(Python) - 비전공자 데이터 분석가로 거듭나기 (2) | 2024.01.14 |
첫 삽 뜨기 - 파이썬(Python) - 비전공자 데이터 분석가로 거듭나기 (3) | 2024.01.08 |