반응형

<실전 데이터 분석 실무서 - 데이터 읽기의 기술 - 차현나>

 

 

1. 평점

3/5점 (⭐️⭐️⭐️)

"데이터 마케팅을 위해 데이터를 읽는 방법을 알려주는 소중한 핸디 개론서"


2. 이런 책이었다.


데이터는 결국 소비자의 심리가 반영된 기록임을 깨닫게 해주는 책이었다.
저자는 대학에서 소비자심리학을 공부하고 가르쳤던 사람이라 소비자심리에 대한 도예가 깊다.
그를 베이스로 오프라인 매장에서 자사 제품을 판매하는 유통소매업체의 데이터를 다루는 방법을 이야기한다.
제조유통을 전문으로 하는 기업에 근무하는 마케터가 읽는다면 더욱 와닿을 책이다.


3. 후기

이전에 읽었던 데이터 쓰기의 기술이 마음에 들어 고민하지 않고 바로 읽어보게 되었다.
데이터를 실제로 어떻게 분석하고 해석해야하는지 그 테크닉을 기대하고 읽었는데 오히려 소비자 심리에 대한 부분을 더 강조한다.
앞서 '데이터 쓰기의 기술'을 읽고 비슷한 방향으로 쓰여있을 것이란 내 기대와는 살짝 어긋났다.
(그렇다고 좋지 않은 책이라는 것은 결코 아니다.)


4. 기억에 남는 메시지

  • 데이터의 육하원칙
  • 같은 연령, 같은 성별의 사람이 모두 같지는 않다. 이젠 'A'라는 한 명의 사람이 언제, 어디서, 무엇을, 어떻게 몇 번을 구매하는지 연결해서 보는 것이 더 의미 있는 시대가 되었다.
  • 기업은 반드시 시간이 흘러 분석하고 싶은 것을 염두에 두고 데이터를 쌓아야 한다.
  • 우산 때문에 소비를 안 한다고 하면 '당연한 소리 아니야?'라고 여길지도 모르겠다. 그러한 당연한 소리를 합리적으로 증명하는 것이 데이터 분석가가 할 일이라고 생각한다.
  • 소비자의 맥락효과
  • 단순한 평균 비교로 수많은 사람을 두 부류로 나눈 것은 경계해야 한다. 사람을 어떤 조건에 따라 분류하는 것은, 특정 행동을 하는 사람들의 행동 원리를 이해하는 것과는 상당한 차이가 있다.
  • 정확한 분석을 하려면 성별이나 나이에 대한 편견을 버리는 것이 필요하다.
  • 데이터 없이는 기업이 성과를 낼 수 없는 시대가 되었음에도 데이터보다 더 중요한 것이 많은 회사가 있다.
  • 오프라인 매장이 있는 회사 중에서도 데이터가 필수인 조직과 그렇지 않은 조직에서 데이터팀 팀원으로 일 할때, 체감하는 것들이 다를 수 있다.
  • '데이터 하는 사람은 데이터 있는 곳에 있어야 한다.'
  • 데이터를 가진 회사는 앞으로 나아갈 추진기를 확보한 셈이다. 데이터를 통해 더 빠르게, 더 확실한 방법으로 나아갈 방법을 얻을 수 있다.
  • 데이터는 의사 결정을 좀 더 논리적으로 할 수 있도록 돕는다.
  • 데이터는 우리를 돕기 위해 있는 것이지 우리에게 틀렸다고 하는 존재가 아니다.
  • 데이터는 철저히 설정한 목표 아래서만 가치를 가진다. 데이터 자체에 적개심을 가질 필요도, 필요성을 부정할 필요도 없다.
  • 자신의 생각이 처음엔 완벽하지 않더라도 의논을 하거나 연구를 해서 구체화하려는 노력을 해야 한다. 결과를 상상하지 않는 사람과는 구체적인 과정에 대한 논의도 불가능하다.
  • 분석에는 기본적인 숙성의 시간이 필요하다. 논리적으로 이 분석 결과와 저 분석 결과 간의 상충이 없는지, 더 깊이 쪼개보면 다른 결과가 나오지는 않는지 확인하는 과정이 필요하다.
  • 보통 기업에는 의사 결정자들이 궁금해하는 것이 중요하다. 연구원이나 데이터 분석가는 그 궁금증을 빨리 해소해주는 역할을 하기도 한다.
  • 어떤 경우에도 분석가 스스로 길을 잃어서는 안 된다. 스스로 데이터의 목적을 만들어내야만 한다.
  • 하나의 분석을 끝내면 그것들을 모아 스토리로 만들어야 한다. 데이터 스토리를 만드는 과정을 '데이터 리터러시data literacy'라고 부르기도 한다.

01234567891011121314

데이터 읽기의 기술 저자 차현나님 직무 인터뷰 영상입니다.


▼ 차현나 저자 시리즈 2편 - 데이터 쓰기의 기술 리뷰 보러가기

 

3분 책 리뷰 - "데이터 쓰기의 기술"

1. 평점 5/5점 (⭐️⭐️⭐️⭐️⭐️) "찾았다... 소장용 실무 바이블!!" "뼈 있는 데이터 분석을 갈망하는 대한민국의 모든 마케터들에게 빛과 소금같은 책" 2. 이런 책이었다. 빅데이터와 데이터

happyanthony.tistory.com

 

반응형
반응형

실전 데이터 분석 필독서 - 데이터 쓰기의 기술 - 차현나

1. 평점

5/5점 (⭐️⭐️⭐️⭐️⭐️)
"찾았다... 소장용 실무 바이블!!"
"뼈 있는 데이터 분석을 갈망하는 대한민국의 모든 마케터들에게 빛과 소금같은 책"


2. 이런 책이었다.

빅데이터와 데이터분석에 대해 무겁고 어려운 접근이 아니라,
지금 당장 마케팅을 해야하는 사람들이 실용적으로 데이터 분석을 해보게 만드는 마법같은 책이었다.


3. 후기

이 책은 보통 남자 손 만한 사이즈(238p)의 책이다.
책도 가볍고 우리 주변의 현실을 바탕으로 쓴 책이라 출퇴근 시간 일주일만 투자해도 금방 읽을 수 있다.

결론부터 말하자면, 이 책은 내가 소장할 책이다.
나는 읽어보고 싶은 책을 사는 사람이 아니라 소장하고 싶은 책을 사는 편인데 그런 책 중에 하나였다.
이 실용서는 마케팅 데이터 분석을 하고자 하는 비전문가(사업자 혹은 직원)에게 강력히 추천할 수 있는 책이다.
아쉬운 점은 책 자체가 담고 있는 내용에 비해 포장이 덜 되어 수수해보인다는 점이다.
이 책은 조금 더 화려하게 포장하고 홍보해도 절대 마이너스가 되지 않는 속이 아주 단단하다.

이 책은 크게 4개의 챕터로 이루어져 있다.
1. 데이터 디자인
2. 데이터 스토리텔리
3. 데이터 기반 의사결정
4. 10가지 질문으로 살펴보는 데이터 쓰기의 기술

본인 전직 마케터로서, 마케팅 실용서라면 적지 않게 읽어왔다.
이 책이 다른 책들과 차별화 되었던 점은 챕터1과 챕터4였다.

챕터 1에서는 비즈니스 상황에서 어떤 문제를 해결하거나 목표를 이루기 위해 어떻게 질문을 해야하는지 그리고 그 질문을 어떻게 분석할 수 있는 형태로 구조화할 수 있는지에 대해 구체적인 방법을 제시한다.
사실 이런 질문들은 일을 하다보면 머릿 속에 하루에도 수십번 떠올랐다 사라지곤 한다.
그런 질문들을 놓치지 않고 분석할 수 있는 형태로 구체화하는 부분에서 감탄하지 않을 수 없었다.

두 번째로 챕터 4에서는 앞선 챕터에서 설명한 방법을 실제 비즈니스 상황에 접목하여 분석-인사이트-액션아이템 기획까지
실용 데이터 분석의 A to Z를 10가지 현실적인 케이스로 나누어 훈련시킨다.

더 설명하면 책이 재미없어지니 뭔가 해내야하는 사장님, 마케터, 데이터분석가라면 빠른 시일 내에 한번 쯤 읽어보시기를 추천한다.
(솔직히 말하면 나만 알고싶음...🤫)


4. 기억에 남는 메시지

  • 데이터를 어떻게 써야 할지 모르는 사람들에게 데이터로 생각하는 10가지 단계를 공유하는 것이 이 책의 목적이다.
  • 우리가 모르는 것은 통계나 기술 자체일 수도 있지만, 그 활용에 대한 것이 더욱 문제다.

  • 이제 중요한 것은 데이터로 어떤 의사결정을 하느냐다. 이 변화를 위한 핵심을 잡하내는 인력이 데이터 분석 역량을 가진 사람이라고 볼 수 있다.
  • 분석을 시작하려면 질문이 많아야 한다. 질문은 아는 것과 모르는 것을 명확히 하고 모르는 부분을 채워가는 시작점이다.

  • 생각과 질문이 정리되지 않은 사람은 아무리 많은 데이터가 있어도 답을 찾기 어렵다.

  • 시간이 흐를수록 생각을 할 줄 아는 사람이 중요해질 것이다. 생각하는 사람만이 데이터에서 의미를 발견한다.

  • 데이터가 많아지고 기술이 눈부시게 발달하는 가운데, 그 데이터 안에서 의미를 발견하는 것이 인간 고유의 역할이 될 것이다.

  • 데이터로 생각한다는 것은 어려운 데이터를 분석할 수 있어야 한다는 의미가 아니다. 자신의 생각에 확신을 가질 수 있도록 데이터를 활용하고, 논리적으로 사고한다는 것에 더 가깝다.

012345678

데이터 쓰기의 기술 저자 차현나님 직무 인터뷰 영상입니다.

 

반응형
반응형

1. 평점

3/5점 (⭐️⭐️⭐️☆☆)
"데이터 분석이 궁금한 일반인들에게 추천"
"이미 데이터 분석에 입문한 사람들에겐 비추"


2. 이런 책이었다.

'데이터 분석'이란 무엇인가에 대해 일반인들도 쉽게 그 개념과 현황을 캐치할 수 있도록
나이스지니데이타(NICE평가정보의 자회사)라는 빅데이터 컨설팅 기업에서 발간한 책이다.


3. 후기

요즘 핫한 '데이터 분석'이라는 게 뭐고 어떻게 하는 건지 궁금한 사람들이라면
grap-and-go 하기 좋은 책이다. 그만큼 쉽게 설명하고 그림이나 차트가 많아 가볍게 읽기에 좋았다.

본인에게 이 책에서의 수확은 한 가지였다.
요즘 데이터분석은 머신러닝이나 딥러닝이 거의 필수인데 이 책에서는 잘 해놓은 전처리가 머신러닝이나 딥러닝의 기교보다도,
올바른 전처리를 하는 것이 제작하려는 예측모델의 성능을 10% 이상 향상시킬 수 있다는 점이었다.
(머신러닝과 딥러닝은 예측모델의 정확도를 높이는 것이 주 목적이고 이를 통해 드라마틱한 성능(정확도) 향상은 잘 이루어지지 않는다.) 


4. 기억에 남는 메시지

  • 실제 도메인 지식에 기반한 전처리는 훨씬 복잡하며 많은 시간이 요구되는 작업이다.
  • 데이터 분석의 8할(80%)은 데이터 전처리에 소모된다.
  • 데이터 분석 프로젝트를 수행하다보면 극적인 성능 향상이나 통찰력 있는 분석은 알고리즘의 선택도, 하이퍼 파라미터의 튜닝도 아닌 효율적인 전처리에서 나오는 경우가 많다.
  • 알고리즘을 열심히 고민해서 1, 2%의 성능(예측모델의 정확도)을 올리는 것보다 도메인 지식에 기반해 효율적인 전처리를 진행할 때 10% 이상의 성능 향상을 가져오기도 한다.
  • 다시 한번 강조하지만 도메인에 대한 충분한 지식이 우선이다.
  • 업무 프로세스의 이해 없이는 딥러닝이든 머신러닝이든 그저 현실에 어떤 울림도 주기 힘든 숫자놀이일 뿐이다.

0123
직접 찍은 사진

반응형
반응형

[📊 데이터 분석가로 살아가기] - 국비 지원 교육 6주차 후기 - 데이터베이스(DB) 구축, SQL 데이터 분석 프로젝트 후기 - 비전공자 데이터 분석가로 거듭나기

 

국비 지원 교육 6주차 후기 - 데이터베이스(DB) 구축, SQL 데이터 분석 프로젝트 후기 - 비전공자 데

[📊 데이터 분석가로 살아가기] - 국비 지원 교육 4주차 후기 - 크롤링(crawling), 스크래핑(scraping), sql, DB - 비전공자 데이터 분석가로 거듭나기 국비 지원 교육 4주차 후기 - 크롤링(crawling), 스크래

happyanthony.tistory.com


다시 돌아온 데이터 스토리.

역시 일주일 1포스팅은 아직 무리한 목표인가보다. 너무 바빠서 2주 단위가 딱 적당한 것 같다.

이번 발표는 무탈하게 준비하나 싶었으나

그것은 역시 꿈이었다...

feat. 인셉션

이번주에 마친 발표 주제는 EDA였다.

'EDA'란 Exploratory Data Analysis의 약자로 '탐색적 데이터 분석'을 뜻한다.

탐색적 데이터 분석이란, 그 용어가 설명하듯이 분석할 데이터 세트의 데이터를 가지고 시각화 그래프, 통계스킬을 적용해서 데이터 자체를 살펴보는 작업을 의미한다. 

더 자세하게 설명하자면 EDA에는 여러가지 작업이 포함되어 있다.

  1. 분석 목적 설정하기
  2. 데이터 세트(Rawdata)의 구성, 데이터 세트별 열(column) 정보, 데이터 형태(datatype) 등 데이터의 생김새 자체를 살펴보기
  3. 데이터 통계정보 확인(평균, 중앙값, 분산, 사분위수 등)
  4. 데이터 전처리(결측치 및 이상치 처리)
  5. 데이터 분석(데이터 정보 조합)
  6. 데이터 시각화(데이터 분석 후 이루어지기도 하고 분석을 위해 이뤄지기도 한다.)

EDA에는 분석 내용에 따라 다양한 라이브러리가 사용될 수 있는데

나는 기본적으로 필요한 numpy, pandas, matplotlib, seaborn을 사용했다.

  • NumPy: 다차원 배열과 행렬 연산을 위한 과학 및 수학적 작업(수치 계산) 라이브러리
  • Pandas(Python and data analysis): Series(시리즈)와 DataFrame(데이터프레임)을 구조화, 조작, 분석하는 라이브러리
  • Matplotlib: 라인, 막대, 산점도, 히스토 그램 등 다양한 그래프와 차트를 생성할 수 있 2D 그래픽 시각화 라이브러리
  • Seaborn: 통계적 분석 그래픽에 특화하여 더 높은 차원의 인터페이스를 제공하는 시각화 라이브러리

만약 더 상세하고 정확한 개념과 설명이 필요하신 분들은 블로그 내 또는 외부의 다른 글들을 살펴보시길 권장드린다.

 

아무튼, 이 EDA를 하기 위해 주어진 시간은 일주일이었다.

4일이 지나가는데도 데이터 전처리 스킬도 분석스킬도 초급이라 처음 정했던 주제로 도무지 진행이 되지 않고 있었다.

결국 첫 번째 발표 때 익혔던 '수면깎기' 기초 물리 스킬을 써야만 했다.

이번에도 역시 하루 평균 4시간 언더로 자면서 주말을 보냈다.

설상가상으로 수요일에는 실제 외부 심사위원을 모시는 발표까지 예정되어 있어서

화요일 사전 리허설을 포함하면 발표를 연속으로 2번이나 해야하는 상황이었다.

월요일까지도 정규 수업시간이 끝나가는데도 원하는 분석이 잘 되지 않자,

나는 원점으로 급히 돌아가 그나마 분석이 가능해보이는 주제로 다시 선정했고

다행히도 이번에는 유의미한 분석 결과를 얻을 수 있었다.

그렇게 월요일에 극한의 집중력으로 억지스런 발표 초안을 만들고 교수님께 빠른 검토를 요청했다.

교수님의 조언을 듣고나니 내 데이터 분석 과정은 뭔가 나사가 하나 빠진 부분이 있었다.
(참고로 교수님은 수정 방향을 직접 알려주시기 보다는 스스로 깨달을 수 있게 힌트를 주는 스타일이다.)

당장 내일 리허설까지 남은 시간은 24시간, 역시나 쪽잠 몇시간으로 바닥난 에너지를 급히 채우고 늦은 밤 일어나 또 날밤을 샜다.

 

그렇게... 밤샘 당일 발표 리허설을 마치고 교수님께 들었던 첫번째 피드백은 이랬다.

"아니 24시간동안 대체 무슨 일이 생긴거야?"

"네..? 무슨 말씀이신지 잘...(?)"

"발표 내용이 완전히 뒤집어졌잖아!" (미소)

그렇게 처음으로 나는 발표에서 긍정적인 피드백을 받을 수 있었다.

그리고 다음 날, 실제 심사위원 앞 발표에서도 나쁘지 않은 피드백을 받을 수 있었다.

만감이 교차하는 날이었다. 교육을 받는 동안 한 번도 긴장을 놓아본 적이 없었는데 처음으로 긴장을 잠시나마 풀 수 있었던 순간이었다.

'내가 지금 하고 있는 노력이 헛되지 않구나, 가능성이 없진 않구나' 1%라도 생각하게 하는 좋은 전환점이 되었다.

 

아래는 실제 내 발표자료 캡쳐본이다.

 

ps. 데이터는 이곳에서 구했습니다.

https://www.kaggle.com/datasets/olistbr/brazilian-ecommerce

 

Brazilian E-Commerce Public Dataset by Olist

100,000 Orders with product, customer and reviews info

www.kaggle.com

 

반응형
반응형

[📊 데이터 분석가로 살아가기] - 국비 지원 교육 4주차 후기 - 크롤링(crawling), 스크래핑(scraping), sql, DB - 비전공자 데이터 분석가로 거듭나기

 

국비 지원 교육 4주차 후기 - 크롤링(crawling), 스크래핑(scraping), sql, DB - 비전공자 데이터 분석가로

1주일에 한번은 포스팅을 하려고 했으나, 그 동안 살인적인 스케쥴과 첫 번째 프로젝트 준비로 하루가 어떻게 가는지 모르고 살고 있다. 지금도 여전히 살인적인 커리큘럼과 스케쥴 속에서 허덕

happyanthony.tistory.com


지난 주 수요일 두번째 프로젝트를 마치고 바로 설 연휴에 돌입했다. 

덕분에 포스팅이 좀 (많이) 늦어졌지만 사실 설 연휴는 핑계고 앞선 프로젝트 발표 준비에 또 한번 모든 에너지를 탕진했다.

지난 주 내 모습

 

오늘은 또 한번 불태웠던 '프로젝트'에 대한 얘기를 해보려고 한다.

데이터 분석, 인공지능, 개발자 교육 등등 수 많은 국비 코스들이 교육기관별로 또 강사별로 저마다의 커리큘럼을 자랑한다.

특히 약 3개월 이상 넘어가는 과정의 경우엔 대체로 프로젝트가 포함되어 있는 듯 하다.

 

아무튼 이 프로젝트라는 것은 궁극적으로 포트폴리오(Portfolio)[각주:1]를 만들기 위함인데,

이 데이터 분석 프로젝트라는 것이 생각보다 녹록치가 않다...

심지어 주제도 자율, 데이터도 자율, 돈 주고 결과 내놓으라고 괴롭히는 사람도 없는데도 말이다.

물론 처음 접하는 교육생 입장에서 당연히 어렵고 노답인 게 어쩌면 당연하다.

그런데 답이 보이지 않는 곳을 향해 나를 밀어붙이다 보니 이런 생각이 들었다.

 

"이렇게 모든 조건이 여유로운 상태에서도 이렇게 갈피를 못잡겠는데, 복잡계인 현업은 대체 어떤 곳일까...?"

이번 주 내 모습

이런 궁금증에 기인해 최근 도서관에서 눈에 띈 책이 있었다.

책을 읽고나니 확실히 가려운 부분이 시원해지기는 했다.

그러나 책을 읽고 알게 된 현실들이 포기해야 할 충분한 이유가 되어주지는 못했다.

(다행이라고 생각한다.)

[📝 3분 독후감(Book Report in 3 mins)] - 📚 3분 책 리뷰 - "분석 전문가가 말하는 빅데이터"

 

📚 3분 책 리뷰 - "분석 전문가가 말하는 빅데이터"

1. 평점 5/5점 (⭐️⭐️⭐️⭐️⭐️) "Hidden Gem!" 2. 이런 책이었다. '데이터 분석'이라는 분야에 관심을 갖고 있거나 데이터 분석가가 되기 위해 실제로 준비를 하고 있는 예비 분석가들이 막연히

happyanthony.tistory.com

빅데이터 분석 현업이 궁금하다면 위의 책을 읽어보시기를 추천드린다.


본론으로 돌아와서,

내가 프로젝트 발표들을 준비하며 겪은 실제 썰들을 풀어보겠다.

나는 최초에 프로젝트 주제를 선정할 때,

이미 누군가 수집해 놓은 내부 데이터(주로 정부가 제공하는 오픈 데이터)를 다루기 보다는

스스로 데이터 수집까지 진행시켜 직접 해당되는

도메인(업계)의 비즈니스 인사이트까지 연결해보고자 하는 야망을 품었다.

 

그리하여 내부 데이터가 아닌 외부 데이터 수집에 포커스를 맞추고

'특정 여행 토탈 플랫폼'의 숙박업소별 리뷰 데이터를 수집하기 시작했다.

그러나, 눈으로 보고 머릿 속으로 상상했던 것 과는 달리 이 웹사이트의 구조(HTML)와 작동원리(Javascript)가 

초행자에겐 상당히 복잡해 각 숙소들의 리뷰데이터를 자동으로 수집하는 코드를 작성하면서 많은 시행착오를 겪었다.

돼도 지랄 안 돼도 지랄

3주 전에 처음 수행한 데이터 수집 프로젝트 발표에서는

발표 당일 아침까지 겨우 쥐어짠 숙소 1개의 리뷰 데이터 2천개 가량만 가지고 발표해야 했다.

데이터 수집 코드 개발에 너무 많은 시간을 쏟은 나머지 프로젝트를 위해 준비해야 할

필수문서(워킹코드 함수화 정보가 담긴 py 패키지 파일과 함수의 사용법을 서술하는 docstring) 뿐만 아니라

발표 자료 또한 만들어 내기에 급급했다.

결국 예상대로 나의 발표는 그다지 매력적이지 못했다.

우리 강사님이랑 이미지 비슷한데..?

발표를 마치고 속으로

"다음을 기약하자. 아직 2번의 프로젝트 발표가 남았다."

하며 다짐하고 자리로 돌아왔던 기억이 남는다.

 

그리고 지난주 수요일, 두번째 발표를 했다.

그러나 이번에도 강사님의 피드백이 크게 좋아지지 않았다.

현실이었다. 받아들여야 했다.

 

이번 프로젝트 발표의 실패 요인은 과연 무엇이었는가?

이번에는 준비했던 발표 자체가 가장 큰 문제였다.

왜냐하면 10분이라는 발표시간 동안 DB 구축과 SQL 데이터 분석에 대해 중점을 두고 발표했었어야 했는데

시간관리를 제대로 하지 못한 탓에 중요하지 않은 데이터 분석 과정 부분에 시간을 쏟아버려서였다.

 

두번째 프로젝트(DB구축 및 SQL 데이터 분석)을 수행하면서는

첫번째 발표에서 미흡했던 데이터 수집 코드와 제출 파일 등 산출물(Output) 준비에 만전을 기했다.

심지어 시간관리까지 한 덕분에 발표까지 연습할 정도였다.

여전히 준비 과정은 힘이 부치는 과정이었지만

앞서 이미 한번 겪어봐서 그런지 담담히 받아들이며 준비하는 내 모습에 흠칫 놀랐던 내가 기억난다.

어떻게든 꾸역꾸역 되긴 되더라

강사님의 피드백은 역시나 가혹했다.

사실 우리 강사님은 프로젝트와 발표 검증에 있어서는 칭찬으로 양념치지 않는 스타일이라

굉장히 엄격하고 칭찬 받는 사람은 1~2명에 꼽히긴 한다만.

이게 혹평도 계속 박히니 처음에는 부끄러움에 몸둘 바를 모르다가

이제는 차라리 더 혹평해줬으면 하는... 그런 변태같은 마음까지 생기더라.

(남들 앞에 서는 걸 즐기는 건지 남들한테 욕 먹는 걸 즐기는 건지 그것까진 아직 잘 모르겠다.)

 

결국,

첫번째 프로젝트도 불만족.

두번째 프로젝트도 불만족.

이제 마지막 발표가 2주 뒤에 있을 예정이다.

과연 마지막 프로젝트에서는 가슴이 웅장해지는 발표를 해낼 수 있을까?

두 번의 프로젝트를 준비하면서 점차 개선하고 보완해 나갔던 것처럼 이번에도 그럴 것이라 믿는다.

 

  1. 취업시장에서 포트폴리오는 '프로젝트 기반의 직무 관련 주요 경험 및 경력을 어필하기 위한 문서꾸러미' 정도라고 할 수 있다. [본문으로]
반응형
반응형

<분석전문가가 말하는 빅데이터>

1. 평점

5/5점 (⭐️⭐️⭐️⭐️⭐️)
"Hidden Gem!"


2. 이런 책이었다.

'데이터 분석'이라는 분야에 관심을 갖고 있거나 데이터 분석가가 되기 위해 실제로 준비를 하고 있는 예비 분석가들이 
막연히 가지고 있는 '데이터 분석'에 대한 환상을 깨고 현실을 들여다 볼 수 있는 기회를 제공한다.


3. 후기

쉽게 읽히는 책이다.

데이터 분석에 관한 개론서나 개념서가 아니라 
시간만 넉넉하면 하루만에 완독도 가능하다.

2015년에 출간돼 거의 10년이 되어가는 책이지만
사람이 회사에서 실제 업무를 하는 이야기를 하는 책이라
3년 뒤에 읽어도 현실적인 이야기들 뿐이다.
(단,🤖AI로 데이터 분석 인력이 모두 대체되지 않는다면?)

데이터 분석에 관심이 있지만
실제로 현장에서 어떤 식으로 업무를 하는지 궁금하다면 읽어보기를 추천한다.


4. 기억에 남는 메시지

  • 안타깝게도 데이터 관련 프로젝트는 성공 케이스보다 실패 케이스가 많은 것이 현실이다.
  • 데이터 분석 시간보다 데이터 전처리(원본 데이터 가공)에 시간이 훨씬 많이 걸려 실제 분석에 쓸 수 있는 시간이 많지 않다.
  • 데이터의 양이 많다고 능사가 아니다! 쓸만한 데이터는 손에 꼽힌다.
  • 고객사 측 데이터 분석 프로젝트 담당자 혹은 DB를 관리하는 IT부서가 프로젝트에 임하는 태도에 따라 프로젝트 성패가 갈린다.
  • '데이터 분석'이라는 표현에 보통 사람들과 분석전문가 사이에 큰 괴리가 있다. 보통 사람들이 생각하는 분석은 '사칙연산에 기반한 세상'이고 분석전문가들이 생각하는 분석은 '함수와 확률에 근거한 다차원 세상'이다.
  • 다시 말하면 눈에 보이는 것 vs. 눈에 보이지 않는 것을 분석한다는 차이가 있다.
반응형
반응형

1주일에 한번은 포스팅을 하려고 했으나, 그 동안 살인적인 스케쥴과 첫 번째 프로젝트 준비로 하루가 어떻게 가는지 모르고 살고 있다.

지금도 여전히 살인적인 커리큘럼과 스케쥴 속에서 허덕이며 살고 있어 느낀 점 위주로 적어보고자 한다.

여기저기서 요즘 빅데이터니 데이터 분석이니 수 많은 광고와 교육 과정들이 있는 걸로 알고 있는데 관심있으신 분들께서는 모쪼록 이 길을 택하시는 데 있어 도움이 되길 바랄 뿐이다.

[📊 데이터 분석가로 살아가기] - 국비 지원 교육 2주차 후기 - 파이썬(Python) - 비전공자 데이터 분석가로 거듭나기

 

국비 지원 교육 2주차 후기 - 파이썬(Python) - 비전공자 데이터 분석가로 거듭나기

지난 번 '비전공자 데이터 분석가로 거듭나기'의 첫 번째 글을 올리고 두 번째로 어떤 글을 올릴지 나름 고민을 해봤다. [📊 데이터 분석가로 살아가기] - 첫 삽 뜨기 - 파이썬(Python) - 비전공자

happyanthony.tistory.com

 

"교육 시작한지 이제 1개월째 되는 날이다..."

(!) 이 포스팅의 핵심 메시지 - 

처음 1개월은 모두에게 이 교육을 계속 받을 수 있을지 없을지 fit을 확인해 보는 수습기간과도 같다.
(회사의 3개월 수습기간 같은 거랄까)

국비지원의 경우 2주 안에 수강을 포기하면 어떤 불이익도 없고 다른 교육을 받는 데에도 지장이 없다.

그러므로 2주동안 수업을 들으면서
1) 본인 스스로 '내가 지금 수업을 얼마나 이해하고 있고 이해할 수 있는 능력이 어느정도인지?'를 꼭 파악해야한다.
2) 본인의 간절함과 여유를 따져봐야한다.
(*간절함: 이 교육을 따라가기 위해 수업시간 외에 시간과 에너지를 투자할 의지가 얼마나 있는지?)
(*여유: 수업 이외에 따로 시간과 에너지를 할애할 수 있는지 여건 자체가 받쳐주는지?)

덧붙여, 비전공자들 중에서도 공학(이과)계열 교육생들은 문과계열 교육생들에 비해 상대적으로 수업을 원활하게 따라간다. 나와 같은 문과계열 교육생이라면 교육을 이해하고 따라가기 위해 더 많은 간절함과 여유가 필요하다.

교육에 들어오는 것은 쉬운데 수료하는 것은 아무나 하는 것이 아니라는 걸 깨닫게 될 것이다.
수강포기 한다고 세상이 무너지지는 않는다. 어쩌면 빨리 그만두는 것이 본인을 위해 옳은 선택일 수도 있다.

나는 간절함과 여유가 있다. 그럼에도 불구하고 약한 마음 먹으면 바로 수강 포기할 수도 있을 것 같을 정도이다... 

 

우리 교육 기수는 처음 13명으로 시작해서 지금은 8명만 남았다. 불과 3주가 지나지 않았을 때 40%가 그만뒀다는 얘기다.

잘 모르고 하는 소리지만 실무경력 20년이 넘는 교수님께서 현업 스타일에 맞춰 스파르타로 교육시키기 때문이 아닐까.

가혹한 언행을 한다든가 하는 것은 아니지만 강사님 스스로 우리들의 현재 실력보다는 현업과 실무에 맞는 교육을 하려고 하여 교육생들 입장에서는 여간 고된 일이 아니다 이 말이다.

 

4개월짜리 데이터 분석 파이썬 코딩을 2주만에 마치고 크롤링과 스크래핑 파이썬 코딩을 1주일 만에 마쳤다.

그리고 우리가 배운 내용을 바탕으로 최종적으로 데이터 분석을 해보기 위해

무엇을 분석할지 그 주제를 찾는 것이 총 3회에 걸친 프로젝트의 시작이었다.

데이터 분석을 위해 어떤 데이터를 수집할 지에 앞서,

특정 문제에 대해 도움이 되는 결과를 낼 수 있는 데이터 분석 과제를 세우는 것이 첫 단추를 꿰는 일이었다.

 

솔직히 이 부분에서 정말 많은 고배를 마셨다.

왜냐하면 우리의 교수님은 단순히 한 학기를 수강하는 대학생 수준으로 프로젝트 준비를 하는 것이 아니라

본인들의 실제 프로젝트 자료를 들고 현업에 있는 사람들에게 발표했을 때,

그 사람들이 관심을 갖고 보게 할만한 주제를 선택하길 원했기 때문이다.

교수님의 기준이 뚜렷하다 보니 주제를 거절(reject) 당하는 일은 부지기수였고,

실제로 현실세계에서 어떤 문제를 찾고 그것을 데이터 분석으로 검증해 볼 수 있느냐를 파악하는 것조차 너무나 어려운 일이었다.

첫 발표까지 주어진 기간은 6일 남짓이었지만 주제를 선정하기 위해 오랜 시간 리서치를 하다보니 결국 실제 데이터 수집을 설계하는 시간과 실제 데이터를 수집하는 시간이 매우 촉박했다.

거기다가 데이터를 수집한 것으로 끝이 아니라 이 '데이터 수집'을 프로젝트의 일부분으로 보고 발표자료를 만들어 발표까지 해야했다.

이를 준비하기 위해 마지막 3일 동안은 4시간, 2시간, 2시간을 자고 준비했다....

"레알루다가요"

그 여파로 지금 이렇게 감기 몸살을 앓고 있는건지 모르겠지만... 아무튼 과제 발표 또한 녹록치 않았다.

나는 특정 글로벌 숙박 플랫폼의 서울 시내 숙박업체에 달린 모른 리뷰 데이터를 스크래핑 하는 것이 데이터 수집 프로젝트 목표였다.

숙박 플랫폼에서 사용자의 결제를 부추기기 위해 선별된 평점이나 리뷰 말고, 실제 고객들이 남긴 모든 리뷰 데이터를 수집해 장,단점을 분석해보고자 했다.

그리고 분석된 데이터를 가지고 숙박 업체를 대상으로 장, 단점 및 컨설팅 데이터로 제시하고자 했고

또한 숙박을 알아보는 고객들에게는 긍정적으로 선별된 리뷰가 아니라 장, 단점을 객관적으로 따져볼 수 있는 리뷰 데이터를 제공하여 고객의 합리적 소비를 지원하고자 했다.

그러나 발표 후, 교수님께서 누구나 할 수 있는 주제라며 이 주제를 특별하게 만들기 위해서는 차별점이 있어야 한다는 피드백을 받았다....

"그게 가능하냐고..."

 

어찌저찌 지옥 같았던 첫번째 발표를 마치고 잠시 쉴 틈 따위는 없었다.

이 교육 갈 길이 천리 같아서 정신을 바짝 차려야한다.

012345
SQL DB 설계 전 필수코스인 ERD(엔터티-관계 모델 다이어그램) 연습

요즘에는 SQL과 DB설계에 대해 배우고 있다. 이것을 배워야 앞으로 우리가 수집한 데이터를 DB에 쌓고 이를 바탕으로 데이터 분석을 할 수 있기 때문이다.

SQL은 나름 신경 써서 배우고 있다.

왜냐하면 데이터 분석이나 데이터 사이언스 직군이 아니더라도 보통의 근무자들이 모두 활용할 줄 알면 좋은 실무 스킬이기 때문이다.

처음 배우고 있고 점점 복잡해지고 있지만 논리적인 접근을 할 수 있다면 문제가 쉽게 풀리기도 한다.

 

[📊 데이터 분석가로 살아가기] - 국비 지원 교육 6주차 후기 - 데이터베이스(DB) 구축, SQL 데이터 분석 프로젝트 후기 - 비전공자 데이터 분석가로 거듭나기

 

국비 지원 교육 6주차 후기 - 데이터베이스(DB) 구축, SQL 데이터 분석 프로젝트 후기 - 비전공자 데

지난 주 수요일 두번째 프로젝트를 마치고 바로 설 연휴에 돌입했다. 덕분에 포스팅이 좀 (많이) 늦어졌지만 사실 설 연휴는 핑계고 앞선 프로젝트 발표 준비에 또 한번 모든 에너지를 탕진했다.

happyanthony.tistory.com

 

반응형
반응형

지난 번 '비전공자 데이터 분석가로 거듭나기'의 첫 번째 글을 올리고 두 번째로 어떤 글을 올릴지 나름 고민을 해봤다.

[📊 데이터 분석가로 살아가기] - 첫 삽 뜨기 - 파이썬(Python) - 비전공자 데이터 분석가로 거듭나기

 

첫 삽 뜨기 - 파이썬(Python) - 비전공자 데이터 분석가로 거듭나기

아마 모든 비전공자들이 학습을 시작하기 전에 같은 고민을 하리라 생각한다. 나 역시 마찬가지였다. "내가 과연 데이터 분석이라는 것을 할 수 있을까? 전공자들이 있는데 이걸 배운다고 내가

happyanthony.tistory.com

원래는 데이터 분석, 파이썬 학습을 위한 내용 위주로 정리해서 올리려고 했었는데 수업을 듣다보니

애초 계획대로 공부한 내용을 컨텐츠로 정리해서 올리는 것이 과연 누구를, 무엇을 위한 일인가? 하는 생각을 하게 됐다.

왜냐하면 전공자, 비전공자, 분석가, 본격 개발자 등 너나할 것 없이 수 많은 사람들이 양질의 글을 올리기 때문이다.

거기에 얹어서 챗GPT까지 쓰면 내 기준 솔까말 블로그까지 안 봐도 그만이었다.

"챗GPT가 왕입니다."

 

챗GPT와 프로그래머들의 빠방한 학습 자료들과 경쟁하는 방향으로 가면

사실상 이 블로그는 나만을 위한 연습장 밖에 되지 않을 것 같다는 생각이 들었다.

 

이런 점에서 데이터 분석에 관심이 있는 나와 같은 비전공자 분들의 흥미를 끌만한 내용을 올려야만 살아남을 수 있겠단 생각이 든다.

(정말 살아남기 쉽지 않은 세상이다.)

데이터 분석에 관심이 있는 분들이라면 이미 궁금한 점이 수 백 가지는 될 것 같은데

이미 학습을 시작한 1인으로서 얘기해줄 수 있는 부분은 생생한 수업 후기가 아닐까?

그래서 이번엔 2주 간 수업을 받고난 뒤 느꼈던 점을 공유해보려고 한다.

"별로 안 길어요. 앉아보이소."

 

1) 수업 속도가 미쳤다.

저 안에 타고 있는 느낌

사람마다 천차만별이겠지만 내 기준으로는 살면서 이 정도로 강도 높은 수업은 거의 최초이다.

머리가 팽팽 돈다. 가끔 식은땀도 난다.

그도 그럴 것이 컴퓨터공학과에서 한 학기(15주)에 배울 한 과목 분량을 2주에 걸쳐 핵심만 짚어가면서 진도를 빼기 때문이다.

수업은 매일 아침 9시부터 저녁 6시까지 직접 교육기관에 출석을 하는 대면 방식이다.

쉬는시간, 점심시간, Q&A를 포함한 자습시간을 제외하면 하루 6시간 정도 진도를 나간다.

6시간 가량 100%에 가깝게 집중을 하는 나날을 보내다 보면 수업이 끝나고 머리가 아프다 못해 뇌가 저린 느낌까지 온다.

(잠시 집중이 느슨해지면 수업 흐름을 놓치게 된다. 그러면 그때부터 그 다음을 이해하지 못하고 따라가기에 급급한 순간들이 온다.)

정신줄 놓으면 Game Over

 

사실 교재를 찬찬히 뜯어보면 이해하는 것은 아주 어렵지 않다.

그런데 내가 수강 중인 수업에서는 이 기본기를 배워 아득히 높은 수준의 예제를 다룬다.

그 정도로 건너뛰고 실전에 가까운 수준의 실력을 요구한다는 말이다. (이 실전이라는 것도 사실 비전공자 교육생 기준임)

이 부분이 사실 비전공자 입장에서는 교육을 받기에 앞서 가장 부담되는 부분일 것이다.

이 느낌을 버틸 수 있을지 그리고 나아가 이겨내고 적응할 수 있는지가 교육을 수료하기 위한 기본 소양인 것 같다.

"붓칠을 알려드렸으니 당신은 이제 이 그림을 그릴 수 있습니다. 참 쉽죠?"

 

 

2) 현타가 종종 온다.

2주 동안 수업을 들으면서 두 번의 현타를 맛봤다.

첫 번째 현타는 교재를 70% 쯤 배웠을 때 뜬금없이 받았던 퀴즈였다.

이 퀴즈는 우리가 실생활에서 흔히 볼 수 있는 전자기기의 한 계산 부분을 프로그래밍으로 구현하는 것이었는데,

지금까지 수업에서 들었던 내용 중 필요한 부분을 응용해서 믹스하는 것이 핵심이었다.

퀴즈는 항상 실행 결과 화면과 함께 주어졌고 그 프로그래밍 과정은 지워져 있었다.

강사님은 실행 결과를 도출하는 논리에는 정해진 방법이 사실 없다고 했지만 

나는 실행 결과와 같은 화면만 출력하는 껍데기 프로그래밍을 했지 논리적인 로직(Logic)을 구현하지 못했다.

이것이 첫 번째 현타였다. 이걸 내가 할 수 있는게 맞나..?

"와... 그냥 와..."

 

두 번째 현타는 그 며칠 뒤 교재 한권을 떼고 최종 테스트를 봤을 때였다.

최종 테스트 문제가 주어졌을 때, 퀴즈 수준의 문제들이었지만 생각보다 문제 자체가 생소하게 느껴지지는 않았다. 

아마 퀴즈 이후 수업에서 쭉 퀴즈 수준의 예제를 다뤄와서 그런 것 같다.

그러나 여전히 문제를 직접 해결해가는 경험이 부족해 코딩은 뒤로 하고, 어떻게 문제를 풀지 로직을 설계하는 것부터 깜깜했다.

"그래도 나름 2주동안 수업에 진심 성실히 임했고 수업을 마치고 복습과 예습도 어느 정도 해왔는데 나는 소질이 없는건가?"

점점 나의 소질, 지능을 스스로 검토하는 시간에 사로잡혀 며칠을 보냈다.

"가능한 거냐고 이게"

 

내가 듣는 수업은 교육기간이 180일 이상이라 수업 시작 후 2주 내에 취소해야 추후 다른 국비지원 교육을 받을 때 페널티가 없다.

테스트 이후 거의 반쯤 정신을 놓고 이 길로 계속 가야할지 자신이 없어지고 있었는데

딱 2주를 채우는 날, 강사님과 면담할 차례가 되었고 내가 가지고 있는 생각과 느낌을 모두 얘기했다.

강사님은 수업 때는 굉장히 칼 같았지만 면담에서는 의외로 너그럽고 격려하는 이야기를 많이 하셨다.

강사님 왈, 이번 테스트에서 좌절과 충격을 받는 것은 너무나도 당연하고 나는 사실 그럴 의도로 테스트를 한 것이다.

위로가 될진 모르겠지만 당신만 그런 것이 아니고 대다수의 답안은 다 비슷한 수준이었다.

그나마 문제를 비벼 본 사람들은 전공자, 전직 프로그래머, 통계학과 출신 정도였다.

그 말을 들으니 나 혼자만 풀지 못했다는 생각에서 조금 자유로워질 수 있었고 계속 나아가기로 마음먹는 데에 큰 도움이 됐다.

 

수업을 듣고 문제를 풀다보면 보이지 않는 벽에 자주 마주하게 되는 게 이쪽 분야인 것 같다.

그래서 이 부분도 숙명으로 받아들이고 계속 버틸 수 있는지가 또 다른 기본 소양인 것 같다.

그나마 불행 중 다행인 것은 어쨌든 프로그래밍에는 답이 있긴 있다는 것이다..!

(복잡한 사회 문제나 수 많은 사람들의 이해관계와 정치가 뒤범벅된 회사 일에 비하면 어쩌면 단순하지 않을까..?)

 

3) 높은 수준의 수강생들.

수강을 원하는 수강생들 만큼이나 국비 지원 교육기관도 넘쳐난다.

옥석을 가려내는 것이 중요한데, 내 생각엔 내가 다니는 교육기관은 수강생을 소수정예로 모집한다.

그렇다보니 교육기관 입장에서는 떡잎을 보고 사람을 가려 받으려는 것 같았다. 필기 테스트에 면접까지 봤으니 말이다.

우리 기수는 지금 12명이 수업을 듣고 있다.

나는 혼자 앉아서 듣는 사람 중 한 명이고 수업 따라가기가 바빠 수강생들이 어떤 사람들인지 알 겨를이 없었다.

최근 들어 3개의 그룹 대형으로 앉아 수업을 진행하고 있는데 오다 가다 말을 걸어주시는 수강생 한 분이 이야기를 해주셨다.

알고 보니 수강생 중 1/3은 관련 전공의 학생들이었고 나머지는 전부 사회인들이었다.

어떻게 이 수업을 듣게 되었는지는 아직 모르지만 최소한 다들 사회에서 무언가를 하다가 왔던 사람들인 것은 분명했다.

이렇게 사람을 가려서 받는 교육기관도 있는가 하면 정 반대로 양으로 밀어붙이는 교육기관도 있었다.

더보기

<이상한 교육기관 썰>

 

지금은 교육기관 이름도 기억이 잘 나질 않는데 이런 식이었다.

알아보던 코스의 교육 시작이 얼마 남지 않은 상태에서 교육 과정과 관련된 문의를 위해 양식을 써서 제출하였다.

그런데 문의에 대한 답변이나 상담이 아니라 일단 교육 시작 일정에 맞추어 나를 버스에 태운 것이다.

(교육과정에 참가하는 것을 흔히 버스에 탄다고 표현하더라.)

그리고 곧 OT가 있으니 일단 OT를 들어보라고 일방적으로 공지하더니

줌 미팅으로 앞으로 수업이 어떻게 진행될 것인지 수강생들을 어떻게 관리할 것인지를 설명했다.

 

그런데 조금 특이한 게 모든 수업을 비대면으로 하는데 컴퓨터에 카메라를 켜놓고

수업 중이든 수업이 끝나고 필수 자습을 하는 중이든 할 것 없이 매일 밤 10시까지 모니터링을 한다는 것이다.

말 그대로 스파르타식으로 하겠다는 컨셉인 것 같은데 OT가 끝나고 Q&A 세션에서

교육 컨셉에 넌센스를 느낀 사람들이 채팅으로 교육과정이 너무 강압적이고 일방적이지 않냐는 글들을 올리던 모습이 기억난다.

 

그런데 그 코스에 등록한 사람이 100명 가까이 된다는 것도 굉장한 아이러니였다.

아무튼 코스를 고르는 입장에서 일단 비대면으로 수업을 진행한다는 것 자체가 나의 조건과 맞지 않았지만 그와 별개로

카메라를 풀타임으로 켜놓고 모니터링 당한다는 컨셉도 조금 웃기다고 생각해 바로 나를 빼달라고 요청했다.

 

내 추측에는 요즘 '데이터 분석'이라는 키워드가 핫하고 정부에서 지원금을 많이 뿌리기 때문에

온라인 코딩 교육 업체들이 비대면으로 사람들을 대량으로 긁어모은 다음

떨어져 나가는 사람들은 버리고 수료하는 사람들을 최대한 많이 남겨

받을 수 있는 정부 지원금을 최대화하려는 전략같아 보였다. (최대한 많이 모아서 살아남는 사람의 물량 자체를 높이려는 전략?)

 

그러니까 한 마디로 인재 양성이 포인트가 아니라 물량으로 돈을 땡기려는 장사꾼 마인드가 너무 보였다 이 말이다.

'인재 양성'이라는 말이 사실 교육기관 입장에서는 비즈니스를 위한 포장지 같은 메시지이기는 하지만

상도덕 상 노골적인 허울 뿐이면 안된다고 생각한다.

웹캠 모니터링이 하루 12시간 이상 이루어지는 비대면 교육을 과연 몇 명이나 수료할 수 있을지 궁금하기는 하다.

 

지금까지 2주 동안 수업을 들으면서 머리에 남는 것은 크게 위의 3가지였다.

비전공자이지만 데이터 분석에 관심이 있으신 분들은 이 글이 도움이 되었으면 좋겠고

따로 궁금한 점은 댓글을 남겨주시면 아는 선에서 댓글을 달아드릴 생각이니 많은 질문 남겨 달라우.

 

[📊 데이터 분석가로 살아가기] - 국비 지원 교육 4주차 후기 - 크롤링(crawling), 스크래핑(scraping), sql, DB - 비전공자 데이터 분석가로 거듭나기

 

국비 지원 교육 4주차 후기 - 크롤링(crawling), 스크래핑(scraping), sql, DB - 비전공자 데이터 분석가로

1주일에 한번은 포스팅을 하려고 했으나, 그 동안 살인적인 스케쥴과 첫 번째 프로젝트 준비로 하루가 어떻게 가는지 모르고 살고 있다. 지금도 여전히 살인적인 커리큘럼과 스케쥴 속에서 허덕

happyanthony.tistory.com

 

반응형

+ Recent posts