반응형

[📊 데이터 분석가로 살아가기] - 국비 지원 교육 4주차 후기 - 크롤링(crawling), 스크래핑(scraping), sql, DB - 비전공자 데이터 분석가로 거듭나기

 

국비 지원 교육 4주차 후기 - 크롤링(crawling), 스크래핑(scraping), sql, DB - 비전공자 데이터 분석가로

1주일에 한번은 포스팅을 하려고 했으나, 그 동안 살인적인 스케쥴과 첫 번째 프로젝트 준비로 하루가 어떻게 가는지 모르고 살고 있다. 지금도 여전히 살인적인 커리큘럼과 스케쥴 속에서 허덕

happyanthony.tistory.com


지난 주 수요일 두번째 프로젝트를 마치고 바로 설 연휴에 돌입했다. 

덕분에 포스팅이 좀 (많이) 늦어졌지만 사실 설 연휴는 핑계고 앞선 프로젝트 발표 준비에 또 한번 모든 에너지를 탕진했다.

지난 주 내 모습

 

오늘은 또 한번 불태웠던 '프로젝트'에 대한 얘기를 해보려고 한다.

데이터 분석, 인공지능, 개발자 교육 등등 수 많은 국비 코스들이 교육기관별로 또 강사별로 저마다의 커리큘럼을 자랑한다.

특히 약 3개월 이상 넘어가는 과정의 경우엔 대체로 프로젝트가 포함되어 있는 듯 하다.

 

아무튼 이 프로젝트라는 것은 궁극적으로 포트폴리오(Portfolio)[각주:1]를 만들기 위함인데,

이 데이터 분석 프로젝트라는 것이 생각보다 녹록치가 않다...

심지어 주제도 자율, 데이터도 자율, 돈 주고 결과 내놓으라고 괴롭히는 사람도 없는데도 말이다.

물론 처음 접하는 교육생 입장에서 당연히 어렵고 노답인 게 어쩌면 당연하다.

그런데 답이 보이지 않는 곳을 향해 나를 밀어붙이다 보니 이런 생각이 들었다.

 

"이렇게 모든 조건이 여유로운 상태에서도 이렇게 갈피를 못잡겠는데, 복잡계인 현업은 대체 어떤 곳일까...?"

이번 주 내 모습

이런 궁금증에 기인해 최근 도서관에서 눈에 띈 책이 있었다.

책을 읽고나니 확실히 가려운 부분이 시원해지기는 했다.

그러나 책을 읽고 알게 된 현실들이 포기해야 할 충분한 이유가 되어주지는 못했다.

(다행이라고 생각한다.)

[📝 3분 독후감(Book Report in 3 mins)] - 📚 3분 책 리뷰 - "분석 전문가가 말하는 빅데이터"

 

📚 3분 책 리뷰 - "분석 전문가가 말하는 빅데이터"

1. 평점 5/5점 (⭐️⭐️⭐️⭐️⭐️) "Hidden Gem!" 2. 이런 책이었다. '데이터 분석'이라는 분야에 관심을 갖고 있거나 데이터 분석가가 되기 위해 실제로 준비를 하고 있는 예비 분석가들이 막연히

happyanthony.tistory.com

빅데이터 분석 현업이 궁금하다면 위의 책을 읽어보시기를 추천드린다.


본론으로 돌아와서,

내가 프로젝트 발표들을 준비하며 겪은 실제 썰들을 풀어보겠다.

나는 최초에 프로젝트 주제를 선정할 때,

이미 누군가 수집해 놓은 내부 데이터(주로 정부가 제공하는 오픈 데이터)를 다루기 보다는

스스로 데이터 수집까지 진행시켜 직접 해당되는

도메인(업계)의 비즈니스 인사이트까지 연결해보고자 하는 야망을 품었다.

 

그리하여 내부 데이터가 아닌 외부 데이터 수집에 포커스를 맞추고

'특정 여행 토탈 플랫폼'의 숙박업소별 리뷰 데이터를 수집하기 시작했다.

그러나, 눈으로 보고 머릿 속으로 상상했던 것 과는 달리 이 웹사이트의 구조(HTML)와 작동원리(Javascript)가 

초행자에겐 상당히 복잡해 각 숙소들의 리뷰데이터를 자동으로 수집하는 코드를 작성하면서 많은 시행착오를 겪었다.

돼도 지랄 안 돼도 지랄

3주 전에 처음 수행한 데이터 수집 프로젝트 발표에서는

발표 당일 아침까지 겨우 쥐어짠 숙소 1개의 리뷰 데이터 2천개 가량만 가지고 발표해야 했다.

데이터 수집 코드 개발에 너무 많은 시간을 쏟은 나머지 프로젝트를 위해 준비해야 할

필수문서(워킹코드 함수화 정보가 담긴 py 패키지 파일과 함수의 사용법을 서술하는 docstring) 뿐만 아니라

발표 자료 또한 만들어 내기에 급급했다.

결국 예상대로 나의 발표는 그다지 매력적이지 못했다.

우리 강사님이랑 이미지 비슷한데..?

발표를 마치고 속으로

"다음을 기약하자. 아직 2번의 프로젝트 발표가 남았다."

하며 다짐하고 자리로 돌아왔던 기억이 남는다.

 

그리고 지난주 수요일, 두번째 발표를 했다.

그러나 이번에도 강사님의 피드백이 크게 좋아지지 않았다.

현실이었다. 받아들여야 했다.

 

이번 프로젝트 발표의 실패 요인은 과연 무엇이었는가?

이번에는 준비했던 발표 자체가 가장 큰 문제였다.

왜냐하면 10분이라는 발표시간 동안 DB 구축과 SQL 데이터 분석에 대해 중점을 두고 발표했었어야 했는데

시간관리를 제대로 하지 못한 탓에 중요하지 않은 데이터 분석 과정 부분에 시간을 쏟아버려서였다.

 

두번째 프로젝트(DB구축 및 SQL 데이터 분석)을 수행하면서는

첫번째 발표에서 미흡했던 데이터 수집 코드와 제출 파일 등 산출물(Output) 준비에 만전을 기했다.

심지어 시간관리까지 한 덕분에 발표까지 연습할 정도였다.

여전히 준비 과정은 힘이 부치는 과정이었지만

앞서 이미 한번 겪어봐서 그런지 담담히 받아들이며 준비하는 내 모습에 흠칫 놀랐던 내가 기억난다.

어떻게든 꾸역꾸역 되긴 되더라

강사님의 피드백은 역시나 가혹했다.

사실 우리 강사님은 프로젝트와 발표 검증에 있어서는 칭찬으로 양념치지 않는 스타일이라

굉장히 엄격하고 칭찬 받는 사람은 1~2명에 꼽히긴 한다만.

이게 혹평도 계속 박히니 처음에는 부끄러움에 몸둘 바를 모르다가

이제는 차라리 더 혹평해줬으면 하는... 그런 변태같은 마음까지 생기더라.

(남들 앞에 서는 걸 즐기는 건지 남들한테 욕 먹는 걸 즐기는 건지 그것까진 아직 잘 모르겠다.)

 

결국,

첫번째 프로젝트도 불만족.

두번째 프로젝트도 불만족.

이제 마지막 발표가 2주 뒤에 있을 예정이다.

과연 마지막 프로젝트에서는 가슴이 웅장해지는 발표를 해낼 수 있을까?

두 번의 프로젝트를 준비하면서 점차 개선하고 보완해 나갔던 것처럼 이번에도 그럴 것이라 믿는다.

 

  1. 취업시장에서 포트폴리오는 '프로젝트 기반의 직무 관련 주요 경험 및 경력을 어필하기 위한 문서꾸러미' 정도라고 할 수 있다. [본문으로]
반응형

+ Recent posts