데이터는 결국 소비자의 심리가 반영된 기록임을 깨닫게 해주는 책이었다. 저자는 대학에서 소비자심리학을 공부하고 가르쳤던 사람이라 소비자심리에 대한 도예가 깊다. 그를 베이스로 오프라인 매장에서 자사 제품을 판매하는 유통소매업체의 데이터를 다루는 방법을 이야기한다. 제조유통을 전문으로 하는 기업에 근무하는 마케터가 읽는다면 더욱 와닿을 책이다.
3. 후기
이전에 읽었던 데이터 쓰기의 기술이 마음에 들어 고민하지 않고 바로 읽어보게 되었다. 데이터를 실제로 어떻게 분석하고 해석해야하는지 그 테크닉을 기대하고 읽었는데 오히려 소비자 심리에 대한 부분을 더 강조한다. 앞서 '데이터 쓰기의 기술'을 읽고 비슷한 방향으로 쓰여있을 것이란 내 기대와는 살짝 어긋났다. (그렇다고 좋지 않은 책이라는 것은 결코 아니다.)
4. 기억에 남는 메시지
데이터의 육하원칙
같은 연령, 같은 성별의 사람이 모두 같지는 않다. 이젠 'A'라는 한 명의 사람이 언제, 어디서, 무엇을, 어떻게 몇 번을 구매하는지 연결해서 보는 것이 더 의미 있는 시대가 되었다.
기업은 반드시 시간이 흘러 분석하고 싶은 것을 염두에 두고 데이터를 쌓아야 한다.
우산 때문에 소비를 안 한다고 하면 '당연한 소리 아니야?'라고 여길지도 모르겠다. 그러한 당연한 소리를 합리적으로 증명하는 것이 데이터 분석가가 할 일이라고 생각한다.
소비자의 맥락효과
단순한 평균 비교로 수많은 사람을 두 부류로 나눈 것은 경계해야 한다.사람을 어떤 조건에 따라 분류하는 것은, 특정 행동을 하는 사람들의 행동 원리를 이해하는 것과는 상당한 차이가 있다.
정확한 분석을 하려면 성별이나 나이에 대한 편견을 버리는 것이 필요하다.
데이터 없이는 기업이 성과를 낼 수 없는 시대가 되었음에도 데이터보다 더 중요한 것이 많은 회사가 있다.
오프라인 매장이 있는 회사 중에서도 데이터가 필수인 조직과 그렇지 않은 조직에서 데이터팀 팀원으로 일 할때, 체감하는 것들이 다를 수 있다.
'데이터 하는 사람은 데이터 있는 곳에 있어야 한다.'
데이터를 가진 회사는 앞으로 나아갈 추진기를 확보한 셈이다. 데이터를 통해 더 빠르게, 더 확실한 방법으로 나아갈 방법을 얻을 수 있다.
데이터는 의사 결정을 좀 더 논리적으로 할 수 있도록 돕는다.
데이터는 우리를 돕기 위해 있는 것이지 우리에게 틀렸다고 하는 존재가 아니다.
데이터는 철저히 설정한 목표 아래서만 가치를 가진다. 데이터 자체에 적개심을 가질 필요도, 필요성을 부정할 필요도 없다.
자신의 생각이 처음엔 완벽하지 않더라도 의논을 하거나 연구를 해서 구체화하려는 노력을 해야 한다. 결과를 상상하지 않는 사람과는 구체적인 과정에 대한 논의도 불가능하다.
분석에는 기본적인 숙성의 시간이 필요하다. 논리적으로 이 분석 결과와 저 분석 결과 간의 상충이 없는지, 더 깊이 쪼개보면 다른 결과가 나오지는 않는지 확인하는 과정이 필요하다.
보통 기업에는 의사 결정자들이 궁금해하는 것이 중요하다. 연구원이나 데이터 분석가는 그 궁금증을 빨리 해소해주는 역할을 하기도 한다.
어떤 경우에도 분석가 스스로 길을 잃어서는 안 된다. 스스로 데이터의 목적을 만들어내야만 한다.
하나의 분석을 끝내면 그것들을 모아 스토리로 만들어야 한다. 데이터 스토리를 만드는 과정을 '데이터 리터러시data literacy'라고 부르기도 한다.
5/5점 (⭐️⭐️⭐️⭐️⭐️) "찾았다... 소장용 실무 바이블!!" "뼈 있는 데이터 분석을 갈망하는 대한민국의 모든 마케터들에게 빛과 소금같은 책"
2. 이런 책이었다.
빅데이터와 데이터분석에 대해 무겁고 어려운 접근이 아니라, 지금 당장 마케팅을 해야하는 사람들이실용적으로 데이터 분석을 해보게 만드는 마법같은 책이었다.
3. 후기
이 책은 보통 남자 손 만한 사이즈(238p)의 책이다. 책도 가볍고 우리 주변의 현실을 바탕으로 쓴 책이라 출퇴근 시간 일주일만 투자해도 금방 읽을 수 있다.
결론부터 말하자면, 이 책은 내가 소장할 책이다. 나는 읽어보고 싶은 책을 사는 사람이 아니라 소장하고 싶은 책을 사는 편인데 그런 책 중에 하나였다. 이 실용서는 마케팅 데이터 분석을 하고자 하는 비전문가(사업자 혹은 직원)에게 강력히 추천할 수 있는 책이다. 아쉬운 점은 책 자체가 담고 있는 내용에 비해 포장이 덜 되어 수수해보인다는 점이다. 이 책은 조금 더 화려하게 포장하고 홍보해도 절대 마이너스가 되지 않는 속이 아주 단단하다.
이 책은 크게 4개의 챕터로 이루어져 있다. 1. 데이터 디자인 2. 데이터 스토리텔리 3. 데이터 기반 의사결정 4. 10가지 질문으로 살펴보는 데이터 쓰기의 기술
본인 전직 마케터로서, 마케팅 실용서라면 적지 않게 읽어왔다. 이 책이 다른 책들과 차별화 되었던 점은 챕터1과 챕터4였다.
챕터 1에서는 비즈니스 상황에서 어떤 문제를 해결하거나 목표를 이루기 위해 어떻게 질문을 해야하는지 그리고 그 질문을 어떻게 분석할 수 있는 형태로 구조화할 수 있는지에 대해 구체적인 방법을 제시한다. 사실 이런 질문들은 일을 하다보면 머릿 속에 하루에도 수십번 떠올랐다 사라지곤 한다. 그런 질문들을 놓치지 않고 분석할 수 있는 형태로 구체화하는 부분에서 감탄하지 않을 수 없었다.
두 번째로 챕터 4에서는 앞선 챕터에서 설명한 방법을 실제 비즈니스 상황에 접목하여 분석-인사이트-액션아이템 기획까지 실용 데이터 분석의 A to Z를 10가지 현실적인 케이스로 나누어 훈련시킨다.
더 설명하면 책이 재미없어지니 뭔가 해내야하는 사장님, 마케터, 데이터분석가라면 빠른 시일 내에 한번 쯤 읽어보시기를 추천한다. (솔직히 말하면 나만 알고싶음...🤫)
4. 기억에 남는 메시지
데이터를 어떻게 써야 할지 모르는 사람들에게 데이터로 생각하는 10가지 단계를 공유하는 것이 이 책의 목적이다.
우리가 모르는 것은 통계나 기술 자체일 수도 있지만, 그 활용에 대한 것이 더욱 문제다.
이제 중요한 것은 데이터로 어떤 의사결정을 하느냐다. 이 변화를 위한 핵심을 잡하내는 인력이 데이터 분석 역량을 가진 사람이라고 볼 수 있다.
분석을 시작하려면 질문이 많아야 한다. 질문은 아는 것과 모르는 것을 명확히 하고 모르는 부분을 채워가는 시작점이다.
생각과 질문이 정리되지 않은 사람은 아무리 많은 데이터가 있어도 답을 찾기 어렵다.
시간이 흐를수록 생각을 할 줄 아는 사람이 중요해질 것이다. 생각하는 사람만이 데이터에서 의미를 발견한다.
데이터가 많아지고 기술이 눈부시게 발달하는 가운데, 그 데이터 안에서 의미를 발견하는 것이 인간 고유의 역할이 될 것이다.
데이터로 생각한다는 것은 어려운 데이터를 분석할 수 있어야 한다는 의미가 아니다. 자신의 생각에 확신을 가질 수 있도록 데이터를 활용하고, 논리적으로 사고한다는 것에 더 가깝다.
'데이터 분석'이란 무엇인가에 대해 일반인들도 쉽게 그 개념과 현황을 캐치할 수 있도록 나이스지니데이타(NICE평가정보의 자회사)라는 빅데이터 컨설팅 기업에서 발간한 책이다.
3. 후기
요즘 핫한 '데이터 분석'이라는 게 뭐고 어떻게 하는 건지 궁금한 사람들이라면 grap-and-go 하기 좋은 책이다. 그만큼 쉽게 설명하고 그림이나 차트가 많아 가볍게 읽기에 좋았다.
본인에게 이 책에서의 수확은 한 가지였다. 요즘 데이터분석은 머신러닝이나 딥러닝이 거의 필수인데 이 책에서는 잘 해놓은 전처리가 머신러닝이나 딥러닝의 기교보다도, 올바른 전처리를 하는 것이 제작하려는 예측모델의 성능을 10% 이상 향상시킬 수 있다는 점이었다. (머신러닝과 딥러닝은 예측모델의 정확도를 높이는 것이 주 목적이고 이를 통해 드라마틱한 성능(정확도) 향상은 잘 이루어지지 않는다.)
4. 기억에 남는 메시지
실제 도메인 지식에 기반한 전처리는 훨씬 복잡하며 많은 시간이 요구되는 작업이다.
데이터 분석의 8할(80%)은 데이터 전처리에 소모된다.
데이터 분석 프로젝트를 수행하다보면 극적인 성능 향상이나 통찰력 있는 분석은 알고리즘의 선택도, 하이퍼 파라미터의 튜닝도 아닌 효율적인 전처리에서 나오는 경우가 많다.
알고리즘을 열심히 고민해서 1, 2%의 성능(예측모델의 정확도)을 올리는 것보다 도메인 지식에 기반해 효율적인 전처리를 진행할 때 10% 이상의 성능 향상을 가져오기도 한다.
다시 한번 강조하지만 도메인에 대한 충분한 지식이 우선이다.
업무 프로세스의 이해 없이는 딥러닝이든 머신러닝이든 그저 현실에 어떤 울림도 주기 힘든 숫자놀이일 뿐이다.
처음 1개월은 모두에게 이 교육을 계속 받을 수 있을지 없을지 fit을 확인해 보는 수습기간과도 같다. (회사의 3개월 수습기간 같은 거랄까)
국비지원의 경우 2주 안에 수강을 포기하면 어떤 불이익도 없고 다른 교육을 받는 데에도 지장이 없다.
그러므로 2주동안 수업을 들으면서 1) 본인 스스로 '내가 지금 수업을 얼마나 이해하고 있고 이해할 수 있는 능력이 어느정도인지?'를 꼭 파악해야한다. 2) 본인의 간절함과 여유를 따져봐야한다. (*간절함: 이 교육을 따라가기 위해 수업시간 외에 시간과 에너지를 투자할 의지가 얼마나 있는지?) (*여유: 수업 이외에 따로 시간과 에너지를 할애할 수 있는지 여건 자체가 받쳐주는지?)
덧붙여, 비전공자들 중에서도 공학(이과)계열 교육생들은 문과계열 교육생들에 비해 상대적으로 수업을 원활하게 따라간다. 나와 같은 문과계열 교육생이라면 교육을 이해하고 따라가기 위해 더 많은 간절함과 여유가 필요하다.
교육에 들어오는 것은 쉬운데 수료하는 것은 아무나 하는 것이 아니라는 걸 깨닫게 될 것이다. 수강포기 한다고 세상이 무너지지는 않는다. 어쩌면 빨리 그만두는 것이 본인을 위해 옳은 선택일 수도 있다.
나는 간절함과 여유가 있다. 그럼에도 불구하고 약한 마음 먹으면 바로 수강 포기할 수도 있을 것 같을 정도이다...
우리 교육 기수는 처음 13명으로 시작해서 지금은 8명만 남았다. 불과 3주가 지나지 않았을 때 40%가 그만뒀다는 얘기다.
잘 모르고 하는 소리지만 실무경력 20년이 넘는 교수님께서 현업 스타일에 맞춰 스파르타로 교육시키기 때문이 아닐까.
가혹한 언행을 한다든가 하는 것은 아니지만 강사님 스스로 우리들의 현재 실력보다는 현업과 실무에 맞는 교육을 하려고 하여 교육생들 입장에서는 여간 고된 일이 아니다 이 말이다.
4개월짜리 데이터 분석 파이썬 코딩을 2주만에 마치고 크롤링과 스크래핑 파이썬 코딩을 1주일 만에 마쳤다.
그리고 우리가 배운 내용을 바탕으로 최종적으로 데이터 분석을 해보기 위해
무엇을 분석할지 그 주제를 찾는 것이 총 3회에 걸친 프로젝트의 시작이었다.
데이터 분석을 위해 어떤 데이터를 수집할 지에 앞서,
특정 문제에 대해 도움이 되는 결과를 낼 수 있는 데이터 분석 과제를 세우는 것이 첫 단추를 꿰는 일이었다.
솔직히 이 부분에서 정말 많은 고배를 마셨다.
왜냐하면 우리의 교수님은 단순히 한 학기를 수강하는 대학생 수준으로 프로젝트 준비를 하는 것이 아니라
본인들의 실제 프로젝트 자료를 들고 현업에 있는 사람들에게 발표했을 때,
그 사람들이 관심을 갖고 보게 할만한 주제를 선택하길 원했기 때문이다.
교수님의 기준이 뚜렷하다 보니 주제를 거절(reject) 당하는 일은 부지기수였고,
실제로 현실세계에서 어떤 문제를 찾고 그것을 데이터 분석으로 검증해 볼 수 있느냐를 파악하는 것조차 너무나 어려운 일이었다.
첫 발표까지 주어진 기간은 6일 남짓이었지만 주제를 선정하기 위해 오랜 시간 리서치를 하다보니 결국 실제 데이터 수집을 설계하는 시간과 실제 데이터를 수집하는 시간이 매우 촉박했다.
거기다가 데이터를 수집한 것으로 끝이 아니라 이 '데이터 수집'을 프로젝트의 일부분으로 보고 발표자료를 만들어 발표까지 해야했다.
이를 준비하기 위해 마지막 3일 동안은 4시간, 2시간, 2시간을 자고 준비했다....
"레알루다가요"
그 여파로 지금 이렇게 감기 몸살을 앓고 있는건지 모르겠지만... 아무튼 과제 발표 또한 녹록치 않았다.
나는 특정 글로벌 숙박 플랫폼의 서울 시내 숙박업체에 달린 모른 리뷰 데이터를 스크래핑 하는 것이 데이터 수집 프로젝트 목표였다.
숙박 플랫폼에서 사용자의 결제를 부추기기 위해 선별된 평점이나 리뷰 말고, 실제 고객들이 남긴 모든 리뷰 데이터를 수집해 장,단점을 분석해보고자 했다.
그리고 분석된 데이터를 가지고 숙박 업체를 대상으로 장, 단점 및 컨설팅 데이터로 제시하고자 했고
또한 숙박을 알아보는 고객들에게는 긍정적으로 선별된 리뷰가 아니라 장, 단점을 객관적으로 따져볼 수 있는 리뷰 데이터를 제공하여 고객의 합리적 소비를 지원하고자 했다.
그러나 발표 후, 교수님께서 누구나 할 수 있는 주제라며 이 주제를 특별하게 만들기 위해서는 차별점이 있어야 한다는 피드백을 받았다....
"그게 가능하냐고..."
어찌저찌 지옥 같았던 첫번째 발표를 마치고 잠시 쉴 틈 따위는 없었다.
이 교육 갈 길이 천리 같아서 정신을 바짝 차려야한다.
012345
SQL DB 설계 전 필수코스인 ERD(엔터티-관계 모델 다이어그램) 연습
요즘에는 SQL과 DB설계에 대해 배우고 있다. 이것을 배워야 앞으로 우리가 수집한 데이터를 DB에 쌓고 이를 바탕으로 데이터 분석을 할 수 있기 때문이다.
SQL은 나름 신경 써서 배우고 있다.
왜냐하면 데이터 분석이나 데이터 사이언스 직군이 아니더라도 보통의 근무자들이 모두 활용할 줄 알면 좋은 실무 스킬이기 때문이다.
처음 배우고 있고 점점 복잡해지고 있지만 논리적인 접근을 할 수 있다면 문제가 쉽게 풀리기도 한다.