데이터 사이언스 컨설팅 은 무엇을 하는 업종인가요? 컨설팅 회사에 왜 데이터 사이언티스트가 필요한가요?
데이터 사이언스 컨설팅 업계에서 일한다고 말할 때 자주 받는 질문이다. 흔히 데이터 사이언티스트라고 하면 큰 Tech 회사에서 위처럼 폐인 같은 모습으로 열심히 데이터를 갈고 닦는 사람을 연상하기 때문에 이해가 되는 반응이다. 그리고 위와 같은 데이터 장인?이 되기 위해서는 방대한 양의 데이터가 반드시 필요한데, 자체 사업이 없는 컨설팅 회사에서 주기적으로 축적되는 데이터베이스가 존재하지 않는다. 그렇다면 컨설팅 업계의 데이터 사이언티스트는 무엇을 하는 존재들인가?
[Data Science가 주는 가치]
위 질문에 대답하기 위해서는 Data Science를 통해 창출할 수 있는 사업적 가치를 이해해야 한다. 필자가 생각하기에는 크게 두 가지 부분으로 나누어진다: Data Enablement과 Data Optimization.
Data Enablement은 데이터를 활용하기 위한 기초 기반을 다지고 Proof Of Concept (POC) 를 위한 기초 Modeling 작업을 포함한다. 의류를 파는 스타트업이 성공적으로 론칭하여 중소 기업으로 도약하고 있다고 가정하자. 이 때 데이터를 활용하여 각 고객 segment의 취향에 맞는 상품 개발 및 맞춤형 마케팅을 하는 것이 중요한데, 그것을 가능하게 하는 만드는 것이 data Enablement 프로젝트의 핵심이다. 데이터를 어디에 어떤식으로 저장하고, 어떤 보안 절차를 걸치며, 어느 정도의 detail까지 잡아낼 것인지를 정하는 것이 data science의 역할이다. 이 과정에 데이터의 가치를 증명하기 위한 POC 모델링 작업도 포함된다. 예를 들면, 고객의 주거지 정보를 기반으로 우편물 광고를 보내는 것이 효과적일 것이라는 가설을 증명하기 위해서, Prototype 통계 모델을 만들어서 특정 지역에 한하여 Pilot을 하는 것이다. 결과에 따라 데이터를 추가적으로 구매/저장할 것인지 정하고, 모델 활용을 확대할 것인지 정한다.
Data Optimization은 위에 설명한 데이터 관련 기초 기반이 있고 그 데이터를 활용해 어느정도 가치를 실현 중인 회사에서 집중하는 데이터 사이언스의 가치다. 예를 들면, 중견 기업에서 생산비용 관리하기 위해 수요 예측을 하는 모델을 활용하고 있다고 가정하자. 이 모델의 예측정확도를 80% 에서 95% 까지 끌어올리는 작업이 Data Optimization 속할 것이다. Data Enablement단계에서 개발한 여러가지 POC 모델들을 조금더 발전 시키는 작업도 Data Optimization 속한다.
[Data Enablement와 Data Optimization에 필요한 능력]
Data Optimization와 Data Enablement 프로젝트에 필요로 하는 능력도 조금 차이가 있다. 모델링을 해본 data scientist 라면 누구나 모델 정확도를 50%에서 80% 로 올리는 것이 90%에서 95% 올리는것 보다 훨씬 쉽다고 얘기할 것이다. 그렇기 때문에 Data Optimization 프로젝트에 일하는 데이터 사이언티스트는 통계/수학 방면의 능력이 더욱더 중요시 된다. 또한Data Optimization 에는 이미 존재하는 모델을 확장하는 프로젝트도 많기 때문에 현재 Operation에 효과적으로 녹여낼 수 있는 컴퓨터 공학쪽 능력도 중요하다.
반면 Data Enablement쪽에서는 무엇보다 Communication능력이 중요하다. 각 연관 부서에 왜 이 데이터가 중요한지 설득하는 것 뿐만 아니라, 모델이 작동하는 방식을 이과배경이 없는 사람들에게 조리 있게 설명할 수 있어야 하기 때문이다. 또한, 데이터가 활용 될 수 있는 부분에 대한 폭넓은 이해를 통해 창출할 수 있는 가치를 극대화하고, 조리 있게 Framing 할 수 있어야 한다.
[데이터 사이언스 컨설팅의 Focus는 Data Enablement]
필자가 경험한 컨설팅 업계의 특징은 아래와 같다.
- 보통 2 – 4명으로 이루어진 팀이3 – 6달 동안 단기간 프로젝트를 맡는다
- 시간/인력 제한으로 핵심 가치만을 증명하는데 집중한다
- 기존 클라이언트 사례를 이용해 효과적으로 새로운 클라이언트의 문제를 해결한다
이러한 컨설팅 업계의 특징이 Data Enablement 쪽 업무를 하기 좋은 조건을 제공한다. 예를 들면, 데이터 관련 업무 경험이 있는 소규모 컨설팅 프로젝트 팀이 짧은 시간내 핵심 가치를 증명해내는 Minimum Viable Product를 만들어낸다. 이 과정에서 이전 클라이언트 사례를 이용해 시행착오를 최소화하고, 클라이언트를 효과적으로 설득한다. 이후 클라이언트내 데이터 사이언스 팀에게 양도 하거나 Optimization만을 전문으로 하는 회사에게 양도 해 지속적으로 저비용으로 모델 및 데이터를 관리/발전하게 한다.
데이터 사이언스 컨설팅 프로젝트는 보통 6개월간 이루어지는데, 구체적인 업무 과정은 다음과 같다. 첫 한달은 클라이언트의 현재 상태 및 문제 진단. 1~2달간 필요 데이터를 축적 및 통계 모델 제조. 1달간 Pilot Test를 통한 가치 증명. 마지막 한달간 MVP를 클라이언트 데이터사이언스 팀에게 양도.
이렇듯 클라이언트 입장에서는 컨설팅 회사를 이용하는 것이 대규모 데이터 관련 투자하기 전 빠른시간내에 효과를 시험할 수 있는 좋은 수단인 것이다.
[글을 마치며…]
필자가 사용한 data optimization vs data enablement 이외에 데이터 사이언스 분야를 조금더 세분화하게 정의할 수도 있다. 하지만 필자가 이 framing 을 사용한 이유는 데이터 사이언스 구직시 제공되는 옵션과도 연관이 있기 때문이다. 데이터 사이언티스트로 취직할 수 있는 방법은 크게 두 가지가 존재한다. 하나는 데이터 컨설팅 같이 여러 사업분야 해당되는 문제에 대해 MVP를 제공하는 데이터 사이언티스트가 되는 것이고, 다른 한가지는 한 분야의 전문가가 되어서 data optimization 분야로 나가는 것이다 (예를 들면, 무인 승차 알고리즘 전문가). 아직 구직을 하지 않는 학생들은 반드시 본인의 성향과 능력이 어떤 분야에 더 적합한지 고민할 것을 추천한다.