요즘 가장 미국에서 가장 핫한 직업 중 하나인 데이터 사이언티스트. 하지만 필자는 이 직업 명의 정확한 정의가 미국에서 인턴을 시작하고서야 피부에 와 닿았다. 인턴을 수평적 문화를 중시하는 미국 회사에서 해서 그런지, 직위보다는 직군으로 본인을 소개하는 경우가 많다. 예를 들면, “안녕하세요 무슨 팀 김철수 대리입니다” 대신, “안녕하세요 무슨 팀 기획 직군 김철수입니다”로 자기소개를 한다. 하지만 이런 소개 방식이 처음에는 필자에게 혼란을 야기했다. 현재 필자의 팀에 있는 직군 리스트다: 데이터 사이언티스트 (Data Scientist), 모델러 (Modeler), 데이터 분석가 (Data Analyst), 비즈니스 분석가 (BusinessAnalyst), 데이터 엔지니어 (data engineer). 처음에는 다 거기서 거기 아닌가? 데이터 분석가가 사원급 정도고 부장 정도 되면 모델러가 되는가 봉가 했다는… 이번 글에서는 필자의 관점에서 본 이 직군들의 공통점과 차이점에 대해 정리하고자 한다.
[데이터 분석가 Data Analyst – 모든 것을 조금씩 아는 스토리 텔러]
데이터계의 만능 재능꾼이라고 보면 된다. 나쁘게 말하면 이도 저도 아닌 애매한 존재. 좋은 모델을 짜기에는 수학/통계적 지식이 부족하고, 좋은 데이터 관리 프로그램 혹은 query를 만들기에는 컴퓨터 프로그래밍 능력이 부족하다. 그렇다고 컨설턴트처럼 말을 청산유수처럼 해 client를 설득할 수 있는 것도 아니다. 다만 얕고 넓게 아는 지식을 기반으로 여기저기에 있는 데이터를 끌어모아 그럴싸한 스토리를 만들어 낼 수 있는 재주가 있다. 실제 상황을 예로 들어보자. 마케팅 팀장이 갑자기 이번 마케팅 캠페인이 매출 증가에 효과가 있었는지 궁금해한다. 데이터 분석가는 바로 캠페인이 시작한 전후 3개월간 매출액을 도표화해서 추세가 어떤지, 어떤 유형의 고객들이 더 유입됐는지를 직관적으로 정리한 보고서를 작성해서 마케팅 팀에게 전달한다.
[비즈니스 분석가 Business Analyst – 문과 어와 이과어를 동시통역하는 자]
컨설턴트처럼 발표를 아트 수준으로 할 수 있는 사람. 하지만 그것 하나만으로는 부족하다. 이 직군은 client와 데이터 관련 직군을 이어주는 가교 역할을 하는 사람들이다. 데이터 세계에 오래 있지 못 한 사람에게 그들의 언어는 외국어나 다름없다. 데이터 사람들은 나름 쉽게 말한다고 생각하며 “이렇게 two sample mean testing을 한 결과 5% level에서 매우 significant 하다는 결과가 나왔습니다.” 발표하면 그 회의실에 있는 client들은 카오스에 빠진다. 그러면 그때 바로 비즈니스 분석가가 나서서 “두 그룹 평균이 실제로 다르다고 봐도 무방하답니다”라고 통역해준다. 실제로 일해보신 분들은 아시겠지만, 이 역할이 보기보다 매우 어렵다. 필자도 매 면접 때마다 자신 있게 커뮤니케이션 능력이 장점이라고 말하곤 했지만, 정말 이 직군 사람들이 메시지를 포장하고 client 눈높이 맞추는 것을 보면서 아직 멀었다고 생각하게 되었다.
[데이터 사이언티스트 / 모델러 Data Scientist/Modeler – 데이터계의 올스타]
이 두 직군을 묶은 이유는, 필자 눈에는 하는 일이 살짝 다를 뿐 요구하는 skillset은 비슷하다고 생각하기 때문이다. 개인차는 있겠지만 이 직군 사람들은 수학, 컴퓨터 공학, 데이터 커뮤니케이션을 모두 일정 수준 이상으로 한다. 데이터 분석가보다는 조금 더 이과적인 업무를 한다고 보면 된다. 예를 들면, 전과 동일하게 마케팅 팀장이 캠페인의 효과에 대해 알고 싶다는 의뢰를 한다면, 이 직군 사람들은 모델을 기반으로 채널별 기여도를 측정하고 앞으로 효과까지도 예측한다. 그래프면 그래프, 코드면 코드… 옆에서 일하는 것 보면 가끔 무서운 직군.
[데이터 엔지니어 Data Engineer – 안 보이는 궂은일을 도맡아 하는 직군]
빅 데이터. 누구나 한 번쯤은 들어봤을 법한 키워드다. 최근 저장하는 데이터의 용량이 기하급수적으로 증가하면서 매우 중요해진 직군이다. 데이터 분석을 효과적으로 하기 위해서는 막대한 데이터를 안전하고 효과적으로 저장해서 필요할 때마다 빠르게 불러낼 수 있는 시스템을 구축해야 한다. 컴퓨터 프로그래밍을 이용해 그 생태계 전반을 구축하는 역할을 하는 사람들이 데이터 엔지니어다. 같은 예시를 사용한다면, 이번에 새로운 마케팅 캠페인을 실시하면서 추가적인 고객정보가 입수되는데 이것을 어디에 저장해야 일관성/효율성/안정성을 최대화할 수 있는지 고민해서 시스템을 구축해 놓고 기타 데이터 직군에게 어떻게 그 데이터를 불러낼 수 있는지 알려준다. 시스템 에러가 생겨서 데이터가 축적되지 않으면 밤에라도 나와서 일하는 불쌍한 직군… 하지만 그만큼 보상도 데이터계에서는 가장 높은 것으로 알고 있다.
[마치며…]
어느 나라나 그렇겠지만, 회사마다 직군을 나누는 기준은 다 다르다. 그래서 채용공고 중에서 데이터 사이언티스트라는 제목이 있다면 반드시 정확히 어떤 업무를 하는지 확인해 볼 필요가 있다. 조금 더 자세히 알고 싶으신 독자는 Quora 게시된 글을 읽는 것을 추천한다(아쉽지만 영문 글이다) 개인적으로 문과 성향이 강해 절대 엔지니어나 하드코어 모델러는 되고 싶지 않다. 하지만 적어도 데이터계에 있는 모든 직군과 자유롭게 의사소통을 할 수 있는 정도의 지식과 기술을 갖추는 것을 목표로… 하아 내일도 출근이다.