티스토리 뷰
빅데이터 분석 전문가 가이드 - 리뷰1
# 데이터의 유형
객관적 사시로서의 데이터를 살펴보면 그 형태에 따라 언어 문자 등으로 기술되는 정성 데이터와 수치 기호 도형으로 표시되는 정량데이터로 구분된다. 지역별 온도 풍속 가우량 처럼 수치로 명확하게 표현되는 정량 데이터는 데이터의 양이 크게 증가하더라도 관리하는 시스템에 저장 검색 분석하여 활용하기가 매우 용이하나, 설문조사의 주관식 응답이나 트위터, 블로그, 페이스북 등에 올린 글 등 정성 데이터의 경우 그 형태 형식이 정해져 있지 않아서 이들을 저장 검색 분석하는 데에 상대적으로 많은 비용과 기술적 투자가 수반된다는 점에서 이 둘을 구분한다.
# 지식의 피라미드
데이터 -> 정보 -> 지식 -> 지혜
'데이터'는 존재 형식을 불문하고, 타 데이터와의 상관관계가 없는 가공하기 이전의 순수한 수치나 기호를 의미한다. 예를 들어 A마트 100원에, B마트는 200원에 연필을 판매한다는 것은 데이터라고 볼 수 있다. 이 데이터를 가공 및 상관관계 간 이해를 통해 패턴을 인식하고 그 의미를 부여한 데이터를 '정보'라고 말한다. 즉 A마트의 연필가격이 더 싸다라는 것은 정보가 된다. 이 상호 연결된 정보 패턴을 이해하여 이를 토대로 예측한 결과물을 '지식'이라고 한다. 예로 상대적으로 저렴한 A마트에서 연필을 사야겠다는 것이 지식이 된다. 마지막 근본 원리에 대한 깊은 이해를 바탕으로 도출되는 창의적인 아이디어를 마지막 '지혜'라는 모습이 된다. 즉 A마트의 다른 사품들도 B마트보다 쌀 것이라고 판단하는 것이다. 이것은 확인되지 않은 사실이지만 예측을 통해 정보를 양산하는 것이라고 본다.
# 빅데이터
빅데이터란 무엇인가? 말그대로 '큰' 데이터를 말한다. 그러나 단순히 용량만 방대한 것이 아니라 복잡성도 증가해서 기존의 데이터 처리 애플리케이션이나 관리 툴로는 다루기 어려운 데이터세트의 집합을 지칭하기도 한다. 2011년 맥킨지에서 빅데이터를 정의한 바는 다음과 같다. "빅데이터는 일반적인 데이터베이스 소프트웨어로 저장, 관리, 분석할 수 있는 범위를 초과하는 규모의 데이터이다." 또한 2013년 메이어-쇤베르거와쿠키어의 정의를 들자면, "빅데이터란 대용량 데이터를 활용해 작은 용량에서는 얻을 수 없었던 새로운 통찰이나 가치를 추출해 내는 일다. 나아가 이를 활용해 시장, 기업 및 시민과 정부의 관계 등 많은 분야에 변화를 가져오는 일이다." 정의야 어쨌던 핵심은 기존 방식으로는 얻을 수 없었던 통찰 및 가치를 창출하고 변화와 혁신을 주도 하는 것이 빅데이터의 요점이다.
# 빅데이터의 등장이 만들어낸 변화
빅데이터의 등장은 통계의 입지를 변화시켰다. 모든 데이터의 전수조사가 가능해졌기 때문에 통계의 핵심인 '샘플링'이 필요없어진 것이다. 샘플링을 해야했던 통계에선 데이터의 질이 중요했겠지만 이젠 양이 중요해졌다. 사전처리보단 데이터 발생 후의 사후처리로 변했다. 인과관계보단 상관관계를 중시하는 시대로의 전환으로 변화되었다.
# 데이터 사이언티스트의 역량과 조건
미래의 빅데이터 관련해 데이터 사이언티스트의 역할이 중요해 질 것으로 전망된다. 데이터 사이언티스트는 빅데이터에 대한 이론적 지식과 숙련된 분석 기술을 바탕으로 통찰력 전달력 협업 능력을 두루 갖춘 전문인력을 의미한다. 하드스킬과 소프트스킬이 혼합된 인재, 기술과 인문을 융합한 인재가 바로 데이터 사이언티스트라는 것이다.
데이터 사이언티스트는 빅데이터의 다각적 분석을 통해 인사이트를 도출하고 이를 조직의 전략 방향 제시에 활용할 줄 아는 기획자로서 전문가 역할을 하는 것이다. 3가지 분야에서의 소프트 스킬이 필요하다. 통찰력있는 분석, 설득력있는 전달, 커뮤니케이션 역량 이 세역량이 혼합이 필요하다고 한다. 또한 통계, 자연어처리, 패턴인식, 기계학습과 같은 빅데이터 전문 분석 기술의 숙련도 필요하다고 한다.
- 데이터분석 전문가 가이드 일부 발췌