우리는 데이터를 통해 문제를 발견하고자 합니다.
데이터에서 문제를 볼 줄 알아야 하는데, 여기에 시각화의 필요성이 있습니다.
마케팅 데이터로 해보는 시각화
마케팅의 경우 사용자의 반응을 즉각적으로 확인하고, 그에 따른 적절한 행동을 취할 때 마케팅 효율을 높일 수 있습니다. 시각화는 이런 통찰을 가능하게 합니다. 통찰은 단순한 과정이 아니라 내부 요인 간의 관계를 통해 대상들 사이에 숨겨진 관계를 찾는 것을 의미합니다. 이 관계를 찾으면 과거를 알 수 있고, 현재가 보이며, 미래에 대해 짐작할 수 있습니다.
그렇다면 시각화는 어떻게 할 수 있을까요? 시각화에도 프로세스가 있습니다. 시각화를 통해 어떤 목적을 달성할 것이냐에 따라 심화된 단계로 나아갈 수 있습니다. 시각화 프로세스는 그 과정과 목적에 따라 3단계로 구분할 수 있습니다. 각 과정에 따라 사용해야 할 시각화의 종류와 데이터가 달라질 수 있습니다.
시각화 프로세스
① 탐색 : 시각화 패턴을 통해 자료 사이의 관계를 찾는 것입니다. 자료들 간에 어떤 관계들이 있는지 최초로 살펴보는 단계이자, 모든 가능성을 열어두고 자료의 분포를 확인하는 단계입니다.
② 분석 : 시각화 분석을 통해 관계를 명확하게 규명하고 그 의미가 무엇인지 찾아내는 과정입니다. 그 관계에 대해 잘 설명할 수 있는 데이터를 찾는 과정이라고도 볼 수 있습니다.
③ 활용 : ①, ②를 통해 정립한 데이터의 관계를 사람들에게 전달하는 과정입니다. 발견한 통찰을 바탕으로 사람들을 설득하고 정교화하기 위해 사용하는 시각화로, 이해를 돕기 위해 적절한 디자인이 요구됩니다. 대표적인 형태로 인포그래픽 등을 들 수 있습니다.
이쯤에서 우리가 쓰는 시각화는 어떤 것들이 있는지 생각해볼까요? 여러 개의 선이 들어간 라인 차트, 항목별 비율을 알 수 있는 파이 차트, 항목 간 차이를 알 수 있는 막대차트, 막대와 선이 함께 있는 콤보차트 정도로 예상됩니다. 이런 차트들은 쉽게 만들 수 있을 뿐만 아니라, 시각화의 기본적인 역할을 합니다. 그러나 화룡점정으로 쓰기엔 뭔가 심심한 면이 없지 않습니다.
피봇 테이블은 데이터가 아니다, 시각화다.
피봇 테이블 예
위 테이블은 우리가 흔히 보고서에서 볼 수 있는 표 중 하나일 것입니다. 우리는 이 표 하나를 만들기 위해 매일 아침마다 데이터를 다운로드하고, 엑셀에서 복사한 뒤 만들어 놓은 양식에 붙여 넣는 과정을 반복합니다. 어쩌면 이를 가지고 양질의 데이터를 만들고 있다고 자부할 수도 있겠죠. 과연 그렇게 생각해도 될까요?
이런 형태의 테이블은 일반적으로 피봇 테이블이라고 하는데 크로스 테이블, 다차원 테이블이라고 하기도 합니다. 열(Column)과 행(Row)으로 구성된 양방향 테이블임을 볼 수 있습니다. 이 테이블의 가장 큰 강점은 많은 양의 데이터를 구조, 요약, 표시할 수 있다는 점입니다. 각 열에 대한 부분합, 총합계, 평균 등을 표시할 수 있어 많은 보고서에서 빠지지 않고 사용됩니다.
그렇다면 이런 피봇 테이블은 데이터라고 할 수 있을까요? 결론부터 이야기하자면 그렇지 않습니다. 피봇 테이블은 시각화의 성격에 가깝습니다. 피봇 테이블 형태의 값은 컴퓨터에서 연산 처리할 수 없는 형태입니다. 컴퓨터가 필요로 하고 인식하는 데이터의 구조는 아래와 같은 모습입니다.
원본 데이터 예
위와 같은 형태의 원본 데이터를 테이블로 요약 및 정리하면 피봇 테이블이 됩니다. 피봇 테이블은 원본 데이터를 특수한 목적과 의도에 따라 집산해 만든 다른 유형의 ‘표’이기 때문에 데이터가 아니라 시각화로 봐야 합니다. 따라서 데이터베이스 또는 데이터 시각화를 만들기 위해서는 피봇 테이블이 아닌 원본 데이터의 형태로 데이터를 정리해 사용해야 합니다.
낯설지만 알아둬야 하는 시각화
앞서 마케팅 데이터를 통찰하기 위한 방법으로 시각화, 시각화 프로세스에 대해 알아보았습니다. 또 시각화를 위해 필요로 하는 데이터는 피봇 테이블이 아닌 원본 데이터 형태임을 알아보았습니다.
그렇다면 흔히 일반적으로 사용하는 시각화, 그 이상을 하려면 무엇을 알아둬야 할까요? 다변량 데이터 시각화를 알아둘 필요가 있습니다. 우리가 흔하게 사용했던 시각화는 변수 1-2개를 조합해 만든 것입니다. 앞서 예를 들었던 막대 차트, 라인 차트, 파이 차트 등이 대표적입니다. 시각화를 통해 탐색, 분석, 활용이라는 3가지 프로세스를 달성하기 위해서는 이와 같은 시각화로는 한계가 있기 때문에, 다변량 변수의 시각화가 필수적입니다. 무엇보다도 사회현상은 다차원적이므로 1, 2가지 변수만 보는 것으로는 요인들 간의 관계성을 명확히 파악할 수 없습니다. 우리가 활용할 수 있는 다변량 시각화에는 어떤 종류의 시각화가 있는지 알아봅시다.
1. 산점도 (Scatter Plot)





※ 참고 자료
· 다채널 광고 분석 솔루션 매직테이블
· 송한나 2017.04.01, [The Art of Data] /DB Guide
· Heartcount, 2018.01, Small Multiples: 수많은 작은 창들을 통해 데이터를 거시적으로 조망하기
· TIBCO 2018, 데이터 시각화와 각 유형별 구성요소