본문 바로가기

인천e배움캠퍼스/데이터 시각화

시각화 인사이트

728x90
728x90
Reporting Date: April. 04, 2025

데이터 시각화 중 시각화 인사이트에 대해 다루고자 한다.


목차

01 시각화 인사이트 프로세스
02 탐색
03 분석
04 활용


 

 

 

01 시각화 인사이트 프로세스

데이터 시각화를 통해 사용자가 정보를 보다 쉽게 이해하고,
그로부터 유의미한 통찰을 도출해내는 일련의 과정.

 

 1 .  맥 캔들리스의 시각적 이해 계층

데이비드 맥 캔들리스 (David McCandless)
세계적으로 유명한 정보 디자이너.

복잡한 데이터를 시각적으로 구조화하여
보다 쉽게 이해할 수 있도록 만드는 작업.

그의 접근 방식은 시각적 이해의 위계 개념으로 설명되며,
이는 DIKW 피라미드 모델과 밀접하게 연관된다.

 

DIKW 피라미드를 기반으로 한 시각화 계층

 

데이터(Data)

객관적인 사실, 측정값, 수치 등을 의미하며,

원시 데이터를 표, 그래프, 차트 등으로 단순하게
표현하는 시각화(Visualization) 단계이다.

예: 일일 기온을 선 그래프로 나타낸 기온 차트.

 

정보(Information)

데이터 가공 및 연관성을 부여하여 의미를 도출한 것으로,

다이어그램, 지도 등을 활용해 데이터 간의
관계를 쉽게 전달하는 디자인(Design) 단계이다.

예: 도시별 기온 비교를 지도 위에 시각적으로 표현.

 

지식(Knowledge)

구조화된 정보로, 일반화 가능하고
유의미한 패턴이나 개념을 의미하며,

다양한 상황에 적용 가능한 추론과
통찰로 연결하는 매핑(Mapping) 단계이다.

예: 기후 패턴을 분석하여 특정 지역의 기후 특성 도출.

 

지혜(Wisdom)

깊은 이해와 통찰을 바탕으로
창의적 문제 해결이 가능한 상태로,

다양한 정보와 경험적 지식이 종합되어 인간 고유
판단을 유도하며 쉽게 정의 내리기 어려운 단계이다.

예: 기후 변화 대응 전략 설계에
기후 데이터와 경험적 이해가 종합적으로 활용.

 

 

 2 .  삼찰(三察) 

세 단계를 통해, 표면적으로 드러나지 않은 관계를
파악하고 깊이 있는 인사이트를 도출하는 사고 과정이다.

 

관찰(觀察, Observation)

외부 세계를 바라보며, 각 대상들 간의
상호작용이나 패턴을 찾아내는 과정.

예: 다양한 지표 간의 상관관계를 시각화하여 구조를 파악.

 

 성찰(省察, Reflection)

내면을 들여다보며, 자신의 사고 방식이나
해석 방법에 대해 의문을 제기하고 깊이 있게 탐구하는 과정.

예: 데이터 해석에서의 편향이나 전제 조건을 점검.

 

통찰(洞察, Insight)

관찰과 성찰을 융합하여, 내·외부 요소 간의 복합적인
관계를 인식하고 새로운 의미나 방향성을 도출하는 과정.

예: 데이터로부터 단순한 패턴을 넘어 정책적 시사점을 도출.


 

 

통찰 과정

3가지 순서로 순환적 구조로 이뤄진다.

 

02 탐색

각 데이터 또는 자료들이
어떤 관계를 가지고 있는지를 살펴보는 과정.

데이터 분석의 초기 단계에서 수행된다.

이 과정에서는 산점도, 히스토그램, 상관행렬, 박스플롯 등
다양한 시각화 도구를 활용하여 변수 간의 패턴이나
상관관계를 직관적으로 파악할 수 있으며,

이는 데이터 인사이트 도출의 출발점이 된다.

특히 변수들 사이의 상관관계, 그룹 간의 차이,
데이터의 분포 등을 확인하며 관계를 발견하는 데 중점을 두며,

추가적으로, 각 데이터가 의미하는 바와 그 맥락에 대한
충분한 사전 이해가 선행되어야 정확한 해석이 가능하다.

탐색을 통해 발견된 관계는 이후의
가설 수립이나 모델링 방향 설정에 중요한 기반이 되며,

이러한 탐색적 접근은 단순히 데이터를 바라보는 것을 넘어
데이터에 숨어 있는 이야기를 발견하는 과정이라 할 수 있다.

 

 1 .  데이터 명세화의 기본

차원과 측정값
Dimension & Measure

모든 데이터는 기본적으로
하나 이상의 차원과 측정값으로 구성된다.

측정값은 실제로 수집되거나 계산된 숫자형 데이터로,
평균, 합계, 최대값 등 집계가 가능한 값을 의미한다.

반면, 차원은 이러한 측정값이 어떤 기준 또는 범주에 따라
나뉘는지를 나타내는 항목
으로, 국가, 성별, 연도 등 분류 기준이 된다.

예를 들어, '한국 여성의 평균 키' 데이터에서
'평균 키'는 측정값, '한국 여성'은 차원에 해당된다.

또 다른 예로 '육식동물의 평균 수명'이라는 데이터에서는
'평균 수명’이 측정값, ‘육식동물’이라는 분류가 차원이 된다.

흥미로운 점은 같은 항목도 분석 목적에 따라
차원 또는 측정값으로 역할이 달라질 수 있다는 점
이다.

예를 들어 '나이'는 어떤 상황에서는
사람을 분류하는 기준(차원)이 될 수 있고,
다른 상황에서는 수치로 분석(측정값)할 수도 있다.

 

 2 .  데이터 구성 원리

이벤트 기록과 객체지향적 관점
Event Logging & Object-Oriented

데이터는 보통 두 가지 관점에서 구성 원리를 이해할 수 있다.
하나는 이벤트 기록 관점이며, 다른 하나는 객체지향 관점이다.

 

 이벤트 기록 관점

데이터는 특정한 행위나
사건(이벤트)가 발생할 때 처음 생성된다.

즉, 데이터는 단순히 존재하는 것이 아니며,
어떤 사용자 행위 시스템 동작이 일어나야 비로소 기록된다.

예를 들어, 사용자가 웹사이트를 클릭하거나 상품을 구매하면,
그 순간이 데이터가 생성되는 시점이 된다.

 

 객체지향 관점

데이터를 구성하는 요소를 클래스(Class)와
메서드(Method), 속성(Property)으로 구분한다.

클래스는 객체의 기본적인 혹은 설계도이며,
객체(Object)는 이 클래스를 기반으로 만들어진 개별 실체이다.
메서드는 해당 객체가 수행할 수 있는 동적인 행위(기능)를 의미한다.

예를 들어, 자동차를 만드는 과정을 생각해보면,
자동차 설계도는 클래스, 실제로 만들어진 개별 자동차는 객체,
그리고 '운전한다', '멈춘다'와 같은 행위는 메서드로 볼 수 있다.

또 다른 예로, A라는 게임의 평균 나이를 계산한다고 가정하면,

전체 게임을 추상화한 구조는 클래스,
A게임은 클래스를 기반으로 생성된 객체,
평균 나이를 계산하는 기능은 메서드라고 이해할 수 있다.

이처럼 데이터 구성의 원리를 이해하면,
구조적이고 의미 있는 데이터의 흐름을 파악할 수 있게 되며,

이를 통해 더 깊은 통찰과 인사이트를 이끌어내는 분석의 토대를 만들 수 있다.

 

 3 .  데이터 연결고리 확인

데이터를 분석하기 위해서는,
서로 다른 데이터 간의 연결고리를 파악하는 작업이 필수적이다.

이는 데이터가 어떻게 구성되어 있는지를 명세서 등을 통해 확인하고,
서로 다른 형식의 데이터 사이에 공통된 요소가 존재하는지를 살펴보는 과정이다.

이때 같은 형식이 아니더라도, 공통 개념을 중심으로 데이터를 변환하고 연결할 수 있다.

예를 들어, '지역'이라는 텍스트형 데이터와 '위도·경도'라는 수치형 데이터
서로 다른 형태이지만, 모두 '위치(location)'라는 공통 요소를 가지고 있다.

이러한 공통 개념을 통해 두 데이터를 연결하고 호환시킬 수 있으며,
이처럼 형태가 다르더라도 의미적으로 연결되는 요소를 찾는 것이 중요하다.

시간 데이터도 마찬가지이다.

예를 들어, '60초'와 '1분'는 표기 방식은 다르지만 같은 시간을 의미한다.
이처럼 시간이나 단위가 다른 데이터도 공통 단위로 변환함으로써 통합이 가능하다.

또한, 공간 데이터를 활용할 때는 주소를 위도·경도 좌표로 변환해주는 지오코딩이나
좌표를 행정 구역으로 변환해주는 역지오코딩 같은 도구를 통해 데이터를 정렬할 수 있다.

이를 바탕으로 코로플레스 지도(Choropleth Map)와 같이
지역별 데이터를 색상 농도로 시각화하면, 지역 간 차이를 직관적으로 표현할 수 있다.

이러한 연결고리 탐색과 변환은 이질적인 데이터 간의
통합을 가능하게 하고, 더 풍부한 인사이트 도출의 기반
이 된다.

 

 4 .  이상값 처리

단순한 입력 오류나 데이터 관리 과정에서의 문제로 인해
발생한 값을 식별하고,
필요시 제거하거나 조정하는 작업이다.

예를 들어, 남성의 몸무게 데이터 중 999kg이라는 값이 존재한다면,
이는 현실적으로 불가능한 수치로 간주되어 이상값으로 판단하고 제거하는 것이 타당하다.

반면, 여성의 키 데이터 중 190cm처럼 희귀하지만 가능한 값의 경우에는
단순히 제거하기보다 통계적, 도메인 지식적 관점에서 검토하는 과정이 필요하다.

 

 5 .  관계 탐색

데이터를 다양한 관점에서 조망하며
숨겨진 패턴이나 구조를 발견하는 과정이다.

전체 데이터 중 하나의 기준(예: 시간, 지역 등)에 따라
특정 부분을 잘라서 분석하는 방식인 잘라보기(Slice),

다차원 데이터를 여러 기준으로 동시에 제한하여,
교차된 단면을 살펴보는 방식인 다르게 보기(Dice)가 있다.

예시: 피벗 테이블을 통해 특정 상품군,
지역, 시간대별로 데이터를 재구성하여 분석.

상위 수준에서 시작하여 더 구체적이고 세부적인
하위 수준
으로 탐색하는 방식인 내려보기(Drill-down),

세부 수준에서 출발하여 더 추상적이고 상위 개념으로
이동해가며 전체 구조를 파악하는 방식인 올려보기(Drill-up)와 같이

계층적인 데이터의 구조를 탐색하는 방식도 있다.

예시: 트리맵(TreeMap),
하이퍼볼릭 트리(Hyperbolic Tree) 등을
활용하여
데이터의 계층 구조를 시각적으로 탐색.


 

03 분석

탐색을 통해 발견된 관계를 보다
구체적으로 규명하고 설명하는 과정이다.

이는 단순히 관계를 관찰하는 것을 넘어,
무엇이 그러한 관계를 만들어내는 요인인지를 파악하고,
해당 관계를 설명하거나 예측할 수 있는 모델을 수립하는 것을 목표로 한다.

이 과정에서 시각화는 여전히 중요한 도구로 사용된다.

하지만 탐색 단계에서의 시각화가 관계를 발견하기 위한 것이었다면,
분석 단계의 시각화는 그 관계를 설명하고 검증하기 위한 목적으로 활용된다.

결과적으로, 분석은 탐색에서 얻어진 인사이트를 바탕으로
더 깊이 있는 해석과 모델링을 시도하는 2차적 탐색 과정이라 할 수 있다.

 

 1 .  분석 기법

데이터의 특성과 분석 목적에 따라 다양한 방식으로 적용된다.

예를 들어, 두 집단 간 평균 차이를
비교하고자 할 때는 t-검정을 사용한다.

이때, 서로 독립된 두 집단의 평균을 비교할 경우에는 독립표본 t-검정,
같은 집단의 사전·사후 변화와 같이 짝지어진 데이터를
비교할 경우에는 대응표본 t-검정을 사용한다.

집단 간 분산의 차이를 비교할 때는 F-검정을 활용하며,
세 집단 이상에서 평균의 차이를 비교할 때는
일원분산분석(ANOVA) 기법이 사용된다.

범주형 데이터 간의 관계를 분석할 때는 카이제곱 검정이 대표적이며,
이 검정은 관측된 도수기대 도수 간의 차이를 분석한다.

표본 수가 적은 경우에는 피셔의 정확 검정을 사용하며,
같은 대상을 반복 측정한 쌍으로 된 이항 변수의 변화를
비교할 경우에는 맥네마 검정이 적합하다.

또한, 두 변수 간의 관계의 강도
방향을 분석하는 데는 상관분석이 활용된다.

피어슨 상관계수연속형 변수 간 선형 관계를 측정하는 데 사용되며,
스피어만 상관계수순서형 변수나 비선형 관계에서 유용하다.

 

 2 .  지표의 활용

지표는 조직의 목적과 성격에 따라 달라지는 상대적인 개념이다.

동일한 데이터를 보더라도, 어떤 지표를 설정하고 이를 어떻게
해석하느냐는 각 기업이나 조직의 전략, 목표, 문화에 따라 달라질 수 있다.

예를 들어, KPI(Key Performance Indicator)는
기업의 목표 달성 및 성과를 측정하기 위해 사용되는 대표적인 지표다.

매출, 월별 성과, 매출 증가율, 고객 만족도 등의 지표는
일반적으로 기업에서 성과를 판단하는 데 사용된다.

그러나 데이터 기반의 의사결정이 중요한 조직에서는,
조직 단위로 데이터 인사이트 도출 횟수데이터 분석 활용률과 같은

정성적 지표KPI로 설정하기도 한다.

지표를 설정하고 해석할 때는 몇 가지 주의점이 필요하다.

첫째, 단위가 적절한가를 확인해야 하며,
지표 간 비교나 해석이 가능하도록 일관된 기준이 적용되어야 한다.

둘째, 통계분석을 수행할 때는
지표와 변수 간의 관련성을 충분히 검토해야 한다.

이때 요인분석 등 적절한 기법을 활용하여 지표에 영향을 미치는
요인들을 구조적으로 분석하는 것이 중요하다.


 

04 활용

도출한 인사이트를 실제로 의사결정이나
문제 해결에 적용
하는 단계가 바로 '활용'이다.

이 단계에서는 분석 결과를 효과적으로 설명하고
설득력 있게 전달
하기 위해 시각화 기법이 적극적으로 활용된다.

하지만 활용 과정에서도 새로운 문제나 의문점이 발견될 수 있으므로,
필요에 따라 다시 탐색과 분석 단계를 반복하게 된다.

이처럼 인사이트 도출과 활용은
탐색 → 분석 → 활용순환적 구조를 가지며,

지속적인 피드백과 개선이 이루어진다.

활용 전략에는 대표적으로
바텀업(Bottom-Up)과 탑다운(Top-Down) 방식이 있다.

바텀업은 데이터에 대한 사전 정보 없이, 다양한 가능성을 전제로
기초부터 탐색하고 점진적으로 인사이트를 발견하는 접근 방식이다.

반면, 탑다운은 일정한 정보나 목표가 있는 상태에서
그것을 기준으로 구체적인 세부 사항을 분석해 나가는
목표 중심의 접근 방식이다.

이 단계에서는 1차 분석에서 사용했던
잘라보기, 달리보기, 내려보기, 올려보기 등의 기법을

2차적으로 반복 적용함으로써,
보다 정교하고 깊이 있는 인사이트를 도출할 수 있다.

이는 단순히 데이터를 다시 보는 것이 아니라,
새로운 시각과 맥락에서 고도화된 통찰을 발견하는 방법이다.


[출처] [HD]데이터분석전문가(ADP) 필기 - 데이터시각화


728x90
반응형

'인천e배움캠퍼스 > 데이터 시각화' 카테고리의 다른 글

문제 풀이  (1) 2025.04.07
시각화 구현  (0) 2025.04.06
시각화 디자인  (0) 2025.04.06