1.데이터 시각화
1. 데이터 종류
정형 데이터는 크게 수치형 데이터와 범주형 데이터로 나뉜다.
대분류 | 소분류 | 예시 |
---|---|---|
수치형 데이터 (사칙 연산이 가능한 데이터) | 연속형 데이터 | 키, 몸무게, 수입 |
이산형 데이터 | 과일 개수, 책의 페이지 수 | |
범주형 데이터 (범주로 나누어지는 데이터) | 순서형 데이터 | 학점, 순위(랭킹) |
명목형 데이터 | 성별, 음식 종류, 우편 번호 |
1. 수치형 데이터는 사칙 연산이 가능한 데이터.
연속형 데이터: 값이 연속된 데이터 (실수로 표현할 수 있는 데이터)
1
ex) 키 : 170.1cm, 170.2cm, 170.99999cm 등 끊기지 않고 연속된 데이터
이산형 데이터: 정수로 딱 떨어져 셀 수 있는 데이터 (정수로 표현할 수 있는 데이터)
1 2
ex) 사과 갯수 : 3개, 4개 책의 페이지 수 : 100페이지, 200페이지 (100.5 페이지는 없음)
2. 범주형 데이터는 사칙연산이 불가능한 데이터.
순서형 데이터: 순위를 매길 수 있는 데이터
1
ex) 학점: A+, A0, A-, B+ 등
명목형 데이터: 순위가 따로 없는 데이터
1
ex) 성별, 우편번호
2. 수치형 데이터 시각화
histplot() : 히스토그램 - 수치형 데이터의 구간별 빈도수를 나타내는 그래프
kdeplot() : 커널밀도추정 함수 그래프 - 히스토그램을 곡선으로 연결한 그래프 (잘 사용 안함)
displot() : 분포도 - 수치형 데이터 하나의 분포를 나타내는 그래프. 캐글에서 분포도를 그릴 땐 displot()을 많이 사용(histplot과 kdeplot 둘 다 그릴 수 있음)
rugplot() : 러그플롯 - 주변 푼포를 나타내는 그래프. 단독으로 사용하기 보단 주로 다른 분포도 그래프와 함께 사용.
3. 범주형 데이터 시각화
barplot() : 막대 그래프 - 범주형 데이터 값에 따라 수치형 데이터 값이 어떻게 달라지는지 파악할 때 사용
pointplot() : 포인트 플롯 - 막대 그래프와 모양만 다를 뿐 동일한 정보를 제공
boxplot() : 박스플롯 - 막대 그래프나 포인트 플롯보다 더 많은 정보를, 구체적으로 5가지 요약 수치를 제공
violinplot() : 바이올린플롯 - 박스플롯과 커널밀도추정 함수 그래프를 합쳐놓은 그래프
countplot() : 카운트플롯 - 범주형 데이터의 갯수를 확인할 때 사용하는 그래프. 주로 범주형 피처나 범주형 타겟값의 분포가 어떤지 파악하는 용도로 사용.
pie() : 파이그래프 - 범주형 데이터별 비율을 알아볼 때 사용하기 좋은 그래프.
4. 데이터 관계 시각화
heatmap() : 히트맵 - 데이터간 상관관계를 색상으로 표현한 그래프. 비교해야 할 데이터가 많을 때 주로 사용.
lineplot() : 라인플롯 - 두 수치형 데이터 사이의 관계를 나타낼 때 사용.
scatterplot() : 산점도 - 두 데이터의 관계를 점으로 표현하는 그래프.
regplot() : 회귀선을 포함한 산점도 - 회귀선을 그리면 전반적인 상관관계 파악이 좀 더 쉽다.