728x90

1. Seaborn

Seaborn은 matplotlib 기반 파이썬 시각화 라이브러리이다.

사이킷런(Scikit Learn)처럼 자체적으로 내장된 데이터셋이 있고, load_dataset()을 활용하여 불러올 수 있다.

2. 데이터 종류

총 18개의 데이터셋이 있다.

데이터셋의 목록을 보는 방법은 아래의 코드를 활용할 수 있다.

전체 데이터셋 보기
# Seaborn
import seaborn as sns
# 전체 데이터 목록
sns.get_dataset_names()

3. 대표적으로 많이 활용되는 데이터 3가지

1). iris : 붓꽃 데이터

sns.load_dataset('iris').head()

iris 데이터는 붓꽃(Iris) 데이터로 꽃받침, 꽃잎의 너비와 길이를 측정한 데이터이고, 5개의 변수와 150개의 행으로 구성되어 있다.

데이터의 설명은 아래와 같다.

변수명 설명
sepal_length 꽃받침 길이
sepal_width 꽃받침 너비
petal_length 꽃잎 길이
petal_width 꽃잎 너비
species 꽃 종류

 2). mpg : 연비 데이터

sns.load_dataset('mpg').head()

mpg(Mile Per Gallon) 데이터는 미국 환경 보호국에서 공개한 자동차의 연비에 대한 데이터로 9개의 변수와 398개의 행으로 구성되어 있다.

데이터 설명은 아래와 같다.

변수명 설명
mpg 연비
cylinders 실린더 개수
displacement 배기량
horsepower 마력
weight 무게
acceleration 엔진의 초당 가속력
model_year 출시 연도
origin 제조 국가
name 차 이름

3). titanic : 타이타닉 데이터

sns.load_dataset('titanic').head()

titanic 데이터는 타이타닉 생존 여부 데이터로 15개의 변수와 891개의 행으로 구성되어 있다.

데이터 설명은 아래와 같다.

변수명 설명
survived 생존 여부
pclass 좌석 등급
sex 성별
age 나이
sibsp 함께 탑승한 형제자매 / 배우자 인원 수
parch 함께 탑승한 부모 / 자식 인원 수
fare 요금
embarked 탑승 장소
class 좌석 등급
who 성별
adult_male 성인남성 여부
deck 선실 고유 번호 가장 앞자리 문자
embark_town 탑승 장소
alive 생존 여부
alone 혼자 탑승 / 함께 탑승 여부

 

반응형