728x90
1. Seaborn
Seaborn은 matplotlib 기반 파이썬 시각화 라이브러리이다.
사이킷런(Scikit Learn)처럼 자체적으로 내장된 데이터셋이 있고, load_dataset()을 활용하여 불러올 수 있다.
2. 데이터 종류
총 18개의 데이터셋이 있다.
데이터셋의 목록을 보는 방법은 아래의 코드를 활용할 수 있다.
전체 데이터셋 보기
# Seaborn
import seaborn as sns
# 전체 데이터 목록
sns.get_dataset_names()
3. 대표적으로 많이 활용되는 데이터 3가지
1). iris : 붓꽃 데이터
sns.load_dataset('iris').head()
iris 데이터는 붓꽃(Iris) 데이터로 꽃받침, 꽃잎의 너비와 길이를 측정한 데이터이고, 5개의 변수와 150개의 행으로 구성되어 있다.
데이터의 설명은 아래와 같다.
변수명 | 설명 |
sepal_length | 꽃받침 길이 |
sepal_width | 꽃받침 너비 |
petal_length | 꽃잎 길이 |
petal_width | 꽃잎 너비 |
species | 꽃 종류 |
2). mpg : 연비 데이터
sns.load_dataset('mpg').head()
mpg(Mile Per Gallon) 데이터는 미국 환경 보호국에서 공개한 자동차의 연비에 대한 데이터로 9개의 변수와 398개의 행으로 구성되어 있다.
데이터 설명은 아래와 같다.
변수명 | 설명 |
mpg | 연비 |
cylinders | 실린더 개수 |
displacement | 배기량 |
horsepower | 마력 |
weight | 무게 |
acceleration | 엔진의 초당 가속력 |
model_year | 출시 연도 |
origin | 제조 국가 |
name | 차 이름 |
3). titanic : 타이타닉 데이터
sns.load_dataset('titanic').head()
titanic 데이터는 타이타닉 생존 여부 데이터로 15개의 변수와 891개의 행으로 구성되어 있다.
데이터 설명은 아래와 같다.
변수명 | 설명 |
survived | 생존 여부 |
pclass | 좌석 등급 |
sex | 성별 |
age | 나이 |
sibsp | 함께 탑승한 형제자매 / 배우자 인원 수 |
parch | 함께 탑승한 부모 / 자식 인원 수 |
fare | 요금 |
embarked | 탑승 장소 |
class | 좌석 등급 |
who | 성별 |
adult_male | 성인남성 여부 |
deck | 선실 고유 번호 가장 앞자리 문자 |
embark_town | 탑승 장소 |
alive | 생존 여부 |
alone | 혼자 탑승 / 함께 탑승 여부 |
반응형
'정리 필요' 카테고리의 다른 글
인공지능(AI)/머신러닝(ML)/딥러닝(DL) (0) | 2023.01.12 |
---|---|
Gradient Descent / 경사 하강법 (2) | 2023.01.11 |
[빅데이터] 그리드 서치 / GridSearchCV (2) | 2023.01.10 |
[빅데이터] 데이터 스케일링 / Data Scaling (2) | 2023.01.08 |
[빅데이터] 데이터 인코딩 / Data Encoding (2) | 2023.01.08 |