데이터 미리보기
(1) head()
df.head(n)
- 상위 n개의 행을 출력
- n은 생략가능하며 기본값은 5
(2) tail()
df.tail(n)
- 하위 n 개의 행을 출력
- n은 생략가능하며 기본값은 5
(3) sample()
df.sample()
- 기본적으로 1개의 행을 무작위로 반환
데이터 구조 및 기본 정보 확인
(1) info()
df.info()
- 데이터프레임의 구조적 정보를 요약해서 출력합니다.
- 행/열 개수
- 각 열의 데이터 타입
- 결측값 개수
- 메모리 사용량 등
출력예시
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 2 columns):
# Column Non-Null Count Dtype
--- ------ -------------- -----
0 A 3 non-null int64
1 B 2 non-null float64
dtypes: float64(1), int64(1)
memory usage: 176.0 bytes
(2) describe()
df.describe()
- 데이터프레임의 기본 통계량을 출력합니다.
- 숫자 데이터: 평균, 표준편차, 최소값, 사분위수, 최대값 등.
- 범주형 데이터: include='object' 로 명시하면 요약 정보 출력.
출력예시
A B
count 3.000000 2.000000
mean 2.000000 4.500000
std 1.000000 0.707107
min 1.000000 4.000000
25% 1.500000 4.250000
50% 2.000000 4.500000
75% 2.500000 4.750000
max 3.000000 5.000000
(3) 열과 행 정보 확인
print(df.columns) # 열 이름 확인
print(df.index) # 행 인덱스 확인
(4) shape
- 데이터프레임의 크기(행과 열의 개수) 를 튜플 형태로 반환
print(df.shape) # (행 개수, 열 개수)
# (3,2)
(5) dtypes
- 데이터프레임의 각 열의 데이터 타입을 반환
print(df.dtypes)
# 출력
A int64
B float64
dtype: object
(6) isnull() / notnull()
- 결측값 여부를 확인합니다.
- isnull(): 결측값이면 True, 아니면 False
- notnull(): 결측값이 아니면 True
DataFrame.isnull()
DataFrame.notnull()
# 출력
A B
0 False False
1 False False
2 False True
(7) unique()
- 각 열의 고유값 개수를 반환
print(df.nunique())
# 출력
A 3
B 2
dtype: int64
요약
- 미리보기 함수: head(), tail(), sample().
- 기본 정보 확인 함수: info(), describe(), shape, columns, dtypes.
- 결측값 탐색 및 기타: isnull(), notnull(), nunique().
'Python > Pandas' 카테고리의 다른 글
[Pandas] 필터링 (0) | 2024.12.16 |
---|---|
[Pandas] 데이터 접근 (at, loc) (0) | 2024.12.16 |
[Pandas] inplace 옵션 (0) | 2024.12.15 |
[Pandas] 시리즈, 데이터프레임 ( Series, DataFrame ) (0) | 2024.12.15 |
[Pandas] Pandas 기본 (11) | 2024.12.07 |