2024/12/26 4

[Pandas] 인코딩 ( Encoding )

인코딩 ( Encoding ) 이란?범주형 데이터를 수치형 데이터로 변환하는 과정 많은 머신러닝 모델은 수치형 데이터만 처리할 수 있기에, 범주형 데이터를 인코딩하는 것이 필수적1. 라벨 인코딩 ( Label Encoding )각 범주를 고유한 숫자로 변환하는 방식 ex) '빨강', '파랑', '초록' 이 있을경우 각각 0, 1, 2 로 변환주의할점 : 수치간에 순서가 있는 것으로 해석될 수 있다예를 들어, "빨강" = 0, "파랑" = 1, "초록" = 2로 변환되면 "파랑"이 "빨강"보다 크다는 의미로 잘못 해석될 수 있습니다.from sklearn.preprocessing import LabelEncoder# 데이터categories = ["빨강", "파랑", "초록", "파랑", "빨강"]# 라벨..

Python/Pandas 2024.12.26

[Pandas] 데이터 정규화 와 표준화

데이터 정규화데이터의 범위를 0 과 1 사이로 변환하는 과정서로 다른 범위를 가진 데이터를 동일한 스케일로 맞추어 비교하기 쉽게 만듬 Min - Max 정규화import pandas as pdfrom sklearn.preprocessing import MinMaxScaler# 예시 데이터프레임 생성data = { '특성1': [10, 20, 30, 40, 50], '특성2': [1, 2, 3, 4, 5]}df = pd.DataFrame(data)# Min-Max 정규화scaler = MinMaxScaler()normalized_df = pd.DataFrame(scaler.fit_transform(df), columns=df.columns)print(normalized_df) 특성1 특성2..

Python/Pandas 2024.12.26

[Pandas] 이상치 탐지와 처리

이상치 탐지 기술 통계 기반 이상치 탐지 -  describe()  describe()  함수를 통해 기본 통계량을 확인하고, 이상치를 의심import pandas as pd# 예시 데이터프레임 생성data = { '이름': ['철수', '영희', '민수', '지수', '상수'], '나이': [25, 30, 22, 35, 120], # 120은 이상치로 의심됨 '점수': [90, 85, 95, 80, 88]}df = pd.DataFrame(data)# 기술 통계량 확인print(df['나이'].describe()) - 결과count 5.000000mean 46.400000std 41.892848min 22.00000025% 25.0000..

Python/Pandas 2024.12.26

[Pandas] 결측치 탐지와 처리

결측치 탐지 Pandas 에서 결측치를 탐지하는 기본적인 함수는  isnull()  과  notnull()  이다. isnull()  : 결측치가 있는지 확인. 결측치인 경우 True , 아닌경우 False 를 반환 notnull()  : 결측치가 아닌 값을 확인. 결측치가 아닌 경우 True , 맞는경우 False  를 반환 null  과  na  를 변경해  isna()  ,  notna()  로 표현도 가능- 예시import pandas as pd# 예시 데이터프레임 생성data = { '이름': ['철수', '영희', '민수', '지수'], '나이': [25, 30, None, 35], '직업': ['학생', '회사원', '학생', None]}df = pd.DataFrame(dat..

Python/Pandas 2024.12.26