Python/Pandas

[Pandas] Pandas란?

죵욜이 2024. 12. 7. 20:45

Pandas

Pandas 는 파이썬에서 데이터를 다룰 때 매우 유용한 라이브러리로, 

 

주로 데이터 분석조작 작업을 효율적으로 수행하기 위해 사용한다.

 

데이터를 표(테이블) 형식으로 다루기 쉽게 만들어준다.


주요 특징

 

  • 데이터 구조 제공:
    • Series: 1차원 배열과 유사한 데이터 구조로, 인덱스를 가질 수 있습니다.
    • DataFrame: 2차원 테이블 형태의 데이터 구조로, 엑셀 시트와 비슷하며 행과 열로 구성됩니다.
    • Panel (deprecated): 3차원 데이터를 다룰 때 사용되었으나, 현재는 더 이상 사용되지 않으며 다차원 데이터는   xarray  등 다른 라이브러리를 권장합니다.
  • 다양한 데이터 형식 지원:
    • CSV, Excel, SQL, JSON, HTML 등 다양한 파일 포맷의 데이터를 쉽게 읽고 저장할 수 있습니다.
  • 강력한 데이터 조작 기능:
    • 데이터 필터링, 정렬, 그룹화, 결합(merge, join), 피벗(pivot) 등이 가능.
    • 결측값 처리, 데이터 변환 등의 데이터 정리가 용이.
  • 속도와 효율성:
    • 내부적으로 C로 구현된 NumPy를 기반으로 하여 대규모 데이터도 빠르게 처리할 수 있습니다.
  • 다른 라이브러리와 통합:
    • NumPy, Matplotlib, Scikit-learn 등과 잘 통합되어 데이터 분석과 시각화 작업을 쉽게 수행.