Pandas에서 가장 많이 사용되는 데이터 구조인 Dataframe에 대해서 좀 더 자세히 알아 보겠습니다.
Pandas DataFrame:
- DataFrame의 구조:
- DataFrame은 2차원의 테이블 구조를 가지며, 각 열은 서로 다른 유형의 데이터를 포함할 수 있습니다.
- DataFrame은 열(column)과 행(row)으로 구성됩니다. 각 열은 열 이름을 가지고 있고, 각 행은 인덱스로 식별됩니다.
- 생성:
- DataFrame은 주로 Python의 딕셔너리 형태로부터 생성됩니다.
- 또한 CSV 파일, Excel 파일, 데이터베이스 쿼리 결과 등 다양한 소스에서 데이터를 불러와 DataFrame으로 변환할 수 있습니다.
- 기능:
- 데이터 읽기 및 쓰기: 다양한 데이터 형식에서 데이터를 읽고 쓸 수 있습니다.
- 데이터 조작: 데이터를 필터링하고 정렬하며, 열을 선택하고 행을 인덱싱할 수 있습니다.
- 결측값 처리: 결측값을 처리하고 삭제하거나 다른 값으로 대체할 수 있습니다.
- 데이터 집계: 그룹화 및 집계 기능을 통해 데이터를 요약할 수 있습니다.
- 시계열 데이터 처리: 시계열 데이터를 쉽게 처리하고 분석할 수 있는 기능을 제공합니다.
- 데이터 시각화: Matplotlib 등 다른 시각화 도구와 통합하여 데이터를 시각적으로 탐색할 수 있습니다.
- 인덱싱과 슬라이싱:
- DataFrame은 열 이름을 통해 열에 접근하고, 행의 경우에는 인덱스를 통해 접근합니다.
- loc 및 iloc 속성을 사용하여 라벨이나 숫자 인덱스를 사용하여 특정 행과 열에 접근할 수 있습니다.
- 데이터 전처리:
- 결측값 처리, 이상치 탐지 및 처리, 데이터 형식 변경 등과 같은 데이터 전처리 작업에 효과적으로 사용됩니다.
'IT Study > Python' 카테고리의 다른 글
[Python] Pandas 02 - 기초 문법 (0) | 2024.02.21 |
---|---|
[Python] Pandas 01 - Pandas란? (0) | 2024.02.21 |