- 라이브러리 불러오기:
- Pandas 라이브러리를 사용하기 위해 다음과 같이 불러옵니다:
-
import pandas as pd
-
- Pandas 라이브러리를 사용하기 위해 다음과 같이 불러옵니다:
- 데이터 구조 생성:
- Pandas에서는 Series와 DataFrame이라는 두 가지 주요 데이터 구조를 사용합니다. Series는 1차원 배열로, DataFrame은 2차원 데이터 테이블입니다.
- Series: 1차원 배열
-
data = pd.Series([0.25, 0.5, 0.75, 1.0])
-
- DataFrame: 2차원 배열
-
data = {'Name': ['John', 'Anna', 'Peter', 'Linda'], 'Age': [25, 35, 45, 55]} df = pd.DataFrame(data)
-
- 데이터 불러오기:
- 외부 데이터를 불러올 때는 read_csv(), read_excel() 등의 함수를 사용하여 데이터를 DataFrame 형식으로 불러올 수 있습니다.
-
df = pd.read_csv('data.csv') df = pd.read_excel('data.xlsx')
-
- 외부 데이터를 불러올 때는 read_csv(), read_excel() 등의 함수를 사용하여 데이터를 DataFrame 형식으로 불러올 수 있습니다.
- 데이터 확인하기:
- 데이터를 확인할 때는 head(), tail(), info(), describe() 등의 메서드를 사용합니다.
- 데이터 확인하기:
-
df.head() #default 첫 5개의 행 데이터 보여줌 df.tail() #default 마지막 5개의 행 데이터 보여줌 df.head(n) #첫 n개 행 데이터 보기 df.tail(n) #마지막 n개 행 데이터 보기
-
- 데이터 프레임 정보 및 통계 정보 확인하기:
-
df.info() #기본 정보 확인 df.describe() #통계 요약 보기
-
- 데이터 선택 및 필터링:
- DataFrame에서 특정 열을 선택하거나 조건에 따라 행을 선택할 수 있습니다.
- 열 선택:
-
df['column_name']
-
- 행 선택(슬라이싱 사용):
-
df[2:5]
-
- 데이터 조작:
- 데이터를 조작할 때는 새로운 열을 추가하거나 결측치를 처리하는 등의 작업을 수행할 수 있습니다.
- 새로운 열 추가:
-
df['new_column'] = values
-
- 결측치 처리:
-
df.dropna() # 결측치가 있는 행 삭제 df.fillna(value) # 결측치를 지정한 값으로 채우기
-
- 행 또는 열 삭제:
-
df.drop(labels, axis=0/1)
-
- 데이터 그룹화 및 집계:
- groupby() 함수를 사용하여 데이터를 그룹화하고, 집계 함수를 적용하여 요약 통계를 계산할 수 있습니다.
- 데이터 그룹 평균값 추출:
-
df.groupby('column_name').mean()
-
- 데이터 정렬:
- 데이터를 정렬할 때는 sort_values() 메서드를 사용하여 특정 열을 기준으로 정렬할 수 있습니다.
-
df.sort_values(by='column_name', ascending=True/False)
-
- 데이터를 정렬할 때는 sort_values() 메서드를 사용하여 특정 열을 기준으로 정렬할 수 있습니다.
- 인덱스 조작:
-
df.set_index('column_name')
-
- 데이터 저장:
-
df.to_csv('file.csv', index=False)
-
'IT Study > Python' 카테고리의 다른 글
[Python] Pandas 03 - Dataframe (0) | 2024.02.22 |
---|---|
[Python] Pandas 01 - Pandas란? (0) | 2024.02.21 |