본문 바로가기

IT Study/Python

[Python] Pandas 02 - 기초 문법

  1. 라이브러리 불러오기:
    • Pandas 라이브러리를 사용하기 위해 다음과 같이 불러옵니다: 
      • import pandas as pd
  2. 데이터 구조 생성:
    • Pandas에서는 Series와 DataFrame이라는 두 가지 주요 데이터 구조를 사용합니다. Series는 1차원 배열로, DataFrame은 2차원 데이터 테이블입니다.
    • Series: 1차원 배열
      • data = pd.Series([0.25, 0.5, 0.75, 1.0])
    • DataFrame: 2차원 배열
      • data = {'Name': ['John', 'Anna', 'Peter', 'Linda'],
                'Age': [25, 35, 45, 55]}
        df = pd.DataFrame(data)
  3. 데이터 불러오기:
    • 외부 데이터를 불러올 때는 read_csv(), read_excel() 등의 함수를 사용하여 데이터를 DataFrame 형식으로 불러올 수 있습니다.
      • df = pd.read_csv('data.csv')
        df = pd.read_excel('data.xlsx')
  4. 데이터 확인하기:
    • 데이터를 확인할 때는 head(), tail(), info(), describe() 등의 메서드를 사용합니다.
    • 데이터 확인하기: 
      • df.head() #default 첫 5개의 행 데이터 보여줌
        df.tail() #default 마지막 5개의 행 데이터 보여줌
        df.head(n) #첫 n개 행 데이터 보기
        df.tail(n) #마지막 n개 행 데이터 보기
    • 데이터 프레임 정보 및 통계 정보 확인하기:
      • df.info() 		#기본 정보 확인
        df.describe() 	#통계 요약 보기
  5. 데이터 선택 및 필터링:
    • DataFrame에서 특정 열을 선택하거나 조건에 따라 행을 선택할 수 있습니다.
    • 열 선택:
      • df['column_name']
    • 행 선택(슬라이싱 사용):
      • df[2:5]
  6. 데이터 조작:
    • 데이터를 조작할 때는 새로운 열을 추가하거나 결측치를 처리하는 등의 작업을 수행할 수 있습니다.
    • 새로운 열 추가:
      • df['new_column'] = values
    • 결측치 처리:
      • df.dropna()  # 결측치가 있는 행 삭제
        df.fillna(value)  # 결측치를 지정한 값으로 채우기
    • 행 또는 열 삭제:
      • df.drop(labels, axis=0/1)
  7. 데이터 그룹화 및 집계:
    • groupby() 함수를 사용하여 데이터를 그룹화하고, 집계 함수를 적용하여 요약 통계를 계산할 수 있습니다.
    • 데이터 그룹 평균값 추출:
      • df.groupby('column_name').mean()
  8. 데이터 정렬:
    • 데이터를 정렬할 때는 sort_values() 메서드를 사용하여 특정 열을 기준으로 정렬할 수 있습니다.
      • df.sort_values(by='column_name', ascending=True/False)
  9. 인덱스 조작:
    • df.set_index('column_name')
  10. 데이터 저장:
    • df.to_csv('file.csv', index=False)

 

'IT Study > Python' 카테고리의 다른 글

[Python] Pandas 03 - Dataframe  (0) 2024.02.22
[Python] Pandas 01 - Pandas란?  (0) 2024.02.21