Py) 기초 - Pandas(파일 쓰기)

Py) 기초 - Pandas(파일 쓰기)

파이썬 기반 데이터분석을 위하여 Pandas 라이브러리를 사용한 파일 읽어오기를 알아본다.


개요

데이터분석 결과물(기본적으로 데이터프레임 객체)을 파일 형태로 저장하고자 한다면 어떻게 할까? Pandas 라이브러리에서 다양한 함수를 지원하지만 여기에서는 가장 빈번하게 사용하는 “.csv” 확장자에 대해 다루고자 한다.

참고로 관련된 데이터프레임 객체의 메서드는 다음의 코드로 확인할 수 있다.
※ 일부 예외가 있음.

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
[n for n in dir(pd.DataFrame) if n[:3] == "to_"]
## ['to_clipboard',
## 'to_csv',
## 'to_dict',
## 'to_excel',
## 'to_feather',
## 'to_gbq',
## 'to_hdf',
## 'to_html',
## 'to_json',
## 'to_latex',
## 'to_markdown',
## 'to_numpy',
## 'to_orc',
## 'to_parquet',
## 'to_period',
## 'to_pickle',
## 'to_records',
## 'to_sql',
## 'to_stata',
## 'to_string',
## 'to_timestamp',
## 'to_xarray',
## 'to_xml']

실습

일단 데이터프레임 객체가 필요하다.

1
2
3
df = pd.DataFrame(dict(v1 = [2, 4, 6],
v2 = ["a", "b", "c"]))
df
v1 v2
0 2 a
1 4 b
2 6 c

데이터프레임을 “csv” 확장자로 저장하는 것은 .to_csv() 메서드를 사용한다. 다음의 코드를 실행해보자.

1
2
df.to_csv("write1.csv")
df.to_csv("write2.csv", index = False)

상기 코드 실행 후 작업폴더를 확인해보면 다음과 같이 두 개의 파일이 생성된 것을 볼 수 있다.
※ 작업폴더 경로 확인이 기억나지 않는다면? 관련 게시물 ㄱㄱ.

DataFrame file write sample

각 파일을 열어보면 다음과 같다.

저장된 샘플 파일 확인

상기 이미지를 보면 “write1.csv” 파일을 저장할 때 .to_csv() 메서드의 “index” 인자에 True가 기본값이라 데이터프레임 객체의 row index가 같이 기록된 것을 볼 수 있다. 하지만 특수한 경우가 아니면 보통 row index까지 저장하지 않기 때문에 “write2.csv” 파일을 저장할 때 처럼 “index” 인자에 False를 할당하는 것을 권장한다.

Your browser is out-of-date!

Update your browser to view this website correctly. Update my browser now

×