파이썬 기반 데이터분석을 위한 첫걸음으로 파이썬의 원소에 대해 알아본다.
들어가며
데이터분석을 위한 파이썬을 학습하기 위한 첫 게시물이다. 다음의 코드를 이해하고 실습하기 위해 되도록이면 파이썬을 운용하기 위한 환경을 준비하는 것이 좋다. 파이썬을 사용하는 방법이 많지만 그 중에서 주피터노트북(Jupyter Notebook) 환경을 사용하기 때문에 아직 환경 준비가 안되었다면 다음 두 게시물 중 하나를 참고하여 환경설정을 하도록 하자.
숫자
데이터를 다루면서 사용하는 숫자는 주로 정수와 실수이다. 복소수도 사용할 수 있으나 특수한 경우(복소해석학 관련 또는 푸리에 변환)를 제외하고는 거의 사용할 일이 없다. 그리고 매우 크거나 작은 숫자의 경우 e를 활용할 수 있다.
다음의 내용을 입력하고 그 결과를 확인해보자.
1 | 1.23 |
문자
문자의 시작과 끝은 따옴표를 사용하며 작은 따옴표나 큰 따옴표 다 사용이 가능하나 기본적으로 혼용하지 않는다. 단, 문자에 강조표기 등의 이유로 따옴표를 쓸 경우 혼용할 수 있다.
1 | 'abc' |
따옴표를 한 종류만 사용하면서 텍스트 내부에 따옴표를 온전하게 표기하고자 하는 경우는 이스케이프 문자인 원화기호(또는 역슬래시)를 사용한다.
1 | '\'a\'bc' |
따옴표를 (좌우)연속으로 3개 사용하는 경우 그 사이에 어떤것이 오더라도 모두 문자로 처리한다.
1 | '''abc''' |
문자열의 추출을 위해서는 대괄호와 인덱스를 활용한다. Python의 경우 인덱스는 0부터 시작하며 인덱스가 -1이라면 뒤에서 첫 번째 원소(가장 마지막)를 지칭한다.
1 | "abc"[0] |
콜론을 사용하여 인덱싱을 하는 경우 다음과 같이 가능하다.
※ 슬라이싱(slicing)이라는 표현을 쓰기도 한다.
1 | "abc"[:2] |
문자열 인덱싱(또는 슬라이싱)에서 단일 문자 또는 연속된 문자를 추출할 수 있으나 이산수열을 활용한 인덱싱은 지원하지 않는다.
※ 향후 NumPy 라이브러리의 np.r_[] 가 유사한 기능을 지원한다.
1 | # "abc"[0, 2] |
문자열을 별도의 객체(object, 데이터를 담는 용기라고 생각)에 저장하여 인덱싱 하는 예제는 다음과 같다.
1 | aa = "abc" |
논리값(boolean)
대표적으로 True
와 False
가 있으며 여기서 T와 F는 반드시 대문자로 표기해야 한다.
- True: 어떠한 조건의 참. 또는 특정 함수나 메서드의 설정을 활성화 하는데도 사용되며 내부에서는 정수 1로 처리
- False: 어떠한 조건의 거짓. 또는 특정 함수나 메서드의 설정을 비활성화 하는데도 사용되며 내부에서는 정수 0로 처리
1 | True |