그로스&퍼포먼스 마케팅

판다스 라이브러리 (시리즈기초) 본문

Python/기초

판다스 라이브러리 (시리즈기초)

eunwoo99 2024. 2. 1. 10:00

판다스는 데이터분석을 접해 본 사람이라면 가장 익숙한 라이브러리입니다.

파이썬에서 사용빈도 1,2위를 차지하는 매우 대중적이고 필수적인 라이브러리입니다.

 

 

판다스의 가장 중요한 개념은 시리즈와 데이터프레임입니다.

시리즈는 각행의 정보를 담고 있는 인덱스와 데이터값이 들어있는 열 한개로 구성됩니다.

데이터프레임은 시리즈를 여러개 붙였다고 생각하면 됩니다.

시리즈마다의 이름을 칼럼에 저장합니다.

 

시리즈생성

 

pd.Series()

pd.Series() 함수를 이용해 시리즈를 생성할 수 있습니다.

리스트를 생성하고 함수안에만 넣어주면 끝입니다.

 

시리즈 내용변경

 

series = pd.Series(data, index=index, name='MySeries', dtype='int32')

시리즈는 각 시리즈마다의 이름,인덱스명,데이터타입 지정이 가능합니다.

특히 인덱스는 중요하기에 꼭 숙지해두는 것이 좋습니다.

예시에서 데이터행이 4개이기에 인덱스도 4개를 지정해주어야합니다.

인덱스를 따로 지정하지 않는다면 1행부터 인덱스번호 0이 지정되어 1씩올라가게 됩니다.

 

series.values  # 데이터값 확인
series.index  # 인덱스명 확인
series.name  # 시리즈명 확인
series.dtype  # 데이터타입 확인

 

시리즈뒤에 .values와 같이 덧붙이는 것만으로 간단하게 시리즈에 대해서 알아볼수 있습니다.

 

series = series.astype('float')

 

시리즈는 한가지의 데이터타입만 가질 수 있습니다.

그렇기에 데이터타입을 변경할 때에도 한번에 변경해야만합니다.

.astype() 함수로 데이터타입의 변경이 가능합니다.

 

요약정보확인

 

series.head()
series.tail()
series.describe()

 

head() 함수는 기본적으로 시리즈의 처음부터 5개의 데이터행을 보여줍니다.

()안에 넣는 숫자에따라 보여줄 행의 숫자도 조정가능합니다. 

 

tail() 은 반대로 뒤에서부터 5개의 데이터행을 보여줍니다.

 

describe() 는 시리즈의 기초통계량을 보여줍니다. count ( 데이터의 개수 ) , mean(평균값) , std(표준편차) 등

간단히 데이터에 대해 알아 볼 때 사용할 수 있습니다.