그로스&퍼포먼스 마케팅
판다스 라이브러리2 ( 시리즈 - 결측치,중복값 ) 본문
결측치와 중복값 처리는 시리즈,데이터프레임,
나아가 데이터분석의 전처리단계에서 가장 중요한 부분이라고 생각합니다.
결측치란 단순히 말해서 해당 데이터에 값이 없는 것을 뜻합니다.
결측치와 중복값이 존재하는 시리즈를 만들어주었습니다.
결측치 확인
series.isnull()
직접 눈으로 확인하는 법도 있지만, isnull() 함수를 이용하면 해당값이 결측치인지 아닌지를 bool값으로 반환해줍니다.
뒤에 .sum을 덧붙인다면 총 몇개의 결측치가 있는지도 확인이 가능합니다.
결측치 제거
series.dropna()
dropna() 함수는 결측치를 모두 제거해줍니다.
괄호안에 옵션을 넣을 수 있지만, 이는 대부분 데이터프레임에서 사용됩니다.
결측치 채우기
result_series = series.fillna(0)
결측치행을 없애는 것이 아닌, 다른 값으로 대치하고 싶다면 fillna() 함수를 사용합니다.
해당 값으로 결측치를 전부 채워줍니다.
중복값 처리
result_series = series.duplicated() # 중복값 확인
result_series = series.drop_duplicates() # 중복값 제거
중복값을 확인하고 없애주었습니다.
결측치도 중복값으로 인식되어 b이외의 결측치들은 제외되었습니다.
'Python' 카테고리의 다른 글
파이썬 Matplotlib에서 한글 폰트 문제 해결하기 (2) | 2024.01.31 |
---|