목록2024/02 (5)
그로스&퍼포먼스 마케팅

코호트 분석은 사용자 행동을 그룹으로 나눠 지표별로 수치화한 뒤 분석하는 기법 단순히 말하면, 시간을 두고 비슷한 그룹을 비교하는 것입니다. 인터넷 쇼핑몰을 예로 들면, 판매개시 1개월차에 가입한 고객들과 6개월차에 가입한 고객들의 사용경험이나 매출,탈퇴율등의 지표는 분명히 다를 것입니다. 이때, 여러 단계로 나누어져 있는 사용자 그룹이 각각 코호트그룹이 되는데, 예시를 보면, 1월 2월 3월 4월 5월 전체 고객(명) 1,000 2,000 3,000 4,000 5,000 고객당 평균 매출 $5.00 $4.50 $4.33 $4.25 $4.50 그룹을 나누지 않고 전체 고객으로 바라보면 사업의 현황이 애매하게 보입니다. 고객은 증가하고 있지만, 평균매출이 줄어드는 건지 회복되는 건지가 모호하기 때문입니다...

CRM분석에서 데이터분석가들이 가장 많이 쓰는 분석기법중의 하나인 RFM분석입니다. CRM(고객 관계 관리): 회사의 현재 고객 및 잠재 고객과 관련된 정보를 관리, 추적, 저장하도록 지원하는 일련의 데이터 기반 소프트웨어가 통합된 솔루션. RFM분석은 고객분류기법입니다. 고객을 특성에 따라 분류하고, 특성에 맞춰서 구매기회를 창출하고 발전시키는 것이 목표입니다. 여기서 RFM의 분류기준은 Recency(최근성), Frequency(빈도), Monetary(구매금액) 입니다. Recency(최근성) : 최근에 구매한 시기가 언제인가? 비즈니스의 종류(물건,정보,서비스등)에 따라 다르지만, 보통 RFM분석에서는 최근에 구매한 고객일수록 더 가치있는 고객으로 점수가 매겨집니다. 구매시기가 오래되었다면, 재구..

결측치와 중복값 처리는 시리즈,데이터프레임, 나아가 데이터분석의 전처리단계에서 가장 중요한 부분이라고 생각합니다. 결측치란 단순히 말해서 해당 데이터에 값이 없는 것을 뜻합니다. 결측치와 중복값이 존재하는 시리즈를 만들어주었습니다. 결측치 확인 series.isnull() 직접 눈으로 확인하는 법도 있지만, isnull() 함수를 이용하면 해당값이 결측치인지 아닌지를 bool값으로 반환해줍니다. 뒤에 .sum을 덧붙인다면 총 몇개의 결측치가 있는지도 확인이 가능합니다. 결측치 제거 series.dropna() dropna() 함수는 결측치를 모두 제거해줍니다. 괄호안에 옵션을 넣을 수 있지만, 이는 대부분 데이터프레임에서 사용됩니다. 결측치 채우기 result_series = series.fillna(0..

시리즈도 리스트와 마찬가지로 인덱싱,슬라이싱,필터링이 가능합니다. # 시리즈생성 import pandas as pd data = [20, 10, 40, 50, 60, 30, 70, 80] index = ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h'] series = pd.Series(data, index=index, name='my_series') series 시리즈 인덱싱 인덱스의 이름으로 인덱싱을 할때는 ' ' 따옴표 안에 인덱스명을 넣어서 찾아줍니다. 인덱스순서로 인덱싱을 할때에는 리스트와 마찬가지로 0부터 시작해서 위치를 매칭해줍니다. 시리즈 슬라이싱 series.iloc['a'] # 라벨명으로 접근 series.loc[1] # 인덱스값으로 접근 iloc[] 는 시리즈의 ..

판다스는 데이터분석을 접해 본 사람이라면 가장 익숙한 라이브러리입니다. 파이썬에서 사용빈도 1,2위를 차지하는 매우 대중적이고 필수적인 라이브러리입니다. 판다스의 가장 중요한 개념은 시리즈와 데이터프레임입니다. 시리즈는 각행의 정보를 담고 있는 인덱스와 데이터값이 들어있는 열 한개로 구성됩니다. 데이터프레임은 시리즈를 여러개 붙였다고 생각하면 됩니다. 시리즈마다의 이름을 칼럼에 저장합니다. 시리즈생성 pd.Series() pd.Series() 함수를 이용해 시리즈를 생성할 수 있습니다. 리스트를 생성하고 함수안에만 넣어주면 끝입니다. 시리즈 내용변경 series = pd.Series(data, index=index, name='MySeries', dtype='int32') 시리즈는 각 시리즈마다의 이름,..