Ideone.com

fork download

copy

import numpy as np
import pandas as pd
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.cluster import KMeans
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
import matplotlib.pyplot as plt
 
# Generate sample data
np.random.seed(42)
 
def generate_sample_data(n_samples=1000):
    data = {
        'customer_id': range(1, n_samples + 1),
        'recency': np.random.randint(1, 365, n_samples),
        'frequency': np.random.randint(1, 20, n_samples),
        'monetary_value': np.random.randint(50, 2000, n_samples),
        'favorite_category': np.random.choice(['shoes', 'underwear', 'accessories', 'shirts', 'blouses', 'pants', 'jackets', 'sweaters', 'jewelry'], n_samples),
        'items_purchased': np.random.randint(1, 50, n_samples)
    }
    return pd.DataFrame(data)
 
# Create sample dataset
df = generate_sample_data()
 
# Preprocessing
numeric_features = ['recency', 'frequency', 'monetary_value', 'items_purchased']
categorical_features = ['favorite_category']
 
preprocessor = ColumnTransformer(
    transformers=[
        ('num', StandardScaler(), numeric_features),
        ('cat', OneHotEncoder(drop='first', sparse=False), categorical_features)
    ])
 
# Create pipeline
pipeline = Pipeline([
    ('preprocessor', preprocessor),
    ('kmeans', KMeans(n_clusters=3, random_state=42))
])
 
# Fit the pipeline
pipeline.fit(df)
 
# Get cluster labels
df['cluster'] = pipeline.predict(df)
 
# Compute insights about the three customer groups
def compute_insights(df):
    insights = df.groupby('cluster').agg({
        'recency': 'mean',
        'frequency': 'mean',
        'monetary_value': 'mean',
        'items_purchased': 'mean',
        'favorite_category': lambda x: x.value_counts().index[0]
    }).reset_index()
 
    insights.columns = ['Cluster', 'Avg Recency (days)', 'Avg Frequency (quarter)', 'Avg Monetary Value ($)', 'Avg Items Purchased', 'Most Common Category']
    return insights
 
insights = compute_insights(df)
print(insights)
 
# Visualize clusters
plt.figure(figsize=(10, 6))
scatter = plt.scatter(df['recency'], df['monetary_value'], c=df['cluster'], cmap='viridis')
plt.colorbar(scatter)
plt.xlabel('Recency (days)')
plt.ylabel('Monetary Value ($)')
plt.title('Customer Segments: Recency vs Monetary Value')
plt.show()
 
# Function to classify new customers
def classify_customer(customer_data, pipeline):
    customer_df = pd.DataFrame([customer_data])
    cluster = pipeline.predict(customer_df)[0]
    return f"Customer belongs to Cluster {cluster}"
 
# Example usage
new_customer = {
    'recency': 30,
    'frequency': 5,
    'monetary_value': 500,
    'favorite_category': 'shoes',
    'items_purchased': 10
}
 
print(classify_customer(new_customer, pipeline))

aW1wb3J0IG51bXB5IGFzIG5wCmltcG9ydCBwYW5kYXMgYXMgcGQKZnJvbSBza2xlYXJuLnByZXByb2Nlc3NpbmcgaW1wb3J0IFN0YW5kYXJkU2NhbGVyLCBPbmVIb3RFbmNvZGVyCmZyb20gc2tsZWFybi5jbHVzdGVyIGltcG9ydCBLTWVhbnMKZnJvbSBza2xlYXJuLmNvbXBvc2UgaW1wb3J0IENvbHVtblRyYW5zZm9ybWVyCmZyb20gc2tsZWFybi5waXBlbGluZSBpbXBvcnQgUGlwZWxpbmUKaW1wb3J0IG1hdHBsb3RsaWIucHlwbG90IGFzIHBsdAoKIyBHZW5lcmF0ZSBzYW1wbGUgZGF0YQpucC5yYW5kb20uc2VlZCg0MikKCmRlZiBnZW5lcmF0ZV9zYW1wbGVfZGF0YShuX3NhbXBsZXM9MTAwMCk6CiAgICBkYXRhID0gewogICAgICAgICdjdXN0b21lcl9pZCc6IHJhbmdlKDEsIG5fc2FtcGxlcyArIDEpLAogICAgICAgICdyZWNlbmN5JzogbnAucmFuZG9tLnJhbmRpbnQoMSwgMzY1LCBuX3NhbXBsZXMpLAogICAgICAgICdmcmVxdWVuY3knOiBucC5yYW5kb20ucmFuZGludCgxLCAyMCwgbl9zYW1wbGVzKSwKICAgICAgICAnbW9uZXRhcnlfdmFsdWUnOiBucC5yYW5kb20ucmFuZGludCg1MCwgMjAwMCwgbl9zYW1wbGVzKSwKICAgICAgICAnZmF2b3JpdGVfY2F0ZWdvcnknOiBucC5yYW5kb20uY2hvaWNlKFsnc2hvZXMnLCAndW5kZXJ3ZWFyJywgJ2FjY2Vzc29yaWVzJywgJ3NoaXJ0cycsICdibG91c2VzJywgJ3BhbnRzJywgJ2phY2tldHMnLCAnc3dlYXRlcnMnLCAnamV3ZWxyeSddLCBuX3NhbXBsZXMpLAogICAgICAgICdpdGVtc19wdXJjaGFzZWQnOiBucC5yYW5kb20ucmFuZGludCgxLCA1MCwgbl9zYW1wbGVzKQogICAgfQogICAgcmV0dXJuIHBkLkRhdGFGcmFtZShkYXRhKQoKIyBDcmVhdGUgc2FtcGxlIGRhdGFzZXQKZGYgPSBnZW5lcmF0ZV9zYW1wbGVfZGF0YSgpCgojIFByZXByb2Nlc3NpbmcKbnVtZXJpY19mZWF0dXJlcyA9IFsncmVjZW5jeScsICdmcmVxdWVuY3knLCAnbW9uZXRhcnlfdmFsdWUnLCAnaXRlbXNfcHVyY2hhc2VkJ10KY2F0ZWdvcmljYWxfZmVhdHVyZXMgPSBbJ2Zhdm9yaXRlX2NhdGVnb3J5J10KCnByZXByb2Nlc3NvciA9IENvbHVtblRyYW5zZm9ybWVyKAogICAgdHJhbnNmb3JtZXJzPVsKICAgICAgICAoJ251bScsIFN0YW5kYXJkU2NhbGVyKCksIG51bWVyaWNfZmVhdHVyZXMpLAogICAgICAgICgnY2F0JywgT25lSG90RW5jb2Rlcihkcm9wPSdmaXJzdCcsIHNwYXJzZT1GYWxzZSksIGNhdGVnb3JpY2FsX2ZlYXR1cmVzKQogICAgXSkKCiMgQ3JlYXRlIHBpcGVsaW5lCnBpcGVsaW5lID0gUGlwZWxpbmUoWwogICAgKCdwcmVwcm9jZXNzb3InLCBwcmVwcm9jZXNzb3IpLAogICAgKCdrbWVhbnMnLCBLTWVhbnMobl9jbHVzdGVycz0zLCByYW5kb21fc3RhdGU9NDIpKQpdKQoKIyBGaXQgdGhlIHBpcGVsaW5lCnBpcGVsaW5lLmZpdChkZikKCiMgR2V0IGNsdXN0ZXIgbGFiZWxzCmRmWydjbHVzdGVyJ10gPSBwaXBlbGluZS5wcmVkaWN0KGRmKQoKIyBDb21wdXRlIGluc2lnaHRzIGFib3V0IHRoZSB0aHJlZSBjdXN0b21lciBncm91cHMKZGVmIGNvbXB1dGVfaW5zaWdodHMoZGYpOgogICAgaW5zaWdodHMgPSBkZi5ncm91cGJ5KCdjbHVzdGVyJykuYWdnKHsKICAgICAgICAncmVjZW5jeSc6ICdtZWFuJywKICAgICAgICAnZnJlcXVlbmN5JzogJ21lYW4nLAogICAgICAgICdtb25ldGFyeV92YWx1ZSc6ICdtZWFuJywKICAgICAgICAnaXRlbXNfcHVyY2hhc2VkJzogJ21lYW4nLAogICAgICAgICdmYXZvcml0ZV9jYXRlZ29yeSc6IGxhbWJkYSB4OiB4LnZhbHVlX2NvdW50cygpLmluZGV4WzBdCiAgICB9KS5yZXNldF9pbmRleCgpCiAgICAKICAgIGluc2lnaHRzLmNvbHVtbnMgPSBbJ0NsdXN0ZXInLCAnQXZnIFJlY2VuY3kgKGRheXMpJywgJ0F2ZyBGcmVxdWVuY3kgKHF1YXJ0ZXIpJywgJ0F2ZyBNb25ldGFyeSBWYWx1ZSAoJCknLCAnQXZnIEl0ZW1zIFB1cmNoYXNlZCcsICdNb3N0IENvbW1vbiBDYXRlZ29yeSddCiAgICByZXR1cm4gaW5zaWdodHMKCmluc2lnaHRzID0gY29tcHV0ZV9pbnNpZ2h0cyhkZikKcHJpbnQoaW5zaWdodHMpCgojIFZpc3VhbGl6ZSBjbHVzdGVycwpwbHQuZmlndXJlKGZpZ3NpemU9KDEwLCA2KSkKc2NhdHRlciA9IHBsdC5zY2F0dGVyKGRmWydyZWNlbmN5J10sIGRmWydtb25ldGFyeV92YWx1ZSddLCBjPWRmWydjbHVzdGVyJ10sIGNtYXA9J3ZpcmlkaXMnKQpwbHQuY29sb3JiYXIoc2NhdHRlcikKcGx0LnhsYWJlbCgnUmVjZW5jeSAoZGF5cyknKQpwbHQueWxhYmVsKCdNb25ldGFyeSBWYWx1ZSAoJCknKQpwbHQudGl0bGUoJ0N1c3RvbWVyIFNlZ21lbnRzOiBSZWNlbmN5IHZzIE1vbmV0YXJ5IFZhbHVlJykKcGx0LnNob3coKQoKIyBGdW5jdGlvbiB0byBjbGFzc2lmeSBuZXcgY3VzdG9tZXJzCmRlZiBjbGFzc2lmeV9jdXN0b21lcihjdXN0b21lcl9kYXRhLCBwaXBlbGluZSk6CiAgICBjdXN0b21lcl9kZiA9IHBkLkRhdGFGcmFtZShbY3VzdG9tZXJfZGF0YV0pCiAgICBjbHVzdGVyID0gcGlwZWxpbmUucHJlZGljdChjdXN0b21lcl9kZilbMF0KICAgIHJldHVybiBmIkN1c3RvbWVyIGJlbG9uZ3MgdG8gQ2x1c3RlciB7Y2x1c3Rlcn0iCgojIEV4YW1wbGUgdXNhZ2UKbmV3X2N1c3RvbWVyID0gewogICAgJ3JlY2VuY3knOiAzMCwKICAgICdmcmVxdWVuY3knOiA1LAogICAgJ21vbmV0YXJ5X3ZhbHVlJzogNTAwLAogICAgJ2Zhdm9yaXRlX2NhdGVnb3J5JzogJ3Nob2VzJywKICAgICdpdGVtc19wdXJjaGFzZWQnOiAxMAp9CgpwcmludChjbGFzc2lmeV9jdXN0b21lcihuZXdfY3VzdG9tZXIsIHBpcGVsaW5lKSk=

Success #stdin #stdout 2.9s 135012KB

stdin

copy

Standard input is empty

stdout

copy

   Cluster  Avg Recency (days)  ...  Avg Items Purchased  Most Common Category
0        0          204.763473  ...            24.308383              sweaters
1        1          167.557692  ...            24.714286           accessories
2        2          172.158940  ...            26.615894             underwear

[3 rows x 6 columns]
Customer belongs to Cluster 2

https://ideone.com/lOCOuV

language:

Python 3 (python 3.9.5)

created:

visibility:

public

Share or Embed source code

Discover > Sphere Engine API

The brand new service which powers Ideone!

Discover > IDE Widget

Widget for compiling and running the source code in a web browser!

Discover > Sphere Engine API

Discover > IDE Widget

Choose your language