regressao-logistica-churn-banco

Sleeping

App Files Files Community

regressao-logistica-churn-banco / src /streamlit_app.py

hugohonda

update

ffc2e6b 22 days ago

raw

history blame contribute delete

17.5 kB

	#!/usr/bin/env python
	# coding: utf-8

	import warnings

	import numpy as np
	import pandas as pd
	import plotly.express as px
	import plotly.graph_objects as go
	import streamlit as st
	from imblearn.over_sampling import SMOTE
	from sklearn.linear_model import LogisticRegression
	from sklearn.metrics import (
	accuracy_score,
	classification_report,
	confusion_matrix,
	f1_score,
	precision_score,
	recall_score,
	roc_auc_score,
	roc_curve,
	)
	from sklearn.model_selection import train_test_split
	from sklearn.preprocessing import LabelEncoder, StandardScaler
	from statsmodels.stats.outliers_influence import variance_inflation_factor

	warnings.filterwarnings("ignore")

	st.set_page_config(
	page_title="Análise de Regressão Logística - Churn Bancário",
	page_icon="🏦",
	layout="wide",
	)

	st.markdown("""
	# Tarefa 5 de AEDI - Análise de Regressão Logística de Churn Bancário

	Churn Modelling Dataset - [Kaggle](https://www.kaggle.com/datasets/shrutimechlearn/churn-modelling)

	- Autor: Hugo Honda
	- Matrícula: 252106924
	- Disciplina: AEDI - PPCA/UnB
	- Data: Outubro de 2025

	""")

	# =============================
	# Carregamento e preparação dos dados
	# =============================


	@st.cache_data
	def load_data():
	"""Carrega e prepara os dados de churn bancário"""
	try:
	df = pd.read_csv("Churn_Modelling.csv", na_values=["NA", "", "NaN"])

	# Remover colunas não relevantes
	df_clean = df.drop(["RowNumber", "CustomerId", "Surname"], axis=1)

	# Codificar variáveis categóricas
	le_geography = LabelEncoder()
	le_gender = LabelEncoder()

	df_clean["Geography_encoded"] = le_geography.fit_transform(
	df_clean["Geography"]
	)
	df_clean["Gender_encoded"] = le_gender.fit_transform(df_clean["Gender"])

	# Selecionar variáveis para o modelo
	features = [
	"CreditScore",
	"Age",
	"Tenure",
	"Balance",
	"NumOfProducts",
	"HasCrCard",
	"IsActiveMember",
	"EstimatedSalary",
	"Geography_encoded",
	"Gender_encoded",
	]

	X = df_clean[features]
	y = df_clean["Exited"]

	return df_clean, X, y, features, le_geography, le_gender
	except FileNotFoundError as e:
	st.error(f"""
	Erro ao carregar dados: {str(e)}

	Possíveis soluções:
	1. Verifique se o arquivo Churn_Modelling.csv está presente
	2. Certifique-se de que o Dockerfile está copiando o arquivo corretamente
	3. Verifique as permissões do arquivo no container
	""")
	return None, None, None, None, None, None
	except Exception as e:
	st.error(f"Erro inesperado ao carregar dados: {str(e)}")
	return None, None, None, None, None, None


	# Carregar dados
	df_clean, X, y, features, le_geography, le_gender = load_data()

	if df_clean is not None:
	# =============================
	# Sidebar - Controles
	# =============================

	st.sidebar.header("Controles da Análise")

	# Parâmetros do modelo
	st.sidebar.subheader("Parâmetros do Modelo")
	test_size = st.sidebar.slider("Tamanho do conjunto de teste:", 0.1, 0.4, 0.2, 0.05)
	random_state = st.sidebar.number_input("Random State:", 1, 1000, 42)

	# Opções de análise
	st.sidebar.subheader("Opções de Análise")
	show_assumptions = st.sidebar.checkbox("Mostrar validação de pressupostos", True)
	use_balancing = st.sidebar.checkbox("Usar balanceamento (SMOTE)", False)

	# =============================
	# Análise Exploratória
	# =============================

	st.header("Análise Exploratória dos Dados")

	col1, col2, col3, col4 = st.columns(4)
	with col1:
	st.metric("Total de Observações", len(df_clean))
	with col2:
	st.metric("Taxa de Churn", f"{y.mean():.1%}")
	with col3:
	st.metric("Clientes que Não Churnaram", f"{len(y[y == 0]):,}")
	with col4:
	st.metric("Clientes que Churnaram", f"{len(y[y == 1]):,}")

	# Distribuição do churn
	fig_hist = px.pie(
	values=y.value_counts().values,
	names=["Não Churn", "Churn"],
	title="Distribuição de Churn",
	)
	st.plotly_chart(fig_hist, use_container_width=True)

	# Matriz de correlação
	corr_data = X.corr()
	fig_corr = px.imshow(
	corr_data, text_auto=True, aspect="auto", title="Matriz de Correlação"
	)
	st.plotly_chart(fig_corr, use_container_width=True)

	# =============================
	# Modelagem
	# =============================

	st.header("Modelagem de Regressão Logística")

	# Divisão treino-teste
	X_train, X_test, y_train, y_test = train_test_split(
	X, y, test_size=test_size, random_state=random_state, stratify=y
	)

	# Padronização
	scaler = StandardScaler()
	X_train_scaled = scaler.fit_transform(X_train)
	X_test_scaled = scaler.transform(X_test)

	# Balanceamento (se solicitado)
	if use_balancing:
	st.info("Aplicando SMOTE para balanceamento...")
	smote = SMOTE(random_state=random_state)
	X_train_balanced, y_train_balanced = smote.fit_resample(X_train_scaled, y_train)
	st.write(
	f"Após balanceamento: {pd.Series(y_train_balanced).value_counts().to_dict()}"
	)
	else:
	X_train_balanced, y_train_balanced = X_train_scaled, y_train

	# Modelo de regressão logística
	model = LogisticRegression(random_state=random_state, max_iter=1000)
	model.fit(X_train_balanced, y_train_balanced)

	# Predições
	y_pred = model.predict(X_test_scaled)
	y_pred_proba = model.predict_proba(X_test_scaled)[:, 1]

	# =============================
	# Resultados do Modelo
	# =============================

	st.subheader("Resultados do Modelo")

	# Métricas
	col1, col2, col3 = st.columns(3)

	with col1:
	accuracy = accuracy_score(y_test, y_pred)
	precision = precision_score(y_test, y_pred)
	st.metric("Acurácia", f"{accuracy:.4f}")
	st.metric("Precisão", f"{precision:.4f}")

	with col2:
	recall = recall_score(y_test, y_pred)
	f1 = f1_score(y_test, y_pred)
	st.metric("Sensibilidade (Recall)", f"{recall:.4f}")
	st.metric("F1-Score", f"{f1:.4f}")

	with col3:
	auc = roc_auc_score(y_test, y_pred_proba)
	st.metric("AUC-ROC", f"{auc:.4f}")

	# Interpretação
	st.info(f"""
	Interpretação das Métricas:
	- AUC-ROC = {auc:.4f}: {"Excelente" if auc > 0.8 else "Bom" if auc > 0.7 else "Moderado"} poder discriminativo
	- Acurácia = {accuracy:.4f}: {accuracy * 100:.1f}% de predições corretas
	- F1-Score = {f1:.4f}: Balanceamento entre precisão e sensibilidade
	""")

	# Coeficientes das variáveis
	coefficients = model.coef_[0]
	odds_ratios = np.exp(coefficients)

	coef_df = pd.DataFrame(
	{
	"Variável": features,
	"Coeficiente": coefficients,
	"Odds_Ratio": odds_ratios,
	"Abs_Coefficient": np.abs(coefficients),
	}
	).sort_values("Abs_Coefficient", ascending=False)

	st.subheader("Variáveis Mais Importantes")

	fig_coef = px.bar(
	coef_df.head(10),
	x="Coeficiente",
	y="Variável",
	orientation="h",
	title="Coeficientes das Variáveis Mais Importantes",
	color="Abs_Coefficient",
	color_continuous_scale="RdYlBu_r",
	)
	fig_coef.update_layout(height=400)
	st.plotly_chart(fig_coef, use_container_width=True)

	# Interpretação dos coeficientes
	st.subheader("Interpretação dos Odds Ratios")
	for _, row in coef_df.head(5).iterrows():
	if row["Odds_Ratio"] > 1:
	effect = f"aumenta a probabilidade de churn em {(row['Odds_Ratio'] - 1) * 100:.1f}%"
	else:
	effect = f"diminui a probabilidade de churn em {(1 - row['Odds_Ratio']) * 100:.1f}%"
	st.write(f"{row['Variável']}: {effect}")

	# =============================
	# Validação de Pressupostos
	# =============================

	if show_assumptions:
	st.header("Validação dos Pressupostos")

	col1, col2 = st.columns(2)

	with col1:
	st.subheader("Testes Estatísticos")

	# Multicolinearidade (VIF)
	vif_data = pd.DataFrame()
	vif_data["Variável"] = X.columns
	vif_data["VIF"] = [
	variance_inflation_factor(X.values, i) for i in range(X.shape[1])
	]
	high_vif_count = len(vif_data[vif_data["VIF"] > 10])
	st.write(f"Multicolinearidade (VIF > 10): {high_vif_count} variáveis")

	# Balanceamento das classes
	class_counts = y.value_counts()
	imbalance_ratio = class_counts[0] / class_counts[1]
	st.write(f"Balanceamento das Classes: {imbalance_ratio:.2f}:1")

	with col2:
	st.subheader("Visualizações")

	# Distribuição das classes
	fig_balance = px.bar(
	x=["Não Churn", "Churn"],
	y=class_counts.values,
	title="Distribuição das Classes",
	)
	st.plotly_chart(fig_balance, use_container_width=True)

	# Avaliação dos pressupostos
	multicoll_ok = high_vif_count == 0
	balance_ok = imbalance_ratio < 2

	st.subheader("Avaliação dos Pressupostos")

	col1, col2 = st.columns(2)
	with col1:
	st.metric("Multicolinearidade", "OK" if multicoll_ok else "Alta")
	with col2:
	st.metric("Balanceamento", "OK" if balance_ok else "Desbalanceado")

	# =============================
	# Avaliação do Modelo
	# =============================

	st.header("Avaliação do Modelo")

	# Matriz de confusão
	cm = confusion_matrix(y_test, y_pred)
	fig_cm = px.imshow(
	cm,
	text_auto=True,
	aspect="auto",
	title="Matriz de Confusão",
	labels=dict(x="Predito", y="Real", color="Contagem"),
	)
	st.plotly_chart(fig_cm, use_container_width=True)

	# Análise da Curva ROC e AUC
	fpr, tpr, thresholds = roc_curve(y_test, y_pred_proba)

	# Interpretação do AUC
	if auc >= 0.9:
	interpretation = "Excelente"
	elif auc >= 0.8:
	interpretation = "Muito Bom"
	elif auc >= 0.7:
	interpretation = "Bom"
	elif auc >= 0.6:
	interpretation = "Razoável"
	else:
	interpretation = "Ruim"

	st.info(f"AUC-ROC: {auc:.4f} - Interpretação: {interpretation}")

	# Curva ROC com área preenchida
	fig_roc = go.Figure()

	# Área sob a curva
	fig_roc.add_trace(
	go.Scatter(
	x=fpr,
	y=tpr,
	fill="tonexty",
	mode="none",
	name=f"AUC = {auc:.3f}",
	fillcolor="rgba(0,100,80,0.2)",
	)
	)

	# Curva ROC
	fig_roc.add_trace(
	go.Scatter(
	x=fpr,
	y=tpr,
	mode="lines",
	name="ROC Curve",
	line=dict(color="blue", width=3),
	)
	)

	# Linha de referência
	fig_roc.add_trace(
	go.Scatter(
	x=[0, 1],
	y=[0, 1],
	mode="lines",
	name="Random Classifier",
	line=dict(color="red", dash="dash"),
	)
	)

	fig_roc.update_layout(
	title=f"Curva ROC (AUC = {auc:.4f})",
	xaxis_title="Taxa de Falsos Positivos",
	yaxis_title="Taxa de Verdadeiros Positivos",
	height=500,
	)
	st.plotly_chart(fig_roc, use_container_width=True)

	# Análise de threshold ótimo
	youden_j = tpr - fpr
	optimal_idx = np.argmax(youden_j)
	optimal_threshold = thresholds[optimal_idx]

	st.write(
	f"Threshold ótimo: {optimal_threshold:.3f} (Youden's J: {youden_j[optimal_idx]:.3f})"
	)

	# Análise de Thresholds
	st.subheader("Análise de Thresholds")

	# Calcular métricas para diferentes thresholds
	thresholds_analysis = []
	thresholds_to_test = [0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9]

	for threshold in thresholds_to_test:
	y_pred_thresh = (y_pred_proba >= threshold).astype(int)
	acc = accuracy_score(y_test, y_pred_thresh)
	prec = precision_score(y_test, y_pred_thresh)
	rec = recall_score(y_test, y_pred_thresh)
	f1 = f1_score(y_test, y_pred_thresh)

	thresholds_analysis.append(
	{
	"Threshold": threshold,
	"Accuracy": acc,
	"Precision": prec,
	"Recall": rec,
	"F1-Score": f1,
	}
	)

	thresholds_df = pd.DataFrame(thresholds_analysis)

	# Visualização das métricas por threshold
	fig_thresh = go.Figure()
	fig_thresh.add_trace(
	go.Scatter(
	x=thresholds_df["Threshold"],
	y=thresholds_df["Accuracy"],
	mode="lines+markers",
	name="Acurácia",
	line=dict(color="blue"),
	)
	)
	fig_thresh.add_trace(
	go.Scatter(
	x=thresholds_df["Threshold"],
	y=thresholds_df["Precision"],
	mode="lines+markers",
	name="Precisão",
	line=dict(color="green"),
	)
	)
	fig_thresh.add_trace(
	go.Scatter(
	x=thresholds_df["Threshold"],
	y=thresholds_df["Recall"],
	mode="lines+markers",
	name="Recall",
	line=dict(color="red"),
	)
	)
	fig_thresh.add_trace(
	go.Scatter(
	x=thresholds_df["Threshold"],
	y=thresholds_df["F1-Score"],
	mode="lines+markers",
	name="F1-Score",
	line=dict(color="orange"),
	)
	)

	fig_thresh.update_layout(
	title="Métricas por Threshold",
	xaxis_title="Threshold",
	yaxis_title="Valor",
	height=400,
	)
	st.plotly_chart(fig_thresh, use_container_width=True)

	# Melhor threshold para F1-Score
	best_f1_idx = thresholds_df["F1-Score"].idxmax()
	best_f1_threshold = thresholds_df.loc[best_f1_idx, "Threshold"]
	best_f1_score = thresholds_df.loc[best_f1_idx, "F1-Score"]

	st.write(
	f"Melhor F1-Score: {best_f1_score:.4f} (threshold: {best_f1_threshold:.1f})"
	)

	# Relatório de classificação
	st.subheader("Relatório de Classificação")
	st.text(classification_report(y_test, y_pred))

	# =============================
	# Resumo dos Resultados
	# =============================

	st.header("Resumo dos Resultados")

	# Calcular métricas do modelo
	models_summary = pd.DataFrame(
	{
	"Métrica": ["Acurácia", "Precisão", "Sensibilidade", "F1-Score", "AUC-ROC"],
	"Valor": [accuracy, precision, recall, f1, auc],
	}
	)

	# Exibir resumo
	col1, col2 = st.columns(2)

	with col1:
	st.subheader("Performance do Modelo")
	st.dataframe(models_summary, use_container_width=True)

	with col2:
	st.subheader("Status dos Pressupostos")
	if show_assumptions:
	assumptions_status = pd.DataFrame(
	{
	"Pressuposto": ["Multicolinearidade", "Balanceamento"],
	"Status": [
	"OK" if multicoll_ok else "Alta",
	"OK" if balance_ok else "Desbalanceado",
	],
	"Valor": [
	f"{high_vif_count} variáveis VIF > 10",
	f"{imbalance_ratio:.2f}:1",
	],
	}
	)
	st.dataframe(assumptions_status, use_container_width=True)
	else:
	st.info(
	"Ative 'Mostrar validação de pressupostos' para ver o status detalhado."
	)

	# Conclusões principais
	st.subheader("Principais Conclusões")

	assumptions_ok = show_assumptions and multicoll_ok and balance_ok

	st.success(f"""
	Modelo de regressão logística implementado com sucesso

	Interpretação:
	- O modelo tem {interpretation.lower()} poder discriminativo (AUC = {auc:.4f})
	- Acurácia de {accuracy * 100:.1f}% nas predições
	- F1-Score de {f1:.4f} (balanceamento entre precisão e sensibilidade)
	- {"Todos os pressupostos foram atendidos" if assumptions_ok else "Alguns pressupostos podem ter sido violados"}
	- Variáveis mais importantes: {", ".join(coef_df.head(3)["Variável"].tolist())}
	""")

	# Resumo das variáveis mais importantes
	st.subheader("Variáveis Mais Importantes para Prever Churn")
	top_vars = coef_df.head(5)
	for _, row in top_vars.iterrows():
	st.write(f"{row['Variável']}: Odds Ratio = {row['Odds_Ratio']:.3f}")

	# Performance final
	st.subheader("Performance Final do Modelo")
	col1, col2, col3 = st.columns(3)
	with col1:
	st.metric("AUC-ROC", f"{auc:.4f}")
	with col2:
	st.metric("Acurácia", f"{accuracy:.4f}")
	with col3:
	st.metric("F1-Score", f"{f1:.4f}")

	else:
	st.error(
	"Erro ao carregar os dados. Verifique se o arquivo "
	"Churn_Modelling.csv está presente no diretório."
	)

	# =============================
	# Footer
	# =============================

	st.markdown("---")
	st.markdown("""
	PPCA/UnB \| Outubro 2025
	""")