Volver a proyectos
Probabilistic Modelling · Business AnalyticsTrabajo académico metodológico

Modelización probabilística para datos empresariales

Ajuste de distribuciones continuas y modelos de conteo con exceso de ceros para interpretar incertidumbre, colas y eventos poco frecuentes en datos de negocio.

Tipo

Trabajo académico metodológico

Área

Probabilistic Modelling · Business Analytics

Herramientas

R · fitdistrplus · glmmTMB · DHARMa · VGAM

Técnicas

MLE · Goodness-of-fit · AIC / BIC · Lognormal · Gamma · Zero-inflated models

Entregable

Comparación de modelos probabilísticos

Valor

Trabajo académico donde comparé distribuciones y modelos probabilísticos mediante R, máxima verosimilitud y criterios de ajuste para interpretar incertidumbre y estructura de datos empresariales.

309

Observaciones en ajuste continuo

2.894,9

AIC Lognormal seleccionado

1.482,9

AIC ZINB seleccionado

Resumen ejecutivo

Caso metodológico que demuestra capacidad para elegir distribuciones según la forma de los datos, comparar modelos con criterios objetivos y validar si un modelo captura colas, sobredispersión o exceso de ceros.

Contexto de negocio

En datos de negocio aparecen variables monetarias con asimetría, eventos de baja frecuencia, muchos ceros o recuentos concentrados. Modelarlos bien evita asumir normalidad por defecto y ayuda a interpretar incertidumbre, riesgo y variabilidad operativa.

Mi contribución

Trabajos académicos individuales. Ajusté modelos en R, comparé alternativas mediante AIC/BIC y tests de bondad de ajuste, y validé residuos simulados en modelos de conteo.

Datos y métodos

  • Ajuste de distribuciones continuas a una variable monetaria positiva y asimétrica.
  • Comparación Normal, Lognormal, Gamma y Weibull con fitdistrplus.
  • Modelos de conteo Poisson, Binomial Negativa, ZIP y ZINB con glmmTMB.
  • Diagnóstico de sobredispersión, inflación de ceros y residuos simulados con DHARMa.

Proceso

  1. 01Explorar forma empírica de los datos.
  2. 02Proponer familias de distribución candidatas.
  3. 03Estimar parámetros por máxima verosimilitud.
  4. 04Comparar ajuste visual y criterios AIC/BIC.
  5. 05Validar diagnóstico del modelo seleccionado.
  6. 06Traducir resultados a lectura de negocio.

Hallazgos clave

  • Para variables monetarias positivas y asimétricas, la Lognormal puede superar claramente a la Normal.
  • En datos de conteo con varianza muy superior a la media, Poisson puede ser insuficiente.
  • El exceso de ceros exige distinguir entre ceros estructurales y ceros muestrales.
  • AIC/BIC y diagnóstico residual ayudan a evitar seleccionar modelos solo por intuición.

Implicaciones de negocio

  • Transferible a precios, costes, revenue, frecuencia de compra, incidencias, leads por cuenta o eventos de riesgo.
  • Útil para analistas que necesitan cuantificar incertidumbre y no asumir distribuciones simplistas.

Limitaciones

  • Casos académicos y metodológicos.
  • Uno de los datasets de conteo no es adecuado como caso público destacado por su temática sensible; debe comunicarse de forma genérica si se menciona.
  • No incluye modelos predictivos multivariantes completos.

Qué haría a continuación

  • Aplicar a datasets empresariales reales con variables explicativas.
  • Comparar con modelos bayesianos o machine learning según el caso.
  • Crear simuladores de escenarios para decisiones operativas.

Recursos

Ver resumenPróximamenteResumen metodológico ampliable.Ver notebookPróximamenteCódigo R disponible para versión reproducible.

Visuales sugeridos

Cullen and Frey plot.

Q-Q / P-P comparison.

AIC/BIC comparison table.

Zero-inflated count model diagram.

Proyectos relacionados

01

Estimación bayesiana de conversión en campañas bancarias

Proyecto individual académico · CRM Analytics · Bayesian Inference · Decision Science · FirstBayes / Excel / UCI Bank Marketing dataset

Proyecto individual donde estimé la conversión de campañas de telemarketing bancario mediante inferencia bayesiana Binomial-Beta y distribución predictiva para traducir incertidumbre en expectativas operativas de marketing.

CRM Analytics · Bayesian Inference · Decision ScienceProyecto individual académico

Técnicas

Binomial-Beta model · Posterior update · Prior sensitivity

02

Forecasting SARIMA de concentración de ozono

Proyecto individual académico · Forecasting · Time Series · Business Planning · Stata / .do script

Proyecto individual donde modelicé una serie mensual de concentración de ozono mediante Stata, metodología Box-Jenkins y SARIMA para generar previsiones con diagnóstico de residuos e intervalos de incertidumbre.

Forecasting · Time Series · Business PlanningProyecto individual académico

Técnicas

Box-Jenkins · SARIMA · ACF / PACF

03

Análisis hedónico de pricing de vehículos eléctricos europeos

Proyecto individual académico · Pricing Analytics · Econometrics · Market Intelligence · R / ggplot2 / lmtest

Proyecto individual donde analicé cómo autonomía, potencia y gama influyen en el precio de vehículos eléctricos europeos mediante R, regresión OLS, interacciones y errores robustos para extraer implicaciones de pricing y producto.

Pricing Analytics · Econometrics · Market IntelligenceProyecto individual académico

Técnicas

Hedonic pricing · OLS regression · Log-log model