Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Economía# Aprendizaje automático# Econometría

Desafíos en la fijación de precios de préstamos: sesgo de selección y métodos causales

Analizando cómo el sesgo de selección afecta las estrategias de precios de préstamos personalizados.

― 11 minilectura


Precios de préstamos yPrecios de préstamos ysesgo de selecciónpréstamos.selección en los modelos de precios deExplorando el impacto del sesgo de
Tabla de contenidos

El precio de los préstamos puede ser bastante complicado para los bancos. Tienen que fijar precios que sean lo suficientemente altos para cubrir sus costos y posibles pérdidas, pero lo suficientemente bajos para atraer a los clientes y seguir siendo competitivos. Si un banco establece un precio demasiado alto, es probable que los clientes rechacen la oferta y se vayan con un competidor. Si el precio es demasiado bajo, el banco podría no obtener ganancias y podría terminar perdiendo dinero.

Los clientes individuales tienen diferentes preferencias y sensibilidades al precio, lo que significa que el precio óptimo para maximizar las ganancias a menudo es personalizado. Sin embargo, muchos bancos todavía usan estructuras de precios rígidas que agrupan a los clientes en grandes categorías en lugar de adaptar los precios a las necesidades individuales. Los descuentos a menudo se otorgan a discreción del personal del banco, que puede estar influenciado por políticas corporativas.

Crear una estrategia de precios personalizada es difícil porque los bancos necesitan conocer las preferencias y características únicas de cada cliente. Sin embargo, estos detalles, como la sensibilidad al precio y la disposición a pagar, a menudo no están disponibles directamente. Los bancos típicamente tienen que hacer suposiciones o usar aproximaciones basadas en datos pasados, lo que puede introducir desafíos.

Desafíos en la fijación de precios de préstamos

Dos problemas clave en la fijación de precios de préstamos son la endogeneidad y el Sesgo de selección. La endogeneidad ocurre cuando factores importantes que afectan las preferencias o decisiones del cliente no se observan o no están disponibles para modelar. Por ejemplo, las interacciones entre los clientes y el personal del banco pueden no estar registradas adecuadamente, lo que lleva a lagunas en los datos.

El sesgo de selección, por otro lado, se refiere a la diferencia sistemática entre los grupos de clientes que reciben diferentes ofertas de préstamos. Esto puede surgir de las políticas del banco o del comportamiento del personal del banco. Por ejemplo, ciertos grupos de clientes pueden recibir un tratamiento preferencial, o el personal puede favorecer inconscientemente a clientes específicos sobre otros. Además, los propios clientes pueden elegir a qué préstamos postularse en función de varios factores, lo que lleva a la auto-selección.

Enfocándonos en el sesgo de selección

En nuestra investigación, buscamos investigar cómo el sesgo de selección afecta el aprendizaje de modelos de precios personalizados a partir de datos disponibles. Nuestro enfoque implica analizar la fijación de precios de préstamos a través de la inferencia causal, lo que significa que lo vemos como un escenario que involucra un tratamiento (el precio del préstamo ofrecido) y su efecto (la respuesta del cliente).

Para explorar esto, realizamos experimentos usando un conjunto de datos relacionado con solicitudes de hipotecas en Bélgica. Nuestro objetivo era ver qué tan bien diferentes Métodos estadísticos podrían identificar las curvas de oferta-respuesta individuales, que representan cómo los clientes reaccionan a varios precios de préstamos.

Examinando el proceso de fijación de precios de préstamos

Cuando un cliente busca un préstamo, el proceso típicamente se desarrolla en unos pocos pasos:

  1. El cliente se acerca a varios bancos para discutir posibles préstamos.
  2. Cada banco recopila información sobre el cliente y evalúa las posibles condiciones del préstamo.
  3. Los bancos rechazan al cliente o proporcionan una oferta de préstamo, que incluye un precio conocido como la oferta.
  4. Finalmente, el cliente revisa las ofertas y decide si acepta alguna de ellas.

Para nuestro estudio, simplificamos este proceso para centrarnos en la interacción inicial entre el cliente y el banco. Esto significa que analizamos una oferta de un banco y la respuesta inmediata del cliente.

El precio del préstamo generalmente está compuesto por varios componentes, incluyendo un precio base para cubrir riesgos y costos y un componente específico del cliente introducido por el personal del banco basado en su evaluación del cliente.

Entendiendo la inferencia causal en la fijación de precios de préstamos

En nuestro enfoque para la fijación de precios de préstamos, miramos los datos históricos que los bancos tienen sobre sus procesos de ventas. Analizamos cómo las características de los clientes, las ofertas hechas a ellos y sus decisiones de aceptar o rechazar esas ofertas pueden proporcionar información sobre las respuestas individuales a las ofertas.

Suponemos que para cada oferta de préstamo, hay un resultado potencial correspondiente respecto a si el cliente aceptaría la oferta. Toda la información que observamos se conoce como datos fácticos, mientras que los resultados potenciales para combinaciones no observadas de características del cliente y ofertas se consideran contrafactuales.

Sesgo de selección y su impacto

Un enfoque principal de nuestro trabajo es el sesgo de selección y cómo afecta los datos que los bancos utilizan para establecer los precios de los préstamos. El sesgo de selección surge de las políticas de precios establecidas en los bancos, llevando a un tratamiento desigual de diferentes grupos de clientes.

En nuestro análisis, identificamos varias razones para el sesgo de selección, incluyendo:

  • Políticas de precios establecidas que pueden llevar a que algunos clientes reciban ofertas más altas o más bajas según la asignación de grupos.
  • Estereotipos implícitos sostenidos por el personal del banco, resultando en condiciones de oferta inequitativas.
  • Variaciones en la auto-selección de clientes, como individuos que eligen no postularse para préstamos específicos en función de su estatus socioeconómico.

Mantener predicciones precisas en presencia de sesgo de selección es crucial, especialmente dado que los bancos a menudo confían en datos históricos para la toma de decisiones. Modelos inexactos pueden resultar de pasar por alto estos sesgos.

Prediciendo las respuestas de los clientes a las ofertas de préstamos

Para modelar cómo los clientes responden a las ofertas de préstamos, evaluamos varios métodos estadísticos. Categorizar estos métodos en modelos paramétricos (que hacen suposiciones sobre la estructura de los datos) y no paramétricos (que no lo hacen). También incluimos métodos causales diseñados específicamente para mitigar los efectos del sesgo de selección.

Nuestros experimentos involucraron comparar qué tan bien estos modelos predicen las respuestas individuales a las ofertas y evaluar su efectividad en la toma de decisiones operativas:

  1. Precios Naive: Supone que la oferta ofrecida es la mejor oferta para cada cliente, sin ningún modelado de respuestas.
  2. Regresión logística: Un método ampliamente utilizado en varios campos, efectivo para estimar modelos de oferta-respuesta debido a su claridad y naturaleza directa.
  3. Clasificador de Bosque Aleatorio: Combina múltiples árboles de decisión para mejorar la precisión de la predicción y reducir la varianza.
  4. Redes Neuronales Artificiales: Herramientas poderosas para muchas tareas de predicción, permitiendo un modelado flexible de relaciones complejas.

Además de los métodos tradicionales, implementamos técnicas de aprendizaje automático causal diseñadas específicamente para manejar el sesgo de selección:

  • Estimador Hirano-Imbens: Usa un puntaje de propensión generalizado para modelar las respuestas a las ofertas al estimar la asignación del tratamiento.
  • DRNets: Adaptación para estimar efectos de intervenciones continuas, aprendiendo representaciones compartidas a partir de datos de entrenamiento.
  • VCNets: Extensión de DRNets, donde los coeficientes del modelo varían según el nivel de intervención, permitiendo relaciones más continuas.

Realizando experimentos y analizando resultados

Para este estudio, utilizamos un conjunto de datos real con más de 12,000 ofertas de préstamos de un banco belga. Identificamos y estandarizamos variables clave relevantes para la fijación de precios, asegurando que no haya datos perdidos.

Dadas las dificultades para evaluar predicciones en la fijación de precios de préstamos, adoptamos un conjunto de datos semi-sintético para generar resultados potenciales. Esto nos permitió controlar factores que afectan el sesgo de selección y simular varios escenarios de respuesta.

Respuesta de oferta real

En nuestros experimentos, establecimos criterios para representar con precisión las funciones de respuesta a las ofertas. Generamos dos tipos de curvas de respuesta a la oferta de verdad para análisis:

  1. Curvas de Richards: Una función logística que define las probabilidades de aceptación del cliente a diferentes niveles de oferta.
  2. Curvas Sigmoide Apiladas: Otra forma de función de respuesta a la oferta, caracterizada por una combinación de dos curvas sigmoides para probar el rendimiento del modelo en condiciones no lineales.

Asignación de ofertas fácticas

Para controlar diferentes niveles de sesgo de selección, muestreamos ofertas fácticas de una distribución beta. Este enfoque nos permitió simular escenarios donde no existe sesgo hasta casos con sesgo significativo.

Métricas de evaluación

Evaluamos la efectividad de cada método usando tres métricas principales de rendimiento:

  • Error Cuadrático Medio Integrado (MISE): Mide la precisión de las respuestas de oferta predichas en todas las ofertas observadas.
  • Error de Política (PE): Evalúa qué tan bien un método identifica la oferta óptima para maximizar las ganancias.
  • Puntuación de Brier (BS): Evalúa la capacidad de cada modelo para estimar el resultado real de las ofertas de préstamos.

Hallazgos experimentales

Después de realizar múltiples simulaciones, analizamos nuestros resultados en función de la efectividad de modelar las respuestas a las ofertas. Encontramos que los métodos tradicionales mostraron grados variados de resistencia al sesgo de selección, especialmente a medida que la función de respuesta a la oferta subyacente se volvía más compleja.

  1. Al usar la curva de Richards como verdad fundamental, tanto la red neuronal estándar como la regresión logística entregaron los mejores resultados. Notablemente, la regresión logística mostró menos susceptibilidad al aumento del sesgo de selección, mientras que métodos causales como DRNets lucharon con niveles más altos de sesgo.

  2. En el caso de curvas sigmoide apiladas complejas, el clasificador de bosque aleatorio tuvo el peor rendimiento bajo el sesgo de selección, mientras que la red neuronal destacó sin sesgo alguno pero enfrentó desafíos con condiciones de sesgo aumentadas. DRNets mostraron mejoras a medida que aumentaron los niveles de sesgo, sugiriendo su robustez bajo tales desafíos.

  3. Los resultados de la puntuación de Brier destacaron que algunos métodos pueden funcionar bien en predecir resultados bajo políticas existentes pero podrían fallar en generalizarse a diferentes niveles de oferta. Esto subraya la necesidad de métricas de evaluación más matizadas al evaluar modelos de precios.

Conclusiones e implicaciones

Nuestra investigación destaca la importancia de considerar el sesgo de selección en los modelos de fijación de precios de préstamos. Los enfoques tradicionales pueden no manejar adecuadamente este problema, llevando a errores sistemáticos en las predicciones. Esto podría resultar en estrategias de precios ineficaces que, en última instancia, perjudiquen la rentabilidad del banco.

Los métodos de aprendizaje automático causal parecen ser prometedores para superar los desafíos que plantea el sesgo de selección. Sin embargo, existen limitaciones en su efectividad y se necesita más investigación para desarrollar estos enfoques y aplicarlos en escenarios del mundo real.

El trabajo futuro debería centrarse en perfeccionar métodos para estimar respuestas a ofertas a partir de datos observacionales, especialmente en intervenciones de valor continuo. Esto podría mejorar la aplicación del aprendizaje automático causal en varios campos, incluyendo la evaluación de riesgos y la evaluación de políticas.

Además, se necesita más investigación para determinar la extensión del sesgo de selección en datos del mundo real y los efectos de suposiciones como la superposición y la no confusión. Entender estos elementos será crítico para asegurar que el aprendizaje automático causal se pueda aplicar efectivamente a las decisiones de precios en las operaciones bancarias y de préstamos.

En resumen, nuestros hallazgos subrayan la necesidad vital de que los bancos desarrollen modelos de precios más sofisticados que tengan en cuenta el sesgo de selección, ya que no hacerlo podría llevar a desafíos a largo plazo en el panorama competitivo de préstamos.

Fuente original

Título: A Causal Perspective on Loan Pricing: Investigating the Impacts of Selection Bias on Identifying Bid-Response Functions

Resumen: In lending, where prices are specific to both customers and products, having a well-functioning personalized pricing policy in place is essential to effective business making. Typically, such a policy must be derived from observational data, which introduces several challenges. While the problem of ``endogeneity'' is prominently studied in the established pricing literature, the problem of selection bias (or, more precisely, bid selection bias) is not. We take a step towards understanding the effects of selection bias by posing pricing as a problem of causal inference. Specifically, we consider the reaction of a customer to price a treatment effect. In our experiments, we simulate varying levels of selection bias on a semi-synthetic dataset on mortgage loan applications in Belgium. We investigate the potential of parametric and nonparametric methods for the identification of individual bid-response functions. Our results illustrate how conventional methods such as logistic regression and neural networks suffer adversely from selection bias. In contrast, we implement state-of-the-art methods from causal machine learning and show their capability to overcome selection bias in pricing data.

Autores: Christopher Bockel-Rickermann, Sam Verboven, Tim Verdonck, Wouter Verbeke

Última actualización: 2023-09-07 00:00:00

Idioma: English

Fuente URL: https://arxiv.org/abs/2309.03730

Fuente PDF: https://arxiv.org/pdf/2309.03730

Licencia: https://creativecommons.org/licenses/by/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.

Más de autores

Artículos similares