Creación de sistemas de calificación crediticia con datos escasos

May 10 2022
Contexto Los científicos de datos en fintechs a menudo enfrentan numerosos desafíos de modelado al construir un sistema de calificación crediticia. Las limitaciones de datos más comunes son: Descripción general Un sistema de calificación crediticia evalúa la solvencia de los prestatarios y la calidad de las transacciones crediticias entre un prestamista y un prestatario.

Contexto

Los científicos de datos en fintechs a menudo enfrentan numerosos desafíos de modelado al construir un sistema de calificación crediticia. Las limitaciones de datos más comunes son:

  • Falta de datos crediticios históricos: esto ocurre cuando se diseñan nuevos productos crediticios o se expanden los productos crediticios existentes a nuevos segmentos de clientes.
  • Ausencia de eventos de crédito incobrables: los datos crediticios disponibles pueden contener muy pocos eventos de incumplimiento observados a lo largo del tiempo debido a la baja ocurrencia dentro de la población, o el prestatario puede ser despedido antes de que ocurra un evento de incumplimiento.
  • Información histórica irrelevante debido a un cambio en las prácticas comerciales : los datos recopilados en el pasado se vuelven menos útiles cuando los clientes hacen la transición entre diferentes productos crediticios o cuando revisan los métodos de evaluación del riesgo crediticio.
  • Definición e identificación inconsistentes del incumplimiento en los datos crediticios históricos: esto sucede cuando los sistemas de ingeniería complejos y las políticas crediticias evolucionan a través de diferentes productos crediticios.

Visión de conjunto

Un sistema de calificación crediticia evalúa la solvencia de los prestatarios y la calidad de las transacciones crediticias entre un prestamista y un prestatario. Una calificación crediticia es una variable ordinal utilizada para agrupar y clasificar a los prestatarios por riesgo crediticio, generalmente utilizando una escala discreta. Una de las formas de cuantificar estadísticamente el riesgo de crédito es a través de un modelo de Probabilidad de Incumplimiento (PD).

Figura 1: Un ejemplo simplificado del Sistema de Calificación Crediticia

Modelo de probabilidad de incumplimiento (PD)

Un modelo PD predice la probabilidad de que un prestatario incumpla dentro de un cierto período en el futuro y genera una puntuación entre 0 y 1, lo que inherentemente crea un orden de clasificación. En un modelo de PD, los expertos en riesgo crediticio deben aclarar una definición de incumplimiento (es decir, la variable objetivo del modelo de PD) al comprender qué estado específico de un prestatario califica como incumplimiento (o cualquier evento adverso). Las características del modelo de PD o los factores de riesgo utilizados para predecir el incumplimiento pueden incluir:

  • Atributos de la relación financiera calculados a partir de los estados financieros del prestatario
  • Atributos de comportamiento crediticio pasado calculados a partir de datos de burós de crédito
  • Posición de saldo de caja
  • Atributos de comportamiento de la actividad bancaria calculados a partir de transacciones bancarias
  • Uso del producto y atributos de comportamiento crediticio calculados a partir de datos recopilados internamente
  • Cualquier atributo de salud empresarial derivado de fuentes de datos alternativas

Desafíos

Desarrollar y probar cualquier modelo cuantitativo para estimar la PD en un sistema de calificación crediticia requiere un número suficiente de eventos de incumplimiento observados. Si no hay suficientes de estos, terminamos en una situación llamada Low Default Portfolio (LDP) . El desafío de construir un modelo cuantitativo en tal situación se puede atribuir a 2 tipos de problemas:

  1. Problema de arranque en frío : los eventos predeterminados están totalmente ausentes en los datos. Como resultado, no hay suficiente información para entrenar un modelo confiable. Dado que el modelo no puede explotar los datos sobre los eventos predeterminados, no se pueden extraer inferencias significativas de las predicciones del modelo con confianza.
  2. Problema de datos desequilibrados : los datos están excepcionalmente sesgados a eventos no predeterminados. Como resultado, los clasificadores de aprendizaje automático mal entrenados pueden estar más sesgados hacia eventos no predeterminados y, por lo tanto, clasificar eventos predeterminados de manera errónea. Los clasificadores pueden incluso predecir todos los datos como eventos no predeterminados.

Nuestro Marco

Figura 2: Marco de Modelado de Cartera de Incumplimiento Bajo

Identificamos 3 pilares principales para que nuestro marco de modelado funcione en una situación de cartera de bajo incumplimiento al construir un sistema de calificación crediticia:

  1. Selección de la metodología del modelo
  2. Pruebas de modelos
  3. Margen de conservadurismo

Para un LDP con un problema de arranque en frío, es difícil construir un modelo PD. En tales situaciones, es posible que no calculemos cuantitativamente la PD. Aún así, podemos generar el orden de clasificación para el sistema de crédito utilizando cualquiera de estos métodos:

  1. Modelos de riesgo listos para usar fácilmente disponibles desarrollados por burós de crédito y agencias calificadoras
  2. Heurística como proxy de PD basada en la intuición de expertos en riesgo de crédito
  3. Tabla 1: Metodologías de modelado cuando se trata de un problema de arranque en frío
  1. Datos internos: datos de transacciones de crédito acumulados internamente
  2. Datos externos: datos de transacciones de crédito adquiridos externamente mediante la agrupación de otras instituciones financieras
  3. Una combinación de datos internos y externos.
Tabla 2: Metodologías de modelado cuando se trata de problemas de datos desequilibrados

Independientemente de la metodología que elija al diseñar modelos PD para LDP, es beneficioso para:

  • Esté preparado para combinar diferentes enfoques: Complemente los datos crediticios disponibles con el juicio experto de los profesionales de riesgo crediticio para cubrir todos los factores de riesgo.
  • Comprenda las poblaciones objetivo y los factores de riesgo significativos: antes de elegir un enfoque de modelado, conozca su población y la audiencia prevista para el uso del modelo.
  • Plan para el desarrollo del modelo futuro: comience a recopilar datos para el trabajo futuro y tenga una visión de cómo evolucionará el modelo en el futuro.
  • Recopile opiniones de un grupo de personas: para evitar un sesgo sistemático al usar el juicio de expertos, no recopile información de un solo individuo.
  • Revise los valores atípicos al final e identifique una razón aparente de su existencia: aborde los valores atípicos que resultan de las limitaciones del modelo y los escenarios comerciales extraños pero legítimos definiendo políticas de anulación y medidas de seguridad adicionales en lugar de eliminar dichos valores atípicos del conjunto de datos de modelado.
  • Diseñe características que tengan sentido comercial: primero, asóciese con profesionales expertos en riesgo crediticio para generar ideas sobre características intuitivas que puedan discriminar a los clientes riesgosos de los no riesgosos. Luego, valide la intuición detrás de estas características con datos. Finalmente, confirme los hallazgos de validación con profesionales de riesgo crediticio para evitar sesgos de selección antes de usar estas funciones.

Las pruebas de modelos requieren una cantidad significativa de datos predeterminados para derivar declaraciones válidas sobre el rendimiento del modelo. Sin embargo, para superar los desafíos de LDP al construir un sistema de calificación crediticia, los modelos PD pueden probarse utilizando una combinación de datos agrupados externamente, modelos de riesgo listos para usar y heurísticas de expertos en riesgo crediticio. Utilice cualquiera de los métodos siguientes para probar el modelo PD desarrollado para LDP.

  1. Backtesting: el modelo se prueba con los eventos predeterminados de datos externos para obtener conclusiones estadísticas sobre el rendimiento del modelo. Las métricas de evaluación del modelo utilizadas para medir el poder discriminatorio del modelo son: AUROC , curva de perfil de acceso acumulativo (CAP) , estadísticas de KS , etc.
  2. Evaluación comparativa: el modelo se prueba comparando el orden de clasificación derivado del modelo con el de un modelo "desafiante". Un modelo desafiante, en este caso, puede ser un modelo de riesgo listo para usar o una heurística desarrollada por expertos en riesgo crediticio. Las métricas de evaluación del modelo que se utilizan para medir la eficacia de la ordenación por rango generada por el modelo son el coeficiente de correlación de rango de Spearman , la D de Somer o la Tau de Kendall , los gráficos de elevación/ganancia , etc.

Cuando se trata de LDP mientras se construye un sistema de calificación crediticia, el modelo PD puede tener deficiencias, sin importar qué metodología de modelo elija. Tales deficiencias pueden deberse a la representación de datos utilizada para el modelado y el riesgo de modelo intrínseco asociado con una metodología particular. Pueden causar sobreestimación o subestimación de la verdadera DP para la población.

Figura 3: Margen General del Proceso de Control del Conservadurismo

Para mitigar el impacto de estas deficiencias, primero identifique la fuente de las deficiencias del modelo, mida su impacto y aplique un margen conservador a la estimación de PD para corregir las imprecisiones en las estimaciones. Decidir sobre un margen conservador a menudo requiere el aporte de expertos en riesgo crediticio. Después de implementar el modelo en producción, deberá establecer un mecanismo de supervisión del modelo para realizar un seguimiento de los cambios en la representación de la población y cualquier error debido a deficiencias metodológicas o de datos. La expectativa general es que estos errores se reduzcan con el tiempo o que los márgenes se ajusten para reflejar las nuevas realidades comerciales.

Pensamientos finales

Las carteras de incumplimiento bajo son bastante estándar en la industria financiera. Los desafíos de la escasez de datos pueden impedir el desarrollo de una estimación confiable de PD, lo que lleva a una subestimación o sobreestimación sustancial del riesgo crediticio. El marco operativo general anterior puede equipar a los científicos de datos para superar los desafíos de la escasez de datos y construir y escalar rápidamente sistemas de calificación crediticia para potenciar la suscripción y la gestión del riesgo crediticio.

¿Está interesado en resolver emocionantes desafíos de ciencia de datos que permitan a Brex ayudar a todas las empresas en crecimiento a desarrollar todo su potencial? ¡ Únete a nosotros !

Nos gustaría agradecer el apoyo y la orientación confiables de nuestros científicos de datos consumados en el equipo de Ciencias crediticias, ingenieros talentosos de los equipos de Plataformas de datos y Suscripción, y personas con conocimientos comerciales del equipo de Estrategia crediticia para habilitar los sistemas de calificación crediticia en Brex.

© Copyright 2021 - 2022 | unogogo.com | All Rights Reserved