1. Basilea II e i Rating Interni
Lezione 3 – Stima di un
modello di Rating
Federico De Marchi
Credit Risk Management – Banca Carige
federico.demarchi@carige.it
2. Stima di un modello statistico
per la PD
La stima di un modello statistico per il calcolo della PD si
articola in 3 fasi:
• Fase 0 – Costruzione
DB Sviluppo
Analisi delle caratteristiche di
omogeneità e uniformità del
portafoglio in esame su diversi
assi d’analisi (regione, attività
economica, ...)
• Fase 1 – Stima
Sviluppo di un modello
statistico in grado di ordinare
la clientela in base al rischio
• Fase 2 – Calibrazione
Taratura del modello statistico
sulla rischiosità media del
portafoglio
4. Passi principali della Stima
Partiamo da una Long List di indicatori (DB Stima).
• Analisi univariate dei singoli indicatori:
– Tasso di missing
– Media dell’indicatore
– Accuracy Ratio
– Tasso di Corretta Classificazione
• Analisi multivariate (correlazione)
• Selezione di una Short List di indicatori
• Attribuzione Numeri Neutri
• Stima del modello
5. Quando la statistica non basta
•
L’analisi delle variabili non può prescindere dalla
conoscenza pregressa del mondo del credito e delle logiche
che lo governano
•
Se emergono fenomeni che contraddicono le attese,
occorre approfondire le analisi ed eliminare eventuali
(probabili!) errori
•
Non sempre il modello più performante è il migliore che si
possa ottenere:
–
–
•
evitare l’overfitting
ottimizzare la copertura del portafoglio (non tralasciare alcuna
categoria di finanziamento)
In definitiva, occorre cooperare con gli analisti del credito!
6. Un nome per ogni indicatore
I
indicatore
RE
X
netto
UT /
utilizzo
accordato
sistema
NM
SC
numero mesi
NMC
numero mesi
continuativi
sconfino /
accordato
B
banca
SCO
sconfinamento
_M
revoca
AU
autoliquidante
SC
mensile
BR
breve
semestrale
TOT
_CV
totale cassa
firma
TOBIS
totale
cassa + firma
trimestrale
_SM
scadenza
CF
_TM
ML
mediolungo
coeff. di var.
_C3
trend trimestrale
_C6
trend semestrale
7. Univariate – Tasso di missing
•
Analizziamo il Tasso di Missing di Buoni e Cattivi separatamente
•
Se una categoria è di per sé poco presente nel portafoglio, i tassi di
missing saranno necessariamente elevati, ma la variabile può essere
comunque predittiva sulle controparti per cui è applicabile
•
Il Tasso di missing corretto fornisce una misura più accurata
Esempio:
IBUTAU_C6
Popolazione
Totale
Tasso di
Missing
Presenza
Autoliquidante
Tasso Missing
Corretto
Buoni
5874
54%
3094
15,8%
Cattivi
222
49%
110
3,6%
8. Univariate – Medie Indicatori
• Si analizzano separatamente le medie di Buoni e Cattivi
• L’analisi serve per verificare eventuali errori e per capire se
gli indicatori presentano le caratteristiche necessarie per
entrare a far parte del modello
– Sono coerenti con le attese?
– Se si sviluppa su più anni, sono stabili nel tempo?
– Sono sufficientemente distinte?
9. Univariate – Accuracy Ratio
• È l’indicatore di performance più comune. Viene chiamato
anche:
– Indice di Gini
– D di Somers
• Misura la capacità di grading dell’indicatore, ovvero
l’efficacia nell’ordinare la popolazione in base alla sua
rischiosità
• Viene usato sia per misurare la potenza predittiva di un
indicatore che per valutare la bontà di un modello, o per
comparare più modelli tra loro
10. Accuracy Ratio (AR)
Occorre innanzitutto ordinare la popolazione in base all’indicatore
Curva di Lorentz
Percentuale cumulata Cattivi
100%
Modello migliore
Indicatore
A
Modello peggiore
B
Percentuale cumulata Popolazione
A
AR =
A+B
100%
11. D di Somers
• Una coppia (B,C) consistente di un Buono ed un Cattivo, con
score sB e sC si dice:
– Concordante se sB < sC;
– Neutra se sB = sC;
– Discordante se sB > sC.
• La D di Somers si calcola come:
# Coppie Concordanti - # Coppie Discordanti
D=
# Coppie Totali
Thm.: Accuracy Ratio e D di Somers coincidono
12. Come interpretare l’AR
•
Per come è costruito, l’AR è compreso tra 0 e 100%. In generale, la bontà
di un modello si valuta in base alla scala:
Sufficiente
AR
Buono
Ottimo
50% - 60%
60% - 70%
Oltre 70%
•
L’intervallo di confidenza può essere stimato con metodologia bootstrap,
oppure con le formule contenute nel Working Paper N.14 del Gruppo di
Validazione di Basilea II (“Studies on the Validation of Internal Rating
Systems”, disponibile online).
•
L’intervallo di confidenza dipende fortemente dalla numerosità dei Cattivi
(almeno 100)
13. Il grafico del Bad Rate
•
Spesso l’analisi dell’AR si accompagna alla rappresentazione grafica del
Bad Rate
Bad Rate
100%
Bad Rate del
Percentile
Interpolazione
Percentili di popolazione
•
Occorre ordinare le posizioni in base all’indicatore (i più rischiosi in fondo)
•
Si divide quindi la popolazione in 20 percentili e si rileva il Bad Rate di
ognuno
14. Univariate – Il TCC
•
•
Il Tasso di Corretta Classificazione (TCC) misura la capacità
dell’indicatore di separare i Buoni dai Cattivi.
Dipende in maniera essenziale dal cutoff fissato
Cutoff =
Media_Buoni + Media_Cattivi
2
Matrice di Confusione
Percentuali di Colonna Buoni effettivi Cattivi Effettivi
Buoni Previsti
•
20%
Cattivi Previsti
•
60%
40%
80%
TCC_Buoni = 60%
TCC_Cattivi = 80%
TCC =
TCC_Buoni + TCC_Cattivi
2
15. Distribuzione Buoni/Cattivi
•
Solitamente si accompagna al TCC il grafico della Distribuzione
Buoni/Cattivi
•
Nuovamente, si ordina la popolazione in base all’indicatore (i più
rischiosi in fondo), e si divide in 20 percentili e si calcolano le
percentuali di Buoni e di Cattivi presenti in ciascun percentile
(rispetto al totale dei Buoni e dei Cattivi, rispettivamente)
Media_B
cutoff
Media_C
% Popolazione
30%
Buoni
Cattivi
Percentili di popolazione
16. Passi principali della Stima
Partiamo da una Long List di indicatori (DB Stima).
• Analisi univariate dei singoli indicatori:
– Tasso di missing
– Media dell’indicatore
– Accuracy Ratio
– Tasso di Corretta Classificazione
• Analisi multivariate (correlazione)
• Selezione di una Short List di indicatori
• Attribuzione Numeri Neutri
• Stima del modello
17. Analisi della Correlazione
• Si esamina la correlazione a coppie delle variabili
• In fase di stima del modello, si può sostituire una variabile con
un’altra molto correlata per cercare di ottenere modelli
altrettanto predittivi ma con una miglior copertura del
portafoglio
• Se una variabile entra nel modello con segno opposto a quello
atteso, probabilmente è correlata con un’altra variabile di
modello. In tal caso, bisogna rimuovere una delle due
18. Passi principali della Stima
Partiamo da una Long List di indicatori (DB Stima).
• Analisi univariate dei singoli indicatori:
– Tasso di missing
– Media dell’indicatore
– Accuracy Ratio
– Tasso di Corretta Classificazione
• Analisi multivariate (correlazione)
• Selezione di una Short List di indicatori
• Attribuzione Numeri Neutri
• Stima del modello
19. Selezione della Short List
•
Abbiamo per ogni indicatore:
– Media Buoni e Cattivi
– Tasso di Missing Corretto Buoni e Cattivi
– AR
– TCC
– Correlazioni a coppie
•
Raggruppiamo le variabili per la categoria cui fanno riferimento
•
Per ogni categoria individuiamo sottocategorie di indicatori che
descrivono lo stesso fenomeno
•
Per la selezione, all’interno di ogni sottocategoria:
– Eliminiamo le variabili con Tasso Missing troppo elevato
– Eliminiamo variabili con medie buoni e cattive incoerenti con le attese
– Delle altre variabili selezioniamo le più predittive per mezzo di una
regressione logistica
– Aggiungiamo comunque quelle con AR più alto
– Usiamo la testa!
20. Passi principali della Stima
Partiamo da una Long List di indicatori (DB Stima).
• Analisi univariate dei singoli indicatori:
– Tasso di missing
– Media dell’indicatore
– Accuracy Ratio
– Tasso di Corretta Classificazione
• Analisi multivariate (correlazione)
• Selezione di una Short List di indicatori
• Attribuzione Numeri Neutri
• Stima del modello
21. Attribuzione Numeri Neutri
• La PROC LOGISTIC di SAS utilizza solo le righe per cui ha un set
informativo completo
• Occorre attribuire agli indicatori missing un valore neutro
• Noi determiniamo il numero neutro come:
NN_Ind1= (Media_Buoni + Media_Cattivi) / 2
• In questo modo riequilibriamo le numerosità ed attribuiamo
in mancanza del dato un valore più prudenziale
22. Passi principali della Stima
Partiamo da una Long List di indicatori (DB Stima).
• Analisi univariate dei singoli indicatori:
– Tasso di missing
– Media dell’indicatore
– Accuracy Ratio
– Tasso di Corretta Classificazione
• Analisi multivariate (correlazione)
• Selezione di una Short List di indicatori
• Attribuzione Numeri Neutri
• Stima del modello
23. Stima del modello
•
Il modello viene stimato tramite regressione logistica con metodologia
stepwise e significatività al 99%
•
Ogni indicatore deve entrare col segno atteso (correlazione)
•
Ogni categoria deve essere rappresentata, per ottenere una maggior
copertura del portafoglio e poter valutare qualsiasi controparte
•
Parsimonia: è sempre meglio usare il minor numero di indicatori possibile
•
Si comincia dalle variabili incluse nella Short List, ma può essere utile far
ricorso anche alle variabili escluse in precedenza