Saper comprendere la necessità e le funzionalità dell’HW e del SW necessari ad interpretare le funzioni di diagnostica nei sistemi di elaborazione con controllo a microprocessore.
Introduzione alle funzioni di manutenzione - SLIDE
1. Introduzione
Didattica della Strumentazione Digitale
e Sistemi a Microprocessore
alle Funzioni di Manutenzione
Benvenuti ….
Claudio Cancelli
2. Prof. Claudio Cancelli Introduzione alle
Scopo di tale Unità di Lavoro
Funzioni di
Manutenzione
SENSIBILIZZARE GLI STUDENTI A COMPRENDERE
L’IMPORTANZA DELLE
FUNZIONI DI MANUTENZIONE
NEI SISTEMI DI CONTROLLO A MICROPROCESSORE O DI
ELABORAZIONE DELLE INFORMAZIONI
DANDO ENFASI AI
GUASTI ED AL CONTRIBUTO
CHE L’ELETTRONICA E L’INFORMATICA FORNISCONO PER
ADOTTARE I CRITERI NECESSARI ALLA CORRETTA
MANUTENIBILITA
MANUTENIBILITA’ DEI SISTEMI COMPLESSI
3. Prof. Claudio Cancelli Introduzione alle
… per quale motivo?
Funzioni di
Manutenzione
GARANTIRE IL FUNZIONAMENTODEL SISTEMA
(LA DEPENDABILITY)
PER GARANTIRE
LA SICUREZZA DELLE PERSONE
GLI INVESTIMENTI
COSTI DI PRODUZIONE
INFORMAZIONI PREGIATE
4. Prof. Claudio Cancelli Introduzione alle
I contenuti
Funzioni di
Manutenzione
Disponibilità
Affidabilità Guasto
ORIENTATI ALLA
MANUTENZIONE
DEI SISTEMI A MICROPROCESSORE
Errore
Diagnostica
5. Prof. Claudio Cancelli Introduzione alle
Gli obiettivi
Funzioni di
Manutenzione
Obiettivi di competenza finali attesi
• Saper comprendere l’HW ed il SW necessari ad
interpretare le funzioni di diagnostica nei sistemi di
elaborazione con controllo a microprocessore
• Saper impostare i criteri di analisi e di progettazione
per la diagnosi di unità hardware duplicate
Obiettivi di Teoria Fondamentali
• Conoscere il concetto di servizio offerto da un sistema
• C
Conoscere e comprendere il significato di affidabilità,
d i ifi ffid bili à
disponibilità, guasto ed errore
• Comprendere le modalità di rilevazione degli errori ed
di trattamento del guasto
• Introdurre il concetto di manutenzione
6. Prof. Claudio Cancelli Comprendere il concetto di
servizio offerto dal Sistema
Le motivazioni
Esempio 1) Cosa succede il PC se con il quale
lavoriamo/giochiamo/comunichiamo tutti i giorni si guasta? E se a guastarsi è
il chip di memoria del PC presente nell’ufficio dell’amministratore delegato di
una multinazionale, quali sarebbero le conseguenze?
Esempio 2) Pensiamo ad un guasto nei sistemi di comunicazione presenti
in un sottomarino (fino a 50 anni senza fare rifornimento) o su un aereo
supersonico (~ 100 CPU). Lo potremmo tollerare?
7. Prof. Claudio Cancelli Comprendere il concetto di
servizio offerto dal Sistema
Le motivazioni
Esempio 3) E cosa succede se una centrale telefonica urbana va
completamente fuori servizio?
Esempio 4) Pensiamo ad un
guasto nei sistemi di
comunicazione presenti in un
sottomarino (fino a 50 anni
senza fare rifornimento) o su
un aereo supersonico (~ 100
CPU). Lo potremmo tollerare?
Esempio 5) Non è finita: è così grave se durante il relax con la fase di
decompressione, l’applicazione domotica del tele-wc va fuori servizio?
8. Prof. Claudio Cancelli Comprendere il concetto di
servizio offerto dal Sistema
Le motivazioni
Esercizio) Ed ora come esercizio, in quali dei sistemi riportati in figura spendereste dei quattrini per garantire
l eccellente
l’eccellente funzionalità dell elettronica presente in ciascuno di essi?
dell’elettronica
H
G
M
L
I
9. Prof. Claudio Cancelli Definizioni e
Affidabilità e Disponibilità
concetti
L’Affidabilità (reliability) è la probabilità che un
componente/apparato/sistema esegua correttamente una funzione
per un dato periodo di tempo e in condizioni di funzionamento
specificate senza evidenziare alcun malfunzionamento
Esempio) Una rete dati è composta da 5 router; l’affidabilità R(t) di ciascun
apparato è uguale a 0 99 in un anno. Vuol dire che ciascun apparato funziona
0,99 anno
correttamente per il 99% del tempo ed è inaffidabile (F(t) = 1- R(t)) per l’1%
del suo tempo.
La Disponibilità è è una funzione definita come la probabilità che il
sistema non mostri malfunzionamenti nell‘istante in cui gli è
richiesto di operare
operare.
La disponibilità (Availability) si differenzia dall'affidabilità poiché
quest ultima
quest'ultima è una misura di corretto funzionamento in un intervallo, mentre
intervallo
la disponibilità è una misura di corretto funzionamento ad un dato istante
temporale.
10. Prof. Claudio Cancelli Definizioni e
Introduzione alle Funzioni di Manutenzione
concetti
Affidabilità: Sistemi in serie ed in parallelo
Sistemi in Serie Sistemi in Parallelo
L’affidabilità totale del L’affidabilità totale del
sistema è uguale al sistema è uguale a:
prodotto delle
affidabilità dei singoli RS(t) = 1 - [(1 R1(t))] *
[(1-R1(t))]
componenti: [(1-R2(t))] * ......
RS(t) = R1(t) * R2(t) * Per rendere il sistema
R3(t) *….. non funzionante si devono
guastare tutti i
e per n elementi uguali: componenti.
RS(t) = e –nλt All aumentare
All’aumentare dei
componenti, aumenta
All’aumentare dei l’affidabilità del sistema;
componenti, cala se il valore ottenuto non
l affidabilità
l’affidabilità del sistema
sistema, soddisfa,
soddisfa si devono usare
per cui, se il valore componenti di migliore
ottenuto non soddisfa, qualità oppure aumentare
dobbiamo usare il numero dei componenti
componenti di migliore in parallelo
parallelo.
qualità o trovare una
soluzione che richieda
meno componenti.
11. Prof. Claudio Cancelli Definizioni e
Introduzione alle Funzioni di Manutenzione
Guasto
concetti
Per guasto si intende l’interruzione
l interruzione
di una o più prestazioni funzionali
offerte da un dispositivo/apparato/sistema.
E dopo aver analizzato gli esempi precedenti, possiamo pervenire ad una considerazione:
se il sistema è così fondamentale da dover garantire
criteri economici di sicurezza e di affidabilità
economici,
dobbiamo prevedere che la presenza di un guasto non incida sul funzionamento
complessivo dell’apparato o del sistema.
Bisognerà quindi dare la giusta importanza al trattamento ed alla loro prevenzione.
Al concetto di guasto è normalmente associato il
TASSO DI GUASTO λ
TASS DI GUASTO
definito come il numero di guasti nell’unità di tempo.
La relaz one che esiste tra tasso di guasto ed aff dab l tà
relazione es ste d affidabilità
SO
risulta: MORTALITA’ VITA
-λt INFANTILE UTILE USURA
R(t) = e TEMPO
12. Prof. Claudio Cancelli Definizioni e
Introduzione alle Funzioni di Manutenzione
Guasto: origine e patologie
concetti
ORIGINE
Le cause fenomenologiche che implicano
implicano…
…Guasti fisici (phisical faults ), dovuti a fenomeni fisici avversi;
…Guasti causati dall’uomo (human–made faults ), dovuti all’imperfezione umana;
I confini del sistema che implicano…
…Guasti interni (internal faults ) che sono parti dello stato del sistema che
), che,
quando richiamate dall’attività di elaborazione, produrranno un errore;
…Guasti esterni (external faults ), che derivano dall’interferenza dell’ambiente
fisico nel sistema (perturbazioni elettromagnetiche, radiazioni, temperatura,
vibrazioni, etc.)
vibrazioni etc ) o dall’interazione con l’ambiente umano;
dall interazione l ambiente
La fase di creazione rispetto alla vita del sistema che implica…
…Guasti di progetto (design faults ), che derivano da imperfezioni che si
verificano durante lo sviluppo del sistema o per modifiche successive;
…Guasti operativi (operational faults ) che si verificano durante l’uso del
), l uso
sistema.
PATOLOGIE
– Un guasto è attivo (active ) quando produce un errore. Un guasto attivo è o un
guasto interno che era in precedenza inattivo (dormant) e che è stato attivato dal
processo di elaborazione, o un guasto esterno.
13. Prof. Claudio Cancelli Definizioni e
Introduzione alle Funzioni di Manutenzione
Errore
concetti
Gli errori nei sistemi di calcolo si verificano e possono derivare da
specifiche ambigue o incomplete, da errori di progetto, da errori di
programmazione, da errori hardware, da errori di immissione dati o di
interpretazione dei risultati
Nei confronti degli errori si usano le tecniche di:
Tecniche di rilevamento dell’errore — error detection
dell errore
Una delle tecniche HW abbastanza diffuse consiste nel generare un
bit di parità, normalmente associato ad un byte, e rilevarlo a valle
rilevando la correttezza o meno
meno.
Tecniche di correzione dell'errore — error correction
Una tecnica abbastanza utilizzata durante la trasmissione di
informazioni consiste nell’avere un meccanismo di rilevamento
dell'errore che abbia capacità di diagnosi, cioè che sappia indicare
il punto in cui si è verificato un errore ed intervenire predicendo il
p p
risultato.
14. Prof. Claudio Cancelli Definizioni e
Introduzione alle Funzioni di Manutenzione
concetti
Relazione tra guasti, errori e malfunzioni
Se
S un guasto lo possiamo prevedere
t l i d
.. lo possiamo rimuovere e gestire
GUASTO È la causa dell’errore
(FAULT)
ERRORE È la manifestazione
del guasto nel sistema
g
(ERROR)
MALFUNZIONE È la manifestazione
dell’errore sul servizio
(FAILURE)
15. Prof. Claudio Cancelli Rilevazione degli errori e
Introduzione alle Funzioni di Manutenzione
Gestione dei guasti
g
trattamento del guasto
Le problematiche che si pongono quando bisogna garantire il
funzionamento del sistema, secondo specifiche atte a garantire la
corretta funzionalità, risultano le seguenti
– Prevenzione dai guasti (fault prevention): come
) Testing
possono essere prevenute le occorrenze di guasti Qualità
– Tolleranza ai guasti (fault tolerance) come garantire
tolerance):
Sovradimensionamento
un servizio che si mantenga conforme alle specifiche, Diagnostica
nonostante i guasti
– Eliminazione del guasto (fault removal)
removal): come
Debugging HW e SW
ridurre l'occorrenza (numero, gravità) dei guasti
( g ) g
– Predizione di guasti (fault forecasting): come stimare
forecasting)
Valutazione dei guasti
il numero, la frequenza di incidenza, presente e futura, e inevitabili
nev tab l
le
l conseguenze d i guasti
dei i
16. Prof. Claudio Cancelli Rilevazione degli errori e
Introduzione alle Funzioni di Manutenzione
Tolleranza ai guasti
g
trattamento del guasto
LA MEMORIA IN CONFIGURAZIONE SIMPLEX
Esempio 6) Cosa capita se si
CPU verifica un guasto in memoria,
oppure un guasto alla CPU?
Oppure su uno dei bus di
interconnessione tra memoria e
i i i
CPU?
MEMORIA
E
Dieci minuti di tempo per pensare
…………………………………………………………………………………………
…………………………………………………………………………………………
…………………………………………………………………………………………
…………………………………………………………………………………………
…………………………………………………………………………………………
…………………………………………………………………………………………
…………………………………………………………………………………………
…………………………………………………………………………………………
…………………………………………………………………………………………
…………………………………………………………………………………………
…………………………………………………………………………………………
………………………………………………………………………………...………
17. Prof. Claudio Cancelli Rilevazione degli errori e
Introduzione alle Funzioni di Manutenzione
Tolleranza ai guasti
g
trattamento del guasto
LA MEMORIA IN CONFIGURAZIONE DUPLEX
CPU
BUS ‘A’ BUS ‘B’
PWR ‘A’ PWR ‘B’
MEMORIA ‘A’
A MEMORIA ‘B’
B
Le due copie di memoria vengono contemporaneamente scritte (operazione
di scrittura) e lette (operazione di lettura)
18. Prof. Claudio Cancelli Rilevazione degli errori e
Introduzione alle Funzioni di Manutenzione
trattamento del guasto
Configurazione Duplex: dettaglio
FROM CPU
Write
Read
CPU ?
Operatio
O i Buffer Buffer
n
BUS BUS
‘A’ ‘B’
BUS ‘A’ BUS ‘B’
A.B.
D.B.
C.B.
C B
PWR ‘A’ PWR ‘B’ TO CPU
MEMORIA ‘A’ MEMORIA ‘B’ MUX
BUS BUS
‘A’ ‘B’
19. Prof. Claudio Cancelli Rilevazione degli errori e
Introduzione alle Funzioni di Manutenzione
Tolleranza ai guasti
g
trattamento del guasto
CPU E MEMORIA IN CONFIGURAZIONE DUPLEX
PWR ‘B’
PWR ‘A’
A
CPU CPU
‘A’ ‘B’
BUS ‘AL’ BUS ‘BL’
BUS ‘AR’ BUS ‘BR’
PWR ‘A’ PWR ‘B’
MEMORIA MEMORIA
‘A’ ‘B’
Le due copie di memoria vengono contemporaneamente scritte (operazione
di scrittura) e lette (operazione di lettura) da una CPU (attiva), l’altra CPU è
in stand-by
20. Prof. Claudio Cancelli Rilevazione degli errori e
Introduzione alle Funzioni di Manutenzione
Tolleranza ai guasti
g
trattamento del guasto
CPU “A” ATTIVA E MEMORIA IN
CONFIGURAZIONE DUPLEX
PWR ‘B’
PWR ‘A’
A
CPU CPU
‘A’ ‘B’
BUS ‘AL’ BUS ‘BL’
BUS ‘AR’ BUS ‘BR’
PWR ‘A’ PWR ‘B’
MEMORIA MEMORIA
‘A’ ‘B’
Le due copie di memoria vengono contemporaneamente scritte (operazione
di scrittura) e lette (operazione di lettura) da una CPU (“A” attiva), l’altra
CPU (B) è in stand-by
21. Prof. Claudio Cancelli Rilevazione degli errori e
Introduzione alle Funzioni di Manutenzione
trattamento del guasto
Controllo degli errori
CPU ‘A’
A μP
INT
P.I.C.
3
3
3
D.B. = F0F4
DPL= 1
INTMA
DPH= 0
PWR ‘A’
MEMORIA ‘A’
Il controllore di
parità sulla
ità ll
memoria “A”
DPH_ER Alarm Register
rileva un errore
sul byte alto del
DB
22. Prof. Claudio Cancelli Rilevazione degli errori e
Introduzione alle Funzioni di Manutenzione
trattamento del guasto
Introduzione alla manutenzione
Per manutenzione si intende l'insieme di azioni che permette di
mantenere o di ristabilire un apparato/sistema/dispositivo in uno
stato tale da assicurare il servizio specificato
specificato.
Teniamo presente che la manutenzione ha normalmente impatto sulle aree:
Tecnica: per l conoscenza necessaria dei sistemi da controllare, ...;
T i la d d ll
Economica: per le previsioni di investimenti, per i budget di spesa, ...;
Organizzativa: per la gestione lavoro per la definizione
lavoro,
dell’organigramma, ….
23. Prof. Claudio Cancelli Rilevazione degli errori e
Introduzione alle Funzioni di Manutenzione
trattamento del guasto
Introduzione alla manutenzione
Consiste nel determinare le cause degli errori, sia in termini di locazione che di natura
del guasto. I programmi di diagnostica utilizzano normalmente registri di I/O non
mappati in memoria.
Consiste nell’attivare il programma di diagnostica opportuno al fine di isolare il guasto,
porre l’unità identificata guasta fuori servizio e procedere con l’eliminazione del guasto
l unità l eliminazione guasto.
Infine se il sistema non è più in grado di fornire il servizio precedentemente offerto,
viene attivato il processo di riconfigurazione con lo scopo di ripristinare il servizio.
Consiste nello schedulare il programma di diagnostica per prevenire un disservizio.
L’obiettivo è identico a quello della manutenzione correttiva. Lo stesso programma di
diagnosi può essere schedulato per l manutenzione preventiva od attivato
d ò h d l la d
dall’operatore ed utilizzato per la manutenzione correttiva.
Gli interventi di manutenzione sono subordinati al rilievo del raggiungimento di una
soglia di probabilità del verificarsi di un guasto o malfunzionamento.
24. Prof. Claudio Cancelli Rilevazione degli errori e
Introduzione alle Funzioni di Manutenzione
trattamento del guasto
Diagnosi del guasto
Mask Guasto
INTMA
Task 1 Task 2 Interrupt routine Task 3
Mask INT Remove Remove mask
mask INT
k INTMA
USER PROGRAM
Istante in cui il guasto
provoca l’errore
DPH-ER INTERRUPT HANDLER
Il S.O. consente il
riconoscimento
dell’Interrupt
i
i+1
25. Prof. Claudio Cancelli Rilevazione degli errori e
Introduzione alle Funzioni di Manutenzione
trattamento del guasto
Il Loop-Back register
1st Operation
μP
Write Operation Read Operation
Loop-Back Register #1
D B = 0000
D.B. D B = 0000
D.B.
EXOR (0000 0000) = 0000
(0000,
26. Prof. Claudio Cancelli Rilevazione degli errori e
Introduzione alle Funzioni di Manutenzione
trattamento del guasto
Il Loop-Back register
2nd Operation
μP
Write Operation Read Operation
Loop-Back Register #1
D B = FFFF
D.B. D B = FFFF
D.B.
EXOR (FFFF FFFF) = 0000
(FFFF,
27. Prof. Claudio Cancelli Rilevazione degli errori e
Introduzione alle Funzioni di Manutenzione
trattamento del guasto
Il Loop-Back register
2nd Operation
μP
Write Operation Read Operation
Loop-Back Register #1
D B = FFFF
D.B. D B = F7FF
D.B.
EXOR (FFFF F7FF) = 0800
(FFFF,
Bit 11 DB Faulty
28. Prof. Claudio Cancelli Rilevazione degli errori e
Introduzione alle Funzioni di Manutenzione
Riconfigurazione
g
trattamento del guasto
CPU “A” ATTIVA RILEVA GUASTO IN MEMORIA “A”
CPU
PWR ‘B’
B
CPU
PWR ‘A’
A
‘A’ ‘B’
Out of BUS ‘AL’ BUS ‘BL’
Service
BUS ‘AR’ BUS ‘BR’
PWR ‘A’ PWR ‘B’
MEMORIA MEMORIA
‘A’ ‘B’
CPU “A” continua a restare attiva e lavora solo con la MEMORIA “A”
29. Prof. Claudio Cancelli Rilevazione degli errori e
Introduzione alle Funzioni di Manutenzione
Riconfigurazione
g
trattamento del guasto
CPU “A” ATTIVA RILEVA ERRORE IN CPU”A”
Out of
Service
CPU
PWR ‘B’
B
CPU
PWR ‘A’
A
‘A’ ‘B’
BUS ‘AL’ BUS ‘BL’
BUS ‘AR’ BUS ‘BR’
PWR ‘A’ PWR ‘B’
MEMORIA MEMORIA
‘A’
A ‘B’
Segue le switch della CPU: la “B” da stand-by diventa attiva e continua a
lavorare con le memorie in configurazione duplex.