Projektbericht: ASM-Troubleshooting und -Reorganisation

129 Aufrufe

Veröffentlicht am

www.opitz-consulting.com

"... und wir dachten, alles wäre hochverfügbar!" - Auf dem Architekturschaubild hatte alles einwandfrei ausgesehen: Die SAN-Speichersysteme waren redundant ausgelegt, auch die Switches und die Netzwerkleitungen sowie die NICs. Dann kam der Tag, an dem eines der beiden SANs ein Wartungsfenster hatte. Was könnte da schon schief gehen? Ein Problem- Diagnose- und Projektbericht für alle, die mit Grid Infrastructure, RAC und ASM zu tun haben.

Ein Vortrag unseres Experten Uwe Küchler bei der DOAG Konferenz in Nürnberg am 17.11.2016.

Veröffentlicht in: Technologie
0 Kommentare
0 Gefällt mir
Statistik
Notizen
  • Als Erste(r) kommentieren

  • Gehören Sie zu den Ersten, denen das gefällt!

Keine Downloads
Aufrufe
Aufrufe insgesamt
129
Auf SlideShare
0
Aus Einbettungen
0
Anzahl an Einbettungen
0
Aktionen
Geteilt
0
Downloads
0
Kommentare
0
Gefällt mir
0
Einbettungen 0
Keine Einbettungen

Keine Notizen für die Folie
  • HA-Planung:
    Ausfall eines Storage-Systems: 2. System reicht für den weiteren Betrieb
    Ausfall eines Switches: 2. Switch reicht für den weiteren Betrieb
    Ausfall eines Netzwerkpfades: 2. Pfad reicht für den weiteren Betrieb
    Ausfall eines RAC-Knotens: 2. Knoten reicht für den weiteren Betrieb
    Allgemein formuliert: Bei Ausfall eines RZ kann der Betrieb mit dem 2. RZ weiterlaufen.

    Die ASM-Konfiguration soll dies widerspiegeln.
  • Die ASM-Konfiguration soll die HA-Konfiguration der Systeme widerspiegeln.
    Kein Mirroring zwischen den SANs
    Also soll mithilfe von ASM die Spiegelung erfolgen.

    In diesem Schaubild sind bewusst keine RAC-Knoten oder RZ-Grenzen eingezeichnet, da ASM gegenüber diesen physischen Entitäten agnostisch ist. Selbst die noch eingezeichnete Verteilung auf mehrere SAN-Systeme ist für die Behandlung von Ausfällen einer Failure Group nicht relevant.
    OCR- und Voting-Disk sind zur besseren Übersicht ebenfalls nicht eingezeichnet.
  • Oh Schreck, die Diskgroup ist weg!
    …und das RAC auch!
  • Rot: Unbalanced
    Grün: Balanced
  • ASM Fast Mirror Resync: Geht eine Disk offline, puffert ASM die Änderungen an Extents, die auf dieser Disk lagern. Geht sie innerhalb der DISK_REPAIR_TIME wieder online, werden die Extents nachsynchronisiert.

    > 11.2 
    asm_power_limit bis 1024
    Content type of a disk group
    ACFS: Encryption, replication, snapshots, security, performance
  • Codebeispiel: Disks und Failgroups, die nach Ablauf von DISK_REPAIR_TIME gedroppt wurden, werden mit ADD … FORCE wieder hinzugefügt.
  • Projektbericht: ASM-Troubleshooting und -Reorganisation

    1. 1. © OPITZ CONSULTING 2016  überraschend mehr Möglichkeiten! © OPITZ CONSULTING 2016 Projektbericht: Stabilisierung der ASM- Verfügbarkeit Uwe Küchler ASM-Reorganisation
    2. 2. © OPITZ CONSULTING 2016 Projektbericht ASM-Troubleshooting und -Reorganisation Zur Person  Generation C=64  Seit über 25 Jahren in der IT tätig  1997-2000 bei Oracle Deutschland  Seither durchgehend Oracle-Berater, im DBA- und Entwicklungs-Umfeld, Tutor  Seit 09/2013 bei OPITZ CONSULTING  Buch- und Blogautor (oraculix.de)  Performance als „Steckenpferd“ 1975
    3. 3. © OPITZ CONSULTING 2016 Seite 3 Agenda 1 2 3 4 Ausgangslage Der "Tag X" und die Fehlerdiagnose Praxisbeispiel: Reorganisation Was sonst noch gefunden wurde Projektbericht ASM-Troubleshooting und -Reorganisation
    4. 4. © OPITZ CONSULTING 2016 Seite 4 Ausgangslage 1 Projektbericht ASM-Troubleshooting und -Reorganisation
    5. 5. © OPITZ CONSULTING 2016 Projektbericht ASM-Troubleshooting und -Reorganisation Ausgangslage  RAC mit ASM  Version 11.2.0.4  Windows 2008R2  Redundante Storage- Systeme  Redundante Switches  Redundante Multipath- Verbindungen
    6. 6. © OPITZ CONSULTING 2016 Projektbericht ASM-Troubleshooting und -Reorganisation Ausgangslage (2)  Kein Mirroring zwischen den SANs  keine EXTERNAL Redundancy  Also soll mithilfe von ASM die Spiegelung erfolgen   NORMAL Redundancy   Failure Groups (FG) werden über LUNs von je einem SAN gelegt und zu Disk Groups zusammengefügt.  Also: Fällt ein SAN aus, ist nur jeweils die Hälfte der Failure Groups weg   der Spiegel bleibt erhalten   der Betrieb geht weiter  … ODER?!?
    7. 7. © OPITZ CONSULTING 2016 Projektbericht ASM-Troubleshooting und -Reorganisation Ausgangslage (2) ASM-Konfiguration
    8. 8. © OPITZ CONSULTING 2016 Seite 8 „Tag X“: Abschaltung eines RZ 2 Projektbericht ASM-Troubleshooting und -Reorganisation
    9. 9. © OPITZ CONSULTING 2016 Projektbericht ASM-Troubleshooting und -Reorganisation „Tag X“: Erwartungshaltung
    10. 10. © OPITZ CONSULTING 2016 Projektbericht ASM-Troubleshooting und -Reorganisation „Tag X“: Die harte Realität
    11. 11. © OPITZ CONSULTING 2016 Projektbericht ASM-Troubleshooting und -Reorganisation „Tag X“: Diagnose Blick in das ASM Alert Log Fri Dec 11 15:56:45 2015 WARNING: Write Failed. group:3 disk:1 AU:1 offset:1044480 size:4096 ... Fri Dec 11 15:56:52 2015 WARNING: Disk RDG1D01_0002 in mode 0x7f is now being offlined ... ORA-15130: diskgroup "RDG1D01" is being dismounted ... ORA-15078: ASM diskgroup was forcibly dismounted ... NOTE: cache closing disk 2 of grp 1: (not open) RDG1D01_0002 NOTE: cache closing disk 3 of grp 1: (not open) RDG1D01_0003 ERROR: too many offline disks in PST (grp 1) ... NOTE: diskgroup resource ora.RDG1F01.dg is offline ...
    12. 12. © OPITZ CONSULTING 2016 Projektbericht ASM-Troubleshooting und -Reorganisation „Tag X“: Diagnose Blick in das ASM Alert Log (2) ERROR: Disk 7 cannot be offlined, since all the disks [7, 2] with mirrored data would be offline. ERROR: too many offline disks in PST (grp 1) ... NOTE: halting all I/Os to diskgroup 1 (RDG1D01) ... Fri Dec 11 16:07:17 2015 SQL> ALTER DISKGROUP RDG1F01 MOUNT /* asm agent *//* {0:3:294} */ NOTE: Disk RDG1F01_0002 in mode 0x7f marked for de-assignment NOTE: Disk in mode 0x7f marked for de-assignment ERROR: diskgroup RDG1F01 was not mounted WARNING: Disk Group RDG1F01 containing configured OCR is not mounted ORA-15032: not all alterations performed ORA-15040: diskgroup is incomplete ORA-15042: ASM disk "3" is missing from group number "1" ORA-15042: ASM disk "1" is missing from group number "1"
    13. 13. © OPITZ CONSULTING 2016 Projektbericht ASM-Troubleshooting und -Reorganisation „Tag X“: Diagnose  Besonderheit bei NORMAL Redundancy:  Bei mehr als 2 Failgroups ist nicht gewährleistet, dass die Daten 1:1 zwischen den FGs gespiegelt sind.  Schließlich „weiß“ ASM nicht, dass die FGs auf verschiedene SANs verteilt sind!   Sobald die 2. FG offline geht, wird die ganze Disk Group dismounted.  kann erst wieder gemountet werden, wenn n-1 Failgroups online sind.   Wenn ein RZ offline geht, sind die Diskgroups „RDG1D01“ und „RDG1F01“ nicht mehr verfügbar   Damit sind auch die Datenbanken nicht mehr verfügbar.
    14. 14. © OPITZ CONSULTING 2016 Seite 14 Reorganisation 3 Projektbericht ASM-Troubleshooting und -Reorganisation
    15. 15. © OPITZ CONSULTING 2016 Zielkonfiguration  Diskgroups für Daten und FRA  Bestehen aus jeweils 2 Failgroups (1 pro RZ)  Die Disks aus den nicht mehr benötigten Failgroups wandern in die verbleibenden Failgroups.  Bei dieser Gelegenheit sollen die FGs einheitlich benannt werden.   Wenn ein RZ offline geht, bleiben die Diskgroups „RDG1D01“ und „RDG1F01“ verfügbar! RZ1 RZ2 RDG1D01 FG_S1D01 FG_S2D01 RDG1D01_ 0000 RDG1D01_ 0001 RDG1D01_ 0004 RDG1D01_ 0005 RDG1D01_ 0002 RDG1D01_ 0003 RDG1D01_ 0006 RDG1D01_ 0007
    16. 16. © OPITZ CONSULTING 2016 Zielkonfiguration
    17. 17. © OPITZ CONSULTING 2016 Der Weg zur Zielkonfiguration  Umbenennung von Failgroups nicht direkt möglich  Neue Failgroup wird angelegt.  Disks werden schrittweise in neue Failgroup verschoben.  Zwischenschritte erfordern Rebalance der Daten auf den verbleibenden Disks  Jedes Rebalance benötigt Zeit und  reduziert die verfügbare I/O-Bandbreite für Anwendungen.  Es wird ein Weg aufgezeigt, der möglichst wenig Rebalances benötigt.  Idealerweise müssen beim Rebalance möglichst wenig Daten bewegt werden.   Tablespaces mit viel freiem Platz sollten vorher verkleinert werden.
    18. 18. © OPITZ CONSULTING 2016 Der Weg zur Zielkonfiguration (2)  Die folgende Grafik zeigt die Operationen zum Verschieben der Disks in die neuen Failgroups am Beispiel der DATA-Diskgroup im Test-Cluster.  Namen der Disks sind zur besseren Darstellung vereinfacht.  Beispiel geht von einem Füllgrad der Disk Group > 50% aus.  Zusammenfassung von Disk-Migrationen ist in den ersten Schritten möglich, um Zeitbedarf durch Rebalancing zu minimieren.  Diskgroup „FRA“ ist einfacher zu migrieren: Pro Failgroup ein Migrationsschritt.  Und das Beste: Alles geht online!  Es empfiehlt sich aber eine Ankündigung der Wartung wegen möglicher, längerer Antwortzeiten.
    19. 19. © OPITZ CONSULTING 2016 Schrittweiser Umzug der Disks in neue Failgroups bei weniger als 50% Platz (1/2)
    20. 20. © OPITZ CONSULTING 2016 Schrittweiser Umzug der Disks in neue Failgroups bei weniger als 50% Platz (2/2)
    21. 21. © OPITZ CONSULTING 2016 Der Weg zur Zielkonfiguration: Rebalances Diskgroup DATA:  16 Operationen (DROP oder ADD)  Aber nur 6 Rebalances!  Jedes Rebalance verschiebt ca. 600 GB Daten  Schätzung: 30-45 min / Rebalance   3-4 Stunden für die Reorganisation der DATA-Diskgroup
    22. 22. © OPITZ CONSULTING 2016 Der Weg zur Zielkonfiguration: Rebalances Diskgroup FRA:  300 GB pro Rebalance  Schätzung: 15-20 min / Rebalance   1 – 1,5 h für die Reorganisation.
    23. 23. © OPITZ CONSULTING 2016 Projektbericht ASM-Troubleshooting und -Reorganisation Der Weg zur Zielkonfiguration: Code (1/3) -- Schritt 1 ALTER DISKGROUP RDG1D01 DROP DISK RDG1D01_0001 REBALANCE POWER 0; ALTER DISKGROUP RDG1D01 DROP DISK RDG1D01_0005 REBALANCE POWER 0; ALTER DISKGROUP RDG1D01 REBALANCE POWER 1024 WAIT; ALTER DISKGROUP RDG1D01 ADD FAILGROUP FG_S1D01 DISK '.ORCLDISK_S1L150' NAME RDG1D01_0001 DISK '.ORCLDISK_S1L170' NAME RDG1D01_0005 REBALANCE POWER 0; -- Schritt 2 ALTER DISKGROUP RDG1D01 DROP DISK RDG1D01_0003 REBALANCE POWER 0; ALTER DISKGROUP RDG1D01 DROP DISK RDG1D01_0007 REBALANCE POWER 1024 WAIT; ALTER DISKGROUP RDG1D01 ADD FAILGROUP FG_S2D01 DISK '.ORCLDISK_S2L150' NAME RDG1D01_0003 DISK '.ORCLDISK_S2L170' NAME RDG1D01_0007 REBALANCE POWER 0;
    24. 24. © OPITZ CONSULTING 2016 Projektbericht ASM-Troubleshooting und -Reorganisation Der Weg zur Zielkonfiguration: Code (2/3) -- Schritt 3 ALTER DISKGROUP RDG1D01 DROP DISK RDG1D01_0000 REBALANCE POWER 1024 WAIT; ALTER DISKGROUP RDG1D01 ADD FAILGROUP FG_S1D01 DISK '.ORCLDISK_S1L140' NAME RDG1D01_0000 REBALANCE POWER 0; -- Schritt 4 ALTER DISKGROUP RDG1D01 DROP DISK RDG1D01_0002 REBALANCE POWER 1024 WAIT; ALTER DISKGROUP RDG1D01 ADD FAILGROUP FG_S2D01 DISK '.ORCLDISK_S2L140' NAME RDG1D01_0002 REBALANCE POWER 0;
    25. 25. © OPITZ CONSULTING 2016 Projektbericht ASM-Troubleshooting und -Reorganisation Der Weg zur Zielkonfiguration: Code (3/3) -- Schritt 5 ALTER DISKGROUP RDG1D01 DROP DISK RDG1D01_0005 REBALANCE POWER 0; ALTER DISKGROUP RDG1D01 DROP DISK RDG1D01_0004 REBALANCE POWER 1024 WAIT; ALTER DISKGROUP RDG1D01 ADD FAILGROUP FG_S1D01 DISK '.ORCLDISK_S1L160' NAME RDG1D01_0004 , '.ORCLDISK_S1L170' NAME RDG1D01_0005 REBALANCE POWER 0; -- Schritt 6 ALTER DISKGROUP RDG1D01 DROP DISK RDG1D01_0006 REBALANCE POWER 1024 WAIT; ALTER DISKGROUP RDG1D01 ADD FAILGROUP FG_S2D01 DISK '.ORCLDISK_S2L160' NAME RDG1D01_0006 REBALANCE POWER 1024 WAIT;
    26. 26. © OPITZ CONSULTING 2016 Seite 26 Was sonst noch gefunden wurde 4 Projektbericht ASM-Troubleshooting und -Reorganisation
    27. 27. © OPITZ CONSULTING 2016 COMPATIBLE.ASM und COMPATIBLE.RDBMS  Waren = 10.1  Erst ab compatible.asm=11.1 geht „Fast Mirror Resync“   Andernfalls geht FG offline, wenn Disk offline ist!   Nach Ablauf der Repair Time müsste dann auch die FG neu aufgebaut werden.  Um alle 11g-Features zu nutzen: compatible.asm=11.2.0.4  Siehe Feature-Tabelle in Oracle-Doku
    28. 28. © OPITZ CONSULTING 2016 DISK_REPAIR_TIME  Countdown, bis eine OFFLINE Disk gedroppt wird  Einstellung für „ASM Fast Mirror Resync“  Erfordert „compatible.asm“ und „compatible.rdbms“ >= 11.1  Default: 3,6 Stunden  Nach Ablauf des Timers wird die Disk aus der Konfiguration entfernt!  Aber nicht gelöscht; kann wieder hinzugefügt werden.   Default von 3,6h ist häufig zu kurz für Reaktionen in der Nacht oder am Wochenende  Genau das war in der demonstrierten Umgebung der Fall:
    29. 29. © OPITZ CONSULTING 2016 Projektbericht ASM-Troubleshooting und -Reorganisation COMPATIBLE.ASM und COMPATIBLE.RDBMS: Failure Group Offline laut Alert Log Mon Dec 21 08:51:37 2015 SUCCESS: ALTER DISKGROUP RDG1SYS ADD FAILGROUP FG_S2C1S DISK '.ORCLDISK_S2L110' FORCE NOTE: starting rebalance of group 3/0xeba08ee0 (RDG1SYS) at power 1 ... Mon Dec 21 08:52:48 2015 SUCCESS: refreshed membership for 2/0xeba08edf (RDG1F01) SUCCESS: ALTER DISKGROUP RDG1F01 ADD FAILGROUP FG_S2G02 DISK '.ORCLDISK_S2L120' FORCE NOTE: starting rebalance of group 2/0xeba08edf (RDG1F01) at power 1 ... Mon Dec 21 08:54:35 2015 SUCCESS: refreshed membership for 1/0xeb908ede (RDG1D01) SUCCESS: ALTER DISKGROUP RDG1D01 ADD FAILGROUP FG_S2G05 DISK '.ORCLDISK_S2L140' FORCE, '.ORCLDISK_S2L150' FORCE ...
    30. 30. © OPITZ CONSULTING 2016 FAILGROUP_REPAIR_TIME in 12c  Default von 3,6h für DISK_REPAIR_TIME ist häufig zu kurz für Reaktionen in der Nacht oder am Wochenende  Neu in 12c ist FAILGOUP_REPAIR_TIME  Erlaubt Fast Mirror Resync auch zwischen FGs, nicht nur Disks.  Default: 24h  FG wird erst nach Ablauf dieses (längeren) Timers gelöscht.
    31. 31. © OPITZ CONSULTING 2016 Seite 31Projektbericht ASM-Troubleshooting und -Reorganisation Fragen
    32. 32. © OPITZ CONSULTING 2016  überraschend mehr Möglichkeiten! @OC_WIRE OPITZCONSULTING opitzconsulting opitz-consulting-bcb8-1009116 WWW.OPITZ-CONSULTING.COM Uwe M. Küchler Managing Consultant uwe.kuechler@opitz-consulting.com Telefon +49 6172 66260 – 0 Mobil +49 173 727 91 43 Projektbericht ASM-Troubleshooting und -Reorganisation
    33. 33. © OPITZ CONSULTING 2016 Links + Literatur Li 3 6.941
    34. 34. © OPITZ CONSULTING 2016 Links + Literatur  “Mother of All ASM Scripts (MAAS)” by John Hallas:  Original Blog Post  Modifiziert für FailGroups und Exadata auf GitHub: https://git.io/vPmQN  How to Create a Normal Redundancy Diskgroup Best Practices (Doc ID 1910315.1)  How to free space from an ASM diskgroup? (Doc ID 1553744.1)  When Will the Rebalance Complete? (Doc ID 1477905.1)  Oracle ASM 12.1: DISK_REPAIR_TIME und FAILGROUP_REPAIR_TIME  Oracle ASM 12.1: Oracle ASM Fast Mirror Resync  ASM Fast Mirror Resync - Example To Simulate Transient Disk Failure And Restore Disk (Doc ID 443835.1)
    35. 35. © OPITZ CONSULTING 2016 Links + Literatur  Information to gather when diagnosing ASM space issues (Doc ID 351117.1)  Oracle 12c ASM Guide: Negative Values of USABLE_FILE_MB

    ×