Contact Us

Thank You

The form was submitted successfully. We will be in touch with you soon.

Häufige Ausfälle von Speichersystemen und Produktivitätsverluste sind bei HPC die Norm

May 12, 2020

Dies ist die zweite Folge des Blocks Blogs über die Umfrage, die Hyperion Research für Panasas bei HPC-Organisationen mit dem Ziel durchgeführt hat, die Beziehung zwischen den Gesamt-Betriebskosten von HPC-Speichersystemen (High-Performance Computing), den Anschaffungskosten und den Vorteilen besser zu verstehen, die Anwender aus einer größeren Einfachheit ihrer Installationen ziehen.

Erstaunlicherweise enthüllte der Hyperion-Bericht folgendes:

Bei fast der Hälfte der untersuchten Standorte kommt es einmal pro Monat oder öfter zu Ausfällen am Speichersystem“.

– und –

Ausfallzeiten dauern von weniger als einem Tag bis über eine Woche, und die Kosten für einen einzigen Tag Ausfallzeit liegen zwischen weniger als 100.000 und mehr als 1 Million US-Dollar“.

Die nachfolgenden Diagramme veranschaulichen die Umfrageergebnisse.

Häufigkeit von Speichersystem-Ausfällen

HPC-Speichersystem Ausfallzeit-Kosten pro Tag

Wiederherstellung nach Ausfall eines HPC-Speichersystems kann mehrere Tage dauern

Das Zuverlässigkeitsproblem bei HPC-Speichern wird noch schlimmer. Die Frage nach der Dauer der Wiederherstellung nach einem Speichersystem-Ausfall beantworteten die Befragten so: 40% der HPC-Standorte benötigten in der Regel mehr als zwei Tage, um die volle Funktionsfähigkeit ihres Speichersystem wieder herzustellen.

Wiederherstellung nach Systemausfall

Ausfälle von HPC-Speichersystemen verursachen erhebliche Produktivitätsverluste

Zur Bestätigung des oben Gesagten fragte man in der Untersuchung auch, wie sich Ausfälle von HPC-Speichersystemen und deren Wiederherstellung auf die Produktivität auswirkten. Die Antwort: 78% der HPC-Standorte berichteten im letzten Jahr von Speicher-bezogenen Problemen mit negativen Auswirkungen auf die Benutzerproduktivität.

Anzahl der Fälle, in denen Speicherprobleme im letzten Jahr die Produktivität beeinträchtigten

Die Durchschnittswerte der Umfrage verdeutlichen einen erschreckenden Sachstand bei der HPC-Speicherung

Laut Umfrage liegt die durchschnittliche Ausfallhäufigkeit von HPC-Speichersystemen bei 9,8 Ausfällen pro Jahr. Im Mittel dauert die Wiederherstellung nach einem Speichersystem-Ausfall 1,7 Tage. Nach Umfrageteilnehmern betragen die durchschnittlichen Ausfallkosten US$ 127.000 pro Tag.

Für praktisch jedes moderne IT-System, ganz zu schweigen von einem Speichersystem, ist dies ein völlig inakzeptables Maß an Zuverlässigkeit. Als die Hyperion-Ergebnisse kürzlich auf einem Treffen der Panasas User Group vorgestellt wurden, schockierten die offenbar geringen Erwartungen der Branche an die Zuverlässigkeit der Ergebnisse von HPC-Speichersystemen den Moderator des Treffens. Auf die Enthüllungen von Hyperion folgte eine Präsentation1 von Panasas-Anwendern, die von “Null ungeplanten Ausfallzeiten in 8 Betriebsjahren” berichtete.

Ein repräsentatives Beispiel aus der Praxis

Die nachstehende Grafik bietet ein anschauliches Beispiel dafür, wie schlimm es an einer angesehenen amerikanischen Universität2 stand; sie hatte häufige HPC-Speicherausfälle und brauchte mehrere Tage, um ihre Systeme wieder zum Laufen zu bringen. Die Grafik unten zeigt die in dieser Universität durchgeführte Wiederherstellung3; weitere Einzelheiten bietet der Link in der Fußnote. Sie zeigt einen Ausfall, der an einem Montag begann und erst am Sonntag vollständig wiederhergestellt wurde.

Offenbar niedrige Erwartungen der HPC-Organisation an die Zuverlässigkeit der HPC-Speicherung

Die Ergebnisse der Hyperion-Umfrage deuten darauf hin, dass die meisten HPC-Organisationen davon profitieren könnten, wenn sie die Bedürfnisse ihrer Nutzer auch jenseits von Leistung und Preis wahrnehmen würden.

Die landläufige Sicht bei HPC-Speichern, kosteneffiziente Leistung gäbe es nur zum Preis von Komplexität und Unzuverlässigkeit, muss sich ändern. Wir sollten einen Ansatz anstreben, der Leistung mit Einfachheit, Zuverlässigkeit und kompetentem, effektivem Support zusammen mit kostengünstigen Speichersystemen der Enterprise-Klasse umfasst.


1 “Using Panasas to Reduce Complexity and TCO for HPC Workloads”
2 https://www.vanderbilt.edu/accre/category/cluster-status-notice/
3 https://www.vanderbilt.edu/accre/category/cluster-status-notice/