Fault-Tolerance Techniques for High-Performance Computing

This timely text/reference presents a comprehensive overview of fault tolerance techniques for high-performance computing (HPC). The text opens with a detailed introduction to the concepts of checkpoint protocols and scheduling algorithms, prediction, replication, silent error detection and correcti...

Πλήρης περιγραφή

Λεπτομέρειες βιβλιογραφικής εγγραφής
Συγγραφή απο Οργανισμό/Αρχή: SpringerLink (Online service)
Άλλοι συγγραφείς: Herault, Thomas (Επιμελητής έκδοσης), Robert, Yves (Επιμελητής έκδοσης)
Μορφή: Ηλεκτρονική πηγή Ηλ. βιβλίο
Γλώσσα:English
Έκδοση: Cham : Springer International Publishing : Imprint: Springer, 2015.
Σειρά:Computer Communications and Networks,
Θέματα:
Διαθέσιμο Online:Full Text via HEAL-Link
Πίνακας περιεχομένων:
  • Part I: General Overview
  • Fault-Tolerance Techniques for High-Performance Computing
  • Part II: Technical Contributions
  • Errors and Faults
  • Fault-Tolerant MPI
  • Using Replication for Resilience on Exascale Systems
  • Energy-Aware Check pointing Strategies.