Depuis 2013, Backblaze recueille, traite et publie les taux de défaillance annualisé (AFR) et des statistiques connexes sur les disques durs (HDD) et les SSD provenant de nos centres de données. Ce corpus constitue l’ensemble de données Backblaze Drive Stats. Chaque trimestre, nous publions une mise à jour open source, téléchargeable via les liens de la section « Téléchargement de l’ensemble de données Drive Stats » ci-dessous.
Nous publions régulièrement des analyses fondées sur l’ensemble Drive Stats sur le blogue Backblaze: rapports trimestriels « Hard Drive Stats » et SSD, ainsi que des sujets connexes (coût du stockage, « courbe de la baignoire », etc.).
Comment nous recueillons les données
Chaque jour, dans chaque centre de données Backblaze, nous prenons un instantané de chaque disque actif (métadonnées + statistiques S.M.A.R.T.). L’instantané quotidien correspond à une ligne dans un fichier CSV regroupant tous les disques actifs du jour (nommage : YYYY-MM-DD.csv, p. ex. 2024-03-25.csv).
Comment les données sont organisées
Le schéma Drive Stats inclut les champs Backblaze pour chaque enregistrement de disque ainsi que les attributs S.M.A.R.T. bruts et normalisés rapportés par chaque disque.
Remarque: le schéma peut évoluer d’un trimestre à l’autre. Vérifiez les changements à chaque publication et alignez vos données en conséquence.
Utilisation des données
L’ensemble Drive Stats est open source. Nous demandons simplement que vous :• citiez Backblaze comme source ;• assumiez la responsabilité de votre usage ;• puissiez vendre des œuvres dérivées, mais pas les données brutes elles-mêmes (elles sont gratuites).
En plus des CSV compressés ci-dessous, nous maintenons une copie au format Apache Iceberg. Utilisez ces identifiants en lecture seule avec tout outil compatible Iceberg:
ID de clé d’application (AWS Key ID): 0045f0571db506a0000000017
Clé d’application (AWS Secret Key): K004Fs/bgmTk5dgo6GAVm2Waj3Ka+TE
URL du point de terminaison: https://s3.us-west-004.backblazeb2.com
Région: us-west-004
Bucket: drivestats-iceberg
Préfixe de chemin: drivestats
Consultez l’article Iceberg on Backblaze B2 pour des instructions détaillées (Trino, Snowflake, DuckDB).
Depuis 2016, nous publions l’ensemble de données par trimestre (avant 2016 : annuel — 2013, 2014, 2015). Chaque élément ci-dessous est une archive ZIP contenant les fichiers CSV du trimestre ou de l’année.
La santé d’un disque dépend de nombreux facteurs (environnement, usage, etc.). Pour réduire les problèmes et maximiser la durabilité: faites des sauvegardes régulières, assurez une bonne ventilation et une température stable, manipulez les disques avec soin pour éviter les chocs, et surveillez les données S.M.A.R.T. pour détecter tôt les signes d’alerte.
Les données de Backblaze montrent que, même si l’AFR varie selon les modèles et l’âge, une large majorité de disques fonctionnent fiablement pendant plusieurs années (souvent > 4–5 ans avec de faibles taux de panne). L’AFR cumulatif de l’ensemble du parc demeure très bas, signe d’une bonne robustesse globale.
Par souci de transparence et pour défendre l’ouverture du nuage. En ouvrant les données, nous favorisons la confiance, permettons à la communauté d’analyser et de réutiliser l’information, et contribuons à une compréhension plus collaborative de l’infrastructure infonuagique et de la fiabilité des disques.
Nous prenons un instantané quotidien de chaque disque opérationnel dans nos centres de données (métadonnées + statistiques S.M.A.R.T.: heures de fonctionnement, température, secteurs défectueux, etc.).
Backblaze collects and publishes annualized failure rates (AFR) and related statistics from the hard disk drives (HDDs) and solid state drives (SSD) operating in their data centers. This includes daily snapshots of drive information and S.M.A.R.T. statistics.