Bonjour à tous,
En me baladant sur le site/forum je suis tombé sur ce topic et n'en ayant pas été averti il était difficile d'apporter directement des précisions 😉
Présentation
Pour ceux qui ne me connaissent pas je suis Snk, co-fondateur de mTxServ depuis son origine (il y a 10 ans déjà !) et je suis plus particulièrement celui qui s'occupe de nos belles machines et donc de la répartition des serveurs sur l'ensemble du parc, avec tout ce que ça peut comporter comme problématiques.
Historique partenariat
Pour refaire l'historique les serveurs mis à disposition dans le cadre du partenariat le sont depuis plus de 3 ans et demi (pour les actuels), sur la base de 4 gros serveurs regroupés sur une même machine.
Initialement, celle-ci était dédiée à ces serveurs mais + pour accueillir potentiellement un nombre extrême de joueurs, avec toute la difficulté que cela peut comporter au regard de ce que consomme Minecraft (c'est peu de le dire ^^). Ceci étant, l'utilisation de ces serveurs a évolué dans le temps et la machine se retrouvait très sous-utilisée (très très genre 10% de sa capacité). Dans le temps nous avons pu considérer que c'était raisonnable mais passant sur des machines toujours plus haut de gamme et in fine plus coûteuses, ce gaspillage n'était pas forcément une bonne chose.
Aussi notre vision du partenariat est de montrer ce que nous faisons, avoir des partenaires sur des machines à part ne représente à notre sens pas une démarche honnête dans la mesure où ce n'est pas représentatif du service produit pour tous les clients. L'idée derrière n'est pas de dire "ok on va entasser des tonnes de serveurs comme partout #yolo" mais plus de dire que ces serveurs partenaires doivent correspondre à des gros serveurs comme ceux que nous proposons à nos clients, dans les mêmes conditions et doivent justement être un bon moyen de jauger du niveau de service très élevé qu'on essaie d'atteindre. D'ailleurs, nous sommes particulièrement à l'écoute de nos partenaires car ils nous permettent de sans arrêt nous améliorer en nous faisant des retours constructifs !
Bref dans le temps on a aligné sur ce qu'on propose globalement en mettant quelques serveurs clients en voisins mais de manière raisonnable et raisonnée, en essayant de suivre un peu l'évolution du projet pour être sûr que ça matche 🙂
Nouvelles offres
En octobre 2018 nous avons revu intégralement notre panel et nos offres pour améliorer grandement la qualité de service et surtout les rendre plus abordables à tous, mettant de côté les nombreux paliers de slots et axant davantage sur les ressources comme le font la plupart des acteurs sur le marché.
Ceci a trouvé un public très vaste, les commandes ont réellement explosé et le nombre de machines avec, nous obligeant à rationaliser l'utilisation de celles-ci. Pendant pas mal de semaines/mois nous avons fait de celle de play-mc.fr une exception sous-utilisée mais il devenait compliqué de maintenir cela, notamment pour les raisons d'équité évoquées au-dessus.
La machine est donc devenue une machine comme une autre, avec les dizaines de ses petites soeurs (dont pas mal de nouvelles).
Retour sur le crash du 15/02/2019
Pour en venir plus précisément au crash dont il est question ici, c'est un cas rare mais qui peut survenir. Notre philosophie a toujours été de faire confiance à nos clients dans l'utilisation qu'ils font de nos services, tout en assurant la sécurité, fiabilité et stabilité de la plateforme. Aussi nous avons développé un monitoring individuel de chaque serveur qui peut prendre certaines décisions, notamment si un serveur a une utilisation à vide démesurée ou si au contraire il est complètement inactif depuis de nombreuses semaines, de sorte de pouvoir mobiliser les ressources pour les vrais besoins et le faire très bien 🙂
Pour l'espace de stockage c'est pareil, on fait confiance aux clients en n'imposant pas de quota (qui plus est payant comme le font certains concurrents et ce... au prix fort) mais en surveillant de près ce qu'il se passe. Nous avons excessivement optimisé tout un tas de systèmes, à commencer par les sauvegardes qui sont externalisées depuis 2-3 ans sur des serveurs au passage bien coûteux mais nous permettent de le faire sur de longues périodes, l'arrivée des SSD type NVMe de bonnes capacités nous a également bien aidé pour continuer à aller dans ce sens.
Le seul défaut de ces nouveaux NVMe, c'est qu'ils sont très très très performants. Pourquoi un défaut ? Dans le cas d'un dysfonctionnement d'un serveur qui veut se mettre à écrire comme un fou des données (ex : logs de debug, nombreux fichiers dump, etc) et bien ça le fait sans broncher...
Malgré un monitoring très actif et une équipe réactive, ça peut aller très vite et dans le cas de ces événements c'est près de 250 Go écrits en quelques minutes qui sont responsables de tout ce qui a été décrit sur le topic et qui correspond bien à ce qu'il s'est produit.
Petite précision, pour la sauvegarde de 20h, elle ne pouvait pas être valide car précisément avant de pousser une sauvegarde sur les serveurs externalisées, la sauvegarde est faite en local le plus vite possible pour avoir des données les plus intègres possible. Forcément si l'espace de stockage ne le permet pas, la sauvegarde n'est pas bonne.
Autre problème, cela s'est produit en début de soirée un vendredi soir où de toute évidence nous n'étions pas sur le qui-vive pour souffler d'une nouvelle grosse semaine, d'autant que les sondes monitoring n'ont pas remonté correctement les informations.
Tout a été résolu le lendemain et nous avons corrigé la partie monitoring mise à défaut pour avoir une remontée plus efficace pour être prévenus et pouvoir intervenir plus rapidement même si nous ne sommes pas connectés.
Conclusion
J'espère que ce post vous aura un peu éclairé sur tout ce qu'il s'est passé. Il faut aussi comprendre que derrière un hébergeur comme nous il n'y a pas une équipe de X dizaines de personnes ou autre, être hébergeur de serveurs de jeux c'est faire beaucoup avec peu, la réalité étant que nous n'avons pas les moyens d'être de nombreuses personnes pour être dans la minute à toute heure du jour ou de la nuit pour se dépanner, idem pour le support.
Je sais que les idées de grosses sociétés multi-nationales qui ramassent des camions d'argent persistent mais la réalité est vraiment à l'opposé de tout cela.
Nous avons d'ailleurs amélioré la communication avec nos clients en inaugurant le 1er janvier dernier notre Discord, permettant d'avoir un lien plus direct avec nos clients mais pas que. Nos partenaires y sont davantage mis à l'honneur également 🙂
J'arrête là mon pâté, si vous avez des questions n'hésitez pas !