# Une première infrastructure informatique pour Sourcephile - Demande de Critiques: 8 - De: Julien Moutinho (julm) - À: Sourcephile - Phase: Écriture - Révision: 2 (2020-01-05) - Licence: Creative Commons BY-SA # Bilan approximatif ## Boussoles analytiques - [G] compétitive - [G] charge - [G] julm: on est sur une dépense de ~300€ de matériel pour une espérance de fonctionnement et d’usage >5ans, et un récurrent de ~60€/an pour l’hébergement. C’est un prix très correct pour ce que c’est. - [C] produit - [C] julm: aucun service non-lié à la production n’est proposé aux membres. - [T] autonomie - [T] julm: on a la main sur le matériel, le logiciel, mais pas sur l’hébergement (toutefois 15km, ça reste à portée de vélo). - [T] scientifique - [T] julm: on peut mettre du NixOS, mais ce n’est pas une machine avec beaucoup de CPU et de RAM, mais ça devrait largement suffire et me dépanner tant que je n’ai pas d’élec @home. - [T] productive - [T] julm: la machine peut suffire pour commencer, l’hébergement aussi mais peut rapidement être limitant (ce n’est qu’une VDSL2+). Côté sécurité on est en open-source, mais que partiellement en matériel ouvert. Mutualiser pleins de services sur une seule machine n’est pas l'idéal mais un cloisonnement LXC (sans virtualisation) devrait suffire puisque tous les services seront sous GNU/Linux et contrôlés par nous. L’hébergement est semi-professionnel, sécurité raisonnable vue les enjeux. Côté maintenance on peut mettre du NixOS ce qui me simplifiera la tâche. L’hébergeur n’offre pas (encore) de seconde connexion via le port série et n'est que semi-professionnel, par contre il est proche. - [A] publique - [A] julm: on est en logiciel libre, mais que partiellement en matériel ouvert. Deux raisons bloquantes à cela : le manque de support de NixOS (quid de Guix ? et plus gravement de Haskell pour les architectures ARM. - [A] coopérative - [A] Les machines sont fabriquées à l'autre bout de la planète dans des conditions sociales probablement déplorables. ## Mentions possibles - R: « À rejeter » - C: « À clarifier » - A: « À améliorer » - T: « À tester » - G: « À garder » # Explications ## Motivations ### S'émanciper d'autogeree.net Les logiciels que j'écris sont actuellement hébergés sur `chomsky.autogeree.net`, une machine virtuelle (VM) relativement modeste que me fournie Grésille depuis 2011 (en contre-partie d'un Dell R210 surnommé « chomsky » et acquis dans l'enthousiasme naïf de l'essaimage de FDN, puis resurnommé « rouf » par Grenode). Cette VM m'a longtemps servi de bac à sable pour jouer à l'adminsys, qui sert encore à un copain et moi-même pour avoir du mél et de l'IRC. `chomsky` est une Debian dans une machine virtuelle Xen (1 CPU, 750Mo de RAM, 50Go de stockage **probablement** HDD), dans une machine hébergée professionnellement en datacenter à Grenoble. Cette machine est actuellement reliée à l'Internet par une autre infrastructure de Grenode à Lyon (au Netcenter via l'association Rézopole). `chomsky` n’a pas vraiment les ressources d’une machine de développement (nixpkgs c’est déjà 10Go de stockage, stack 5Go, et le REPL de GHC ou de PureScript c’est minimum 0.5Go de RAM). ### S'émanciper de Debian Depuis que je me suis mis à NixOS, je ne suis plus enthousiasmé par Debian. En tant que dev il est bien plus facile de faire et de partager de manière reproductible et récente des paquets NixOS que des paquets Debian (dans le cas de paquets Haskell tout du moins). Et en tant qu'adminsys il est bien plus facile de maîtriser ce qu'il se passe sur une NixOS que sur une Debian. Le seul avantage de Debian en ce qui me concerne c'est sa plus grande portabilité sur des architectures basse conso ou OSHW comme certaines ARM ou MIPS. Mais ce n'est **certainement** qu'un avantage temporaire. Pour approfondir ces raisons techniques, on peut voir par exemple les tutoriels francophones de Nokomprendo : https://nokomprendo.gitlab.io/ Cependant, il est **peu probable** que je puisse passer `chomsky` sous NixOS, car mon copain n’envisage pas de se mettre à NixOS, et puis c'est une opération risquée demandant une intervention délicate sur une machine hébergeant actuellement des services en production (essentiellement nos méls persos en MX n°1). - https://www.fsf.org/resources/hw - https://wiki.debian.org/FreedomBox/Hardware - https://nixos.wiki/wiki/NixOS_on_ARM ## Objectif ### Objectif minimal : infra de publication Cette infra adresse en priorité la diffusion au public des logiciels produits : dépôts des sources, dépôts des binaires, pages Web d'informations. Le public n'ya que des accès en lecture seule. - Noms de domaine (nsd4, unbound) - Shell distant SSH (openssh) - Pare-feu (shorewall) - Forge logicielle (gitolite, gitweb, nginx) - Dépôts binaires (cachix, apt) - Site Web de rendu des journaux de bord (nginx) - Site Web de rendu des demandes de critiques (nginx) - Site Web de rendu des documentations (nginx) - Certificats X.509 pour du HTTPS (certbot, nginx) - Clés de signature et d'authentification dédiées OpenPGP (gnupg, openpgp2ssh) - Authentifications secondaires dédiées (yubikey) - Monitoring (monit | nagios) ### Objectif modeste : infra d'équipement interne Cette infra adresse en priorité les besoins d'équipement des membres coopérants : stockages sécurisés et connexions sécurisées. Le public n'y a aucun accès d'usage, mais peut avoir des accès en écriture ou lecture selon des interfaces restreintes et contrôlées. - Adresses méls (postfix, dovecot2, rspamd) - Listes méls internes (aliases postfix) - Écriture collaborative en ligne en temps réel (gobby | etherpad-lite | prose) - Messagerie instantanée (prosody | matrix) - Chiffrement du stockage (dm-crypt, dropbear) - Gestion des accès (unix | openldap | ad hoc) - Partages volumineux en ligne (nextcloud) - Partages textuels jetables (pastebin) - (optionnel) Calendriers en ligne (davical | nextcloud) - (optionnel) VPN DNS (iodined) - (optionnel) VPN (wireguard) - (optionnel) Audioconf (mumble) - (optionnel) Visioconf (jitsi) - (optionnel) Partages binaires jetables (coquelicot) ### Objectif honorable : infra de contribution publique Cette infra adresse en priorité les besoins de la communication en ligne : sites Web de présentation et réseaux sociaux en ligne. - Rapports de bugs (gitlab | gitea) - Messagerie instantanée (salon IRC type #sourcephile@irc.geeknode.net | prosody interne | serveur Jabber externe) - GitLab - Site Web des (futures) démonstrations (judgmentphile, docuphile, ledgerphile, relotophile) - Listes méls publiques (discourse) - Forums publics (discourse) ### Objectif ambitieux : infra de mise en commun Cette infra adresse en priorité les besoins de la mise en commun en ligne : - (optionnel) Microblogging (mastodon | serveur externe) ### Objectif maximal : infra de services # Actions ## Machine de services : APU2D4 de PCengines L’APU2 est un routeur conçu par une entreprise suisse (PCengines) et fabriqué à Taïwan. Le CPU est un AMD, dont l'architecture « x86_64 » est officiellement supportée par GHC, NixOS et ses caches binaires. Ce n'est pas complètement en matériel ouvert car certains composants clés comme le CPU ne le sont pas, mais PCengines publie ce qu'elle fait elle pour sa part (schémas et code source des modifications à Coreboot). PCengines a une renommée (adrien en utilise depuis des années a son taff) et une maturité certaine dans la conception de machines (ce n'est pas leur première), il ne s'agit donc de produits issus d'une random startup d'amateur.rices, ou autres personnes davantage préoccupées par le time-to-market plutôt que par le long-time-support. L’APU2 est généralement utilisé comme routeur, mais peut aussi servir de petit (en terme de services peu gourmands côté serveur) serveur, voire de petit (en taille de stockage) « NAS » (Network Attached Storage), voire de petite (en puissance de calculs) machine de développement pour dépanner. L’APU a plusieurs versions : APU2, APU3 et APU4. L'APU2 est annoncé comme celui consommant le moins : 10W max contre 12W max pour l’APU3 et l’APU4, et la version 4Go de RAM de l'APU2 a une NIC i210AT légèrement meilleure que la i211AT des autres. L’APU3 est optimisé pour faire de la 3G/LTE. Et l’APU4 a un quatrième port Ethernet, mais ne rentre pas dans l’enclosure RMT-CASE-S1 permettant de mettre des disques supplémentaires. Ressources : - https://pcengines.ch/howto.htm - https://openwrt.org/toh/pcengines/apu2 - https://www.cs.cmu.edu/~davide/howto/apu4c4.html - https://blog.linuxserver.io/2016/12/17/review-pcengines-apu2-c4-prebuilt-by-linitx/#vpnperformance - https://teklager.se/en/knowledge-base/ ### Caractéristiques - Processeur : AMD G series GX-412TC (Turbo Core), 4x 1GHz Jaguar core with 64 bit support - Specs : - http://www.cpu-world.com/CPUs/Puma/AMD-G-Series%20GX-412TC.html - http://support.amd.com/TechDocs/52740_16h_Models_30h-3Fh_BKDG.pdf - 170€HT, http://store.clemanis.com (PCE-APU2D4) - 148€HT, https://teklager.se/en/products/router-components/pc-engines-apu2d4 - 128€HT, https://www.wispmax.com/pc-engines-apu2b4-system-board.html - Coprocesseur : AMD CCP avec AES-NI - https://openwrt.org/toh/pcengines/apu2#cryptographic_hardware - Cache L1 : 32K data cache + 32K instruction cache per core - Cache L2 : 2MB shared - Mémoire : 1x 4Go DDR3-DRAM 1333Mhz ECC (soudée !) - Stockage : Boot from SD card (built-in adapter, connected through USB), USB or m-SATA SSD. 1 SATA data + power connector - Électricité : 12V DC. About 6 to 10W depending on CPU load. Recommend for at least 1.5A to provide margin for peripherals - Extensions : 2 miniPCI express (one with SIM socket for 3G modem), LPC bus, GPIO header, optional I2C bus, COM2 (3.3V RXD/TXD) - Réseau : 3x Gigabit Ethernet (Intel i210AT), 1 DB9 serial port (console) - https://www.intel.com/content/dam/www/public/us/en/documents/faqs/ethernet-controller-i210-i211-faq.pdf - the i210AT is better, as it has 4 transmit and 4 receive queues, where the i211AT only has 2/2 - Firmware : CoreBoot open source system BIOS with support for iPXE and USB boot - Enclosure : - 35€HT, 245mm x 157mm x 39mm, espace pour 3 disques 2.5" (2 dedans, 1 dehors), http://store.clemanis.com (RMT-CASE-S1) - 12€HT, 152,4mm x 152,4mm, aucun espace pour le moindre disque 2.5", https://teklager.se/en/products/router-components/pc-engines-apu-enclosure - Refroidissement : conductive cooling from the CPU to the enclosure - Conception : Suisse - Fabrication : Taïwan ### Mémoire 4GB de RAM ce n’est pas énorme, c'est trop peu pour une machine de dév (surtout si elle n'est pas dédiée) ou de build, mais pour un serveur hébergeant des services de base c'est pas mal. D’un point de vue sécurité, il semble d'ailleurs préférable d'avoir plusieurs petites machines physiques distinctes qu’une grosse machine blindée hébergeant des machines virtuelles. Machines blindées qu'on ne trouvera d'ailleurs probablement pas de si tôt en matériel ouvert. La RAM a de l’ECC (Error Correcton Code), supportée depuis peu dans le firmware. 4Go de RAM permet de rester en 32 bits, mais ZFS recommande 64 bits. Il faudra faire attention à bien configurer ZFS pour qu'il ne consomme qu'une part contrôlée de la RAM. ### Réseau À PTT le réseau est une VDSL2, soit environ 40Mbps descendant et 12Mpbs montant (pour l'ensemble de l'hébergement !). PCEngines note que : > The throughput depends very much on the OS, Linux based distributions perform much better than BSD based. Under Linux forwarding packets without filtering etc. a throughput of about 900-950Mbps can be achieved. Under BSD based OS, like pfSense, OPNSense, etc the max. throughput is about 600-650Mbps. Quelques commentaires signalent que l’APU2 sature à 45Mpbs avec OpenVPN en AES, OpenVPN ne pouvant utiliser qu'un seul coeur de CPU (single thread). L'APU2 aurait un horloge CPU trop lente et un cache L2 trop petit. Mais ici le VPN n'est pas un objectif. - https://www.reddit.com/r/PFSENSE/comments/4nmuu4/my_pc_engines_apu2c4_experience/ Comme AES peut également être utilisé lors de connexion en HTTPS, on peut peut-être s'attendre au même genre de performances. ### Maintenance La présence d’un port série permet un accès de maintenance plus simple et plus sécurisé que de l’IPMI (qui est un second OS en parallèle). Cependant PTT n'a pas de switch de ports série pour le moment. Câbles utiles : - USB to serial port - 17€HT, https://www.ldlc.com/fiche/PB00026389.html - 11€HT, https://teklager.se/en/products/router-components/serial-to-usb-cable - null-modem "DB9" serial cable, 5€HT, https://www.ldlc.com/fiche/PB00170050.html ### Stockage Le stockage assure du cache (swap), du chiffrement (LUKS+dm-crypt), de la déduplication (ZFS mirror) et de la réversibilité (ZFS). Bien que je n’ai aucune expérience avec, ZFS est utilisé plutôt que RAID+LVM+ext4, car ZFS permet une configuration plus fine et évolutive, semble tout aussi mature, et davantage fiable contre la corruption des disques. ZFS (qui ne peut légalement pas être intégré directement au noyau Linux) est par ailleurs bien intégré à NixOS. #### Disques : 2x SSD 128GB Il est possible de mettre facilement deux disques SSD : un sur le port mSATA et un sur le port SATA. Le port d'alimentation à 2 broches est un peu atypique et peut poser des problèmes (mauvaise connexion sur un modèle reçu par Franciliens). Le port mSATA est entrain d'être remplacé par le port M.2, ce qui pose la question de pouvoir trouver de bons SSD mSATA dans un futur proche. Il est aussi possible de mettre une extension PCIe pour rajouter 4 ports SATA : https://pcengines.ch/howto.htm#add_on_cards Il est également possible de mettre une carte SD, mais les cartes SD tendent à mourrir plus vite et sont plus lentes. Pour benchmarker : > dd if=/dev/zero of=/path/to/disk/tempfile bs=1M count=1024 conv=fdatasync,notrunc status=progress Tous les connecteurs SATA ne sont pas créés égaux, le concepteur de la carte-mère peut mettre des connecteurs bons marchés mais peu performants, auquel cas rajouter une carte SATA peut améliorer la situation. Concernant l'usage, à court et moyen terme les disques n'ont pas besoin d'être particulièrement grands, 64GB ou 128GB seront largement assez. Cependant il faut savoir que les petits SSD ont une vitesse d'écriture plus lente, dans la mesure où il y a plus de puces pour paralléliser les écritures (mais cela ne marche que pour des opérations parallélisables, cela ne s'applique à priori pas quant on a un seul processus). - https://www.tweaktown.com/reviews/5993/samsung-840-evo-128gb-msata-ssd-review/index.html Ainsi un 128Go écrira séquentiellement à 320Mo/s (Kingston) ou 410Mo/s (Samsung). Mais un 250Go écrira séquentiellement à 500Mo/s (Kingston) ou 520Go/s (Samsung). Estimations : - 28GB NixOS - 20GB Dépôts Git - 20GB Boîtes méls - 20GB Archives méls - 20GB Nextcloud - 2GB Logs - #### Cache Le swap est essentiel (sur une machine avec seulement 4G RAM) pour tmpfs et zfs. Il ne sert à rien de le mettre dans le RAID ou dans ZFS (ce qui ouvrirait d'ailleurs la porte à un bug connu), il suffit juste d'ajouter chaque partition de swap à la liste des swaps gérés par le noyau Linux. Le swap est chiffré dans un LUKS dédié, avec une nouvelle clé jetable à chaque boot. #### Chiffrement Le chiffrement peut être assuré au niveau des secteurs par dm-crypt et LUKS, et au niveau du contenu des fichiers par ZFS. Le chiffrement complet du disque (c’est-à-dire de l’initrd et du kernel, mais pas du firmware ou du bootloader) peut être envisagé, mais il faut : - Utiliser un firmware supportant le payload UEFI (et pas BIOS). - Utiliser un LUKS1 (et pas LUKS2) tant que GRUB ne supporte pas LUKS2. Le coprocesseur AMD CCP (pour cryptographie AES) peut améliorer un peu le VPN, le HTTPS et le chiffrement du stockage lorsque de l'AES est utilisé. Pour benchmarker : > cryptsetup benchmark - https://unix.stackexchange.com/questions/254017/how-to-interpret-cryptsetup-benchmark-results En considŕant AES-128 (donc une keysize double avec XTS) comme suffisamment sécurisant, on obtient : > cryptsetup luksFormat --iter-time 2s --hash sha256 --cipher aes-xts-plain64 --keysize 512 /dev/sdX #### Déduplication La déduplication peut être assurée par RAID (RAID1) ou ZFS (mirror ou raidz). La déduplication entre deux disques ou plus permet de se prémunir contre la défaillance matérielle d'un des deux disques. Le coût à payer est d’acheter un deuxième disque (pas forcément d'emblée) et de supporter un temps de lecture qui peut aller jusqu'à la somme de celui de chaque disque, et un temps d'écriture qui égal à celui du disque le plus lent. Si cette pénalité devient trop importante, un RAID5 (ou raidz) pourra être envisagé : https://serverfault.com/questions/830708/raid-1-to-raid-5-using-mdadm . Voire plutôt RAID6 qui n'a pas qu'un seul disque de parité, car le remplacement d'un disque est facteur de défaillance des autres disques. Cependant comme les disques sont des SSD et non des HDD, en arriver là semble très improbable vu l'usage actuellement souhaité. Utiliser RAID permet d’appliquer la déduplication en dessous du chiffrement LUKS, alors que la déduplication ZFS intervient en dessus du chiffrement LUKS, causant un chiffrement par disque de toute écriture. Toutefois, l’APU2 ayant un coprocesseur pour les AES-NI, en utilisant --cipher aes-xts-plain64 pour LUKS ces chiffrements supplémentaires ne devraient pas avoir un impact sur les performances justifiant d’abandonner la flexibilité de ZFS. Le RAID logiciel peut être contrôlé par mdadm ou LVM (--type=raid), le backend mdraid est le même mais ce n'est pas compatible, mdadm est plus établi et abouti que LVM. #### Réversibilité La réversibilité peut être assurée par LVM (snapshot) ou ZFS. #### Partitionnement - /dev/sd{a,b}1 500Mio boot - /dev/sd{a,b}2 4Gio luks-swap - /dev/sd{a,b}4 200Gio luks-zfs La table de partition est au format GPT, qui se retrouve de plus en plus dans les tutos que MSDOS, tout en étant bien supporté par les outils. Les UUID sont randomisées (avec ˋsgdisk -Gˋ) et distincts d'un disque à l'autre. Il ne semble pas nécessaire de faire une partition de secours (rescue), une clé USB, un accès par port série ou un busybox sur /boot devrait suffire. La partition /tmp sera un tmpfs utilisant les 4 à 8G de swap. Les logs sont sur une partition séparée pour garantir fortement qu'elle ne remplira pas celle des données, et pour que déchiffrer les logs, n'implique pas de déchiffrer les données. ### Enclosure Il existe de nombreuses enclosures, mais essentiellement deux modèles. Les noires dissipent mieux la chaleur : https://openwrt.org/toh/pcengines/apu2 La RMT-CASE-S1 de Clemanis (pour APU2 ou APU3 seulement !) est 15€ plus chère que d’autres enclosures plus petites, mais permet de stocker deux disques 2.5" dans l'enclosure et un sur le dessus pour un total de 4 disques avec le mSATA, ou de mettre une extension : http://store.clemanis.com/en/cases/324-pc-engines-alix-2d22d32d13-apu1apu2-case-with-hdd-wifi-black-3700667301379.html ### Espérance de fonctionnement Matériellement, les disques peuvent mourrir assez vite, entre 3 et 5 ans. Une redondance en RAID1 logiciel (mdadm) rendra **probablement** le remplacement assez simple. La carte de l’APU2 devrait pouvoir durer plus de 10 ans. Mais le fait que la RAM soit soudée fait qu'il faudra changer toute la carte mère si elle vient à avoir des défaillances. ## Machine de compilations - http://wiki.ant-computing.com/Choosing_a_processor_for_a_build_farm > The intel Core as found in the Core i5 is performing very well, but hyperthreading brings little benefit here (13%). Thus a CPU should be chosen with real cores > [...] > In this test, the AMD was the fastest of all systems, and the ARM was the fastest fanless system and also the one delivering the highest throughput per cubic centimeter. > [...] > Some tests run with the ramlat utility showed that the build time almost solely depends on the L1 cache speed, then a little bit on the L2 cache speed and then finally on the DRAM speed. It does not exactly depend on the memory bandwidth but rather latency. ## Hébergement chez PTT PTT propose de l’hébergement à Tarnac (Corrèze). L’hébergement se fait dans une petite salle dédiée et climatisée d’un "tier-lieu" (médiathèque, cyberespace) du village. La connexion est derrière une VDSL2+ fournie par l’association Ilico. - https://www.fnac.com/mp37714266/Transcend-ts128gmsa230s-ssd-interne-msata-iii-128-go-sata-iii-6-gbps-3d-tlc/w-4 - https://www.ldlc.com/fiche/PB00253086.html ## Travaux futurs ### Machine de sauvegardes ### Machine de compilations # Critiques ## Inconvénients ### Vulnérabilités Metldown et Spectre Problème : l’AMD GX-412TC de l’APU2 est vulnérable à Meltdown et Spectre. L’atténuation n’est que partielle : https://blog.3mdeb.com/2019/2019-05-29-spectre-and-meltdown-on-apu2/ Réponse : tous les CPU Intel ou AMD sont plus ou moins affectés par ces vulnérabilités. ### L'APU2 n'a pas une alimentation redondée Problème : l'alimentation est l'un des composants les plus susceptibles de ne plus fonctionner. Réponse : entreposer une seconde alimentation à côté du serveur, de sorte à minimiser le temps de hors-service et que cela puisse éventuellement être fait par l'hébergeur. ### L'APU2 n'est pas adapté à la virtualisation Problème : pour faire de la virtualisation il est préférable d'avoir des CPU avec des instructions adaptées (VT) et de la RAM en quantité (~512Mio/VM). Réponse : la virtualisation est surtout adaptée lorsque ce ne sont pas les mêmes personnes qui gèrent les services, ou lorsqu'il faut faire tourner des OS différents. Mais dans le cas présent ce n'est pas le cas, donc des containers type LXC devraient suffire du point de vue d'une compartimentation sécuritaire. ### nsd4 et iodined nécessitent tous deux le port 53 Problème : normalement nsd4 et iodined sont incompatibles sur une seule et même IPv4 (à 3€/mois ici), car ils requièrent tous deux l’écoute sur le port 53 du DNS. Réponse : il est possible de mutualiser ce port avec une règle iptables du genre : `-A nat -p udp --dport 53 -m string --algo kmp --from 40 --hex-string |01|i|05|plura|02|fr|00| -j DNAT --to-destination :5353` où iodined écoute maintenant sur le port 5353. ## Question non-résolues ## Alternatives ### TLsense - Processeur : Intel i3 | i5 | i7 - i7 : https://teklager.se/en/products/routers/tlsense-i7-4lan - Mémoire : 8Go - Réseau : 4x Gigabit Ethernet - Conception : Suède - Fabrication : ? ### Helios4 - Infos : https://kobol.io/helios4/ - Prix : 177€ Open hardware mais ARM pas x86, et plus en vente pour le moment. ### HPE ProLiant MicroServer - Processeur : AMD Opteron X3416 (2x 1.6–3.0GHz) | X3421 (4x 2.1–3.4GHz) - Mémoire : 1x 8Go (max 2x 16Go) DDR4-SDRAM (X3416: 1600Mhz | X3421: 2400MHz) Unbuffered ECC (non-soudées) - Cache L2 : X3416: 1Mo | X3421: 12Mo - Réseau : 2x Gigabit Ethernet - Électricité : 12-35W - Stockage : 4x SATA 3.5" - Extensions : 2x PCIe 3.0 - Prix : - X3416 : 328€HT https://www.senetic.fr/product/873830-421 - X3421 : 415€HT https://www.senetic.fr/product/P04923-421 - Conception : USA - Fabrication : ?