Le déplacement de jeux de données représente la moitié du travail. Fais-le une fois, fais-le bien. Voici une méthode claire et reproductible pour obtenir des données volumineuses dans et hors de votre service informatique GPU avec intégrité chèques et virements reprenables.
Ce que cela couvre
- Installation et configuration rclone sur un modèle compatible avec CUDA
- Copier vers/depuis Compatible avec la norme S3 stockage et SSH/SFTP serveurs
- Créez et vérifiez SHA‑256 manifeste
- Reprise en toute sécurité après une déconnexion
- Choisissez tailles des morceaux, parallélisme, et compression cette question
Opinion : utilisation rclone pour le stockage dans le cloud ou dans des objets ; utiliser rsync uniquement pour les copies LAN/SSH lorsque les deux extrémités sont POSIX et que vous avez besoin de liens physiques ou d'autorisations.
1) Installez rclone (une fois par modèle)
À l'intérieur de votre conteneur de course :
curl -FSSL https://rclone.org/install.sh | sudo bash
version reclonée
Conservez rclone dans votre modèle personnalisé donc tu ne le répétes pas.
2) Configurer une télécommande (S3 ou SSH)
Démarrez la configuration interactive :
configuration de rclone
Ajoutez une télécommande :
- S3 (AWS, MinIO, Wasabi, etc.) : choisissez
s3
, ensemblefournisseur
,région
et les clés d'accès. - SFTP/SSH: choisissez
sftp
, définissez l'hôte, le port et le chemin clé.
Ne transformez pas de secrets en images. Stockez les clés d'accès dans la configuration rclone ou définissez les variables d'environnement lors de l'exécution.
ENV uniquement (pas de configuration interactive) — exemple S3
exporter RCLONE_CONFIG_MyRemote_TYPE=S3
export RCLONE_CONFIG_MyRemote_Provider=AWS
exporter RCLONE_CONFIG_MyRemote_Access_KEY_ID=xxxx
export RCLONE_CONFIG_MyRemote_Secret_ACCESS_KEY=yyyy
# facultatif : point de terminaison personnalisé
# export RClone_CONFIG_MyRemote_EndPoint= https://s3.my-org.example
3) Copiez les données (et reprenez-les en cas de panne)
Vers l'instance (S3 → NVMe)
# extrait un ensemble de données vers le répertoire local /data
mkdir -p /données
rclone copy myRemote:Datasets/ProjectA/data \
--progress --transfers 16 --checkers 8 --fast-list \
--s3-chunk-size 64M --s3-upload-concurrency 6
À partir de l'instance (NVMe → S3)
rclone copy /data/results MyRemote:Results/Projecta \
--progress --transfers 16 --checkers 8 --fast-list \
--s3-chunk-size 64M --s3-upload-concurrency 6
- Résumable: rclone reprend automatiquement les transferts interrompus.
- Réglage: commencez par les paramètres ci-dessus ; augmentez
--transferts
doucement jusqu'à ce que la bande passante ou les IOPS saturent. De grands objets tels que.tar.zst
préférez les plus grands--taille d'un morceau S3
(128 M ET PLUS).
Exemple SSH/SFTP
rclone copy /data/results sftpremote : /srv/results/Projecta \
--progression --transferts 8 --checkers 4
4) Intégrité : des manifestes SHA‑256 auxquels vous pouvez faire confiance
Créez un manifeste sur le source, copiez les données et manifeste, puis vérifiez sur le destination.
Création d'un manifeste à la source
cd /données/résultats
rclone hashsum SHA-256. > SHA256SUMS.txt
Copier les données + le manifeste
rclone copy /data/results MyRemote:Results/Projecta --progress
rclone copy /data/results/SHA256SUMS.txt MyRemote:Results/Projecta
Vérifier à destination (téléchargé)
# Option A : vérifier après le téléchargement sur une autre machine
rclone copy MyRemote:Results/Projecta. /Projet A
cd ProjectA && sha256sum -c SHA256SUMS.txt
Vérification sur place (liste de hachage à distance)
# Si votre télécommande expose le code SHA-256/MD5, listez les hachages distants et comparez
rclone hashsum SHA-256 MyRemote:Results/Projecta > REMOTE_SHA256.txt
# diff REMOTE_SHA256.txt avec votre manifeste local (les chemins doivent correspondre)
Si le magasin d'objets n'expose pas de hachages puissants par partie (ce qui est courant avec S3 multipart), faites confiance à flux de travail manifeste: recalculer localement après téléchargement et comparaison.
5) Synchronisation, copie et suppression en toute sécurité
copie
ajoute/met à jour des fichiers uniquement sur la destination.synchroniser
fait la destination correspondre la source (y compris les suppressions). À utiliser avec précaution :
rclone sync /data/results MyRemote:Results/ProjectA --progress --delete-before
Ajouter --fonctionnement à sec
premier à prévisualiser les suppressions.
6) Moins de fichiers = transferts plus rapides (regroupez intelligemment)
Des millions de petits fichiers se bloquent sur les métadonnées. Regroupez logiquement, puis compressez.
# Regrouper et compresser (multicœur)
cd /data/run123
tar -I 'zstd -T0 -19' -cf run123.tar.zst.
# téléchargez l'archive unique + un petit fichier MANIFEST listant le contenu
rclone copy run123.tar.zst myremote:runs/ --progress
Préférez std pour la vitesse ; utilisez cochons
pour la compatibilité avec gzip. Limitez les offres groupées à moins de quelques dizaines de Go si vous avez besoin de rediffusions partielles faciles.
7) Déplacer des données entre des compartiments ou des projets
Vous pouvez copier remote→remote sans accéder à l'instance :
rclone copy awsa:bucketa/prefix GSB:bucketB/prefix --progress --transfers 32 --checkers 16
Fonctionne avec tous les fournisseurs si les deux télécommandes sont configurées.
8) Boutons de bande passante et de fiabilité
--limite de 100 m
pour limiter la bande passante si vous partagez un lien.--retries 8 --low-level-retries 20
pour les chemins squameux.--timeout 2 m --contimeout 10 s
pour régler les points de terminaison lents.--somme de contrôle
demande à rclone d'utiliser des hachages lorsque la télécommande les prend en charge.
Enregistrez le commande exacte sur votre carte de course.
9) rsync lorsque les deux extrémités sont POSIX
Pour le SSH sur le réseau local ou un réseau étendu performant, rsync
c'est génial :
rsync -AvHP --delete --partial --partial-dir=.rsync-partial \
/data/results user @host : /srv/results/Projecta
--partiel
poursuivons les résumés. Écrivez toujours un Manifeste SHA‑256 et vérifiez.
10) Principes de base de la sécurité
- Conservez les clés d'accès configuration de rclone ou variables d'environnement, pas sur les images.
- Montez des secrets au moment de l'exécution ; ne les validez pas.
- Préférez VPN/SSH pour ouvrir des seaux. Si elles sont publiques, limitez par IP et faites expirer rapidement les URL présignées.
Extrait de méthodes (copier-coller)
transferts :
outil : « rclone 1.xx »
source :
tapez : « local | s3 | sftp | gcs | azur | minio »
adresse URL : « <path or remote:bucket/prefix> »
destination :
tapez : « local | s3 | sftp | gcs | azur | minio »
adresse URL : « <path or remote:bucket/prefix> »
commande : |
rclone copy <src><dst>--transfers 16 --checkers 8 --s3-chunk-size 64M --progress
manifeste :
algo : « SHA-256 »
fichier : « SHA256SUMS.txt »
vérifié : « oui | non »
remarques : « taille du groupe de lignes, compression, éventuelles récupérations/délais d'attente »
Lecture associée
Essayez Compute dès aujourd'hui
Démarrez une instance GPU avec un modèle compatible CUDA (par exemple, Ubuntu 24.04 LTS/CUDA 12.6) ou votre propre image GROMACS. Profitez d'une facturation flexible à la seconde avec modèles personnalisés et la possibilité de démarrer, d'arrêter et de reprendre vos sessions à tout moment. Vous n'êtes pas sûr des exigences du FP64 ? Contactez le support pour vous aider à sélectionner le profil matériel le mieux adapté à vos besoins informatiques.