← Back

Déplacez rapidement le Big Data : rclone + checksums (modèles pratiques)

Le déplacement de jeux de données représente la moitié du travail. Fais-le une fois, fais-le bien. Voici une méthode claire et reproductible pour obtenir des données volumineuses dans et hors de votre service informatique GPU avec intégrité chèques et virements reprenables.

Ce que cela couvre

  • Installation et configuration rclone sur un modèle compatible avec CUDA
  • Copier vers/depuis Compatible avec la norme S3 stockage et SSH/SFTP serveurs
  • Créez et vérifiez SHA‑256 manifeste
  • Reprise en toute sécurité après une déconnexion
  • Choisissez tailles des morceaux, parallélisme, et compression cette question

Opinion : utilisation rclone pour le stockage dans le cloud ou dans des objets ; utiliser rsync uniquement pour les copies LAN/SSH lorsque les deux extrémités sont POSIX et que vous avez besoin de liens physiques ou d'autorisations.

Start in seconds with the fastest, most affordable cloud GPU clusters.

Launch an instance in under a minute. Enjoy flexible pricing, powerful hardware, and 24/7 support. Scale as you grow—no long-term commitment needed.

Try Compute now

1) Installez rclone (une fois par modèle)

À l'intérieur de votre conteneur de course :

curl -FSSL https://rclone.org/install.sh | sudo bash
version reclonée

Conservez rclone dans votre modèle personnalisé donc tu ne le répétes pas.

2) Configurer une télécommande (S3 ou SSH)

Démarrez la configuration interactive :

configuration de rclone

Ajoutez une télécommande :

  • S3 (AWS, MinIO, Wasabi, etc.) : choisissez s3, ensemble fournisseur, régionet les clés d'accès.
  • SFTP/SSH: choisissez sftp, définissez l'hôte, le port et le chemin clé.

Ne transformez pas de secrets en images. Stockez les clés d'accès dans la configuration rclone ou définissez les variables d'environnement lors de l'exécution.

ENV uniquement (pas de configuration interactive) — exemple S3

exporter RCLONE_CONFIG_MyRemote_TYPE=S3
export RCLONE_CONFIG_MyRemote_Provider=AWS
exporter RCLONE_CONFIG_MyRemote_Access_KEY_ID=xxxx
export RCLONE_CONFIG_MyRemote_Secret_ACCESS_KEY=yyyy
# facultatif : point de terminaison personnalisé
# export RClone_CONFIG_MyRemote_EndPoint= https://s3.my-org.example

3) Copiez les données (et reprenez-les en cas de panne)

Vers l'instance (S3 → NVMe)

# extrait un ensemble de données vers le répertoire local /data
mkdir -p /données
rclone copy myRemote:Datasets/ProjectA/data \
--progress --transfers 16 --checkers 8 --fast-list \
--s3-chunk-size 64M --s3-upload-concurrency 6

À partir de l'instance (NVMe → S3)

rclone copy /data/results MyRemote:Results/Projecta \
--progress --transfers 16 --checkers 8 --fast-list \
--s3-chunk-size 64M --s3-upload-concurrency 6

  • Résumable: rclone reprend automatiquement les transferts interrompus.
  • Réglage: commencez par les paramètres ci-dessus ; augmentez --transferts doucement jusqu'à ce que la bande passante ou les IOPS saturent. De grands objets tels que .tar.zst préférez les plus grands --taille d'un morceau S3 (128 M ET PLUS).

Exemple SSH/SFTP

rclone copy /data/results sftpremote : /srv/results/Projecta \
--progression --transferts 8 --checkers 4

4) Intégrité : des manifestes SHA‑256 auxquels vous pouvez faire confiance

Créez un manifeste sur le source, copiez les données et manifeste, puis vérifiez sur le destination.

Création d'un manifeste à la source

cd /données/résultats
rclone hashsum SHA-256. > SHA256SUMS.txt

Copier les données + le manifeste

rclone copy /data/results MyRemote:Results/Projecta --progress
rclone copy /data/results/SHA256SUMS.txt MyRemote:Results/Projecta

Vérifier à destination (téléchargé)

# Option A : vérifier après le téléchargement sur une autre machine
rclone copy MyRemote:Results/Projecta. /Projet A
cd ProjectA && sha256sum -c SHA256SUMS.txt

Vérification sur place (liste de hachage à distance)

# Si votre télécommande expose le code SHA-256/MD5, listez les hachages distants et comparez
rclone hashsum SHA-256 MyRemote:Results/Projecta > REMOTE_SHA256.txt
# diff REMOTE_SHA256.txt avec votre manifeste local (les chemins doivent correspondre)

Si le magasin d'objets n'expose pas de hachages puissants par partie (ce qui est courant avec S3 multipart), faites confiance à flux de travail manifeste: recalculer localement après téléchargement et comparaison.

5) Synchronisation, copie et suppression en toute sécurité

  • copie ajoute/met à jour des fichiers uniquement sur la destination.
  • synchroniser fait la destination correspondre la source (y compris les suppressions). À utiliser avec précaution :

rclone sync /data/results MyRemote:Results/ProjectA --progress --delete-before

Ajouter --fonctionnement à sec premier à prévisualiser les suppressions.

6) Moins de fichiers = transferts plus rapides (regroupez intelligemment)

Des millions de petits fichiers se bloquent sur les métadonnées. Regroupez logiquement, puis compressez.

# Regrouper et compresser (multicœur)
cd /data/run123
tar -I 'zstd -T0 -19' -cf run123.tar.zst.
# téléchargez l'archive unique + un petit fichier MANIFEST listant le contenu
rclone copy run123.tar.zst myremote:runs/ --progress

Préférez std pour la vitesse ; utilisez cochons pour la compatibilité avec gzip. Limitez les offres groupées à moins de quelques dizaines de Go si vous avez besoin de rediffusions partielles faciles.

7) Déplacer des données entre des compartiments ou des projets

Vous pouvez copier remote→remote sans accéder à l'instance :

rclone copy awsa:bucketa/prefix GSB:bucketB/prefix --progress --transfers 32 --checkers 16

Fonctionne avec tous les fournisseurs si les deux télécommandes sont configurées.

8) Boutons de bande passante et de fiabilité

  • --limite de 100 m pour limiter la bande passante si vous partagez un lien.
  • --retries 8 --low-level-retries 20 pour les chemins squameux.
  • --timeout 2 m --contimeout 10 s pour régler les points de terminaison lents.
  • --somme de contrôle demande à rclone d'utiliser des hachages lorsque la télécommande les prend en charge.

Enregistrez le commande exacte sur votre carte de course.

9) rsync lorsque les deux extrémités sont POSIX

Pour le SSH sur le réseau local ou un réseau étendu performant, rsync c'est génial :

rsync -AvHP --delete --partial --partial-dir=.rsync-partial \
/data/results user @host : /srv/results/Projecta

--partiel poursuivons les résumés. Écrivez toujours un Manifeste SHA‑256 et vérifiez.

10) Principes de base de la sécurité

  • Conservez les clés d'accès configuration de rclone ou variables d'environnement, pas sur les images.
  • Montez des secrets au moment de l'exécution ; ne les validez pas.
  • Préférez VPN/SSH pour ouvrir des seaux. Si elles sont publiques, limitez par IP et faites expirer rapidement les URL présignées.

Extrait de méthodes (copier-coller)

transferts :
outil : « rclone 1.xx »
source :
tapez : « local | s3 | sftp | gcs | azur | minio »
adresse URL : « <path or remote:bucket/prefix> »
destination :
tapez : « local | s3 | sftp | gcs | azur | minio »
adresse URL : « <path or remote:bucket/prefix> »
commande : |
rclone copy <src><dst>--transfers 16 --checkers 8 --s3-chunk-size 64M --progress
manifeste :
algo : « SHA-256 »
fichier : « SHA256SUMS.txt »
vérifié : « oui | non »
remarques : « taille du groupe de lignes, compression, éventuelles récupérations/délais d'attente »

Lecture associée

Essayez Compute dès aujourd'hui

Démarrez une instance GPU avec un modèle compatible CUDA (par exemple, Ubuntu 24.04 LTS/CUDA 12.6) ou votre propre image GROMACS. Profitez d'une facturation flexible à la seconde avec modèles personnalisés et la possibilité de démarrer, d'arrêter et de reprendre vos sessions à tout moment. Vous n'êtes pas sûr des exigences du FP64 ? Contactez le support pour vous aider à sélectionner le profil matériel le mieux adapté à vos besoins informatiques.

← Back