Как настроить смартфоны и ПК. Информационный портал

Использование rsync в примерах. Эффективное использование rsync

Есть несколько идентичных серверов (4 ноды) на Amazon EC2 с Ubuntu. Каждый генерирует и хранит у себя на диске кэш, который хотелось бы синхронизировать. Но простой rsync тут не подойдет - файлов несколько миллиардов, nfs - слишком медлителен, и т. д. Полный список рассмотренных вариантов с пояснениями ниже.

К тому же, время от времени нужно удалять устаревшие файлы сразу на всех серверах, что пока делается вручную и занимает несколько суток. Вопрос наиболее быстрой для такого Use Case файловой системы планирую описать позже. Оговорюсь только, что по нескольким причинам была выбрана XFS.

После теста нескольких кластерных технологий и файловых систем, по совету старшего товарища, решили использовать тот же rsync, но в связке с inotify. Немного поискав в интернете готовое такое решение, дабы не изобретать велосипед, наткнулся на csyncd, inosync и lsyncd. На хабре уже была , но он тут не подходит, т.к. хранит список файлов в базе SQLite, которая вряд-ли сможет сносно работать даже с миллионом записей. Да и лишнее звено при таких объемах ни к чему. А вот lsyncd оказался именно тем, что нам и было нужно.

4. Стартуем демон на всех нодах:

/etc/init.d/lsyncd start

Если Вы оставили «nodaemon = true» в конфиге, то сможете видеть что происходит.

Скорость передачи данных достигает 300 Мбит/с и на загрузку сервера это мало влияет (по сравнению с тем же GlusterFS, например), да и задержка в данном случае сглаживает пики. Многое еще зависит от используемой ФС. Тут тоже пришлось провести маленькое исследование, с цифрами и графиками, так как ситуация довольно специфическая и результаты существующих опубликованных тестов не отражают того, что требуется в задаче.

Что еще было рассмотрено и почему не подходит в данном случае

Все исследование было нацелено на работу с Amazon EC2, с учетом ее ограничений и особенностей, поэтому полученные выводы в основном касаются только ее.
  • DRBD – репликация идет на блочном уровне. В случае деградации одного носителя убиваются оба. Ограничение в 2 ноды. (Больше можно, но 3 и 4-й можно подключить только как слейвы.)
  • Ocfs2 – используется либо поверх DRBD (о чем есть хорошая на хабре), либо нужно иметь возможность монтировать один раздел с нескольких нод. Невозможно на ec2.
  • Gfs2 – аналог ocfs2. Не пробовал, т. к. согласно тестам эта ФС медленней ocfs2, в остальном - ее аналог.
  • GlusterFS – вот тут все заработало практически сразу и как надо! Проста и логична в администрировании. Можно сделать кластер до 255 нод с произвольным значением реплик. Создал кластерный раздел из пары серверов и примонтировал его на них же но в другую директорию (то есть сервера были одновременно и клиентами). К сожалению на клиенте этот кластер монтируется через FUSE, и скорость записи оказалась ниже 3 МБ/сек. А так, впечатления от использования очень хорошие.
  • Lustre - чтобы запустить сие дело в krenel mode нужно патчить ядро. Как ни странно, в репозитории Ubuntu есть пакет с этими патчами, но вот самих патчей под нее или хотя-бы под Debian я не нашел. И судя по отзывам, понял, что завести это в deb-системе - шаманство.
  • Hadoop w/ HDFS, Cloudera - не пробовал, поскольку было найдено другое решение (см. ниже). Но первое что бросается в глаза - написано на Java, следовательно ресурсов кушать будет много, да и масштабы не как у Фесбука или Яху, всего 4 ноды пока.

UPD: Данное решение отлично себя показало на тестах (после чего и была написана статья), но в боевых условиях все оказалось совсем по другому. Минимальная продакшн-конфигурация - 584 тысячи вложенных директорий. А lsyncd навешивает inotify"и на каждую директорию. Сделать это сразу для всего дерева невозможно. Памяти, 584 тысячи нотифаев, съедают относительно немного, около 200 Мб (из 16 ГБ имеющихся), но вот процесс этот занимает 22 минуты. В принципе, не страшно: раз запустил и забыл. Но после этого, при стандартной конфигурации, lsyncd запускает синхронизацию всех файлов, которая в наших условиях либо глючила, либо занимала дни. В общем - не вариант. 100%-ная консистентность не требуется и без начальной синхронизации можно обойтись. Оставалось ее «выключить». Благо, демон написан так, что можно изменить практически все его функции прямо из конфига. Также, для увеличения производительности default.rsync был заменен на default.rsyncssh, а ядро натюнино на предмет лимитов inotify"а. То есть, для большинства задач подойдет конфиг выше, но в нашей конкретной ситуации работает следующее:

Settings = { logfile = "/var/log/lsyncd/lsyncd.log", statusFile = "/var/log/lsyncd/lsyncd.status", statusInterval = 5, --<== чтобы видеть что происходит без включения подробного лога } sync { default.rsyncssh, source = "/raid", host = "node02", targetdir = "/raid", rsyncOps = {"-ausS", "--temp-dir=/tmp"}, --<== описано выше delay = 3, --<== ставим по-меньше, чтобы очередь не забивать init = function(event) --<== перезагрузка функции инициализации. как она выглядела в оригинале можно посмотреть в документации или в исходниках log("Normal","Skipping startup synchronization...") --<== чтобы знать, что мы этот код вообще запускали и когда end } sync { default.rsyncssh, source = "/raid", host = "node03", targetdir = "/raid", rsyncOps = {"-ausS", "--temp-dir=/tmp"}, delay = 3, init = function(event) log("Normal","Skipping startup synchronization...") end }

Настройки ядра

У inotify есть три параметра (см. ls /proc/sys/fs/inotify/):
max_queued_events - максимальное число событий в очереди; default = 16384;
max_user_instances - сколько инстансов inotify может запустить один пользоваетль; default = 128;
max_user_watches - сколько файлов может отслеживать один пользоваль; default = 8192.

Рабочие значения:
echo " fs.inotify.max_user_watches = 16777216 # fs.inotify.max_queued_events = 65536 " >> /etc/sysctl.conf echo 16777216 > /proc/sys/fs/inotify/max_user_watches echo 65536 > /proc/sys/fs/inotify/max_queued_events

Так все заработало уже в продакшине.

Спасибо за внимание!

тащит всю команду 24 октября 2011 в 00:52

Rsync: мощная утилита для быстрого, гибкого удаленного и локального копирования файлов

  • Чулан *

Rsync разработан для замены rcp – древней программы для удаленного копирования под Unix. Благодаря широким возможностям синхронизации и передачи файлов, rsync часто применяется для создания зеркал.
Использование хитроумного алгоритма, позволяет rsync передавать только изменения в файлах, причем для выявления изменений ему не надо сравнивать два файла. Кроме того, rsync производит сжатие на лету, позволяя тем самым передавать файлы с максимальной эффективностью.
Кроме вышеописанных вкусностей, rsync обладает также и несколькими полезными возможностями обеспечения безопасности. Он поддерживает ssh – рекомендованный протокол для безопасной передачи данных; перед обработкой информации производит ее запись во временный файл, чтобы ничего не случилось с оригиналом, наконец, он поддерживает специальный режим безопасной отладки команд.
Rsync прост в использовании, но не является программой «click-and-play». Это -мощный инструмент, который может быть очень полезным, но не стоит забывать об осторожности, так как его с помощью легко что-нибудь испортить.

Синтаксис утилиты
Синтаксис утилиты простой и довольно обыденный.
rsync [опции] источник [приемник]
Указав только источник, мы увидим список файлов без операции копирования.

Опции и примеры
Для простоты понимания, операции синхронизации привожу сперва локально.
Быстрый способ синхронизировать два каталога, это использовать опцию -a :
rsync -a foobar_src/ foobar_dst/
В данном случае файлы и директории из источника скопируются в приемник, при этом, если там были файлы, то совпавшие по имени будут перезаписаны, а остальные не тронуты.

Опция -a задает архивный режим работы утилиты, и является эквивалентом набора опций:
-r, --recursive - рекурсивный режим;
-l, --links - пересоздание symlinks , это значит, что символические ссылки будут так же переноситься;
-p, --perms - перенос прав;
-t, --times - передача времени модификации и его обновление на удаленной системе. Этот ключ должен быть установлен для точной синхронизации;
-g, --group - установить группу конечного файла таким же, как и у исходного;
-o, --owner - установить владельца конечного файла таким же, как и у исходного;
-D, - same as --devices --specials - установить тип файла устройства и файла специального типа таким же, как у исходного.
В итоге получаем копию директории источника. Кстати, это можно использовать при переносе ОС на другой винчестер, подправив /etc/fstab, установив/переустановив grub на новом винте - получаем рабочую систему, но это уже другая тема.

Для вывода информации о работе утилиты, существует опция -v, --verbose . Чем больше опций -v , тем боле информативным будет вывод утилиты. Максимальная информативность достигается при четырех опциях -v, --verbose .

Если у нас содержится в директории источника актуальная информация, то чтобы не засорять приемник информацией, которая в процессе работы была удалена или перемещена в источнике, нужно старые файлы и директории удалить. Для этого есть несколько опций удаления, каждая из которых предоставляет свой алгоритм удаления. Их аж шесть!
--del - сокращенная форма --delete-during ;
--delete - просто удалить посторонние файлы из приемника;
--delete-before - приемник удаляет перед передачей;
--delete-during - приемник удаляет в процессе передачи, но не перед;
--delete-delay - отложенное удаление/найти файлы для удаления в процессе передачи, но удалить после передачи;
--delete-after - приемник удаляет после передачи, но не перед ней;
--delete-excluded - так же удалить исключенные файлы в приемнике, для этого задается шаблон (--exclude=PATTERN).

Допустим у нас на приемнике есть более свежие файлы, и мы не хотим что бы они были перезаписаны старыми из источника, то для этого применяется ключ -u, --update .
-u, --update - пропустить файлы, если на приемнике файл новее.
Не стоит пугаться если изменились даты директорий, т.к. сами файлы небыли перезаписаны.

Порой файлы могут повредится или быть модифицырованы, но совпадать и датой и размером. То можно использовать проверку контрольной суммы, опция -c, --checksum .

Моей задачей было разобраться, как сделать резервную копию коллекций фотографий, музыки, наработок по университету и работе. При этом в источнике информация всегда актуальная, а то что удалено - мусор. Пример для решения моей задачи:
rsync -auvv --delete-during foobar_src/ foobar_dst/
Это обновит мой приемник, если он был уже чем то заполнен - вычистит то, чего нет в источнике, но не затронет файлы которые поновее, выведет статистику и состояние по каждому файлу.

Удаленная работа
Кроме того, очень полезным будет его способность работать через ssh. Что обеспечивает шифрование канала, что очень важно, если вы синхронизируете два сервера в сети интернет. Для уменьшение трафика, rsync так-же умеет сжимать данные, при передаче по сети.
Необходимы следующие опции:
-e - задать удаленный шелл для использования;
-z - сжимать передаваемые данные, либо задать:
-compress-level=9 - сжатие с установкой уровня компрессии.

Пример копирования с удаленного хоста по протоколу ssh:
rsync -avv --delete-during -compress-level=9 -e "ssh -p remote_ssh_port" user@host:/dir/to/foobar_src foobar_dst/
При этом, на стороне источника нужно иметь установленную утилиту rsync.

Надеюсь эта информация будет полезна многим. Больше информации про утилиту rsync вы сможете найти в ее же документации, благо она хорошо описана.
Там же вы можете найти информацию о том, как поднять дэмон rSync для непосредственного подключения без использования удаленного ssh шелла, а так же описание множества других опций на любой вкус и цвет.

Теги: rsync, копирование, резервирование файлов, синхронизация файлов

У замечательной и очень популярной программы rsync есть множество удобных опций и необычайных способностей, вот только их не так-то просто найти. Ну, если только вы не готовы прочитать весь мануал от корки до корки.

Попробую сберечь вам немного времени на чтение мануала и рассказать о самом важном и полезном. Простыми словами, как есть.

Зачем нужен rsync?

Зачем пользоваться rsync если есть привычные cp и scp , спросите вы.

    В одной части rsync удобней и лучше упомянутых аналогов потому что он дает вам возможность увидеть все что он сделает при копировании файлов до непосредственно операции копирования.

    В другой части - rsync по умолчанию копирует только новые и изменившиеся файлы, и даже не только файлы - а отдельные их части, делая это жестоко и эффективно.

Только этих двух причин достаточно чтобы в своей ежедневной работе забыть про cp , променяв эту команду и ее аналоги на rsync .

Принцип применения

Если мы говорим о простом копировании файлов, то первым делом всегда стоит сделать пробный прогон (ключ -n) в режиме с показом подробностей (-v):

rsync -avn source example.com:destination

В этом режиме rsync покажет список файлов, которые он скопирует. Будут скопированы только новые и изменившиеся файлы. Вы сможете убедиться что копируется сам каталог, а не содержимое, или что копируется именно содержимое.

После того как вы убедились что копируется именно то, что вы хотите, можно запускать самое настоящее копирование:

rsync -av source example.com:destination

В этой команде ключ -a подразумевает рекурсивное копирование всех файлов и каталогов включая их атрибуты, такие как дата создания и дата изменения. Ключ -v даст вам подробный отчет о работе по мере выполнения и по окончании.

Правила копирования каталогов

С одной стороны правила очень простые.

    Если в конце пути до именованного источника нет слеша, то скопируется сам каталог.

    $ rsync -avn path/to/source example.com:destination sending incremental file list source/ source/example.html ...

    Если слеш есть, или источник указывает на каталог без имени, то скопируется содержимое каталога.

    $ rsync -avn path/to/source/ example.com:destination ^^^ sending incremental file list example.html ... # Что эквивалентно такой команде: $ cd path/to/source; rsync -avn . example.com:destination

С другой стороны вполне можно в пылу забыть что и как, скопировав содержимое каталога вместо самого каталога , получив кучу хлопот с удалением лишних файлов, появившихся из ниоткуда с датами в прошлом (ключик -a , помните?).

Потому лучше всегда следовать обычному сценарию с предварительной проверкой операции.

Некоторые полезные ключи

Сначала поговорим об опциях которые вам будет здорово знать без шпор и шпаргалок.

    Ключ -P включает сразу несколько опций. С этим ключем rsync и покажет процесс копирования отдельных файлов, и продолжит копирование если оно было прервано. Особо эта опция пригождается при копировании больших файлов. Ключ -P нужно указывать каждый раз, иначе rsync удалит файлы которые не успели полностью закачаться.

    Если вы копируете файлы с какого-то очень занятого, или слабого, сервера, то можно исключить трату ресурсов процессора на вычисление изменившихся частей файлов, скопировав их целиком. Для этого нужен ключ -W .

    Если вам хочется знать сколько всего, по мнению rsync, осталось работать, вам нужен ключ --info=progress2 . Если вы копируете целую файловую систему, то этот ключ, будучи использован сам по себе, вас разочарует: информация об итоговом объёме будет постоянно обновляться. Это происходит потому что rsync не пытается считать всю файловую систему до того как начнёт копирование, а делает обе задачи сразу.

    Но не отчаивайтесь! Если вы хотите знать точно сколько осталось работать с самого начала, то можно отключить последовательное сканирование ключём --no-inc-recursive или, короче, --no-i-r .

    $ rsync -ah --partial --info=progress2 --no-i-r source example.com:destination 623.38M 0% 82.23MB/s 0:11:10

    Ключи выше есть начиная с версии 3.1.0, то есть уже работают в Debian stable.

    Если требуется не просто скопировать файлы, а полностью синхронизировать содержимое каталогов, удалив лишние файлы, при этом вам почему-то не с руки синхронизировать файлы с помощью Git , то пригодится ключ --delete (или эквивалентный ему --del).

    С этим ключём rsync удалит лишние файлы из каталого-назначения.

    $ rsync -avn --delete source example.com:destination sending incremental file list deleting source/bad.txt source/ source/test.txt

    Ключ -n в команде выше был оставлен намеренно.

О сжатии замолвим слово

Вопреки популярному заблуждению от использования сжатия внутри rsync (ключ -z) больше вреда, чем пользы. Дело в том что всюду используемый OpenSSH уже с версии конца 2005 года по-умолчанию использует сжатие передаваемых данных. Сами понимаете, сжатие уже сжатых данных только лишь использует ресурсы процессора, не уменьшая объем передаваемых данных.

В том, что при соединении с вашим сервером уже используется сжатие, можно убедиться так:

$ ssh -v [email protected] false 2>&1 | grep compression debug1: Enabling compression at level 6.

Если эта команда не покажет , в числе прочих, такую строчку про включение сжатия как выше, то может быть вам стоит использовать сжатие. Стоит проверить что от сжатия есть толк. Особенно это касается маломощных устройств с быстрым соединением: вашему NAS может быть быстрее скопировать что-то по гигабитному линку без сжатия, чем пытаться обогнать гигабитную сеть маломощным процессором.

К счастью, rsync достаточно умен чтобы не использовать сжатие если вы копируете файлы локально, из каталога на диск и т.п.

Копируем частично

Наверняка вам когда-нибудь понадобится чтобы rsync пропускал некоторые файлы при копировании.

В самом простейшем случае вам нужно чтобы rsync не копировал файлы разных систем контроля версий, включая каталог вроде.svn и.git . В этой задаче вам не нужно ничего кроме ключа -C (или --cvs-exclude в полной форме). Так файлы большинства популярных VCS будут проигнорированы будто их нет. Не забываем использовать -n при первом запуске.

rsync -nC example.com:source destination

Может получиться так что вы, по ошибке, скопируете кучу таких файлов от VCS. В этом случае для получения чистой копии вам пригодится ключ --delete-excluded , с которым все исключенные файлы будут удалены.

rsync -nC --delete-excluded example.com:source destination

Исключаем через.rsync-filter

Если нужные более гибкие правила, что особенно актуально если копирование делается регулярно, то лучше не мелочиться и оформить все исключения в файле.rsync-filter .

$ cat source/.rsync-filter - test.bin - *.tmp - /.cache - /example/ - /**/Trash/ - /.mozilla/firefox/*/Cache/ + Projects/**/Trash/

Для исключения чего-либо из списка на перенос нужно добавить в этот файл строчку с правилом (- или + в начале строки).

    Если нужно исключить конкретный файл, где бы он ни был в любом каталоге ниже по иерархии, то укажем просто имя файла.

    # никакой файл test.bin не будет скопирован - test.bin # все файлы.tmp будут пропущены - *.tmp

    Если нужно исключить файл или каталог относительно каталога в котором находится.rsync-filter , то укажем со слешем в начале:

    # не будет скопирован каталог или файл.cache, но будут скопированы foo/.cache и foo/bar/.cache - /.cache # не будет скопирован каталог example, но будет скопирован файл example - /example/

    В правилах звездочка соответствует любым символам кроме слеша, а две звездочки соответствуют вообще любым символам:

    # будут пропущены каталоги.local/share/Trash/ и Documents/example/Trash/ - /**/Trash/ # не будет пропущен каталог.mozilla/firefox/abcd.profile/ext/Cache/ # но будет пропущен каталог.mozilla/firefox/abcd.profile/Cache/ - /.mozilla/firefox/*/Cache/

    Наконец, если нужно чтобы какие-то файлы всё-таки копировались, не смотря на ранее заданные правила, то их можно отметить правилом + в начале строки.

    # каталог Projects/Example/layout/Trash/ будет скопирован + Projects/**/Trash/

Файлы.rsync-filter команда rsync умеет искать по всей структуре каталогов будучи запущена с ключём -F .

Если нужно чтобы сами эти файлы не копировались, то нужно указать этот ключ два раза так:

$ rsync -avFFn source example.com:destination sending incremental file list source/ source/example.html source/tmp/ source/tmp/foo.bin sent 174 bytes received 30 bytes 408.00 bytes/sec total size is 18,400 speedup is 90.20 (DRY RUN)

Как видите, лишние файлы не скопировались:

$ ls source/.rsync-filter source/foo.tmp source/foo.tmp source/.rsync-filter $ cat source/.rsync-filter - *.tmp

Ограничим rsync по ssh

Случается нужно разрешить работу rsync по ssh, удалённо и без пароля, только определённого для каталога и хоста, исключив копирование чего-либо в другие места или из других мест.

Например, вы хотите чтобы можно было скопировать файлы на сервер backup.example.com только с хоста server.example.com , только и только в каталог backup-example , и только с этими опциями:

$ rsync -aW --del source/ backup.example.com:destination/backup-example/

То сначала нужно получить команду, которую rsync выполняет при вызове ssh на удаленном хосте:

$ rsync -e "ssh -t -v" -aW --del source/ backup.example.com:destination/backup-example/ 2>&1 | grep command debug1: Sending command: rsync --server -lWogDtpre.iLsfxC --delete-during . destination/backup-example/

Соответственно, в ~/.ssh/authorized_keys на example.com следует добавить для известного ssh ключа запуск этой команды по-умолчанию при подключении:

from="server.example.com",command="rsync --server -lWogDtpre.iLsfxC --delete-during . destination/backup-example/",no-pty,no-port-forwarding ssh-rsa AAAA... # дальше ваш ключ

Таким образом, даже если при запуске rsync будут указаны какие-то другие опции, на сервере-назначении всё равно выполнится команда rsync соответствующая исходным, заданным вами, опциям и настройкам.

Если нужно чтобы ваш бекап нельзя было перезаписать или удалить на сервере назначения, то опцию --del следует заменить на --ignore-existing .

Машина времени

Те пользователи macOS и OS X, что делают бэкап, наверняка оценили работу Time Machine . Эта программа позволяет буквально в два клика вернуться к прошлой версии любого файла. Не смотря на все красивости, Time Machine не делает ничего такого чего мы не можем сделать с помощью rsync .

#!/bin/bash set -o nounset -o errexit cd $(dirname " $0 " ) date = $(date --iso-8601 = seconds) test -L latest || ln -s " $date " latest rsync --delete-excluded --prune-empty-dirs --archive -F --link-dest = ../latest " $@ " "./ $date " rm latest ln -s " $date " latest

Скрипт следует положить в корень того диска или каталога, куда следует делать бэкапы.

Запускать с указанием единственного аргумента: каталога с исходными файлами. Например, так.

/mnt/backups/backup /home

После нескольких запусков получается такая структура каталога:

2017-02-08T22:05:04+09:00 2017-02-08T22:10:05+09:00 2017-02-08T22:15:05+09:00 2017-02-08T22:20:06+09:00 2017-02-08T22:25:05+09:00 2017-02-08T22:30:04+09:00 latest -> 2017-02-08T22:30:04+09:00

При этом latest указывает на самый последний бэкап.

В каждом из каталогов содержится слепок того, что было в исходном каталоге в момент копирования. Можно подумать что и место на диске занято пропорционально количеству копий, однако это не так.

$ du -sh /mnt/backups 4,5M /mnt/backups $ du -sh /home 3,8M /home

Всё множество копий занимает лишь немного больше места чем исходный каталог. Место уходит на изменившиеся файлы.

Если ничего не менялось, то место всё равно расходуется на создание каталогов, которые нельзя хранить как жесткие ссылки .

$ du -hs 2017-02-08T22:20:06+09:00 2017-02-08T22:25:05+09:00 2017-02-08T22:30:04+09:00 3,8M 2017-02-08T22:20:06+09:00 136K 2017-02-08T22:25:05+09:00 136K 2017-02-08T22:30:04+09:00

Такая существенная экономия возможна благодаря упомянутым жестким ссылкам, которые rsync делает для файлов, не изменившихся с последнего копирования.

$ stat -c "%i" 2017-02-08*/example.txt | uniq 31819810

У одинаковых, не менявшихся, файлов будет один и тот же inode.

Конечно, по возможной экономии места на диске такому способу резервного копирования далеко до специальных программам, таких как

Rsync является утилитой для синхронизации файлов и их резервного копирования. Она работает на многих *nix системах).

Ограничение rsync состоит в том, что данные не могут копироваться между 2 удалёнными (remote) системами. В этом случае Вам пришлось бы скопировать данные с одной удалённой системы, а потом перенести на другую.

В aptosid у Вас есть различные возможности запускать процесс синхронизации. Вы можете запускать rsync командой в терминале, или установить дополнительные пакеты из Debian Sid:

Чтобы установить deb пакет:
apt-get install luckybackup
Инструкция по использованию в терминале

В следующем разделе мы представляем rsync, возможности этой программы и несколько примеров, как rsync может использоваться с собственным скриптом резервного копирования.

rsync является программой быстрого резервного копирования каталогов и файлов. rsync при этом вычисляет измененные файлы и каталоги с помощью таких атрибутов, как величина или дата, вследствие чего синхронизация может быть очень быстрой. Данные архивируются перед копированием и распаковываются в пункте назначения.

rsync может копировать данные:
* с локальной системы на локальную систему,
* с локальной системы на удалённую (remote) систему,
* с удаленной (remote) системы на локальную систему.

При этом rsync использует клиент ssh (входит в основную установку), либо rsync-daemon, которые работают на исходной и на целевой системе. В manpages rsync говорится, если системы могут связываться по ssh, ssh также может использоваться для rsync.

Ограничение с rsync состоит в том, что данные не могут копироваться между 2 удалёнными (remote) системами. В этом случае Вам придётся скопировать данные с одной удалённой системы, а потом перенести с rsync на другую.

Чтобы пояснить это, рассмотрим следующий пример с 3 компьютерами:

Neo – локальная система morpheus – удаленная система trinity – удаленная система

Каждый пользователь знает имя другого пользователя, и rsync работает исключительно на neo, локальной системе:

Имя пользователя на neo является cuddles, Имя пользователя на morpheus является tartie, Имя пользователя на trinity является taylar.

Целью является синхронизация каталогов /home/$user/Files:

Neo:/home/cuddles/данные с morpheus и trinity, morpheus:/home/tartie/данные с neo и trinity, trinity:/home/taylar/данные с neo и morpheus.

Теперь возникает проблема, что rsync не может быть применён между 2 удалёнными компьютерами:

Neo-> morpheus - с локальной на удалённую, получится neo-> trinity - с локальной на удалённую, получится morpheus-> neo - с удаленной на локальную, получится trinity-> neo - с отдаленной на локальную, получится morpheus-> trinity - нельзя, с удалённой на удаленную trinity-> morpheus - нельзя, с удалённой на удаленную

Чтобы обойти это ограничение, поступаем как указано ниже:

Morpheus --> trinity - станет: morpheus --> neo и neo --> trinity trinity --> morpheus - станет: trinity --> neo и neo --> morpheus

Этот дополнительный шаг не изменяет ничего в конечном итоге. Тем не менее, указывает на то, что:

Это ограничение с rsync должно быть учтено при планировании процесса резервного копирования.

Применение имён хоста с именами хоста в rsync.

Применение имён хостов neo, morpheus, и trinity, вместо IP-адресов, может позволить сделать процесс копирования нагляднее и Вам будет легче разобраться.

Для этого Вы должны отредактировать /etc/hosts и вставить имена хостов и ему принадлежащие IP-адреса. Таким образом в нашем примере файл /etc/hosts будет выглядеть так:

192.168.1.15 neo 192.168.1.16 morpheus 192.168.1.17 trinity

Первая строка переводит IP-адрес 192.168.1.15 на “neo”, вторая 192.168.1.16 на “morpheus” и третья 192.168.1.17 на “trinity”. После записи может использоваться дополнительно имя хоста вместо IP-адреса. Этот особенно удобно, если изменяются распределённые IP-адреса, например, у "neo" с 192.168.1.15 на 192.168.1.25 Это облегчает работу со скриптами, так как они в случае изменения IP-адресов не должны изменяться, а только файл /etc/hosts.

Два способа использования rsync.

Первый способ - данные “толкают (push)” на целевую машину; другой - данные “вытягиваются (pull)” с источника. Каждый метод имеет свои за и против, которые будут рассмотрены ниже. В нашем примере используются локальная и удаленная системы, чтобы более отчетливо объяснить терминологию.

“push” - локальная система несет исходные каталоги и файлы, целью является удаленная система. Команда rsync запускается на локальной системе и "толкает" данные на целевую систему.

Преимущества:
* Больше чем одна исходная система может иметь резервное копирование на целевой. * Процесс резервного копирования на нескольких компьютерах может проходить одновременно. * Если система заканчивает процесс резервного копирования быстрее, это позволяет использовать ресурсы для других заданий.

Недостатки:
* Если скрипт используется с синхронизацией через cron, то crontab-ы должны задаваться на каждой системе. При модификации скрипта необходимо вносить соответствующие изменения на каждой системе, при изменениях календарного плана должен изменяться каждый crontab на каждом компьютере. Вследствие этого административное обслуживание становится очень громоздким и запутанным. * Процесс резервного копирования не возможно проверить, был ли целевой раздел смонтирован целевой системой. Если он не смонтирован, резервного копирования не произойдёт.

“pull” - удаленная система несет исходные каталоги и файлы, целью является локальная система. Команда rsync запускается на локальной системе и "вытягивает" данные из исходной системы.

Преимущества:
* Система станет сервером, который управляет всеми процессами резервного копирования всех других систем. Процессы резервного копирования централизуются.
* При применении скрипта, он должен находится только на одной системе, что упрощает любые модификации. При изменении календарного плана должен изменяться только один crontab.
* Скрипт может проверить, смонтирован ли целевой раздел и при случае его смонтирует.

Синтаксис rsync (часть из "man rsync"):
rsync ... SRC ... DEST rsync ... SRC ... HOST:DEST rsync ... SRC ... HOST::DEST rsync ... SRC ... rsync://HOST[:PORT]/DEST rsync ... SRC rsync ... HOST:SRC rsync ... HOST::SRC rsync ... rsync://HOST[:PORT]/SRC
Рабочие примеры команд rsync:

Объяснение составных частей этой команды:

Источник: (/путь/файл) morpheus:/home/tartie, целью является: /media/sda7/SysBackups/morpheus/home

Каталог /home/tartie (включая подкаталоги) будет сохранен в /media/sda7/SysBackups/morpheus/home, что после rsync будет выглядеть таким образом:

/media/sda7/SysBackups/morpheus/home/tartie

Обратите внимание, копируется только каталог /tartie, в путь указанный rsync /media/sda7/SysBackups/morpheus/home. "Источник" выбирает только, откуда прибывают данные, а "Цель" указывает rsync, куда должны копироваться данные из "источника" он воспринимает его уже не как /home/tartie, а просто /tartie, которого он направить в /media/sda7/SysBackups/morpheus/home. Ещё пример:

Rsync [...] /home/user/data/files /media/sda7/SysBackups/neo

Здесь будет копироваться исходный каталог /files и все в нём находящиеся каталоги и файлы в целевую папку /media/sda7/SysBackups/neo/ - а не в /media/sda7/SysBackups/neo/home/user/data/files.

На это необходимо обращать внимание при использовании резервного копирования с rsync.

Пояснення опцій (чорновий переклад з англомовного "man rsync"):
-a для способа с архивацией. manpage по этому поводу говорит: “проще говоря, этот метод, для создания рекурсивного резервного копирования и копирования почти всех атрибутов. Не сохраняются только жёсткие ссылки из-за сложности процесса. Опция -a соответствует: -rlptgoD, что это значит: -r = rekursiv - копировать подкаталоги и файлы в них из "исходного места". -l = Links - символические ссылки восстанавливаются в пункте назначения. -p = права - права идентичны с ними в исходном месте. -t = временной штамп - временной штамп в исходном месте идентичен с ним. -q = quiet - минимальный вывод информации. Большее количество информации получают с опцией -v после опции -a. Выполнение без какого-либо ответа будет достигнуто без постановки опции -v. -o = владелец - если rsync проводится как root, владельцы исходных файлов остаются соответствующим образом сохранёнными. -D = соответствует этим обеим командам: --devices --specials --devices = символьные файлы и файлы блочного устройства будут копироваться в удаленную систему, чтобы затем восстанавливаться. Нужно обратить внимание, что без опции --super , опция --devices не работает. --specials = rsync копирует специальные файлы как sockets и fifos. --g: группы сохраняются соответственно исходным файлам. -E: сохраняется атрибут "выполнимо". -v: для подробного вывода. Если подробности не важны, эта опция может быть опущена. Тем не менее, если необходимо видеть, что происходит, эта опция очень полезна. -z: копируемые данные архивируются, что ускоряет копировальный процесс, так как перемещённый объем данных будет меньше. --delete-after= целевые каталоги или целевые файлы, которых больше нет в источнике, удаляются после перемещения, а не перед этим. В случае проблем или катастроф будет “after” использован, "delete” предотвращает использование лишнего пространства больше ненужными файлами и каталогами в пункте назначения. -- exclude = указывает на файлы или каталоги исключаемые из копировального процесса. В примере, --exclude = “*~” были бы ВСЕ файлы с окончанием “~” из процесса резервного копирования исключены. С одной опцией --exclude может передаваться только один аргумент, при большем количестве аргументов исключения необходимо использовать несколько опций --exclude.
Дополнительные команды:
-c - проводит дальнейшие сравнительные проверки, что требует большого времени. Так как rsync уже проводит сравнительные проверки, эта команда не была интегрирована в --a из-за её избыточности, а также для экономии времени. В этой опции, как правило, нет нужды. --super - целевая система попытается проводить действия суперпользователя (root) (смотрите manpage) --dry-run - тестовый запуск: просто показывает, что должно копироваться. Никакие файлы не копируются.

И напоследок, варианты указания исходных и целевых каталогов.

Примерные команды:
rsync -agEvz --delete-after --exclude=”*~” morpheus:/home/tartie /media/sda7/SysBackups/morpheus/home

Эта команда копирует все каталоги и файлы ниже от /home/tartie на систему "morpheus" и размещает их в этот каталог /media/sda7/SysBackups/morpheus/home. Структура каталога tartie сохраняется.

Rsync -agEvz --delete-after --exclude=”*~” /home/tartie neo:/media/sda7/SysBackups/morpheus/home

Это - противоположная команда первого примера. Она "двигает" каталог /home/tartie и его содержание в указанный каталог системы "neo" - отметим, что систему рассматривают как "удаленную (remote)", если ставится “:” двоеточие перед путем.

Rsync -agEvz --delete-after --exclude=”*~” /home/cuddles /media/sda7/SysBackups/neo/home

Это - процесс резервного копирования на локальном компьютере. Здесь нужно обращать внимание на то, что никакое двоеточие не установлено. Локальный каталог /home/cuddles копируется на /media/sda7/SysBackups/neo/home на том же самом локальном компьютере.

rsync с многими опциями --exclude:
rsync -agEvz --delete-after --exclude=”*~” --exclude=”*.c” --exclude=”*.o” "/*" /media/sda7/SysBackups/neo

Эта команда копирует все из каталога root локальной системы (все каталоги и файлы) на /media/sda7/SysBackups/neo - исключенными из этого являются все файлы и каталоги, которые кончаются на “~”, “.c” или “.o”.

Замена имени хоста IP-адресом:

Первая команда установлена с методом имени хоста, второй с методом IP-адресов. Обе команды идентичны в своём выполнении:

Rsync -agEvz --delete-after --exclude=”*~” morpheus:/home/tartie /media/sda7/SysBackups/morpheus/home rsync -agEvz --delete-after --exclude=”*~” 192.168.1.16:/home/tartie /media/sda7/SysBackups/morpheus/home

Метод имён хоста не должен применяться, но по нашему мнению он упрощает резервное копирование с rsync в сетях.

class="highlight-2">Невозможная команда:

rsync -agEvz --delete-after --exclude=”*~” morpheus:/home/tartie trinity:/home

Как было уже сказано, ограничение rsync в том, что этой командой нельзя копировать между 2 удаленными компьютерами. На это мы бы хотели еще раз обратить внимание.

Мы надеемся, с этим маленьким руководством Вам будет легче приступить к использованию rsync, это очень удачная программа резервного копирования.

Я нашел скрипт синхронизации каталогов через программу rsync . Я подумал, что синхронизация, что backup это одно и тоже, только называется по разному
Программа rsync входит в состав всех дистрибутивов и достаточно популярна, так что вы без труда найдете её в каждом дистрибутиве.
Сразу перейдем к примерам rsync синхронизации.
Мы хотим иметь копию каталога /home/user/foto, а дубликат папки будем хранить в /mnt/backup Выполним (не забывая проверить права папки куда копируем, или выполняем от root-sudo)

Rsync -av /home/user/foto /mnt/backup

  • -a архивный перенос (вместе с папками, вложенными папками, файлами, скрытыми файлами и т.д)
  • -v вывод на экран данных о выполнении команды

Вот так вот просто! Наши фото лежат уже в двух местах. Конечно они не заархивированы и занимают столько же места сколько и первая папка, но придется чем-то жертвовать. А жертвовать придется своим дисковым пространством. К слову сказать для фотографий архивирование неэффективно, очень уж малый коэффициент сжатия. Естественно надо копировать на другой физический диск! Т.к. если умрет один винчестер, то умрут и все остальные разделы на этом диске со всеми бэкапами будь они там.
Продолжим, что-то я отвлекся..
В вышеприведенной команде есть небольшой подвох. К примеру вы переименовали или отсортировали в другие папки фотографии, а старые каталоги изменили название или вообще удалили. Что же получится? Скрипт честно перенесет новые появившиеся файлы и каталоги, а старые которые вы удалили в папке /home/user/foto так и останутся лежать в папке бэкапа. Фактически в часто изменяемых директориях выполнение такого скрипта будет приводить к помойке в папке бэкапа. Чтобы этого избежать команду надо выполнять с ключем --delete

Rsync -av --delete /home/user/foto /mnt/backup

И обе папки всегда будут идентичными
Теперь надо выбрать ваши самые важные директории и написать в файл простенький перечень команд для бэкапа. У меня он когда-то выглядел примерно так.

Rsync -av --delete /home/mik/mail /mnt/backup/home/mik/ rsync -av --delete /home/mik/.mozilla /mnt/backup/home/mik/ rsync -av --delete /home/mik/.claws-mail /mnt/backup/home/mik/ rsync -av --delete /bin /mnt/backup/system rsync -av --delete /boot /mnt/backup/system rsync -av --delete /dev /mnt/backup/system rsync -av --delete /etc /mnt/backup/system rsync -av --delete /lib /mnt/backup/system rsync -av --delete /netup /mnt/backup/system rsync -av --delete /opt /mnt/backup/system rsync -av --delete /root /mnt/backup/system rsync -av --delete /sbin /mnt/backup/system rsync -av --delete /var /mnt/backup/system

Обращаю особое внимание не надо бэкапить все подряд. Если, к примеру, выбрать для бэкапа весь ваш домашний каталог, то там могут находиться коллекция ваших фильмов, дистрибутивы open source и т.д. Все это занимает слишком много места, и как по моему мнению, это бэкапить не стОит.
Вернемся к нашему файлу с перечнем каталогов для бэкапа и сделаем его исполняемым

Chmod +x ./имя_файла

Скрипт можно прописать в crontab для ежедневных выполнений, а в большинстве дистрибутивах таких как ubuntu или debian просто положите его в каталог /etc/cron.daily. Но возможно все равно придется внести изменения в файл /etc/crontab. У большинства компьютер не работает ночью, так что измените выполнения задач /etc/cron.daily на то время, когда у вас компьютер обычно включен.

А теперь примеры команд rsync , которые надо просто иметь ввиду. А то мало ли с какими задачами вы можете столкнуться в будущем.

1 пример.

Rsync -av --delete --exclude="*.avi" --exclude="*.mpg" /home/user /mnt/backup

Команда синхронизирует весь ваш домашний каталог, но не копирует файлы с расширениями avi и mpg. Если вам не надо еще что-то, то просто дописываете подряд --exclude="_что_исключаем_"

2 пример.

Rsync -avz -e "ssh -l ssh_user -p5623" --delete /home/user/foto 192.168.0.1:"./temp"

А вот это уже команда синхронизации между вашим и удаленным компьютером через ssh соединение.

  • -z дополнительно сжимаем данные
  • -e используем удаленный shell
  • ssh -l ssh_user -p5623 - команда на соединение с удаленным компьютером. ssh_user пользователь, а -p5623 это если порт ssh нестандартный, в примере 5623
  • 192.168.0.1:"./temp" - ip адрес компьютера, (можно и по имени). Также указываем директорию куда будем переносить данные. Обратите внимание, что директория задана через ./ , мы уже отталкиваемся от пути домашней директории ssh_user куда мы попадаем при соединении через ssh

После ввода этой команды мы должны авторизоваться по паролю ssh_user и только тогда начнется синхронизация каталогов. Аналогичным образом можно синхронизировать удаленный каталог и локальный. Достаточно просто поменять местами папки, откуда и куда синхронизируем.
Если вы хотите автоматизировать процесс и не вводить каждый раз пароль, то читайте мою статью

Лучшие статьи по теме