NoSQL *

Не только SQL

0,6

Рейтинг

СтатьиПостыНовостиАвторыКомпании

shai_xylyd 17 июл 2012 в 00:36

ZooKeeper или пишем сервис распределенных блокировок

10 мин

71K

Высоконагруженные системы * NoSQL * Java *

disclaimer Так получилось, что последний месяц я разбираюсь с ZooKeeper, и у меня возникло желание систематизировать то, что я узнал, собственно пост об этом, а не о сервисе блокировок, как можно было подумать исходя из названия. Поехали!

При переходе от многопоточного программирования к программированию распределенных систем многие стандартные техники перестают работать. Одной из таких техник являются блокировки (synchronized), так как область их действия ограничена одним процессом, следовательно, они не только не работают на разных узлах распределенной системы, но так же не между разными экземплярами приложения на одной машине; получается, что нужен отдельный механизм для блокировок.

От распределенного сервиса блокировок разумно требовать:

работоспособность в условиях моргания сети (первое правило распределенных систем — ~~никому не говорить о распределенных системах~~ сеть ненадежна)
отсутствие единой точки отказа

Создать подобный сервис нам поможет ZooKeeper

В википедии написано, что ZooKeeper — распределенный сервис конфигурирования и синхронизации, не знаю как вам, но мне данное определение мало что раскрывает. Оглядываясь на свой опыт, могу дать альтернативное определение ZooKeeper, это распределенное key/value хранилище со следующими свойствами:

пространство ключей образует дерево (иерархию подобную файловой системе)
значения могут содержаться в любом узле иерархии, а не только в листьях (как если бы файлы одновременно были бы и каталогами), узел иерархии называется znode
между клиентом и сервером двунаправленная связь, следовательно, клиент может подписываться как изменение конкретного значения или части иерархии
возможно создать временную пару ключ/значение, которая существует, пока клиент её создавший подключен к кластеру
все данные должны помещаться в память
устойчивость к смерти некритического кол-ва узлов кластера

Под катом код, данные по производительности и куча wtf-ов

+16

ik62 19 июн 2012 в 13:17

Cassandra глазами Operations

9 мин

13K

Блог компании «LifeStreet Media»NoSQL *

Основной проект компании, в которой я работаю, посвящен оптимизации показов рекламы в приложениях на фейсбуке и на мобильных устройствах. На сегодняшний день проект обслуживает до 400 миллионов уникальных посетителей в месяц, работает на тысяче с лишним виртуальных серверов. Количество серверов и обьемы данных, которые должны обрабатываться двадцать четыре часа в сутки, ставит перед разработчиками ряд интересных проблем, связанных с масштабируемостью и устойчивостью системы.

Оптимизация показов — большой процесс, одной из частей которого является сохранение и анализ цепочки событий, связанных с жизненным циклом баннера — показ, клик, конверсия, … всё это начинается с сохранения записей о событиях. Каждое из событий происходит на одном из множества серверов, причем, по понятной причине мы стараемся обслужить всю цепочку в одном месте — в этом случае не нужно заботиться о том как собрать в целое разбросанные части. Но в реальной жизни случается что угодно — сервера падают, сеть не работает, софт апгрейдится или перегружен — в общем, по многим причинам обслуживание последовательных событий иногда происходит на разных серверах и даже в разных датацентрах и к этому нужно быть готовым.

Задача которую нужно было решать — каким образом хранить, искать, модифицировать информацию о последовательности событий при следующих условиях:

события могут происходить на разных серверах и в разных датацентрах (восточный и западный берег США, Европа)
интервал между событиями — от долей секунды до нескольких дней
к моменту получения завершающего события (например конверсия) информация обо всей цепочке должна быть на руках
время жизни информации — примерно десять дней, после чего она должна быть удалена, желательно автоматически, через TTL
темп чтения/записи событий — сотни или тысячи в секунду
Время ответа: желательное — до 10мс, допустимое — в пределах 50мс, максимальное — до 100мс
информация должна быть доступна «всегда» — независимо от аварий железа, сети, апгрейдов
система должна легко масштабироваться: добавление новых серверов, датацентров должно происходить прозрачно для остальных сервисов (допустима деградация времени ответа в заданных пределах).

Последние два пункта очень важны для бизнеса и просто жизненно важны для опс инженеров если они хотят спокойно выполнять свои обязанности днём, и спокойно спать ночью.