Проект Natick: путешествие-исследование от Microsoft
Эксклюзив от DCD: в эксперименте Microsoft с подводным центром обработки данных использовалась энергия волн и постквантовая криптография на морском дне у побережья Шотландии. Но большие уроки извлекли уже на суше
Серым июльским днем покрытый ракушками цилиндр всплыл на поверхность у Оркнейских островов Шотландии.
Его можно было принять за какой-нибудь неразорвавшийся снаряд времен Второй мировой войны, но этот объект был больше любой бомбы. Двенадцать метров в длину, два метра в диаметре, он был размером с карликовые подводные лодки класса X, которые плавали у шотландского побережья в 1942 году.
Но то, что достала портальная баржа, не было частичкой военной истории. В порту напорные шланги обнажили сверкающий белый тубус. Это было больше похоже на капсулу времени из будущего.
Логотип на торце четко обозначал его принадлежность: “Северные острова” или SSDC-002 не были потерянным сокровищем. Это была собственность Microsoft.
Проект Natick
В 2018 году Microsoft связала его с землей силовыми и волоконно-оптическими кабелями и намеренно потопила. В течение последующих двух лет под 117 метрами морской воды внутри капсулы функционировали 12 стоек с оборудованием, обрабатывая трафик так называемого Microsoft Azure.
Подводный центр обработки данных был последним экспериментом в рамках проекта Natick – эксперимента по запуску серверов без присмотра; чтобы выяснить, сможет ли облако работать под водой. В июле 2020 года пришло время извлекать капсулу и оценивать результаты.
У истоков Natick стоит исследователь Microsoft Шон Джеймс, ранее подводник ВМС США, который в 2013 г. написал статью, в которой предложил использовать подводные ЦОДы. В 2014 году компания решила реализовать этот проект и собрала команду Natick под руководством Бена Катлера.
В 2015 году команда Катлера сделала решительный шаг, запечатав одну стойку с серверами в резервуар и затопив его на мелководье у берегов Калифорнии. Микро-ЦОД надежно работал в течение трех месяцев, прежде чем его извлекли для оценки.
Это было доказательством правильности концепции. Северные острова - SSDC-002 - стали настоящим испытанием: 864 сервера и 27,6 петабайта памяти в цилиндре, заполненном нереактивным газообразным азотом. Оборудование в общей сложности потребляло 240 кВт мощности – то есть примерно до 20 кВт на стойку.
«Система рассчитана на мощность до 900 Вт/U, и в ней задействованы стойки 42U, поэтому мы можем управлять мощностью более 30 кВт на стойку», - сказал Катлер DCD. Система сработала - и превзошла все ожидания.
Катлер говорит, что SSDC-002 не просто равнялся наземным эквивалентам. В некоторых отношениях он их превзошел. Microsoft заявила, что оборудование, проведшее два года в подводном центре обработки данных, было в восемь раз надежнее аналогичных серверов, работающих на суше.
Катлер дал DCD еще несколько подробностей. Почему «морские» серверы работают лучше наземных? Как проводилось сравнение? И каковы последствия для будущего?
По сути, этот дата-центр предназначен для использования полочного оборудования. Это даже не совсем новое оборудование; серверы были выведены из центра обработки данных.
Дрейфующая надежность
Катлер объяснил, что в этом комплекте не было ничего особенного: «По сути, этот центр обработки данных предназначен для использования готового оборудования, так называемого «off the shelf» – с полки.
Это даже не совсем новое оборудование; серверы были выведены из центра обработки данных. Мы установили на него новые SSD и жесткие диски. Это буквально стандартное готовое оборудование.”
Команда Катлера взяла партию из почти 1000 серверов, выведенных из эксплуатации в центре обработки данных: “Мы разделили их между сушей и водой и создали одинаковую рабочую нагрузку в обоих местах.”
855 из этих серверов отправились в контейнер Северных островов и работали без присмотра под водой в течение 25 месяцев и восьми дней. Остальные 135 серверов трудились в паре стоек обычного центра обработки данных наряду с оборудованием облака Microsoft Azure.
Внутренние проекты Microsoft отправляли задания, которые одинаково распределялись между двумя наборами серверов.“Одно и то же происходило и на суше, и под водой”, - говорит Катлер. “Мы хотели, чтобы единственным отличием у этих серверов осталась только окружающая среда.”
По словам Катлера, ни наземная, ни подводная группы серверов не обслуживались, хотя вокруг [наземных серверов] было много повседневной работы ЦОДа.
SSDC-002 никогда не обрабатывал персональные данные, но работал настолько хорошо, что в этом году имел свободные мощности. Microsoft пожертвовала это на борьбу с Covid-19 в рамках проекта под руководством Folding @ home по изучению белковых структур вируса. Катлер объясняет: «Мы передали им все активы нашего центра обработки данных в рамках Project Natick до вывода из эксплуатации».
Длинные кабели, тянущиеся к земле, могли выглядеть как угроза безопасности, поэтому SSDC-002 подхватил современные методы защиты: “Канал между центром обработки данных и сушей был защищен постквантовой криптографией. Если бы существовал квантовый компьютер, и кто-то пытался бы нас прослушать, у них бы ничего не получилось. Так что мы стали испытательным полигоном для множества других технологий, выходящих за рамки обычных технологий центра обработки данных.”
По прошествии двух лет подводные сервера опередили те, что были на земле. “Из 135 наземных серверов мы потеряли восемь",” говорит Катлер. - В воде мы потеряли шесть из 855.” Катлер подчеркивает, что эти показатели отказов бывших в употреблении систем несопоставимы за пределами проекта.
Температура в подводном судне была стабильной, людей не было. Но вполне вероятно, что основным фактором надежности водных серверов была атмосфера инертного азота. Атмосфера Земли состоит в основном из азота, но 21% кислорода, который нам нужен для дыхания, является реактивным: “Кислород реагирует с веществом, вызывающим коррозию. Таким образом, наша гипотеза состояла в том, что избавление от кислорода и переход в азотную атмосферу может привести к повышению надежности.”
Natick провели детальные тесты на долгосрочные изменения этой атмосферы, но главный вывод заключается в том, что - неудивительно - инертная атмосфера азота является благоприятной.
Как только резервуар вернулся на берег, внутренний центр обработки данных был отправлен партнеру Microsoft, Naval Group во Францию, чтобы оборудование можно было детально проанализировать, чтобы понять, как изнашиваются различные детали относительно ожиданий.
Восемь вышедших из строя серверов, вероятно, являются наиболее интенсивно исследуемой частью ИТ-оборудования, поскольку Microsoft проводит анализ первопричин: “У нас есть такие вещи, как сканирующие электронные микроскопы, у нас есть возможность делать рентгеновские снимки деталей и проводить подробный анализ поверхности.”
Когда мы поговорили с Катлером, этот анализ был почти завершен, и никаких сюрпризов еще не возникло. Но можно сделать вывод, что оборудование может быть более надежным, чем ожидалось. «Есть кривая интенсивности отказов для срока службы деталей и зона комфортных температур. Если вам слишком жарко или слишком холодно, у вас могут быть проблемы. Мы были за пределами своей зоны комфорта при работе с жесткими дисками: мы работали с ними при более низкой температуре, чем обычно, и это нам не повредило. Иногда у людей предвзятое мнение о том, что важно».
Воздействие на окружающую среду
Обычные ЦОДы поддерживают постоянную температуру и влажность и обеспечивают циркуляцию воздуха. В герметичном контейнере команда Natick также должна была включать оборудование для изменения давления. - Помнишь уравнение состояния идеального газа из школьной программы? Теперь, если мы поднимем температуру, давление повысится. Так что в этой среде все немного по-другому.”
По словам Катлера, охлаждение осуществлялось с помощью теплообменника «воздух-жидкость» между каждой парой стоек: “На каждом из этих теплообменников установлены вентиляторы ЦОДа, которые пропускают воздух по мере необходимости.” Морская вода втягивалась снаружи, проходила через теплообменник и возвращалась обратно в океан.
Для Катлера это большой плюс: «Центры обработки данных могут использовать много воды для охлаждения, но мы не используем питьевую воду. Мы просто прогоняем морскую воду через систему. Это возможно делать в любом месте, без необходимости подключаться к водопроводу.
Эффективность охлаждения также означает, что центры обработки данных Natick могут быть развернуты в морях от Арктики до экватора. Они тратят очень мало энергии на охлаждение, поэтому большая часть энергии поступает к серверам, что дает коэффициент эффективности использования энергии (PUE) 1,07.
Низкий PUE – хороший показатель, но повлиял ли SSDC-002 на местную окружающую среду? - Вода, которую мы сбрасываем, на долю градуса теплее, чем та, что поступает в систему из океана. И это очень маленький процент воды. Так что буквально в нескольких метрах ниже по течению вы не заметите разницу температур.”
Рассеивание тепла – это важно: “Куда бы мы ни поместили подводные ЦОДы, мы будем искать постоянные течения, плюс мы не собираемся размещать их с высокой плотностью, поэтому никаких вредных локальных эффектов не будет.”
На самом деле, говорит Катлер, “морские обитатели любят такие вещи. Это же искусственный риф. Он стал хорошим местом, где можно собрать пищу и спрятаться от более крупных существ.”
Когда цилиндр прибыл на берег, на нем обнаружили большие актинии, а морское дно в том месте, где он лежал, вскоре вернулось к исходному состоянию.
Хотя тема возобновляемых источников энергии не входила в сферу этого проекта, в Шотландии есть много местных источников «зеленой» энергии, а на Оркнейские островах находится Европейский центр морской энергии, испытательный стенд для генерации волн и электроэнергии. “Это объект, куда люди идут, чтобы протестировать устройства с возобновляемой энергией, и там есть "пакеты", которые можно взять в аренду. Мы фактически арендовали один.” SSDC-002 был подключен к той же сети, но как потребитель: “Одной из вещей, которые нам там нравились, это то, что это была возобновляемая среда. Это соответствует направлению, в котором мы хотим двигаться.
Повторный запуск?
Возникает очевидный вопрос: что дальше? «Этот статистический результат очень хорош, - говорит Катлер. «Но что вы узнаете о реальных вещах, в условиях, которые вы сделали и ушли? Мы знаем, что теперь нужно делать на суше».
Будет ли продолжение подводной одиссеи? Ранее Катлер говорил, что море может стать раем для центров обработки данных, и он все еще хочет, чтобы так и случилось. По его словам, условия там совсем не суровые, плюс бесплатное охлаждение. И недвижимость дешевая.
Наконец, морское дно на самом деле является удобным местом, поскольку более половины населения мира живет в пределах 120 миль от моря: “Это хороший способ разместить приложения ближе к людям, без социальных последствий строительство гигантского центра обработки данных в Лондоне.”
В 2017 году Катлер подал патент на Microsoft, описав большой подводный центр обработки данных, в котором восемь или более контейнеров выстроены в линию как искусственный риф.
Такой объект мог бы извлечь выгоду из возобновляемых источников энергии: “Европа является лидером в области прибрежных ветряных электростанций, многие из которых также довольно близки к населению. Итак, представьте себе масштабно развернутый центр обработки данных, совмещенный с приморской ветряной электростанцией. Теперь нет линий электропередач на большие расстояния, чтобы передать энергию в центры обработки данных, и становится ненужной масса капитальных затрат и рисков из-за всех этих трансформаторов в линиях электропередач.”
С учетом стабильного энергоснабжения некоторых ветряных электростанций, представьте себе центр обработки данных, в котором нет резервных генераторов, нет батарей. Он находится там как небольшая часть общей площади ветряной электростанции, от которой получает электропитание. В редкие безветренные дни он берет энергию из наземных источников.
Сегодня эта инфраструктура работает не совсем так. Но это приводит нас к определённому порядку, когда мы берем на себя много капитальных затрат, много рисков и становимся гораздо более экологичными по сравнению с текущим положением дел. Батареи - это вызов окружающей среде плюс проблема снабжения, поскольку во многих устройствах широко используются батареи. Поэтому нам нравится идея местной возобновляемой энергии, близкой к потребителям, с очень хорошими экологическими характеристиками.“
Обучение на суше
Но сейчас еще слишком рано говорить о том, будет ли Microsoft продолжать историю SDCC-002 запуском под воду более крупного объекта. И Катлер говорит, что Microsoft многому научилась, даже если она никогда больше не запустит еще один подводный ЦОД.
“Мы хотим понять, какие уроки мы можем извлечь из этого опыта и применить в наземных центрах обработки данных”, - говорит он. “Один из аспектов анализа, который сейчас проводится, заключается в том, чтобы понять это, а затем, возможно, развернуть какую-то работу, которая будет направлена на минимизацию воздействия на оборудование, но при этом повысит его надежность в наземных ЦОДах.”
“В обычном центре обработки данных, если что-то ломается, кто-нибудь приходит и заменяет деталь”, - говорит Катлер. - В данном случае мы не можем этого сделать. Если что-то умирает, оно ломается, независимо от того, происходит ли это за минуту до того, как мы достаем его из-под воды, или сразу после погружения.”
На самом деле эта модель очень похожа на новые наземные центры обработки данных, строящиеся в удаленных местах, на периферии сети. – Они будут иметь тенденцию к работе в условиях отсутствия освещения, как и наш подводный ЦОД. Мы эксплуатировали эту штуку 25 месяцев и восемь дней, и никто к ней не прикасался.
- Размышляя об Edge, в конечном итоге приходишь к тому, что удаленные ЦОДы должны функционировать автономно. Люди подолгу не ходят туда, потому что до них сложно добраться.”
Огромный процент стоимости дата-центра за весь его срок службы – это сервера. В мире после закона Мура действительно нет причин менять инфраструктуру каждые два года
Удаленные центры обработки данных будут, как правило, похожи друг на друга, развернуты в различных средах, и Катлер говорит, что этот процесс может выглядеть как продолжение идеи Натика: “наше видение - это несколько глобальных фабрик с контролируемой средой. Вы производите оболочки, устанавливаете сервера, запечатываете их, и вы можете быстро развернуть их, и у вас будет гораздо более общий опыт работы с серверами, независимо от того, куда они отправятся.”
Одной из проблем в условиях отсутствием освещения (lights-out) была необходимость постоянно обновлять программное обеспечение, но эта проблема будет исчезать по мере того, как непрерывное улучшение производительности, предсказанное Законом Мура, подойдет к концу.
“Огромный процент стоимости дата-центра в течение его срока службы составляют серверы. В мире после закона Мура действительно нет причин менять инфраструктуру каждые два года”, - говорит он. В этом мире окупится организация более длительной продолжительности жизни“, потому что это тогда влияет не только на стоимость, но и на степень воздействия на окружающую среду.”
Он говорит об энергии и материалах, воплощенных в оборудовании, а также о стоимости доставки и гарантийных работах. “Все эти средства можно было бы потратить на другие вещи, такие как разработка более умных, лучших машин.
“Высокая надежность важна не только для Edge”, - говорит он. “С 1980-х годов мы находимся на этой кривой повышенной надежности. Мы пытаемся двигаться по ней дальше.”
SSDC-002 звучит исторически, но он не попадет в музей. Команда Катлера довела свою приверженность утилизации до крайности и, когда оборудование было демонтировано и протестировано, утилизировала контейнер.
К моменту нашего разговора с Катлером резервуар уже был распилен и готов к переплавке. В конце концов, говорит он, ценность проекта заключается в уроках, извлечённых из него, а не в металлическом контейнере.
Проверка атмосферы
Прежде чем сломать печать, исследователи вставили пробирки через клапан в верхней части сосуда, чтобы собрать пробы воздуха: “Мы взяли пробы атмосферы, когда эта штука вышла из воды, поэтому мы можем сделать масс-спектроскопию и газовую хроматографию”, - говорит Катлер.
Зачем это делать? При отсутствии воздуха, поступающего в сосуд, SSDC-002 предоставил уникальную возможность выяснить, создает ли центр обработки данных собственное загрязнение воздуха. - У нас закрытая среда. Таким образом, нам не нужно беспокоиться о любых формах загрязнения, как естественного, так и искусственного. Нам не нужно беспокоиться о кислороде. Но, с другой стороны, у нас там есть пластик.”
Со временем в капсуле пластик, покрывающий кабели Ethernet и тому подобное, может выделять пар или газы, изменяя атмосферу.
Прежде чем потопить SSDC-002, команда Natick уже практиковала лучший способ создания комфортной 100-процентной азотной атмосферы для ИТ-оборудования, начиная с обычного состава воздуха Земли: 78% азота и 21% кислорода.
Для первого испытания в Калифорнии команда Натика просто понизила давление в цилиндре, а затем ввела азот.
- Когда мы это делаем, влажность падает, потому что мы убрали все, что там было, и заменили чистым азотом. Там нет водяного пара. Но потом, если вы подождете несколько часов, влажность снова повысится”, - говорит Катлер. - В таких вещах, как сетевые кабели, всегда есть влага."
Сухая атмосфера заставляет влагу испаряться из кабелей, но это имеет и отрицательный эффект: “Если вы избавились от всей воды, то проявятся электрические эффекты, поэтому необходима хотя бы минимальный уровень влажности.”
Для SSDC-002 команда Natick впрыснула азот в один конец цилиндра, вытягивая воздух из другого. Они регулировали содержание влаги в воздухе перед запуском и дистанционно во время эксперимента. “Мы нацелились на влажность около 30%, это очень похоже на атмосферу земли.”
По прошествии двух лет возникла одна небольшая проблема, которую нужно было решить. - Мы не извлекали влагу из кабелей. Но мы все еще должны были беспокоиться о том, какие соединения в этих кабелях могут постепенно выйти со временем и стать проблемой для электроники.”
К облегчению Катлера, анализ показал, что никаких проблем с атмосферой в цилиндре не было.
Статья написана по материалам сайта https://www.datacenterdynamics.com/
- Комментарии