Bensley: плацдарм Intel на серверном рынке
Евгений Патий
"Экспресс Электроника"
Сегодня позиции компании Intel на рынке серверов и высокопроизводительных рабочих станций можно назвать прочными лишь с большой натяжкой.
В то время как весь мир рукоплещет процессорам AMD Opteron и продуктам на их основе, Intel пытается выбраться из ямы, которую заблаговременно сама и выкопала: процессорная архитектура NetBurst оказалась вовсе не такой «долгоиграющей», как предполагалось. Всего два-три года назад Intel планировала беззаботно наращивать тактовую частоту чипов, обещая нам 10 ГГц, одновременно добиваясь соответствующей историческому моменту производительности. Казалось бы, к тому были все предпосылки: сверхдлинный конвейер, позволяющий долго поднимать тактовую частоту, тонкий техпроцесс, предоставляющий возможность уменьшить линейные размеры ядра и задействовать освободившуюся в пределах конструктива площадь под что-то полезное, например кэш-память. Но в итоге случилось то, что случилось: локомотив NetBurst на полном ходу въехал в тупик под названием «рассеиваемое тепло вследствие высокой потребляемой мощности, в свою очередь обусловленной высокой тактовой частотой». Как говорится, конечная станция — пассажиров просят покинуть вагоны.
Серверные процессоры на базе архитектуры NetBurst имели достаточно низкое соотношение «производительность — частота», и для того, чтобы исправить положение, требовалось оперировать в области высоких тактовых частот. На подобных скоростях чипам необходимо больше электроэнергии, которая частично используется для работы самого процессора, но львиная ее доля «съедается» токами утечки, что приводит к колоссальному тепловыделению. Intel приложила огромные усилия для выправления положения, и последние модели процессоров Xeon весьма близки к приемлемому балансу между производительностью и тепло выделением.
Подобные низкоуровневые проблемы усугубились архитектурной зависимостью от разделяемой системной шины FSB, использующейся фактически для всех коммуникаций между процессором и остальными компонентами системы.
AMD изначально не имела технической возможности «торговать мегагерцами», поэтому вынуждена была искать другие пути повышения производительности, что в итоге дало самые благоприятные результаты. Хотя и появлялись чисто маркетинговые идеи, например внедрение так называемого процессорного рейтинга, позволяющего изображать на процессоре красивые цифры, призванные заинтересовать клиента.
Intel же пришлось радикально пересмотреть свои планы. Стало понятно, что далее «взбадривать антидепрессантами» NetBurst совершенно бессмысленно: компания в один момент отказалась от прежних убеждений и объявила, что тактовая частота вовсе не панацея от всех бед. В конечном итоге, цель — производительность, а уж какими путями она достигается, в принципе, клиента волновать не должно.
Проблема удивительно схожа с той, что возникла более ста лет назад перед инженерами-механиками, занимавшимися разработкой двигателей внутреннего сгорания. В какой-то момент оказалось: крайне тяжело, невыгодно и утомительно пытаться увеличить мощность одноцилиндрового мотора, но стоит добавить один, два, десять цилиндров, как происходит самое настоящее чудо. Абсолютно аналогично поступили и инженеры-микроэлектронщики, добавив к одному процессорному ядру второе.
Этот факт ознаменовал новую эру в разработке процессоров, и не следует думать, будто ничего, кроме производительности, не изменилось. Когда-то мотористам пришлось немало попотеть, чтобы заставить два и более цилиндров работать согласованно, у электронщиков же проблема выглядит несколько иначе. Вернее, даже не у электронщиков, они-то как раз выполнили задачу на «отлично»: оба ядра идеально работают в рамках одного процессора. Но ощутимый прирост от использования многоядерной конфигурации можно получить лишь в одном случае: если программное обеспечение умеет работать в новых условиях, то есть оптимизировано для выполнения задач на нескольких ядрах (или нескольких процессорах, в данном случае не суть важно).
Еще со времен продвижения «псевдомногопроцессорности» Hyper-Threading с высоких трибун раздаются призывы оптимизировать и еще раз оптимизировать.
Хотя отмечается, что можно и не слишком усердствовать, так как польза от нескольких ядер будет все равно. Якобы современные операционные системы (в частности, Windows и различные версии Linux) изначально способны работать с несколькими процессорами, и даже если конкретная программа не оптимизирована, то система в целом будет действовать быстрее за счет того, что ОС загрузит «лишнее» ядро какими-то своими сервисами.
Так родилась архитектура Intel Core — несколько ядер в одном чипе. Intel возлагает на нее огромные надежды, да и, собственно, больше надеяться попросту не на что. Даже если со временем выяснится, что Core не столь хороша, как ожидалось, Intel обладает мощными финансовыми и маркетинговыми возможностями для того, чтобы повернуть ситуацию в свою пользу. Как часто мы бывали свидетелями подобного! Лишь спустя годы в кулуарах критиковали специалистов Intel за былые разработки, но в момент актуальности подобных достижений критики попросту не может быть, потому что не может быть никогда.
Таблица. Характеристики чипов нового семейства Утвердившаяся тенденция Intel продвигать не отдельные процессоры и чипсеты, а готовые платформы, должна стать еще одним козырем в нелегком бизнесе. С точки зрения удобства и стабильности клиенту гораздо выгоднее получить гарантированно работающий набор компонентов, тщательно проверенный специалистами Intel. Разумеется, набор обязан отвечать текущим требованиям производительности и обладать какими-то актуальными возможностями. Этот подход был неоднократно испытан компанией (платформы Centrino и Viiv), поэтому можно сказать, что опыт накоплен богатый. За одним лишь исключением: готовой серверной платформы до недавнего времени не существовало.
Сегодня Intel пытается вернуть былые заслуги на рынке серверов и высокопроизводительных рабочих станций, для которого ранее предназначались процессоры Xeon. Компания собирается сделать это с помощью нового семейства продуктов, призванных превзойти Opteron во всех отношениях.
Первенцем стала двухпроцессорная серверная платформа под названием Bensley.
Основными компонентами Bensley к моменту анонса выступают наборы системной логики с кодовыми именами Blackford (для серверов), Green Creek (рабочие станции), Blackford-VS (урезанная версия Blackford, позиционируется для low-end-серверов) и два процессора — Dempsey и Woodcrest. Как заявляет сама Intel, чипы Woodcrest и Dempsey, спроектированные с учетом архитектуры Intel Core, демонстрируют большую производительность и гораздо более низкое энергопотребление (а значит, и тепловыделение), чем последние образцы процессоров Xeon на основе архитектуры NetBurst. Отметим небезынтересный факт: если ранее Intel тщательно скрывала кодовые имена своих продуктов, то в последнее время охотно называет их еще на этапе бумажного проектирования. Явный маркетинговый ход, поскольку клиента интересует продукт как таковой, а не его кодовое имя, пока не существует еще даже опытных образцов.
Но как все знают, кодовые имена обладают неким флером романтизма, не имеющего ничего общего с названием процессора, выпущенного в продажу. Так, «Демпси» и «Вудкрест» стали скучными Dual-Core Intel Xeon Processor 5000 и Dual-Core Intel Xeon Processor 5100 соответственно, причем последний, судя по заявлениям Intel, обеспечивает рост производительности до 135% и уменьшение потребления энергии до 40%.
Чип Dempsey спроектирован с учетом архитектуры Intel Core Компания будет поставлять новые процессоры серии 5100, изготовленные с использованием норм 65 нм, с тактовой частотой до 3 ГГц, шиной FSB 1333 МГц и 4 Мбайт общей для двух ядер кэш-памяти второго уровня (Intel Advanced Smart Cache).
Проектная мощность (Thermal Design Point — TDP) самой быстрой модели составляет 130 Вт, у остальных 65–95 Вт. В III квартале 2006 года появится еще более низковольтная версия с частотой 2,33 ГГц и TDP всего 40 Вт.
Intel полагает, что чипы нового семейства станут одними из самых продаваемых продуктов в ее истории. Цена на них составит от $209 до $851 в партиях по 1000 шт.
Аналогично и с маркировкой чипсетов. Blackford превратился в 5000P, Green Creek — в 5000X, Blackford-VS отныне стал 5000V. Наборы логики построены по традиционной двухчиповой схеме «северный мост — южный мост», которые у Intel называются Memory Controller Hub (MCH) и I/O Controller Hub (ICH). Применительно к чипсетам Bensley MCH — это микросхема Intel 5000P/X/V, ICH — общий для всех трех вариантов ESB2 Intel 6321. ESB расшифровывается как Enterprise South Bridge. Для поддержки интерфейса PCI-X на материнской плате может быть распаян дополнительный чип PXH Intel 6700, который представляет собой мост между PCI-E и PCI-X.
Связь между микросхемами MCH и ICH происходит посредством интерфейсов PCI-E (x8 или x8, в зависимости от модификации MCH) и ESI (x4). Каждый из двух основных компонентов чипсета содержит большое количество разнообразных нововведений, преследующих, по большому счету, одну-единственную цель: противостоять AMD Opteron, с его встроенным контроллером памяти, и шине HyperTransport.
Кстати, из частной беседы с представителями Intel стало известно, что в обозримом будущем, скорее всего, и Intel вплотную займется таким элегантным и эффективным решением, каким является интеграция в процессор контроллера памяти. Проблема в том, что сейчас, по словам специалистов корпорации, еще «не время», так как пока нет четко утвержденного интерфейса памяти, собирающегося стать стандартом де-факто на многие годы. Все знают, как AMD лихо интегрировала контроллер памяти DDR и сколько времени понадобилось для того, чтобы получить решение с поддержкой памяти DDR2, — на уровне процессора такая рокировка на порядки сложнее, чем на уровне северного моста набора логики.
И пока что Intel приходится заниматься альтернативными изобретениями, часть из которых оказалась воплощенной в чипсетах платформы Bensley.
Северный мост в наборах логики 5000P/X/V имеет два независимых канала DBI для связи с процессорами, а также варьирующее количество шин PCI-E и каналов памяти Fully-Buffered DIMM (FB-DIMM), в зависимости от которых происходит позиционирование чипсета.
Так, наиболее мощный MCH у Intel 5000P обладает четырьмя каналами памяти, что позволяет ограничить максимальный объем на уровне 64 Гбайт, трех шин PCI-E x8 и интерфейса ESI x4. MCH для рынка высокопроизводительных рабочих станций 5000X также содержит четыре канала FB-DIMM (максимальный объем памяти 64 Гбайт), но при этом одну шину PCI-E x16, одну шину PCI-E x8 и один интерфейс ESI x4.
Самая урезанная вариация 5000V для дешевых серверных решений имеет лишь два канала FBDIMM (16 Гбайт памяти максимум), две шины PCI-E x4 и интерфейс ESI x4.
В отличие от 5000P и 5000V чипсет 5000Х имеет дополнительную кэш-память третьего уровня объемом 12 Мбайт — этот модуль носит название Snoop-filter. Данная кэш-память является разделяемой для двух процессоров, и предназначение ее достаточно прозрачно. Для рабочей станции зачастую очень важно время отклика системы, поэтому мощная буферизация данных в таком случае необходима как воздух. Роль буфера играет Snoop-filter (к нему оба процессора обращаются по необходимости). Кэш-память третьего уровня позволяет существенно снизить задержки и выиграть время, когда первый процессор обращается к ячейкам памяти, данные из которых не записаны в его встроенном кэше, но второй уже считывал эти ячейки, и содержимое их, естественно, занесено в память Snoop-filter. В этом случае данные извлекаются из него без обращения к памяти, на что требуется значительно меньше времени.
Как уже отмечалось, один из интерфейсов PCI-E x4 или х8, а также ESI x4 используются для связи MCH и ICH. Остальные свободные каналы PCI-E задействуются для подключения различной периферии, главным образом той, которая требует скоростных подключений и высоких пропускных способностей, — контроллеры Serial ATA или Serial Attached SCSI. В MCH 5000X одна шина PCI x16 применяется для подключения производительного видеоадаптера.
Если после разводки периферийных подключений остаются свободные каналы, они задействуются для использования с внешними контроллерами, а также для связи с мостом PCI-E — PCI-X.
Южный мост, он же ICH, ESB2 Intel 6321, оснащен полным комплектом современных интерфейсов. Сюда входят два интегрированных контроллера Gigabit Ethernet, которые чаще всего пременяются не как раздельные сетевые интерфейсы, а «в упряжке», для создания одного виртуального сетевого интерфейса с удвоенной пропускной способностью, если это позволяют средства операционной системы, хотя сегодня, пожалуй, сдваивать сетевые карты умеют все мало-мальски современные серверные ОС.
Архитектура чипсета Blackford
Архитектура чипсета Green Creek
Архитектура чипсета Blackford-VS Микросхема Intel 6321 имеет шину PCI-E x8 (или же две x4), классический интерфейс PCI- 32/33, PCI-X, шестиканальный контроллер SerialATA 2 (3 Гбит/с). Присутствуют восемь портов USB 2.0, аппаратный модуль мониторинга, два порта UltraATA 100.
Весьма интересна память FB-DIMM (Fully- Buffered DIMM, полностью буферизованный DIMM), c которой работают MCH 5000P/X/V. Каждый модуль памяти оснащен специальным буферным чипом, обеспечивающим последовательную связь по протоколу «точка-точка» между контроллером памяти в чипсете и каждым установленным модулем. Если в традиционных (небуферных) системах нагрузка на контроллер памяти с установкой каждой новой планки оперативной памяти увеличивалась, то FB-DIMM позволяет организовать более глубокую очередь. Кроме того, разводка линий для памяти FB-DIMM на системных платах выглядит очень несложной.
Немаловажная особенность — возможность зеркалировать оперативную память. Хотя контроллер памяти чипсетов 5000P/X/V поддерживает четырехканальную работу, каналы можно разбить на две пары, причем вторая пара способна зеркалировать первую. Таким образом, получаем полный аналог массива RAID 1 в оперативной памяти — надежность в ущерб объему.
Необходимо упомянуть о функции posted CAS, позволяющей активировать импульс CAS раньше положенного времени в традиционных конфигурациях. Добавится функция теплового мониторинга, которая будет включать троттлинг памяти после достижения определенного температурного порога чипа (чипы памяти на планках FB-DIMM достаточно сильно греются).
После успешного решения проблем с тепловыделением процессора придется переключаться на память.
MCH 5000P/X/V поддерживает горячую замену модулей DIMM. В результате администраторы могут заменять модули DIMM, если сервер использует описанное выше зеркалирование.
Очень важное нововведение реализовано в технологии I/O AT (In/Out Acceleration Technology, технология ускорения ввода-вывода). Это сугубо сетевая возможность, и заключается она в аппаратной обработке потока данных, поступающих по протоколу TCP/IP. C повышением скоростей передачи данных и пропускных способностей каналов проблема обработки потока встает с угрожающей очевидностью. Для сравнения: программный роутинг трех потоков со смехотворной сегодня скоростью 100 Мбит/с способен загрузить на 100% такой достаточно неслабый процессор, как Pentium III 700 МГц. Что уж говорить об 1 Гбит/с и тем более о 10 Гбит/с!
Все дело в том, что кадры протокола TCP/IP содержат большое количество служебной информации, которую приходится обрабатывать либо сетевому контроллеру (если он способен это делать на аппаратном уровне), либо центральному процессору — в итоге при обработке потока задействованы оба компонента, но в различных аппаратных конфигурациях баланс распределения обязанностей различен. I/O AT призвана взять большую часть функций обсчета потока на себя, предоставляя процессору возможность заниматься чем-то более полезным. Фактически I/O AT позволяет сетевому контроллеру записывать данные непосредственно в оперативную память.
В заключение необходимо сказать об основных компонентах новой серверной платформы — процессорах. И здесь-то становится заметно, что Bensley никак не может считаться платформой полностью нового поколения, поскольку поддерживает процессоры как на основе NetBurst, так и Intel Core. Отсюда вывод: Bensley — переходной этап. В связи с этим не ясно, почему Intel рассчитывает на максимальные продажи именно Bensley.
Intel Xeon 5000 (Dempsey) изготавливается с применением техпроцесса 65 нм и содержит два ядра на основе NetBurst.
Оба ядра оснащены собственными модулями кэш-памяти второго уровня, по 2 Мбайт каждый, и технологией Hyper-Threading. Что ж, два процессора по два ядра с Hyper-Threading — выглядит очень внушительно. Xeon 5000 выполнен в форм-факторе Socket LGA771, частота шины FSB — 1066/667 МГц. Стартовая отметка тактовой частоты — 3,46 ГГц.
Intel Xeon 5100 также производится по 65-нм технологии и содержит два ядра, но это уже чип новой архитектуры — Intel Core. Кэш-память второго уровня является общей для обоих ядер, ее объем — те же 4 Мбайт, что и в сумме у Dempsey. Hyper-Threading здесь уже отсутствует, это честный двухъядерный процессор. Конструктив аналогичен Dempsey, Socket LGA771, но частота системной шины гораздо выше: 1333/1066 МГц. Кроме того, если Dempsey для термального мониторинга использует обычный классический термодиод, то Woodcrest оперирует более современным и функциональным интерфейсом PECI. И Xeon 5000, и Xeon 5100 имеют расширения VMX для аппаратной поддержки технологии виртуализации.
Что же ожидает новую платформу на рынке? Какие задачи выглядят наиболее приемлемыми для Bensley? Сумеет ли удержать Opteron позиции на серверном рынке, или же снова AMD будет отодвинута в тень? Ответы на эти вопросы мы узнаем очень скоро. Intel полна оптимизма относительно Bensley и заявляет о том, что до конца текущего года намерена решить все свои рыночные проблемы.