Смекни!
smekni.com

Повышение производительности компьютерных систем (стр. 3 из 5)

Здесь хотелось бы отметить, что сравнение Pentium и Pentium Pro даже сегодня является несколько преждевременным. По сути дела, Pentium Pro был экспериментальной и не очень удачной моделью (например, идея интеграции на одном кристалле самого процессора кэш-памяти и их работы на одной тактовой частоте явно не оправдалась). На самом деле, фактически рабочая история семейства P6 начинается только сейчас, с выходом Pentium II: у него есть отличный потенциал для снижения себестоимости и одновременно - повышения частоты.

Возможное снижение темпов роста производительности микропроцессоров - явление довольно понятное. Дело в том, что с точки зрения большинства вычислительных задач размерность данных в 32 бита является оптимальной. 16-разрядный процессор работал существенно быстрее 8-разрядного, а 32-разрядный - и того быстрее. Но вот переход к 64-разрядной схеме уже вряд ли принесет столь же весомый результат. Вполне возможно, что будущий Merced будет действительно очень сильно опережать Pentium II, но только на 64-разрядных тестах.

Основные проблемы

Одна из самых фундаментальных проблем, которые предстоит решить: как справляться с растущей сложностью изделия и численностью команды разработчиков? Чтобы создать новое поколение продуктов, сегодня и в будущем сотни человек должны работать как одна команда.

Следующее препятствие: как гарантировать работоспособность и совместимость? Если проверять все вычислительные ситуации и все аспекты совместимости, количество комбинаций будет приближаться к бесконечности. Ясно, что нам потребуются качественно иные способы, чтобы справляться с микросхемами, содержащими 350 миллионов транзисторов.

Третья группа проблем связана с потребляемой мощностью. Напряжение питания придется понизить до одного вольта, для чего потребуется внести много нового в микроархитектуру, а также в процесс и программное обеспечение разработки.

Наконец, главным тормозом роста производительности будут внутрисхемные соединения - до тех пор пока не удастся открыть материалы с меньшими сопротивлением и емкостью. В современной микросхеме Pentium Pro содержится пять металлизированных слоев, благодаря чему сокращается расстояние между компонентами и сигналы передаются быстрее. В новом поколении процессоров этих слоев потребуется гораздо больше. История показывает, что технология металлизации развивается медленно. Чтобы сделать процессор 2006 года, надо срочно разворачивать новые исследования.

Одно из перспективных решений.

Одним из путей повышения производительности процессоров является новейшая технология производства микросхем на основе медных проводников.

Собственно, о прорыве в Cu-технологии изготовления микрочипов компания IBM заявила еще в сентябре 1997 года. Но за прошедшие до того пять лет напряженных лабораторных исследований и испытаний недостатка в подобных постоянно повторяющихся заявлениях уже никто не испытывал. И вот только последовавшие за этим октябрьские и ноябрьские события в мире большой полупроводниковой промышленности дали понять, что Великая медная революция, похоже, свершилась, поскольку вышла из лабораторий и теперь широко внедряется в серийном оборудовании полупроводниковой промышленности.

О преимуществах двойной дамасской медной технологии:Damascus Complete Copper, название технологической линейки оборудования альянса Lam и Novellus (и примкнувшей к ним IPEC), - перед традиционной алюминиевой. Попутно нужно заметить, что названный дамасским процесс имеет довольно слабое касательство к металлургии булатной стали. Похожего между ними маловато, кроме, возможно, удачно найденного гетерогенного сочетания различных медных структур. Гомогенные пленки меди просто никак не вписывались в существующие технологические приемы. Ну и, естественно, очень похожа секретность, которой окружены технологические режимы и параметры получения той и другой "дамасской" структуры.

Лучшая (чем у алюминия) проводимость меди позволяет исключить до 200 технологических операций (этапов) в изготовлении чипа. Это сильно, если вспомнить, что еще лет десять назад чип изготавливался за 60 операций, сегодня же производство микропроцессора требует 800 и более этапов.

Работая на одной тактовой частоте, чипы с медными межсоединениями будут потреблять на 30% меньше энергии, чем "классические". Учитывая же двух-трехкратное сокращение линейных размеров, достигаемое с помощью меди, подобная экономия выразится в еще больших значениях. Здесь уместно представить себе легкий и негорячий палмтоп (или хэнд-хелд - как кому нравится) с процессором, равным по мощности сегодняшнему Pentium II, только на частотах порядка 1 ГГц, с кэшем первого уровня под 1-2 Гбайт, с флэш-памятью под 300-500 Мбайт и/или RAM-диском 1-2 Гбайт.

Обычно средние затраты на этап технологического процесса в полупроводниковой промышленности имеют тенденцию снижаться на 25-30% каждый год. Внедрение двойного дамасского процесса на уровне внутренней разводки сократит общие затраты на 30% разом, сохраняя общую тенденцию сокращаться и далее, из года в год.

Для уровня 0,13 мкм и менее задержки в медных проводниках вдвое меньше, чем они могли бы быть в подобных (гипотетических, по большей части) структурах Al-SiO2.

Кроме того, в алюминиевых тонких (ширина около 0,25 мкм) проводниках плотность тока уже такова, что происходит электромиграция алюминия, приводящая к отказам. Лучшая сопротивляемость этому эффекту, характерная для меди, позволяет достаточно легко преодолеть предел по ширине проводника. Теперь остаются ограничения типа слишком высокой диэлектрической проницаемости у SiO2 (между слоями металла лежит именно этот материал). С преодолением этого недостатка и внедрением более совершенной литографии медь будет применяться до пределов 0,13 мкм.

Два основных отличия двойного дамасского медного процесса изготовления межсоединений от традиционной алюминиевой технологии состоят в следующем.

Во-первых, операцией, определяющей минимальную ширину и шаг разводки в случае Al, является травление металла, а планаризация (выравнивание обрабатываемой поверхности чипа по горизонтали) каждого металлического уровня осуществляется на этапах заполнения промежутка и CMP (химико-механической планаризации) диэлектрика. В процессе же изготовления медной разводки этапом, определяющим минимальную ширину и шаг проводников, является не травление металла, а более простое травление диэлектрика. Задачу планаризации выполняют на этапах осаждения и CMP меди.

Во-вторых, двойной дамасский процесс обладает еще одним преимуществом как перед обычной дамасской технологией, так и субтрактивным процессом, применяемым в настоящее время для изготовления алюминиевой разводки, он позволяет примерно на треть сократить число технологических этапов.

Влияние архитектуры микропроцессоров на повышение производительности.

В тяжёлой ситуации оказались производители микропроцессоров в конце девяностых годов. Сколько ни увеличивали они производительность процессоров, потребностей пользователей удовлетворить не могли. А остановиться - означало умереть: перестав крутить педали, упасть с велосипеда.

Наращивать тактовую частоту день ото дня становилось все труднее. Тогда разработчики пошли другим путем: оптимизировали исполнительные цепи, чтобы большинство команд исполнялось всего за один такт микропроцессора, ввели новые инструкции и векторные операции (технологии MMX и 3Dnow!)...

Сегодня можно с уверенностью сказать, что RISC- и CISC-архитектуры исчерпали себя, достигнув сопоставимой производительности. Но программисты, словно не заметив этого, все еще продолжают "утяжелять" программное обеспечение: Windows 2000 будет построена на объектах COM и COM+. С точки зрения разработчиков это хорошо, ибо позволит писать более устойчивый и свободный от ошибок программный код, но с точки зрения микропроцессора один только вызов объекта COM+ распадается на тысячи команд и очень-очень много тактов.

Без дальнейшего роста вычислительных мощностей внедрение этих технологий в повседневную жизнь просто немыслимо! Поэтому уже сегодня появляются многопроцессорные системы, ориентированные на домашние и офисные компьютеры.

Узким местом микропроцессоров традиционных архитектур стала выборка и декодирование инструкций. Действительно, в одном кристалле нетрудно разместить несколько независимых функциональных устройств, но только одно из них сможет обрабатывать поток команд. Почему? Очень просто: исполнять следующую инструкцию можно, только полностью уверившись, что ей не потребуется результат работы предыдущей.

СУПЕРСКАЛЯРНАЯ АРХИТЕКТУРА

Выходит, что исполнять за один такт можно и более одной инструкции? Действительно, что нам мешает синхронно исполнять нечто вроде:

MOV AX,1234h ; Записать в регистр AX число 1234h

MOV CX,DX ; Записать в регистр CX значение регистра DX

Достаточно лишь, чтобы устройство выборки инструкций позволяло декодировать обе команды за один такт. Для RISC с их фиксированной длиной команд это вообще не составляло никакой проблемы (подробнее - в статье "RISC vs. CISC").

Сложный набор инструкций CISC доставил немало головной боли разработчикам, но все же, ценой инженерных озарений и сложных аппаратных решений, были построены микропроцессоры, которые успевали декодировать две и более распространенные инструкции за один такт.

Словом, построение подобных декодеров не было непреодолимой преградой. Трудность заключалась в том, что далеко не все команды можно выполнять параллельно. Например:

MOV AX,1234h ; Записать в регистр AX число 1234h

ADD DX,AX ; Сложить содержимое регистра DX с регистром AX

Пока не будет известен результат работы первой команды, выполнение второй невозможно. Следовательно, микропроцессор будет простаивать, а пользователь пить кофе, созерцая на экране песочные часы.

По статистике только десять процентов смежных команд не используют результатов работы друг друга. Стоит ли мизерное увеличение производительности усложнения процессора? Оказывается, да: если немного подумать и еще чуточку усложнить анализ зависимости между командами.