Смекни!
smekni.com

Особенности архитектуры PA-RISK компании Hewlett-Packard

  1. ХАРАКТЕРИСТИКАСУЩЕСТВУЮЩИХАРХИТЕКТУР

1.1 Основныеотличия CISCи RISC архитектур

Двумя основнымиархитектураминабора команд,используемымикомпьютернойпромышленностьюна современномэтапе развитиявычислительнойтехники (всоответствиис [2]) являютсяархитектурыCISC и RISC. ОсновоположникомCISC-архитектурыможно считатькомпанию IBM сее базовойархитектурой/360, ядро которойиспользуетсяс 1964 года и дошлодо наших дней,например, втаких современныхмейнфреймахкак IBM ES/9000.Лидеромв разработкемикропроцессоровc полным наборомкоманд (CISC - CompleteInstruction Set Computer) считаетсякомпания Intel сосвоей сериейx86 и Pentium. Эта архитектураявляетсяпрактическимстандартомдля рынкамикрокомпьютеров.Для CISC-процессоровхарактерно:сравнительнонебольшоечисло регистровобщего назначения;большое количествомашинных команд,некоторые изкоторых нагруженысемантическианалогичнооператорамвысокоуровневыхязыков программированияи выполняютсяза много тактов;большое количествометодов адресации;большое количествоформатов командразличнойразрядности;преобладаниедвухадресногоформата команд;наличие командобработкитипа регистр-память.

Основойархитектурысовременныхрабочих станцийи серверовявляетсяархитектуракомпьютерас сокращеннымнабором команд(RISC - Reduced Instruction Set Computer). Зачаткиэтой архитектурыуходят своимикорнями ккомпьютерамCDC6600, разработчикикоторых (Торнтон,Крэй и др.) осозналиважность упрощениянабора команддля построениябыстрых вычислительныхмашин. Этутрадицию упрощенияархитектурыС. Крэй с успехомприменил присоздании широкоизвестнойсерии суперкомпьютеровкомпании CrayResearch. Однако окончательнопонятие RISC всовременномего пониманиисформировалосьна базе трехисследовательскихпроектовкомпьютеров:процессора801 компании IBM,процессораRISC университетаБеркли и процессораMIPS Стенфордскогоуниверситета.

Среди другихособенностейRISC-архитектурследует отметитьналичие достаточнобольшогорегистровогофайла (в типовыхRISC-процессорахреализуются32 или большеечисло регистровпо сравнениюс 8 - 16 регистрамив CISC-архитектурах),что позволяетбольшему объемуданных хранитьсяв регистрахна процессорномкристаллебольшее времяи упрощаетработу компиляторапо распределениюрегистровпод переменные.







**** 7.0915.01.08 ПЗКП

Лист







Изм

Лист

докум.

Подп.

Дата



Для обработки,как правило,используютсятрехадресныекоманды, чтопомимо упрощениядешифрациидает возможностьсохранятьбольшее числопеременныхв регистрахбез их последующейперезагрузки.

РазвитиеархитектурыRISC в значительнойстепени определялосьпрогрессомв области созданияоптимизирующихкомпиляторов.Именно современнаятехника компиляциипозволяетэффективноиспользоватьпреимуществабольшегорегистровогофайла, конвейернойорганизациии большей скоростивыполнениякоманд. Современныекомпиляторыиспользуюттакже преимуществадругой оптимизационнойтехники дляповышенияпроизводительности,обычно применяемойв процессорахRISC: реализациюзадержанныхпереходов исуперскалярнойобработки,позволяющейв один и тотже момент временивыдавать навыполнениенесколькокоманд.

Следуетотметить, чтов последнихразработкахкомпании Intel(имеются в видуPentium и Pentium Pro), а такжеее последователей-конкурентов(AMD R5, Cyrix M1, NexGen Nx586 и др.) широкоиспользуютсяидеи, реализованныев RISC-микропроцессорах,так что многиеразличия междуCISC и RISC стираются.Однако сложностьархитектурыи системы командx86 остается иявляется главнымфактором,ограничивающимпроизводительностьпроцессоровна ее основе.







**** 7.0915.01.08 ПЗКП

Лист







Изм

Лист

докум.

Подп.

Дата



    1. Преимуществаи недостатки архитектурыPA-RISC

компанииHewlettPackard


Основойразработкисовременныхизделий Hewlett-PackardявляетсяархитектураPA-RISC. Она быларазработанакомпанией в1986 году и с техпор прошланесколькостадий своегоразвития благодаряуспехам интегральнойтехнологииот многокристальногодо однокристальногоисполнения.В сентябре1992 года компанияHewlett-Packard объявилао созданиисвоего суперскалярногопроцессораPA-7100, который стех пор сталосновой построениясемействарабочих станцийHP 9000 Series 700 и семействабизнес-серверовHP 9000 Series 800. В настоящеевремя имеются33-, 50- и 99 МГц реализациикристаллаPA-7100. Кроме тоговыпущенымодифицированные,улучшенныепо многимпараметрамкристаллыPA-7100LC с тактовойчастотой 64, 80 и100 МГц, и PA-7150 с тактовойчастотой 125 МГц,а также PA-7200 стактовой частотой90 и 100 МГц. Компанияактивно разрабатываетпроцессорследующегопоколения HP8000, которые будетработать стактовой частотой200 МГц и обеспечиватьуровень 360 единицSPECint92 и 550 единицSPECfp92. Появлениеэтого кристаллаожидается в1996 году. Крометого, Hewlett-Packard всотрудничествес Intel планируютсоздать новыйпроцессор сочень длиннымкоманднымсловом (VLIW-архитектура),который будетсовместимкак с семействомIntel x86, так и семействомPA-RISC. Выпуск этогопроцессорапланируетсяна 1998 год.


1.3 Характеристикапроцессоровна основеархитектурыPA-RISC


1.3.1 Характеристикаи особенностипроцессораPA7100


ОсобенностьюархитектурыPA-RISC являетсявнекристальнаяреализациякэша, что позволяетреализоватьразличныеобъемы кэш-памятии оптимизироватьконструкциюв зависимостиот условийприменения(рисунок 1.3.1).Хранение команди данных осуществляетсяв раздельныхкэшах, причемпроцессорсоединяетсяс ними с помощьювысокоскоростных64-битовых шин.Кэш-памятьреализуетсяна высокоскоростныхкристаллахстатическойпамяти (SRAM), синхронизациякоторых осуществляетсянепосредственнона тактовойчастоте процессора.При тактовойчастоте 100 МГцкаждый кэшимеет полосупропускания800 Мбайт/с привыполненииоперацийсчитыванияи 400 Мбайт/с привыполненииопераций записи.Микропроцессораппаратноподдерживаетразличныйобъем кэш-памяти:кэш командможет иметьобъем от 4 Кбайтдо 1 Мбайт, кэшданных - от 4Кбайт до 2 Мбайт.







**** 7.0915.01.08 ПЗКП

Лист







Изм

Лист

докум.

Подп.

Дата



Чтобыснизить коэффициентпромаховприменяетсямеханизмхешированияадреса. В обоихкэшах дляповышениянадежностиприменяютсядополнительныеконтрольныеразряды, причемошибки кэшакоманд корректируютсяаппаратнымисредствами.



рис.1.3.1 Блок-схемапроцессораPA 7100


Процессорподсоединяетсяк памяти иподсистемеввода/выводапосредствомсинхроннойшины. Процессорможет работатьс тремя разнымиотношениямивнутреннейи внешней тактовойчастоты взависимостиот частотывнешней шины:1:1, 3:2 и 2:1. Это позволяетиспользоватьв системахразные по скоростимикросхемыпамяти.

Конструктивнона кристаллеPA-7100 размещены:целочисленныйпроцессор,процессордля обработкичисел с плавающейточкой, устройствоуправлениякэшем, унифицированныйбуфер TLB, устройствоуправления,а также рядинтерфейсныхсхем. Целочисленныйпроцессорвключает АЛУ,устройствосдвига, сумматоркоманд перехода,схемы проверкикодов условий,схемы обхода,универсальныйрегистровыйфайл, регистры







**** 7.0915.01.08 ПЗКП

Лист







Изм

Лист

докум.

Подп.

Дата



управленияи регистрыадресногоконвейера.Устройствоуправлениякэш-памятьюсодержит регистры,обеспечивающиеперезагрузкукэш-памятипри возникновениипромахов иконтролькогерентногосостоянияпамяти. Этоустройствосодержит такжеадресные регистрысегментов,буфер преобразованияадреса TLB и аппаратурухеширования,управляющуюперезагрузкойTLB. В состав процессораплавающейточки входятустройствоумножения,арифметико-логическоеустройство,устройстводеления иизвлеченияквадратногокорня, регистровыйфайл и схемы"закоротки"результата.Интерфейсныеустройствавключают всенеобходимыесхемы для связис кэш-памятьюкоманд и данных,а также с шинойданных. Обобщенныйбуфер TLB содержит120 строк ассоциативнойпамяти фиксированногоразмера и 16 строкпеременногоразмера.

Устройствоплавающейточки реализуетарифметикус одинарнойи двойнойточностью встандартеIEEE 754. Его устройствоумноженияиспользуетсятакже длявыполненияоперацийцелочисленногоумножения.Устройстваделения ивычисленияквадратногокорня работаютс удвоеннойчастотойпроцессора.Арифметико-логическоеустройствовыполняетоперации сложения,вычитания ипреобразованияформатов данных.Регистровыйфайл состоитиз 28 64-битовыхрегистров,каждый из которыхможет использоватьсякак два 32-битовыхрегистра длявыполненияопераций сплавающейточкой одинарнойточности.Регистровыйфайл имеетпять портовчтения и трипорта записи,которые обеспечиваютодновременноевыполнениеоперацийумножения,сложения изагрузки/записи.

Конвейерпроектировалсяс целью максимальногоувеличениявремени, необходимогодля выполнениячтения внешнихкристалловSRAM кэш-памятиданных. Этопозволяетмаксимизироватьчастоту процессорапри заданнойскорости SRAM. Всекоманды загрузки(LOAD) выполняютсяза один такти требуют толькоодного тактаполосы пропусканиякэш-памятиданных. Посколькукэши команди данных размещенына разных шинах,в конвейереотсутствуюткакие-либопотери, связанныес конфликтамипо обращениямв кэш данныхи кэш команд.

Процессорможет в каждомтакте выдаватьна выполнениеодну целочисленнуюкоманду и однукоманду плавающейточки. Полосапропусканиякэша команддостаточнадля поддержаниянепрерывнойвыдачи двухкоманд в каждомтакте. Отсутствуюткакие-либоограниченияпо выравниваниюили порядкуследованияпары команд,которые выполняютсявместе. Крометого, отсутствуютпотери тактов,связанных спереключениемс выполнениядвух командна выполнениеодной команды.







**** 7.0915.01.08 ПЗКП

Лист







Изм

Лист

докум.

Подп.

Дата



Специальноевнимание былоуделено тому,чтобы выдачадвух командв одном тактене приводилак ограничениютактовой частоты.Чтобы добитьсяэтого, в кэшекоманд былреализованспециальнопредназначенныйдля этого заранеедекодируемыйбит, чтобыотделить командыцелочисленногоустройстваот командустройстваплавающейточки. Этотбит предварительногодекодированиякоманд минимизируетвремя, необходимоедля правильногоразделениякоманд.


Потери, связанныес зависимостямипо данным иуправлению,в этом конвейереминимальны.Команды загрузкивыполняютсяза один такт,за исключениемслучая, когдапоследующаякоманда пользуетсярегистром-приемникомкоманды LOAD. Какправило компиляторпозволяетобойти подобныепотери одноготакта. Дляуменьшенияпотерь, связанныхс командамиусловногоперехода, впроцессореиспользуетсяалгоритмпрогнозированиянаправленияпередачиуправления.Для оптимизациипроизводительностициклов передачиуправлениявперед попрограммепрогнозируютсякак невыполняемыепереходы, апередачиуправленияназад по программе- как выполняемыепереходы.Правильноспрогнозированныеусловные переходывыполняютсяза один такт.

Количествотактов, необходимоедля записислова или двойногослова командойSTORE уменьшенос трех до двухтактов. В болееранних реализацияхархитектурыPA-RISC был необходимодин дополнительныйтакт для чтениятега кэша, чтобыгарантироватьпопадание, атакже для того,чтобы объединитьстарые данныестроки кэш-памятиданных с записываемымиданными. PA 7100используетотдельнуюшину адресноготега, чтобысовместитьпо временичтение тегас записью данныхпредыдущейкоманды STORE. Крометого, наличиеотдельныхсигналовразрешениязаписи длякаждого словастроки кэш-памятиустраняетнеобходимостьобъединениястарых данныхс новыми, поступающимипри выполнениикоманд записислова или двойногослова. Этоталгоритм требует,чтобы записьв микросхемыSRAM происходилатолько послетого, когдабудет определено,что даннаязапись сопровождаетсяпопаданиемв кэш и не вызываетпрерывания.Это требуетдополнительнойступени конвейерамежду чтениемтега и записьюданных. Такаяконвейеризацияне приводитк дополнительнымпотерям тактов,поскольку впроцессоререализованыспециальныецепи обхода,позволяющиенаправитьотложенныеданные командызаписи последующимкомандам загрузкиили командамSTORE, записывающимтолько частьслова. Для данногопроцессорапотери конвейерадля командзаписи словаили двойногослова сведенык нулю, еслинепосредственнопоследующая






**** 7.0915.01.08 ПЗКП

Лист







Изм

Лист

докум.

Подп.

Дата



команда неявляется командойзагрузки илизаписи. В противномслучае потериравны одномутакту. Потерина запись частислова могутсоставлятьот нуля до двухтактов. Моделированиепоказывает,что подавляющеебольшинствокоманд записив действительностиработают соднословнымили двухсловнымформатом.

Все операциис плавающейточкой, заисключениемкоманд деленияи вычисленияквадратногокорня, полностьюконвейеризованыи имеют двухтактнуюзадержкувыполнениякак в режимес одинарной,так и с двойнойточностью.Процессорможет выдаватьна выполнениенезависимыекоманды сплавающейточкой в каждомтакте приотсутствиикаких-либопотерь. Последовательныеоперации сзависимостямипо регистрамприводят кпотере одноготакта. Командыделения ивычисленияквадратногокорня выполняютсяза 8 тактов приодиночной иза 15 тактов придвойной точности.Выполнениекоманд неостанавливаетсяиз-за командделения/вычисленияквадратногокорня до техпор, пока непотребуетсярегистр результатаили не будетвыдаватьсяследующаякомандаделения/вычисленияквадратногокорня.

Процессорможет выполнятьпараллельноодну целочисленнуюкоманду и однукоманду сплавающейточкой. Приэтом "целочисленнымикомандами"считаются икоманды загрузкии записи регистровплавающейточки, а "командыплавающейточки" включаюткоманды FMPYADD иFMPYSUB. Эти последниекоманды объединяютоперацию умноженияс операциямисложения иливычитаниясоответственно,которые выполняютсяпараллельно.Пиковаяпроизводительностьсоставляет200 MFLOPS для последовательностикоманд FMPYADD, вкоторых смежныекоманды независимыпо регистрам.

Потери дляопераций плавающейточки, использующихпредварительнуюзагрузку операндакомандой LOAD,составляютодин такт, есликоманды загрузкии плавающейарифметикиявляются смежными,и два такта,если они выдаютсядля выполненияодновременно.Для командызаписи, использующейрезультатоперации сплавающейточкой, потериотсутствуют,даже если онивыполняютсяпараллельно.

Потери,возникающиепри промахахв кэше данных,минимизируютсяпосредствомприменениячетырех разныхметодов: "попаданиепри промахе"для командLOAD и STORE, потоковыйрежим работыс кэшем данных,специальнаякодировкакоманд записи,позволяющаяизбежатькопированиястроки, в которойпроизошелпромах, и семафорныеоперации вкэш-памяти.Первое свойствопозволяет вовремя обработкипромаха в кэшеданных выполнятьлюбые типыдругих команд.Для







**** 7.0915.01.08 ПЗКП

Лист







Изм

Лист

докум.

Подп.

Дата



промахов,возникающихпри выполнениикоманды LOAD, обработкапоследующихкоманд можетпродолжатьсядо тех пор, покарегистр результатакоманды LOAD непотребуетсяв качестверегистра операндадля другойкоманды. Компиляторможет использоватьэто свойстводля предварительнойвыборки в кэшнеобходимыхданных задолгодо того момента,когда онидействительнопотребуются.Для промахов,возникающихпри выполнениикоманды STORE, обработкапоследующихкоманд загрузкиили операцийзаписи в частиодного словапродолжаетсядо тех пор, покане возникаетобращений кстроке, в которойпроизошелпромах. Компиляторможет использоватьэто свойстводля выполнениякоманд на фонезаписи результатовпредыдущихвычислений.Во время задержки,связанной собработкойпромаха, другиекоманды LOAD иSTORE, для которыхпроисходитпопадание вкэш данных,могут выполнятьсякак и другиекоманды целочисленнойарифметикии плавающейточки. В течениевсего времениобработкипромаха командыSTORE, другие командызаписи в туже строкукэш-памятимогут происходитьбез дополнительныхпотерь времени.Для каждогослова в строкекэш-памятипроцессоримеет специальныйиндикационныйбит, предотвращающийкопированиеиз памяти техслов строки,которые былизаписаны командамиSTORE. Эта возможностьприменяетсяк целочисленными плавающимоперациямLOAD и STORE.

Выполнениекоманд останавливается,когда регистр-приемниккоманды LOAD,выполняющейсяс промахом,требуется вкачестве операндадругой команды.Свойство"потоковости"позволяетпродолжитьвыполнениекак тольконужное словоили двойноеслово возвращаетсяиз памяти. Такимобразом, выполнениекоманд можетпродолжатьсякак во времязадержки,связанной собработкойпромаха, таки во времязаполнениясоответствующейстроки припромахе.

При выполненииблочногокопированияданных в рядеслучаев компиляторзаранее знает,что записьдолжна осуществлятьсяв полную строкукэш-памяти.Для оптимизацииобработкитаких ситуацийархитектураPA-RISC 1.1 определяетспециальнуюкодировкукоманд записи("блочноекопирование"),которая показывает,что аппаратурене нужно осуществлятьвыборку изпамяти строки,при обращениик которой можетпроизойтипромах кэш-памяти.В этом случаевремя обращенияк кэшу данныхскладываетсяиз времени,которое требуетсядля копированияв память старойстроки кэш-памятипо тому же адресув кэше (еслион "грязный")и времени,необходимогодля записинового тегакэша. В процессореPA 7100 такая возможностьреализованакак для привилегированных,так и длянепривилегированныхкоманд.







**** 7.0915.01.08 ПЗКП

Лист







Изм

Лист

докум.

Подп.

Дата



Последнееулучшениеуправлениякэшем данныхсвязано среализациейсемафорныхопераций "загрузкис обнулением"непосредственнов кэш-памяти.Если семафорнаяоперациявыполняетсяв кэше, то потеривремени приее выполнениине превышаютпотерь обычныхопераций записи.Это не толькосокращаетконвейерныепотери, но иснижает трафикшины памяти.В архитектуреPA-RISC 1.1 предусмотрентакже другойтип специальногокодированиякоманд, которыйустраняеттребованиесинхронизациисемафорныхопераций сустройствамиввода/вывода.

Управлениекэш-памятьюкоманд позволяетпри промахепродолжитьвыполнениекоманд сразуже после поступленияотсутствующейв кэше командыиз памяти.64-битовая магистральданных, используемаядля заполненияблоков кэшакоманд, соответствуетмаксимальнойполосе пропусканиявнешней шиныпамяти 400 Мбайт/спри тактовойчастоте 100 МГц.

В процессорепредусмотрентакже ряд мерпо минимизациипотерь, связанныхс преобразованиямивиртуальныхадресов вфизические.

Конструкцияпроцессораобеспечиваетреализациюдвух способовпостроениямногопроцессорныхсистем. Припервом способекаждый процессорподсоединяетсяк интерфейсномукристаллу,который наблюдаетза всеми транзакциямина шине основнойпамяти. В такойсистеме всефункции поподдержаниюкогерентногосостояниякэш-памятивозложены наинтерфейсныйкристалл, которыйпосылаетпроцессорусоответствующиетранзакции.Кэш данныхпостроен напринципахотложенногообратногокопированияи для каждогоблока кэш-памятиподдерживаютсябиты состояния"частный"(private), "грязный"(dirty) и "достоверный"(valid), значениякоторых меняютсяв соответствиис транзакциями,которые выдаетили принимаетпроцессор.

Второй способорганизациимногопроцессорнойсистемы позволяетобъединитьдва процессораи контроллерпамяти и ввода-выводана одной и тойже локальнойшине памяти.В такой конфигурациине требуетсядополнительныхинтерфейсныхкристаллови она совместимас существующейсистемой памяти.Когерентностькэш-памятиобеспечиваетсянаблюдениемза локальнойшиной памяти.Пересылкистрок междукэшами выполняютсябез участияконтроллерапамяти и ввода-вывода.Такая конфигурацияобеспечиваетвозможностьпостроенияочень дешевыхвысокопроизводительныхмногопроцессорныхсистем.

Процессорподдерживаетряд операций,необходимыхдля улучшения







**** 7.0915.01.08 ПЗКП

Лист







Изм

Лист

докум.

Подп.

Дата



графическойпроизводительностирабочих станцийсерии 700: блочныепересылки,Z-буферизацию,интерполяциюцветов и командыпересылкиданных с плавающейточкой дляобмена с пространствомввода/вывода.

Процессорпостроен набазе технологическогопроцесса КМОПс проектныминормами 0.8 микрон,что обеспечиваеттактовую частоту100 МГц.


1.3.2 Характеристикаи особенностипроцессораPA7200


ПроцессорPA 7200 имеет рядархитектурныхусовершенствованийпо сравнениюс PA 7100, главнымииз которыхявляютсядобавлениевторого целочисленногоконвейера,построениевнутрикристальноговспомогательногокэша данныхи реализациянового 64-битовогоинтерфейсас шиной памяти.

ПроцессорPA 7200, как и егопредшественник,обеспечиваетсуперскалярныйрежим работыс одновременнойвыдачей додвух командв одном такте.Все командыпроцессораможно разделитьна три группы:целочисленныеоперации, операциизагрузки/записии операции сплавающейточкой. PA 7200 осуществляетодновременнуювыдачу двухкоманд, принадлежащимразным группам,или двух целочисленныхкоманд (благодаряналичию второгоцелочисленногоконвейера сАЛУ и дополнительныхпортов чтенияи записи врегистровомфайле). Командыпереходавыполняютсяв целочисленномконвейере,причем этипереходы могутсоставлятьпару для одновременнойвыдачи навыполнениетолько с предшествующейкомандой.

Повышениетактовой частотыпроцессоратребует упрощениядекодированиякоманд на этапевыдачи. С этойцелью предварительнаядешифрацияпотока командосуществляетсяеще на этапезагрузкикэш-памяти.Для каждогодвойного словакэш-памятькоманд включает6 дополнительныхбит, которыесодержатинформациюо наличиизависимостейпо данным иконфликтовресурсов, чтосущественноупрощает выдачукоманд в суперскалярномрежиме.

В процессореPA 7200 реализованэффективныйалгоритмпредварительнойвыборки команд,хорошо работающийи на линейныхучастках программ.

Как и в PA 7100 впроцессоререализованинтерфейс свнешней кэш-памятьюданных, работающейна тактовойчастоте процессорас







**** 7.0915.01.08 ПЗКП

Лист







Изм

Лист

докум.

Подп.

Дата



однотактнымвременем ожидания.Внешняя кэш-памятьданных построенапо принципупрямого отображения.Кроме того,для повышенияэффективностина кристаллепроцессорареализованнебольшойвспомогательныйкэш емкостьюв 64 строки.Формирование,преобразованиеадреса и обращениек основной ивспомогательнойкэш-памятиданных выполняетсяна двух ступеняхконвейера.Максимальнаязадержка приобнаружениипопаданияравна одномутакту.

Вспомогательныйвнутреннийкэш содержит64 32-байтовыестроки. Приобращении ккэш-памятиосуществляетсяпроверка 65 тегов:64-х тегов вспомогательногокэша и одноготега внешнегокэша данных.При обнаружениисовпаденияданные направляютсяв требуемоефункциональноеустройство.

При отсутствиинеобходимойстроки в кэш-памятипроизводитсяее загрузкаиз основнойпамяти. Приэтом строкапоступает вовспомогательныйкэш, что в рядеслучаев позволяетсократитьколичествоперезагрузоквнешней кэш-памяти,организованнойпо принципупрямого отображения.Архитектуройнового процессорадля командзагрузки/записипредусмотренокодированиеспециальногопризнакалокальногоразмещенияданных ("spatial localityonly"). При выполнениикоманд загрузки,помеченныхэтим признаком,происходитобычное заполнениестроки вспомогательногокэша. Однакопоследующаязапись строкиосуществляетсянепосредственнов основнуюпамять минуявнешний кэшданных, чтозначительноповышаетэффективностьработы с большимимассивамиданных, длякоторых размерастроки кэш-памятис прямым отображениемоказываетсянедостаточно.

Расширенныйнабор командпроцессорапозволяетреализоватьсредстваавтоиндексациидля повышенияэффективностиработы с массивами,а также осуществлятьпредварительнуювыборку команд,которые помещаютсяво вспомогательныйвнутреннийкэш. Этотвспомогательныйкэш обеспечиваетдинамическоерасширениестепени ассоциативностиосновнойкэш-памяти,построеннойна принципепрямого отображения,и являетсяболее простымальтернативнымрешением посравнению смножественно-ассоциативнойорганизацией.

ПроцессорPA 7200 включаетинтерфейсновой 64-битовоймультиплекснойсистемнойшины Runway, реализующейрасщеплениетранзакцийи поддержкупротоколакогерентностипамяти. Этотинтерфейсвключает буфератранзакций,схемы арбитражаи схемы управлениясоотношениямивнешних ивнутреннихтактовых частот.







**** 7.0915.01.08 ПЗКП

Лист







Изм

Лист

докум.

Подп.

Дата



1.3.3 ХарактеристикасуперскалярногопроцессораPA8000


ПроцессорPA-8000 был анонсированв марте 1995 годана конференцииCOMPCON 95. Было объявлено,что показателиего производительностибудут достигать8.6 единиц SPECint95 и15 единиц SPECfp95 дляоперацийцелочисленнойи вещественнойарифметикисоответственно.В настоящеевремя этоточень высокийуровеньпроизводительностиподтверждениспытаниямирабочих станцийи серверов,построенныхна базе этогопроцессора.

ПроцессорPA-8000 вобрал в себявсе известныеметоды ускорениявыполнениякоманд. В егооснове лежитконцепция"интеллектуальноговыполнения",которая базируетсяна принципевнеочередноговыполнениякоманд. Этосвойство позволяетPA-8000 достигатьпиковой суперскалярнойпроизводительностиблагодаряширокомуиспользованиюмеханизмовавтоматическогоразрешенияконфликтовпо данным иуправлениюаппаратнымисредствами.Эти средствахорошо дополняютдругие архитектурныекомпоненты,заложенныев структурукристалла:большое числоисполнительныхфункциональныхустройств,средствапрогнозированиянаправленияпереходов ивыполнениякоманд попредположению,оптимизированнаяорганизациякэш-памяти ивысокопроизводительныйшинный интерфейс.

ВысокаяпроизводительностьPA-8000 во многомопределяетсяналичием большогонабора функциональныхустройств,который включаетв себя 10 исполнительныхустройств:два арифметико-логическихустройства(АЛУ) для выполненияцелочисленныхопераций, дваустройствадля выполненияоперацийсдвига/слиянияданных, дваустройствадля выполненияумножения/сложениячисел с плавающейточкой, дваустройстваделения/вычисленияквадратногокорня и дваустройствавыполненияоперацийзагрузки/записи.

Средствавнеочередноговыполнениякоманд процессораPA-8000 обеспечиваютаппаратноепланированиезагрузкиконвейерови лучшее использованиефункциональныхустройств. Вкаждом тактена выполнениемогут выдаватьсядо четырехкоманд, которыепоступают в56-строчный буферпереупорядочивания.Этот буферпозволяетподдерживатьпостояннуюзанятостьфункциональныхустройств иобеспечиваетэффективнуюминимизациюконфликтовпо ресурсам.конфликтовпо ресурсам.Кристалл можетанализироватьвсе 56 командныхстрок одновременнои выдавать вкаждом тактепо 4 готовыхдля выполнениякоманды вфункциональныеустройства.Это позволяетпроцессору







**** 7.0915.01.08 ПЗКП

Лист







Изм

Лист

докум.

Подп.

Дата



автоматическивыявлятьпараллелизмуровня выполнениякоманд.

СуперскалярныйпроцессорPA-8000 обеспечиваетполный наборсредств выполнения64-битовых операций,включая адреснуюарифметику,а также арифметикус фиксированнойи плавающейточкой. Приэтом кристаллполностьюсохраняетсовместимостьс 32-битовымиприложениями.Это первыйпроцессор, вкотором реализована64-битовая архитектураPA-RISC. Он сохраняетполную совместимостьс предыдущимии будущимиреализациямиPA-RISC.

Кристаллизготовленпо 0.5-микроннойКМОП технологиис напряжениемпитания 3.3 Вольти можно рассчитыватьна дальнейшееуменьшениеразмеров элементовв будущем.







**** 7.0915.01.08 ПЗКП

Лист







Изм

Лист

докум.

Подп.

Дата



2. ОСОБЕННОСТИСЕРВЕРОВ КОМПАНИИHEWLETT-PACKARDНА БАЗЕ ПРОЦЕССОРОВС АРХИТЕКТУРОЙPA-RISC


КомпанияHewlett-Packard была учрежденав Калифорниив 1938 году с цельюсозданияэлектронноготестирующегои измерительногооборудования.В настоящеевремя компанияразрабатывает,производит,осуществляетмаркетинг исервис системдля коммерческихприложений,автоматизациипроизводственныхпроцессов,процессовразработки,тестированияи измерений,а также аналитическиеи медицинскиеинструментыи системы,периферийноеоборудование,калькуляторыи компонентыдля использованияв широком рядеотраслейпромышленности.Она продаетболее 4500 изделий,используемыхв промышленности,бизнесе, науке,образовании,медицине иинженерии.

ОсновойразработкисовременныхкомпьютеровHewlett-Packard являетсяархитектураPA-RISC. Она быларазработанакомпанией в1986 году, и с техпор, благодаряуспехам интегральнойтехнологии,прошла несколькостадий своегоразвития отмногокристальногодо однокристальногоисполнения.АрхитектураPA-RISC разрабатываласьс учетом возможностипостроениямногопроцессорныхсистем, которыереализованыв старших моделяхсерверов.

2.1 СерверыHP9000 класса D

В секторерынка сервероврабочих группкомпания HPпредставленадовольно широкойсерией системHP9000 класса D. Этосерия системс относительнонизкой стоимостью,которая конкурируетс серверами,построеннымина базе ПК. Этисистемы базируютсяна архитектурепроцессоровPA-RISC (75 и 100 МГц PA-7100LC, 100 и120 МГц PA-7200, а также160 МГц PA-8000) и работаютпод управлениемоперационнойсистемы HP-UNIX.

Модели D200, D210и D310 представляютсобой (согласно[3])однопроцессорныесистемы. МоделиD250, D260, D270 и D350 могутоснащатьсякак одним, таки двумя процессорами.В своих моделяхD3XX HP подчеркиваетсвойстваобеспечениявысокой готовности:возможность"горячей"замены внутреннихдисковыхнакопителей,возможностьорганизациидисковогомассива RAID иналичие источникабесперебойногопитания. Этимодели обладаюттакже расширеннымивозможностямипо наращиваниюоперативнойпамяти и подсистемыввода/вывода.







**** 7.0915.01.08 ПЗКП

Лист







Изм

Лист

докум.

Подп.

Дата



В моделяхD2XX имеется 5 гнездрасширенияввода/выводаи 2 отсека дляустановкидисковыхнакопителейс интерфейсомSCSI-2. В моделяхD3XX количествогнезд расширенияввода/выводарасширено до8, в 5 отсекахмогут устанавливатьсядисковыенакопителис интерфейсомFast/Wide SCSI-2, которыедопускаютзамену безвыключенияпитания системы.

Старшиемодели серииобеспечиваютвозможностьрасширенияоперативнойECC-памяти до 1.5Гбайт, при этомкоэффициентрасслоенияможет увеличиватьсядо 12. Максимальныйобъем дисковогопространствапри использованиивнешних дисковыхмассивов можетдостигать5.0 Тбайт.

2.2 СерверыHP9000 класса K

СерверыHP9000 класса K представляютсобой системысреднего класса,поддерживающиесимметричнуюмультипроцессорнуюобработку(до 4 процессоров).Также как исистемы классаD они базируютсяна архитектуреPA-RISC (120 МГц PA-7200 с кэш-памятьюкоманд/данныхпервого уровня256/256 Кбайт или1/1 Мбайт, а также160 и 180 МГц PA-8000 с кэш-памятьюкоманд/данныхпервого уровня1/1 Мбайт, работающейна тактовойчастоте процессора).

Конструкциясерверов классаК обеспечиваетвысокую пропускнуюспособностьсистем. Основнымикомпонентамиподдержаниявысокойпроизводительностиявляются системнаяшина с пиковойпропускнойспособностью960 Мбайт/с, большаяоперативнаяпамять с контролеми исправлениемодиночныхошибок (ECC) емкостьюдо 4 Гбайт c 32-кратнымрасслоением,многоканальнаяподсистемаввода/выводас пропускнойспособностьюдо 288 Мбайт/с,стандартнаявысокоскоростнаяшина Fast/Wide Differential SCSI-2, атакже дополнительныевозможностипо подключениювысокоскоростныхсетей и каналовтипа FDDI, ATM и Fibre Channel.

В конструкциисервера предусмотрены4 отсека дляустановкидисковыхнакопителей,а с помощьюспециальныхстоек (кабинетов)расширенияемкость дисковойпамяти системыможет бытьдоведена до8.3 Тбайт.







**** 7.0915.01.08 ПЗКП

Лист







Изм

Лист

докум.

Подп.

Дата



2.3 Симметричныемногопроцессорныесерверы HP9000 классаТ

Самым мощными расширяемымрядом корпоративныхсерверов компанииHP на базе ОС UNIXявляется семействоHP9000 класса T. Этоследующеепоколениесерверов, котороебыло разработанокомпаниейвслед за HP9000 model870. В начале нарынке появилисьсистемы HP9000 T500,допускающиеустановку до12 процессоровPA7100, затем HP объявила14-процессорныесистемы T520,построенныена базе процессора120 МГц PA7150. В настоящеевремя объявлены12-процессорныесистемы Т600 набазе процессораPA-8000, поставкикоторых должныначаться в1997 году. Существующиесистемы (Т500 иТ520) допускаютзамену старыхпроцессоровна процессорыPA-8000.

Характернойособенностьюархитектурысерверов классаТ являетсябольшая емкостькэш-памятикоманд (1 Мбайт)и данных (1 Мбайт)у каждогопроцессорасистемы. Серверыкласса T используют64-битовую шинус расщеплениемтранзакций,которая поддерживаетдо 14 процессоров,работающихна частоте120 МГц. Эффективностьэтой шины, каки шины Runway, составляет80%, что обеспечиваетв установившемсярежиме пропускнуюспособность768 Мбайт/с припиковойпроизводительности960 Мбайт/с.

Серверыкласса T могутподдерживатьдо 8 каналовHP-PB (HP Precision Bus), работающихсо скоростью32 Мбайт/с, однаков стойке основнойсистемы поддерживаетсятолько одинканал HP-PB. Дляобеспеченияполной конфигурацииподсистемыввода/выводанеобходимаустановка 7стоек расширения,занимающихдостаточнобольшую площадь.Общая пиковаяполоса пропусканияподсистемыв/в в полностьюсконфигурированной8-стоечной системесоставляет256 Мбайт/с, чтоменьше полосыпропусканияподсистемыв/в серверовкласса К. Однакомаксимальнаяемкость дисковойпамяти прииспользованииRAID-массивовдостигает 20Тбайт.

Указаннаядвухяруснаяшинная структурасервера обеспечиваетоптимальныйбаланс междутребованиямипроцессорови подсистемыввода/вывода,гарантируявысокую пропускнуюспособностьсистемы дажепри тяжелойрабочей нагрузке.Доступ процессоровк основнойпамяти осуществляетсяпосредствоммощной системнойшины процессор-память,поддерживающейкогерентноесостояниекэш-памятейвсей системы.В будущих системахпланируется4-кратное увеличениепропускнойспособностиподсистемыввода/вывода.







**** 7.0915.01.08 ПЗКП

Лист







Изм

Лист

докум.

Подп.

Дата



2.4 Семействокорпоративныхпараллельныхсерверов HP9000

Одним изпоследнихпродуктов,выпущенныхкомпаниейHP, являетсясемействопараллельныхсистем, представленныхв настоящеевремя двумямоделями ESP21 иESP30. Основнаяконцепция,лежащая в основеэтих системдостаточнопроста. Оназаключаетсяв созданиикомбинированнойструктуры, вкоторой объединяютсявозможностии сильные стороныпровереннойвременемвысокопроизводительнойсимметричноймультипроцессорнойобработки спрактическинеограниченнымпотенциаломпо роступроизводительностии масштабируемости,который можетбыть достигнутпосредствомпараллельнойархитектуры.Результатомтакого объединенияявляетсявысокопроизводительнаяархитектура,обеспечивающаячрезвычайновысокую степеньраспараллеливаниявычислений.

В отличиеот некоторыхдругих параллельныхархитектур,которые используютслабо связанныеоднопроцессорныеузлы, параллельнаяархитектурасерверов ESP21 иESP30 используетвысокопроизводительнуюSMP-технологиюв качествемасштабируемыхстроительныхблоков. Преимуществотакого подходазаключаетсяв том, что прикладныесистемы могутпользоватьсявычислительноймощностью ивозможностямимножестватесно связанныхпроцессоровв инфраструктуреSMP и достаточноэффективнообеспечиватьмаксимальновозможнуюпроизводительностьприложений.По мере необходимостидополнительныеSMP-модули могутбыть добавленыв систему дляувеличениястепени параллелизмадля масштабированияобщей производительностисистемы, ееемкости, пропускнойспособностив/в, или такихсистемныхресурсов какосновная идисковая память.

Изделияэтой сериипредназначеныглавным образомдля обеспечениямасштабируемости,превышающейобычные возможностиSMP-архитектуры,для крупномасштабныхсистем принятиярешений, системоперативнойобработкитранзакций,построенияхранилищ данныхво ВсемирнойПаутине Internet. Длябольшинстваприложениймодели ESP обеспечиваютпрактическилинейный ростуровня производительности.Это достигаетсяпосредствомиспользованиявысокопроизводительнойшинной архитектурыSMP узлов ESP в сочетаниис возможностямиустановкидополнительныхSMP-узлов с помощьюразработанногокомпанией HPкоммутатораоптоволоконныхканалов (Fiber ChannelEnterprise Switch). Управлениевсеми ресурсамисистемы осуществляетсяс единой консолиуправления.







**** 7.0915.01.08 ПЗКП

Лист







Изм

Лист

докум.

Подп.

Дата



При необходимостиобеспечениявысокой готовностисистемы ESP поддерживаютспециальныйслой программныхсредств MC/ServiceGuard.Эти средствапозволяютсоздать эффективноесочетаниесвойств высокойпроизводительности,масштабируемостии высокойготовности,и помимо стандартныхвозможностейRAS (надежности,готовностии удобстваобслуживания)обеспечиваютзамену узловбез остановаработы системы.

По сути серияEPS предоставляетсредства дляобъединениямоделей классаК (EPS21) и Т(EPS30) в единуюсистему. 16-канальныйкоммутаторFiber Channel позволяетобъединитьдо 64 процессоровв модели EPS21 (до256 процессоровв будущем) идо 224 процессоровв модели EPS30 (до768 процессоровв будущем). Общаяпиковая пропускнаяспособностьсистем можетдостигатьуровня 15 Гбайт/с.







**** 7.0915.01.08 ПЗКП

Лист







Изм

Лист

докум.

Подп.

Дата



Введение


На данномэтапе научно-техническогоразвития выбораппаратнойплатформы иконфигурациисистемы представляетсобой чрезвычайносложную задачу[1].Это связано,в частности,с характеромприкладныхсистем, которыйв значительнойстепени можетопределятьрабочую нагрузкувычислительногокомплекса вцелом. Однакочасто оказываетсяпросто труднос достаточнойточностьюпредсказатьсаму нагрузку,особенно вслучае, еслисистема должнаобслуживатьнесколькогрупп разнородныхпо своим потребностямпользователей.Следует отметить,что выбор тойили иной аппаратнойплатформы иконфигурацииопределяетсяи рядом общихтребований,которые предъявляютсяк характеристикамсовременныхвычислительныхсистем. К нимотносятся:отношениестоимость/производительность,надежностьи отказоустойчивость,масштабируемость,совместимостьи мобильностьпрограммногообеспечения.Основнаязадача припроектированиивсего рядамоделей системыPA-RISCзаключаласьв созданиитакой архитектуры,которая былабы одинаковойс точки зренияпользователядля всех моделейсистемы независимоот цены ипроизводительностикаждой из них.Огромныепреимуществатакого подхода,позволяющегосохранятьсуществующийзадел программногообеспеченияпри переходена новые моделибыли быстрооценены какпроизводителямикомпьютеров,так и пользователямии начиная сэтого временипрактическивсе фирмы-поставщикикомпьютерногооборудованиявзяли на вооружениеэти принципы,поставляясерии совместимыхкомпьютеров.








**** 7.0915.01.08 ПЗКП






Изм

Лист

докум.

Подп.

Дата

Разраб. Гропянов


ВВЕДЕНИЕ


Лит.

Лист.

Листов.

Пров. Передерий











3 ЭВМ

Н.контр
Передерий

Утв.



    1. Постановказадачи

В ходевыполненияданного курсовогопроекта необходиморассмотретьсуществующиевиды архитектурпроцессоров,охарактеризоватьих преимуществаи недостатки.Следует детальнорассмотретькакую-либоархитектуру(в данном случаеэто архитектураPA-RISCкомпании HewlettPackard),а также рассмотретьобласти примененияпроцессоровс выбраннойархитектурой(характеристикасерверов компанииHewlettPackardна основе PA-RISCпроцессоров).Также необходиморазработатьпрограмму-драйверпередачиинформациимежду рабочимистанциями влокальнойсети.







**** 7.0915.01.08 ПЗКП

Лист







Изм

Лист

докум.

Подп.

Дата



РЕФЕРАТ


Курсовой проект содержит:стр. , лит.ист. , прилож.1, рис.1


Ключевыеслова:


АРХИТЕКТУРА,ПРОЦЕССОР,PA-RISC,CISC,КОНВЕЙЕР, СЕРВЕР,КЕШ-ПАМЯТЬ,РЕГИСТР, ИНСТРУКЦИЯ,АРИФМЕТИКО-ЛОГИЧЕСКОЕУСТРОЙСТВО


В данномкурсовом проектерассмотреныпреимуществаи недостакиосновныхсуществующихархитектурпроцессоров,детальнорассмотренаархитектураPA-RISCкомпанииHewlettPackard,приведенахарактеристикасерверов компанииHewlettPackardна основе PA-RISCпроцессоров.







**** 7.0915.01.08 ПЗКП






Изм

Лист

№ докум. Подп.

Дата

Разраб. Гропянов


РЕФЕРАТ


Лит. Лист. Листов.
Пров. Передерий











3 ЭВМ

Н.контр
Передерий

Утв.






СОДЕРЖАНИЕ


Введение………………………………………………………………………


1. Характеристикасуществующихархитектур…………………………..


    1. Основныеотличия CISCи RISCархитектур………………………..

    2. Преимуществаи недостаткиPA-RISCархитектурыкомпанииHewlettPackard…………………………………………………………

    3. Характеристикапроцессоровна основеархитектурыPA-RISC…...

1.3.1 Характеристикаи особенностипроцессоровPA7100………….

1.3.2 Характеристикаи особенностипроцессоровPA7200………….

1.3.3 ХарактеристикасуперскалярногопроцессораРА 8000…………

    1. Постановказадачи…………………………………………………….


2. Особенностисерверов компанииHewlettPackardс архитектуройPA-RISC…………………………………………………………………………

2.1 СерверыНР9000 классаD……………………………………………

2.2 СерверыНР9000 классаК……………………………………………

2.3Симметричныемногопроцессорныесерверы HP9000 классаТ…..

2.4СемействокорпоративныхпараллельныхсерверовHP9000……...

Заключение…………………………………………………………………..

Списокиспользованнойлитературы……………………………………….

Приложение…………………………………………………………………








**** 7.0915.01.08 ПЗКП






Изм

Лист

№ докум. Подп.

Дата

Разраб. Гропянов


СОДЕРЖАНИЕ


Лит. Лист. Листов.
Пров. Передерий











3 ЭВМ

Н.контр
Передерий

Утв.




Заключение


В данномкурсовом проектерассмотреныосновныеархитектектурыпроцессоров.ДетальнорассмотренаархитектураPA-RISCкомпании HewlettPackard,проанализированыпреимуществаи недостаткиэтой архитектуры.Также рассмотреныобласти примененияпроцессоровс архитектуройPA-RISC(характеристикасерверов компанииHewlettPackardна основе PA-RISCпроцессоров).В приложенииприведенапрограммаобеспечивающаяпередачуинформациимежду рабочимистанциями влокальнойсети.






**** 7.0915.01.08 ПЗКП

Лист







Изм

Лист

докум.

Подп.

Дата



Списокиспользованнойлитературы


1.ШнитманВ.С., КузнецовМ.И. Аппаратно-программныеплатформыкорпоративныхинформационныхсистем : Учебноепособие. – Минск,1997.- 457с.: ил.

2.ГромовЮ.Ю.,ТатаренкоС.И. Современныевысокопроизводительныекомпьютеры:Учебное пособие.– Тамбов,1995.- 169 с.

3.Гук М.И.Аппаратныесредства IBMPC.Энциклопедия: Учебное пособие.– С.-Петербург,1999.-816 с.: ил.







**** 7.0915.01.08 ПЗКП

Лист







Изм

Лист

докум.

Подп.

Дата


МИНИСТЕРСТВООБРАЗОВАНИЯУКРАИНЫ


КафедраэлектронныхвычислитЕЛЬНЫХМАШИН, КОМПЛЕКСОВ,СИСТЕМ И СЕТЕЙ


особенностиАрхитектурыPA-RISCкомпанииHEWLETT-Packard

Курсовойпроект


по дисциплине«Архитектуравычислительныхсистем»


Пояснительнаязаписка


Херсон 2000