sonyps4.ru

Процессоры. Параметры процессорных ядер

Выпуск процессоров Kaveri — это, вне всяких сомнений, самый главный анонс AMD в этом году. Вместе с новым поколением APU — процессоров, гармонично объединяющих ресурсы параллельных графических и скалярных вычислительных ядер, — компания представляет и гораздо более совершенную стратегию их совместного использования. С этой точки зрения Kaveri очень далеко ушли от первого поколения APU, Llano, которое было представлено в 2011 году. Сделав ставку на создание высокоинтегрированных гибридных устройств, AMD смогла разработать новый класс процессоров, которые, если всё будет идти по намеченному компанией плану, могут захватить лидерство как минимум в сегменте массовых решений. Именно поэтому запуск Kaveri имеет такое значение: в этой новинке находят применение все ключевые инновации — HSA, hUMA, hQ и прочие , делающие из комбинации представленных в APU разнородных ядер единый сплав.

Но есть и другая сторона: многочисленные пользователи персональных компьютеров на самом деле ждут от AMD не каких-то новых идей, которые, несмотря на всю их кажущуюся продуктивность, способны «выстрелить» лишь в перспективе и при условии их широкой поддержки со стороны разработчиков программного обеспечения, а простых процессоров с хорошей вычислительной производительностью. В течение последних нескольких лет AMD заметно отстала от своего основного конкурента в разработке процессорных микроархитектур и утратила возможность выпуска CPU верхней ценовой категории. Kaveri же даёт надежду, что предложения AMD смогут закрепиться хотя бы в среднем ценовом сегменте, ведь в них нашла применение новая и усовершенствованная модификация микроархитектуры Bulldozer — Steamroller. И пока HSA представляет интерес главным образом для разработчиков, простые пользователи рассчитывают на то, что Kaveri даст им возможность выбора платформы при следующем походе в компьютерный магазин.

К сожалению, по результатам нашего первого знакомства с процессорами Kaveri о новых чипах сложилось не слишком благоприятное впечатление. На фоне отказа AMD от дальнейшего развития производительных процессоров серии FX (хочется надеяться, что всё-таки временного) новые APU показали свою полную неспособность соперничать с классическими CPU средней и верхней ценовой категорий в плане вычислительной производительности . А это значит, что интеловские процессоры класса Core i5 и Core i7 норовят стать безальтернативным вариантом в том случае, если речь идёт о построении системы, оборудованной хорошей дискретной видеокартой. Однако столь нелицеприятные для AMD выводы нельзя было считать окончательными, так как они были сделаны нами при тестировании лишь средней модели в линейке Kaveri, A8-7600, которую по какой-то причине представительство AMD предоставило нам вместо флагманской модификации.

Сегодня же мы имеем шанс скорректировать наше мнение и дать окончательный ответ на вопрос о том, могут ли Kaveri претендовать на нечто большее, чем присутствие в недорогих компьютерах, опирающихся на использование небыстрой, встроенной в процессор графики. Для этого мы подробно протестировали старшую десктопную модель Kaveri, A10-7850K, которую AMD позиционирует в качестве альтернативы четырёхъядерным процессорам конкурента семейства Core i5.

⇡ Подробнее о AMD A10-7850K

Подробно о том, чем отличаются процессоры Kaveri от предшествующих поколений APU компании AMD, мы говорили в нашем обзоре A8-7600 . Поэтому здесь мы не будем ещё раз останавливаться на архитектурных тонкостях, а лишь напомним основные моменты применительно к сегодняшнему главному герою, процессору A10-7850K.

Процессоры Kaveri представляют собой объединённые на общем полупроводниковом кристалле четыре x86-ядра (скомпонованных в два модуля) с микроархитектурой Steamroller, графическое ядро поколения GCN и северный мост, содержащий контроллер памяти и контроллер графической шины PCI Express 3.0. Сам полупроводниковый кристалл Kaveri изготавливается по новой для процессорной продукции AMD 28-нм технологии на предприятии GlobalFoundries.

Следует подчеркнуть, что технологический производственный процесс, применяемый в данном случае, является APU-оптимизированным. Это означает, что при тонкой настройке техпроцесса приоритет отдан не максимальному частотному потенциалу, а повышению плотности размещения транзисторов с целью интеграции как можно большего массива параллельных графических шейдеров. В итоге на кристалле площадью 245 мм 2 уместилось 2,41 млрд транзисторов, 47 процентов которых участвует в работе графического ядра. Это означает, что по удельной плотности размещения транзисторов Kaveri заметно превосходит Haswell и приближается к современным графическим ускорителям. Однако такой подход к проектированию потребовал от AMD занизить тактовые частоты процессорной части. Номинальной частотой для старшей модели Kaveri, A10-7850K, стала 3,7 ГГц, что на 400 МГц ниже частоты, достигнутой в APU поколения Richland.

Падение вычислительной производительности, вызванное снижением частоты, AMD скомпенсировала микроархитектурными улучшениями, внедрёнными в Steamroller. Инженеры выявили наиболее критичные узкие места двухъядерных модулей Piledriver и попытались по возможности их ликвидировать. Хотя основа микроархитектуры осталась нетронутой, и вычислительные ядра в Kaveri так же, как и раньше, попарно объединены в модули с двумя комплектами целочисленных исполнительных устройств, но разделяемым FPU, изменений было сделано немало . Самое главное: каждое из ядер получило собственный независимый декодер инструкций, в то время как в Piledriver на двухъядерный модуль приходился один декодер. В результате микроархитектура Steamroller увеличила свою эффективность за счёт лучшей загрузки исполнительных устройств, в особенности целочисленных, собственный комплект которых есть в каждом ядре. Попутно были выполнены и другие оптимизации: объём кеша инструкций увеличился с 64 до 96 Кбайт; а качество работы блока предсказания переходов улучшилось на 20 процентов за счёт роста объёма буферов. Кроме того, в Steamroller удвоена пропускная способность ядер на операциях сохранения данных.

Но графическая часть процессоров Kaveri изменилась ещё сильнее. Главное: она переведена на самую современную архитектуру GCN 1.1, которая используется актуальной линейкой видеокарт Hawaii. При этом максимальная версия графического ядра, которая реализована в A10-7850K, получила в своё распоряжение 512 шейдеров, которые разделены по восьми вычислительным кластерам. За счёт этого производительность графического движка в очередной раз выросла, так как в старших версиях Richland присутствовало не более 384 шейдеров с архитектурой VLIW4. С точки же зрения мощности графического ядра процессор A10-7850K можно сравнивать с Radeon HD 7750, и это позволяет надеяться, что этот APU даст возможность строить интегрированные игровые системы с приемлемой для многих пользователей производительностью.

Однако мощное видеоядро Kaveri предназначается не только для 3D-графики. Не имея возможности предложить пользователям производительные x86-ядра, с выходом процессоров Kaveri AMD решила делать особый упор на счётную производительность графики и гетерогенные вычисления. Для этого компания активно продвигает парадигму HSA (Heterogeneous System Architecture — «гетерогенная системная архитектура»). Графическое ядро Kaveri содержит восемь асинхронных вычислительных движков Asynchronous Compute Engines (ACE), каждый из которых может загружать шейдерные кластеры независимыми счётными задачами и имеет собственный доступ к кеш-памяти. То есть графические вычислительные кластеры получили равноправный с x86-ядрами доступ к системной памяти, и теперь AMD предлагает считать их самостоятельными процессорными ядрами.

Такой подход имеет право на жизнь, так как благодаря HSA вычислительные кластеры действительно могут выполнять собственные процессы вне зависимости от других ядер, не требуя какой-либо активности от x86-ядер. Поэтому, например, A10-7850K, располагающий четырьмя вычислительными ядрами и восемью графическими кластерами, производитель продвигает как 12-ядерный гетерогенный процессор. Однако следует понимать, что эти 12 ядер не эквивалентны, они нуждаются в различном программном коде, и операционная система увидит в A10-7850K лишь четыре традиционных x86-ядра. За загрузку же вычислительной работой шейдерных кластеров несут ответственность разработчики программ, которые должны будут внедрить в свои продукты специализированный OpenCL-код. Иными словами, хоть AMD и преподносит Kaveri как многоядерные процессоры с гетерогенной архитектурой, пока о них можно говорить лишь как о четырёхъядерных CPU с мощным OpenCL-совместимым графическим ядром, способным исполнять параллельные вычисления.

Семейство процессоров Kaveri для настольных компьютеров делится на две подгруппы: энергоэффективные модели с тепловым пакетом 45/65 Вт и обычные модификации, имеющие типичное расчётное тепловыделение на уровне 95 Вт. С представителями первой подгруппы мы уже знакомились на примере A8-7600 , и, как показало тестирование, они оказались не слишком привлекательными для пользователей, заинтересованных в построении производительных систем. Главный же герой настоящего обзора — старший 95-ваттный процессор Kaveri, A10-7850K. Если сравнить эту модель с предыдущими флагманскими APU, процессорами A10-6800K и A10-5800K поколения Richland и Trinity, получится нижеследующая таблица.

AMD A10-7850K AMD A10-6800 K AMD A10- 5800 K
Кодовое имя Kaveri Richland Trinity
Ядра 4 ядра (2 модуля) 4 ядра (2 модуля) 4 ядра (2 модуля)
Микроархитектура Steamroller Piledriver Piledriver
Процессорный разъём Socket FM2+ Socket FM2/FM2+ Socket FM2/FM2+
Разблокированный множитель Есть Есть Есть
Тактовая частота 3,7 ГГц 4,1 ГГц 3,8 ГГц
Частота в турборежиме До 4,0 ГГц До 4,4 ГГц До 4,2 ГГц
L2-кеш 2x2 Мбайт 2x2 Мбайт 2x2 Мбайт
Графическое ядро Radeon R7 Radeon HD 8670D Radeon HD 7660D
Архитектура GPU GCN VLIW4 VLIW4
Шейдерные процессоры 512 384 384
Частота GPU 720 МГц 844 МГц 800 МГц
Поддержка DDR3 DDR3-2133 DDR3-2133 DDR3-1866
TDP 95 Вт 100 Вт 100 Вт
Средняя цена, руб. 6 900 5 100 4 000

К сожалению, отсутствие признаков явного превосходства Kaveri над предшественниками в приведённой таблице — это отражение реальности. Новый флагманский гибридный процессор, A10-7850K, рядом с Richland хорошо смотрится лишь в части графического ядра. На фоне 15-процентного снижения частоты графики число шейдерных процессоров выросло на треть, плюс сменилась на более совершенную версию и их внутренняя архитектура, что дополнительно привнесло и увеличение числа текстурных блоков. Всё это позволяет надеяться, что встроенная в A10-7850K графика сможет с полным правом претендовать на роль игрового решения начального уровня. Если, конечно, её производительность не упрётся в пропускную способность двухканальной DDR3-памяти, процессорный контроллер которой в Kaveri не претерпел никаких существенных изменений.

С x86-частью рассматриваемого процессора всё выглядит гораздо грустнее. Тактовая частота снизилась настолько сильно, что по этой характеристике A10-7850K уступает даже A10-5800K. Хочется надеяться, что по мере совершенствования нового 28-нм технологического процесса AMD сможет поднять частоту хотя бы до 4 ГГц. Однако пока можно надеяться лишь на то, что перечисленных выше микроархитектурных усовершенствований в Steamroller хватит, чтобы A10-7850K оказался не медленнее A10-6800K в традиционных программах. Тем более что, как показывает практика, турборежим в новых процессорах не слишком агрессивен, и средняя реальная частота работы A10-7850K при серьёзной многопоточной нагрузке находится на уровне 3,8 ГГц. В моменты же простоя она снижается до 1,7 ГГц.

С учётом всего этого у старшей модели Kaveri очень странно выглядит одна из основных потребительских характеристик — цена. Для A10-7850K AMD установила официальную стоимость на уровне $173, то есть компания позиционирует этот процессор как альтернативу младшим представителям серии Intel Core i5.

Более ранние модификации APU на соперничество с четырёхъядерниками конкурента были явно не способны, и мы их всегда сопоставляли с представителями семейства Core i3. Неужели с выходом Kaveri что-то принципиально изменилось? Или всему виной возросшие амбиции производителя, подогреваемые предстоящим возможным внедрением HSA? Очевидно, пора переходить к тестам.

AMD A10-4600M представляет собой мобильный четырехъядерный процессор на базе архитектуры Trinity. Он был официально представлен во втором квартале 2012 года, и является прямым преемником APU Llano A-серии. В настоящее время это самый быстрый APU Trinity на рынке. Производится чип по 32-нм нормам технологического процесса SOI. APU включает в себя процессор с частотой 2.3 ГГц (до 3.2 ГГц с Turbo Core), достаточно быструю встроенную видеокарту Radeon HD 7660G , а также двухканальный контроллер памяти, видео кодеры/декодеры и северный мост.

Процессорные ядра основаны на архитектуре Piledriver, преемнице архитектуры Bulldozer. Хотя на рынке A10-4600M заявлен как четырехъядерный процессор, он включает в себя только два модуля с четырьмя целочисленными ядрами и два ядра, выполняющие операции с числами с плавающей запятой. Следовательно, процессор четырехъядерным, как таковым, не является.

По сравнению с ядрами предыдущей архитектуры Bulldozer, AMD смогла улучшить IPC производительность ядер Trinity, повысив тактовую частоту. Однако, по сравнению с предшественником Llano, многопоточная производительность Trinity лишь слегка улучшилась. Технология Turbo Core 3.0 функционирует также в режиме ускорения однопоточной производительности, хотя такой же эффективности, как технология Turbo Boost от Intel, она пока не достигла. Впрочем, компания AMD смогла внедрить другие не менее полезные функции, например, такие как расширение AVX (в том числе FMA) и поддержка шифрования AES.

С точки зрения общей производительности, A10-4600M может выполнять работу до 25% быстрее, чем процессор A8-3520M на архитектуре Llano. Особенно прирост производительности в новых процессорах заметен при однопоточных нагрузках.

Процессор A10-4600M стоит примерно на одном уровне с Intel Core i3-2310M Sandy Bridge по результатам, полученным в тестах, хотя в реальных ситуациях, данные могут несколько отличаться. Но, тем не менее, производительности 4600M должно быть вполне достаточно для выполнения ежедневных задач, таких как Office, веб-серфинг, просмотра видео и воспроизведения игр.

Интегрированная видеокарта Radeon HD 7660G поддерживает DirectX 11 и имеет 384 шейдерных ядра. Благодаря технологии Turbo Core она будет работать на частоте от 497 до 686 МГц в зависимости от текущей нагрузки. В среднем, GPU HD 7660G можно сравнить с дискретной Radeon HD 6650M , также она ощутимо быстрее, чем встраиваемая в процессоры Ivy Bridge графика HD Graphics 4000 от Intel.

TDP A10-4600M APU составляет 35 Вт, это сопоставимо с энергопотреблением двухъядерных процессоров Ivy Bridge. Следовательно, A10-4600M лучше всего подходит для ноутбуков с диагональю 14-дюймов и более.

Введение

В течение нескольких последних лет мы наблюдаем за тем, как процессорное подразделение компании AMD планомерно сужает своё присутствие в традиционных ПК, а сама компания твердит о важности мобильных и встраиваемых решений, но при этом умалчивает о планах в части дальнейшего развития десктопных продуктов. В реальности же мы видим, что сначала AMD полностью отдала своему конкуренту сегмент высокопроизводительных процессоров, и с этим мы уже давно смирились, а теперь речь уже заходит о том, что в её ассортименте, ориентированном на пользователей традиционных ПК, останутся исключительно бюджетные процессоры с интегрированной графикой. По крайней мере, именно это заложено в перспективный план: обновлений во флагманской серии FX больше (пока?) не предвидится, а фокус смещается на продвижение гибридных процессоров - APU (Accelerated Processing Units), совмещающих на одном полупроводниковом кристалле как вычислительные, так и графические ядра. И в свете этого главным процессорным продуктом AMD в 2014 году становится Kaveri – новый гибридный процессорный дизайн, развивающий идеи, заложенные в Trinity и Richland. Именно о Kaveri и пойдёт речь в этом обзоре, и мы будем смотреть на этот продукт критически – с позиции апологетов настольных компьютеров.

Конечно, в смещении интереса AMD в сторону процессоров со встроенным графическим ядром нет ничего страшного, в конце концов, львиная доля десктопных продуктов Intel имеет примерно такую же внутреннюю организацию. Но проблема в том, что AMD, в отличие от конкурента, совершенно не нацелена на покорение новых рубежей производительности, у неё теперь совсем иные приоритеты. В серии процессоров FX ставка делалась на возможности многопоточной обработки большим количеством вычислительных ядер, теперь же ядер будет существенно меньше, и основной упор вместо этого будет делаться на увеличении мощности интегрированного графического ускорителя. Выпуская Kaveri, AMD в первую очередь хочет добиться успеха в секторе недорогих мобильных компьютеров, а потому занимается улучшением удельной производительности в пересчёте на каждый ватт затраченной электроэнергии. Причём, оптимизация этого соотношения ведётся отнюдь не за счёт роста быстродействия, а путём снижения энергопотребления и тепловыделения, которые для ключевых моделей APU будет теперь вписываться в рамки 35 или даже 15 Вт.



Что же до пользователей настольных компьютеров, где тепловые пакеты процессоров беспрепятственно могут быть расширены до 95 Вт, то для них AMD подготовила специальные варианты Kaveri. Однако такие модели не отличаются высокой производительностью даже по мнению самого разработчика, а их преимущество кроется в неких «новых возможностях». Всё это значит, что Kaveri не способны внести на рынок десктопных систем какую-либо свежую струю. Эти процессоры выступают эволюционным развитием APU прошлых поколений, то есть, как и их предшественники, представляют собой недорогие варианты для настольных домашних, офисных или игровых систем начального уровня.



Тем не менее, посчитать, что Kaveri для нас совсем неинтересны, было бы неверным. В этих процессорах нашла применение очередная версия микроархитектуры Bulldozer – Steamroller, графическое ядро переведено на дизайн GCN, а также реализована глубокая гетерогенность, базирующаяся на спецификации HSA (Heterogeneous System Architecture). Несмотря на то, что все эти нововведения не могут сделать новые процессоры привлекательными для игроков или энтузиастов при всём желании, посмотреть на них в подробностях всё же любопытно. По крайней мере, мы сможем получить представление о том, в каком направлении движется AMD, и можно ли рассчитывать, что эта компания когда-нибудь восстановит разработку процессоров для производительных персональных компьютеров в числе своих первоочередных задач.



С начала этого года на рынок поставляется две модели процессоров Kaveri для настольных компьютеров – A10-7850K и A10-7700K. Нельзя сказать, что их поставки носят широкомасштабный характер, но, тем не менее, найти такие процессоры в магазинах не составляет большого труда. Мы решили познакомиться с новинкой на примере самой старшей модели: она обладает максимальными тактовыми частотами и содержит встроенное графическое ядро с наибольшим числом шейдерных процессоров. Иными словами, именно эта модификация представляет собой самый быстрый современный процессор AMD. При этом A10-7850K, как и A10-7700K, рассчитана на тепловой пакет 95 Вт. В теории, существует и третья, достаточно любопытная 65-ваттная энергоэффективная модель Kaveri в десктопном исполнении, A8-7600. Но от её тестирования нам пока пришлось отказаться, так как AMD сорвала её поставки в розничную сеть, и она всё ещё остаётся недоступной для обычных пользователей.

Микроархитектура Steamroller

Новая микроархитектура вычислительных ядер Kaveri - это, пожалуй, одно из самых интригующих обновлений, привносимых этим гибридным процессором. После того как предыдущие версии производительной микроархитектуры AMD, Bulldozer и Piledriver, не смогли сравниться по быстродействию с интеловскими Core, улучшение эффективности старших процессоров AMD стали связывать с новой микроархитектурой Steamroller. В ней разработчики обещали постараться ликвидировать главный недостаток «больших ядер» AMD - низкую однопоточную производительность.

Впрочем, даже если микроархитектура Steamroller и представляет собой значительный шаг вперёд по сравнению со своими предшественниками, толку от этого мало. AMD отказалась от её внедрения в производительные многоядерные процессоры, и Steamroller будет использоваться исключительно в четырёхъядерных Kaveri, которые позиционируются компанией как недорогие интегрированные решения. Тем не менее, сама AMD обещает, что на той же самой тактовой частоте новая микроархитектура может предложить примерно 20-процентное улучшение производительности по сравнению с Piledriver. Правда, при этом из-за усложнения дизайна и его мобильной ориентации максимальные тактовые частоты для Steamroller стали ниже, поэтому реальный прирост в скорости работы процессоров, построенных на новой микроархитектуре, оказался совсем небольшим. И здесь не помогло даже внедрение более современной 28-нм производственной технологии.

В итоге, Steamroller следует воспринимать как эволюционное развитие предыдущих микроархитектур Bulldozer и Piledriver – к такому выводу нетрудно прийти, если смотреть и на производительность, и на внутреннее строение. AMD продолжает своё движение по пути оптимизации базовой микроархитектуры небольшими шажками, не затрагивая заложенный c появлением Bulldozer фундамент. Как и ранее, в Steamroller применена всё та же процессорная структура с двухъядерными сплотками и разделяемым 2-мегабайтным кешем второго уровня на каждый такой модуль. Нет никаких нововведений и в системе команд: поддержки AVX2 инструкций в новой микроархитектуре так и не появилось.



Основные же изменения коснулись распределения разделяемых между ядрами одного модуля ресурсов. Дело в том, что изначальная концепция процессоров Bulldozer предполагала реализацию достаточно существенного набора функциональных блоков в двухъядерном модуле в единичном экземпляре. К числу таких разделяемых между ядрами узлов относились блоки выборки и декодирования инструкций, блок операций с плавающей запятой и кеш-память. Подобный подход позволял AMD добиться уменьшения сложности полупроводниковых кристаллов и снижения их тепловыделения, что в конечном итоге и позволяло компании создавать многоядерные процессоры, работающие на сравнительно высоких тактовых частотах. Но обратной стороной такого подхода становилось то, что при многопоточной нагрузке разделяемые ресурсы оказывались узким местом, приводящим к простоям исполнительных устройств и ограничивающим производительность. Как показала практика, наибольшие «заторы» возникали на этапе декодирования инструкций, и в Steamroller разработчики AMD решили исправить этот недостаток и удвоить количество декодеров.

Теперь каждое из ядер, входящих в двухъядерный модуль, получило собственный независимый декодер, способный обрабатывать до четырёх x86-инструкций за такт. К сожалению, первоначальная выборка при этом осталась в сфере ответственности общего на два ядра функционального узла, эффективность и результативность работы которого инженеры AMD попытались улучшить другими мерами. В частности, совершенствованию подверглись алгоритмы предсказания переходов (за счёт роста ёмкости буферов), а также с 64 до 96 Кбайт была увеличена вместимость общего на модуль кэша инструкций первого уровня, степень ассоциативности которого возросла с двух до трёх.



При этом следует понимать, что удвоение числа декодеров со всеми смежными мерами - это лишь ликвидация основного бутылочного горлышка микроархитектуры. Ожидать от Steamroller близкого к двукратному увеличения производительности явно не следует: узкие места всё ещё сохранились на этапах выборки и исполнения инструкций, и их частичное устранение намечено лишь в следующей итерации микроархитектуры – Excavator.

В Steamroller же к изменениям во фронтальной части исполнительного конвейера добавились лишь некоторые мелкие переделки, которые не оказывают существенного влияния на производительность. Так, была проведена балансировка ролей исполнительных устройств в блоке FPU с целью оптимизации их загрузки, а также оптимизирован интерфейс между кеш-памятью первого и второго уровня, что позволило увеличить скорость перемещения данных. Некоторые нововведения в Steamroller вообще направлены исключительно на улучшение экономичности. Например, L2-кеш получил деление на четыре области, имеющие независимое питание, что позволяет отключать его по частям, а в декодерах добавилась очередь микроопераций, при наполнении которой основная логика этих блоков также может обесточиваться.

К сожалению, вместе с увеличением производительности микроархитектура Steamroller существенно нарастила и свою сложность. Число транзисторов, задействованных в одном двухъядерном модуле, с переходом от Piledriver к Steamroller возросло более чем на 60 процентов. Связано это не только с внутренними изменениями в микроархитектуре, но и с вводом новых автоматизированных методов компоновки полупроводникового кристалла. В итоге, внедрение Steamroller заставило AMD отказываться от своей изначальной идеи - компоновки процессоров из большого числа высокочастотных, но простых ядер. Иными словами, выбранное направление развития микроархитектуры можно расценить и как некоторое изменение её основополагающей парадигмы, что на практике вылилось в нежелание AMD использовать Steamroller в многоядерных процессорах класса FX.

Но AMD преподносит Steamroller с большим оптимизмом и говорит о весомости внесённых в микроархитектуру улучшений, не заостряя внимание на том, какой они дались ценой. По данным компании, количество промахов при обращении к L1-кешу инструкций снизилось на 30 процентов, число неправильных предсказаний переходов уменьшилось на 20 процентов, а общая эффективность работы планировщика поднялась на 5-10 процентов. И всё это в конечном итоге приводит к улучшению загрузки исполнительных устройств примерно на четверть.

Обычно мы не принимаем на веру такие заявления производителей. Поэтому, чтобы практически проверить эффективность всех улучшений, сделанных AMD в новой микроархитектуре, мы решили сравнить практическую производительность четырёхъядерных процессоров Richland и Kaveri (построенных на микроархитектуре Piledriver и Steamroller соответсвенно) при их работе на одинаковой частоте 4,0 ГГц. В качестве средства численной оценки быстродействия были выбраны синтетические бенчмарки из диагностической утилиты Aida64 4.30.2907. Попутно на тех же диаграммах приводятся и результаты, демонстрируемые в тестах четырёхъядерным процессором Haswell, работающим на аналогичной частоте 4,0 ГГц с отключенной технологией Hyper-Threading. Для удобства восприятия все результаты нормированы по показателям производительности Richland.



Картина получается весьма унылая. Несмотря на все старания AMD никакого заметного прироста скорости не видно. Среднее увеличение производительности при переходе от Piledriver к Steamroller составляет не более 10 процентов. Причём, существуют и случаи, когда производительность новой микроархитектуры ниже, чем у старой. Такая ситуация наблюдается, в частности, в бенчмарке Queen, который фокусируется на выявлении результативности предсказаний переходов и штрафа, возникающего при ошибках в них. А это значит, что заявления AMD об улучшении эффективности входной части исполнительного конвейера, можно подвергнуть сомнению.

Наилучшее же увеличение производительности, обеспечиваемое внедрением микроархитектуры Steamroller, наблюдается в бенчмарке хеширования. Здесь для теста используется стандартный алгоритм SHA1 и целочисленные варианты векторных инструкций.

Попутно представленная диаграмма позволяет наглядно оценить, насколько AMD со своими микроархитектурами отстала от Intel. Разница в быстродействии Kaveri и Haswell, имеющих одинаковое количество вычислительных ядер и работающих на одной и той же тактовой частоте, – примерно двукратная. Иными словами, внедрение компанией AMD очередной версии своей микроархитектуры ничего не меняет, и с точки зрения вычислительной производительности чётырёхъядерные Kaveri могут рассматриваться лишь в роли конкурентов двухъядерных процессоров Core i3.

Но не будем спешить с окончательными выводами, и посмотрим, как обстоит дело с производительностью вещественночисленного блока FPU.



Здесь преимущество Kaveri над Richland на одинаковой тактовой частоте составляет в среднем 6-7 процентов. На фоне же Haswell процессоры AMD выступают совсем блекло, что совершенно неудивительно, ведь на самом деле в четырёхъядерниках Richland и Kaveri всего два блока FPU.

Всё это наглядно доказывает, что процессоры семейства Kaveri с точки зрения вычислительной x86-производительности интересны не более чем их предшественники. Что бы ни говорила AMD о сделанном микроархитектурном рывке и о возможности сопоставления новинок с четырёхъядерниками конкурента, все такие заявления разбиваются о суровую реальность. Впрочем, о практической производительности Kaveri в общеупотребительных приложениях мы ещё поговорим ниже, а пока давайте обсудим то, что у AMD получается гораздо лучше x86-ядер – встроенный графический ускоритель.

Графическое ядро Spectre

Интегрированное графическое ядро процессоров Kaveri, получившее кодовое имя Spectre, также как и вычислительные ядра, обновило свою архитектуру. Если в процессорах Richland графика базировалась на архитектуре VLIW4, то теперь встроенный GPU имеет новейшую архитектуру GCN 1.1. Это означает, что интегрированный в Kaveri GPU по своим возможностям приведён в соответствие с современными видеоускорителями: он основывается на той же архитектуре, что и видеокарты AMD семейства Volcanic Islands. Конечно, количество шейдерных процессоров в Spectre по сравнению с флагманскими видеокартами Hawaii значительно уменьшено, но, тем не менее, встроенный в Kaveri графический ускоритель относится к классу Radeon R7 и поддерживает все современные программные интерфейсы, включая DirectX 11.2, OpenGL 4.3 и проприетарный интерфейс Mantle.



Никаких принципиальных изменений при переносе архитектуры GCN из видеокарт в гибридные процессоры сделано не было, поэтому основным структурным элементом графики остались вычислительные кластеры (Compute Unit), имеющие по 64 совместимых со стандартом IEEE 2008 шейдерных процессора, массив которых наделён четырьмя векторными и 16 текстурными блоками. В максимальной конфигурации графическое ядро Kaveri может содержать до восьми таких вычислительных кластеров, плюс геометрический сопроцессор и до восьми блоков растровых операций, способных обрабатывать до 8 пикселей за такт или до 32 пикселей – в режиме без цвета.



Таким образом, суммарно графическое ядро Kaveri может иметь до 512 шейдерных процессоров, то есть по этой характеристике новый APU находится где-то между очень неплохими видеокартами среднего уровня Radeon R7 250 и Radeon R7 250X. Всё это позволяет AMD говорить о теоретической суммарной производительности GPU Spectre на уровне 737 Гфлопс. Однако следует напомнить, что игровое быстродействие встроенной в процессоры графики во многом ограничивается пропускной способностью шины памяти, а не мощностью шейдерных процессоров видеоядра. Поэтому, в действительности, производительность Spectre всё же ниже, чем у 100-долларовых дискретных видеокарт.



Впрочем, помимо интерфейса памяти, GPU из процессоров Kaveri по сравнению со своими дискретными собратьями не имеет никаких других архитектурных ограничений. Так, Spectre обрабатывает и растеризует до одного геометрического примитива за каждый такт, имеет увеличенную кэш-память для хранения параметров примитивов и улучшенную производительность геометрических шейдеров и аппаратной тесселяции, для чего в GCN сделаны улучшения в буферизации данных.

Однако главная особенность Kaveri, на которую особенно напирает AMD, это – возможность использования ресурсов графического ядра для вычислений с поддержкой модели разделяемой с x86-ядрами оперативной памяти. Для этой цели в видеоядре в полном объёме присутствует пул из восьми независимых движков асинхронных вычислений, которые могут работать параллельно с графическим командным процессором и обслуживать до восьми очередей команд каждый. Эти движки имеют прямой доступ к кеш-памяти и контроллеру памяти процессора, за счёт чего и реализуется набор технологий, упрощающий организацию гетерогенных вычислений HSA.



Фактически, движки асинхронных вычислений способны работать как отдельные вычислители, и это позволяет AMD на полном серьёзе представлять Spectre как дополнительные восемь процессорных ядер. Для этого компания оперирует собственным определением вычислительного ядра – AMD представляет его как программируемый аппаратный блок, способный выполнять в своём собственном контексте независимо от других ядер по крайней мере один процесс в виртуальной памяти. Но тут, конечно, нужно понимать, что такие вычислительные квазиядра из GPU требуют собственный программный код и могут быть задействованы лишь в специально разработанном программном обеспечении, осуществляющим параллельную обработку данных.

Говоря о смежных возможностях графического ядра Kaveri, нельзя не упомянуть и о том, что в нём, как и в современных видеокартах, присутствует звуковой сопроцессор TrueAudio, предназначенный для создания аппаратно ускоряемых динамических пространственных звуковых эффектов. Кроме того, как и раньше, в процессоре сохранились выделенные движки VCE и UVD для кодирования и декодирования видеоконтента высокого разрешения. При этом их возможности в очередной раз расширены. Номер версии VCE за счёт улучшения качества кодирования путём внедрения B-кадров в цветовом пространстве YUV420 и поддержки цветовой модели YUV444 увеличился до второго. А номер версии UVD возрос до четвёртого: здесь улучшилась устойчивость при обработке видеопотока с ошибками.

Немного о маркетинге: HSA

Раньше было принято ругать маркетинговый департамент компании AMD, который из рук вон плохо справлялся с продвижением новинок и новых технологий. Теперь же ситуация кардинально изменилась, маркетинг AMD умудряется даже пробуждать в пользователях интерес к тем возможностям, которых ещё нет в реальности. Именно такая история произошла и с HSA: в процессоры Kaveri всего лишь заложена аппаратная база для общего доступа к памяти всех типов ядер (и вычислительных, и графического), но AMD взялась рьяно продвигать новую технологию, демонстрируя впечатляющие графики и обещая гигантский рывок в производительности.



Однако на самом деле никакого HSA пока нет. Для внедрения и использования HSA-возможностей помимо аппаратной совместимости требуется создание программной инфраструктуры, а её не существует даже в самом минимальном виде. В первую очередь, AMD пока не выпустила HSA-совместимый драйвер, и поэтому говорить о каком-то общедоступном программном обеспечении сильно преждевременно. Конечно, программы, использующие HSA-возможности, в конце концов, появятся, но произойдёт это, очевидно, не завтра или послезавтра, а значительно позже – тогда, когда процессоры семейства Kaveri, скорее всего, будут уже неактуальны. Сейчас же поддержка HSA в Kaveri может быть интересна лишь разработчикам программ, которые могут получить в своё распоряжение аппаратное средство для отладки своих перспективных продуктов.

Все же существующие на данный момент приложения с поддержкой гетерогенных вычислений пользуются программным интерфейсом OpenCL 1.2, который никакого уравнивания в правах для разных типов ядер не предусматривает. Поэтому с точки зрения обычного пользователя Kaveri – это ровно такой же по возможностям гибридный процессор, как и его предшественники поколения Richland. Тем не менее, учитывая заложенную в Kaveri аппаратную поддержку HSA, пару слов о ней всё-таки следует сказать. Однако не забывайте, здесь мы говорим лишь о том, как всё должно будет работать в отдалённой перспективе.

Итак, основная идея гетерогенных вычислений заключается в том, что многие задачи могут выполняться на параллельных потоковых процессорах графических ядер быстрее и с меньшими затратами энергии, нежели на скалярных x86-ядрах. Комбинируя и те, и другие ресурсы, можно получить универсальную аппаратную базу для эффективного выполнения широкого спектра задач. Однако на ранних стадиях процессоры с гетерогенным дизайном не могли завоевать широкую популярность. Проблема заключалась в том, что для их использования нужны были специальные программы, создание которых вызывало у разработчиков большие трудности. Технологии же семейства HSA способны с одной стороны существенно упростить программирование алгоритмов, работающих в гетерогенной среде, а с другой – увеличить их производительность.



Первая составляющая HSA – технология hUMA (Heterogeneous Uniform Memory Access). В её рамках новые гибридные процессоры могут получить простой путь доступа ко всей системной памяти вне зависимости от того, какой частью APU сгенерирован соответствующий запрос. Иными словами, любое из ядер Kaveri (вне зависимости от того, ядро ли это с x86-архитектурой или графическое ядро) имеет равноценный и простой доступ непосредственно в кэш и системную память. Аппаратная реализация hUMA в Kaveri обеспечивает когерентность кеш-памяти и даёт графическому ядру возможность работать не только с физической, но и с виртуальной памятью в рамках 32-гигабайтного адресного пространства. Иными словами, hUMA убирает любые ограничения и любое разделение памяти на системную и видеопамять.

Вторая важная технология, базирующаяся на HSA и делающая Kaveri по-настоящему гетерогенным процессором, это hQ (Heterogeneous Queuing). Сейчас вся вычислительная нагрузка так или иначе проходит через процессорные ядра, в том числе и та, которая предназначена для решения на графическом ядре. За отправку задач на GPU и контроль их исполнения в любом случае отвечают x86-ядра, что вносит дополнительные задержки. Новый же подход к организации вычислений, hQ, разрешает графическому ядру взаимодействовать с приложением и другими ядрами не под управлением CPU, а напрямую, уравнивая ядра с различной природой в своих правах. Иными словами, hQ стирает грани между ролями CPU и GPU, уменьшает задержки и упрощает параллельную обработку данных разнородными ядрами. GPU, как и CPU, получает право создавать и отправлять вычислительные потоки на исполнение.

С теоретических позиций HSA выглядит многообещающе. AMD рассчитывает, что использование этой технологии станет обычным делом в приложениях для воспроизведения и обработки изображений и видео; в интерфейсах нового поколения, основанных на распознавании голоса, жестов и лиц; а также в играх, где HSA-возможности могут задействоваться при физических расчётах или при моделировании искусственного интеллекта.



Осталось только дождаться появления соответствующих программ, использующих оптимизированный под HSA интерфейс OpenCL 2.0, но оно предвидится не ранее следующего года.

Полупроводниковый кристалл Kaveri и новый техпроцесс

Рассмотрев составные части (CPU и GPU) гибридного процессора Kaveri, логично перейти к комплексному знакомству с ним. И вот на этом уровне, к сожалению, AMD может порадовать своих поклонников не слишком многим. Kaveri, как и их предшественники Trinity и Richland, собраны на базе двух двухъядерных процессорных модулей Steamroller и GPU. Иными словами, гибридные процессоры нового поколения сохраняют в максимальной конфигурации четырёхъядерный дизайн и принципиально превосходят предшественников лишь по оснащённости интегрированного графического ядра Radeon R7. Оно не только несёт новую архитектуру GCN 1.1, но и может располагать набором из 512 шейдерных процессоров, число которых стало на треть больше, чем было в максимальных версиях APU прошлого поколения.
На фоне того, что улучшений в микроархитектуре Steamroller не так много, процессоры Kaveri стали ещё более графически-ориентированными. Если в Richland на долю x86-части приходилось 58 процентов транзисторного бюджета, то в новом Kaveri эта доля снизилась до 53 процентов. Но в целом новый APU стал гораздо сложнее своего предшественника. Прошлые версии гибридных процессоров AMD состояли из примерно 1,3 млрд. транзисторов, полупроводниковый же кристалл Kaveri включает 2,41 млрд. транзисторов. А это даже больше количества транзисторов в процессорах Intel Haswell с графикой GT3, которое ограничивается величиной 1,8 млрд. штук. Так что Kaveri выступают прекрасной иллюстрацией того, что высокая сложность полупроводникового кристалла не обязательно конвертируется в высокую производительность, а вот производственные проблемы создаёт заметные.



Для массового выпуска Kaveri компания AMD прибегла к более современному техпроцессу с 28-нм нормами. Производственным партнёром была выбрана GlobalFoundries, сумевшая перенастроить своё оборудование для выпуска APU. Новый техпроцесс был специально оптимизирован для сверхплотного размещения транзисторов на кристалле и получил название SHP (Super High Performance). При этом от технологии SOI было решено отказаться. В результате полупроводниковый кристалл Kaveri удалось разместить на площади 245 мм2, то есть по физическому размеру он почти эквивалентен 32-нм кристаллу процессоров Richland.


Полупроводниковый кристалл Kaveri


Однако обратной стороной сверхплотного размещения транзисторов стала необходимость снижения их рабочей частоты. Максимальная частота CPU-части Kaveri не превышает 3,7 ГГц, а GPU работает на частоте не выше 720 МГц. Частоты же их предшественников Richland, производимых по 32-нм технологии с SOI, доходили до 4,1 ГГц в части CPU и до 844 МГц – в части GPU. То есть были выше примерно на 10-15 процентов. В качестве компенсации AMD обещает в новых APU некоторое снижение тепловыделения, и для настольных модификаций этих гибридных процессоров предполагаются тепловые пакеты 95/65/45 Вт. Richland же имели максимальное расчётное тепловыделение на уровне 100/65/45 Вт, но модели с 45-ваттным тепловым пакетом в широкую продажу не попадали. Впрочем, как показывает практика, с выпуском энергоэффективных Kaveri всё оказалось тоже не так просто, и пока модели с типичным тепловыделением меньше 95 Вт остаются недоступны.

В итоге, сегодняшний модельный ряд процессоров Kaveri для десктопов состоит всего из двух представителей: AMD A10-7850K и AMD A10-7700K. Обе модели имеют по четыре x86-ядра, но различаются частотами. A10-7850K имеет базовую частоту 3,7 ГГц, а AMD A10-7700K – 3,4 ГГц. Технология Turbo Core способна при низкой нагрузке повышать эти величины до 4,0 ГГц в первом случае и до 3,8 ГГц – во втором. Кроме того, процессоры различаются и количеством шейдерных процессоров. Их максимальное количество заложено лишь в модели A10-7850K, которая обладает 512 шейдерами. Во второй же модели из ряда A10, A10-7700K, возможности GPU урезаны на четверть: число шейдерных процессоров сокращено до 384, то есть до уровня Richland. Частота графического ядра у обеих моделей Kaveri установлена в 720 МГц.

Платформа Socket FM2+

Ещё одной новостью, сопряжённой с выходом процессоров Kaveri, стало появление специально предназначенной для них платформы Socket FM2+, вводящей в употребление новый процессорный разъём. Изначально вся эпопея с его обновлением была затеяна с целью добавления в платформу поддержки DDR4 SDRAM, но в процессе разработки что-то пошло не так, и контроллер памяти Kaveri такую возможность утратил, ограничившись двумя стандартными каналами DDR3 SDRAM. Впоследствии AMD отказалась и от поддержки DDR4 в следующем поколении APU компании, Carrizo, которое должно быть совместимо с Socket FM2+. Поэтому на деле получилось так, что новый процессорный разъём введён в употребление лишь с целью искусственного обновления парка материнских плат.



Вполне закономерно, что Socket FM2+ очень похож на Socket FM2 по внешнему виду и отличается от него лишь расположением контактов-ключей, физически не дающих установить новые процессоры Kaveri в старые материнские платы с Socket FM2. При этом новые платы с Socket FM2+ обратную совместимость со старыми процессорами сохраняют, и в них вполне допускается устанавливать представителей семейств Trinity и Richand. Нет никаких проблем и с использованием с Socket FM2+ платами старых процессорных систем охлаждения - здесь также сохранена полная совместимость.



Слева – Socket FM2; справа – Socket FM2+


Материнские платы с разъёмом Socket FM2+ доступны на рынке уже достаточно давно, и с поиском подходящей платформы для Kaveri у покупателей этих процессоров проблем явно не возникнет. Все такие платы основываются на новых наборах логики семейства Bolton (A88X и A78), которые по спецификациям практически не отличаются от своих предшественников Hudson (A85X и A75).



Новые возможности, предлагаемые материнскими платами с Socket FM2+, ограничиваются поддержкой графической шины PCI Express x16 3.0 и более скоростных вариантов DDR3-памяти - вплоть до DDR3-2400. Но и то и другое, на самом деле, идёт от самих процессоров Kaveri, в которых AMD обновила контроллер шины PCI Express и подтянула параметры контроллера памяти. То есть, при установке в плату с разъёмом Socket FM2+ процессоров прошлых поколений, поддержки графической шины PCI Express x16 третьей версии и DDR3-2400 SDRAM не будет.

Есть лишь одна новая возможность, появившаяся непосредственно в наборах логики A88X и A78. Это – обновлённый SATA RAID контроллер, в котором для массивов уровня RAID 0, собранных из твердотельных накопителей, добавилась поддержка команды TRIM.

Тестовый процессор: A10-7850K

Для проведения настоящего тестирования мы получили в своё распоряжение старший десктопный APU поколения Kaveri – A10-7850K. Его характеристики в сравнении с флагманским гибридным процессором Richland выглядят следующим образом:


Как видно из таблицы, старшая модель линейки Kaveri дороже A10-6800K, но при этом предлагает не слишком много преимуществ. Фактически, она лучше лишь с точки зрения мощности GPU, который не только переведён на новую архитектуру, но и располагает увеличенным количеством шейдерных процессоров. Правда, ограничивать графическую производительность A10-7850K будет не мощность графического ядра, а пропускная способность памяти. Ведь не даром дискретный видеоускоритель Radeon R7 250, который обладает даже меньшим массивом из 384 шейдеров, снабжается GDDR5 SDRAM с пропускной способностью 73,6 Гбайт/с. А у A10-7850K при условии его комплектования двухканальной DDR3-2133 максимальная пропускная способность шины памяти составляет всего лишь 34,1 Гбайт/с.



Частота графики при 3D-нагрузке составляет 720 МГц, а в 2D-режиме в целях экономии она снижается до 350 МГц. Надо сказать, что графика в Richland использовала более высокие частоты, поэтому разница в теоретической производительности AMD A10-7850K и AMD A10-6800K составляет примерно 13 процентов в пользу нового APU (737 против 648 Гфлопс).


С производительностью же вычислительной части, очевидно, дело будет обстоять несколько хуже. Мало того, что новая микроархитектура Steamroller даёт лишь совсем небольшое улучшение в количестве исполняемых за такт инструкций, так ещё и частоты A10-7850K ощутимо ниже, чем у его предшественника. При этом AMD не стесняется устанавливать на свою новинку цену на уровне младших моделей Core i5, что, исходя из всего сказанного выше, кажется слишком много. Впрочем, может быть мы что-то упускаем из вида?



Согласно показаниям диагностической утилиты CPU-Z, A10-7850K при полной нагрузке на все ядра работает с частотой 3,7 ГГц при номинальном напряжении 1,328 В, которое почти не отличается от привычного напряжения питания гибридных процессоров AMD прошлых поколений. Технология Turbo Core работает у Kaveri вполне ожидаемо, поднимая его частоту до 4,0 ГГц при нагрузке на один из двух модулей Steamroller. Приятно, что AMD в Kaveri смогла окончательно разобраться с формулой частоты CPU, и в процессе тестирования при реальной процессорной нагрузке мы не сталкивались со снижением частоты ниже штатных 3,7 ГГц – раньше, как вы помните, такие ситуации возникали. В моменты же простоя при работе энергосберегающих технологий частота A10-7850K падает до 1,7 ГГц. Интегрированный северный мост процессора работает на более низкой, нежели сам CPU, частоте. Она у рассматриваемой модели составляет 1,8 ГГц.

Поставляется процессор A10-7850K во вполне привычной для APU компании AMD коробке, оформленной в красно-чёрных тонах. На коробке обозначено, что процессор относится к серии Black Edition, и это правда – коэффициенты умножения у него разблокированы, так что простой разгон как CPU-, так и GPU-части вполне возможен.


В комплект поставки с процессором входит простенький кулер, состоящий из алюминиевого радиатора и 70-мм вентилятора AVC DESC0715B2U с ШИМ-управлением скорости вращения.



К сожалению, кулер этот нельзя назвать сколь-нибудь подходящим для серьёзных нагрузок. На максимальной скорости, достигающей 4100 оборотов в минуту, его вентилятор ведёт себя шумновато, да и вся эта конструкция справляется с охлаждением A10-7850K только при его работе в штатном режиме.

Как мы тестировали

Процессор AMD A10-7850K, выступающий главным героем настоящего обзора, мы сравнивали не только с его предшественником, но и с конкурирующими предложениями компании Intel, продающимися за сравнимый бюджет. Это значит, что помимо старшего Kaveri из продукции AMD в тестировании приняла участие максимальная модель Richland – A10-6800K. А из интеловских CPU нам пришлось выбрать сразу два варианта Haswell: самый быстрый на данный момент двухъядерник Core i3-4340 и младший четырёхъядерник Core i5-4430. Имейте в виду: по своей стоимости A10-7850K близок к четырёхъядерным процессорам конкурента, но с точки зрения производительности вычислительных ядер мы ожидаем, что он сможет тягаться лишь с Haswell двухъядерной конфигурации.

Во время тестирования графических возможностей A10-7850K нам также пришлось прибегнуть к использованию набора из дискретных видеоускорителей. В их число вошли серийные видеокарты Radeon R7 240 и Radeon R7 250 в вариантах с DDR3 и GDDR5 памятью, производимые компаниями ASUS и Gigabyte.

В итоге, состав тестовых систем включал следующие программные и аппаратные компоненты:

Процессоры:

AMD A10-7850K (Kaveri, 4 ядра, 3,7-4,0 ГГц, 2x2 Мбайт L2);
AMD A10-6800K (Richland, 4 ядра, 4,1-4,4 ГГц, 2x2 Мбайт L2);
Intel Core i5-4430 (Haswell, 4 ядра, 3,0-3,2 ГГц, 4x256 Кбайт L2, 6 Мбайт L3);
Intel Core i3-4340 (Haswell, 2 ядра + HT, 3,6 ГГц, 2x256 Кбайт L2, 4 Мбайт L3).

Процессорный кулер: NZXT Havik 140.
Материнские платы:

ASUS A88X-PRO (Socket FM2+, AMD A88X);
Gigabyte Z87X-UD3H (LGA 1150, Intel Z87 Express).

Память: 2 x 8 GB DDR3-2133 SDRAM, 9-11-11-31 (G.Skill F3-2133C9D-16GTX).
Видеокарты:

ASUS R7250-1GD5 (Radeon R7 250, 1 Гбайт/128-бит GDDR5, 1000-1050/4600 МГц);
ASUS R7240-2GD3-L (Radeon R7 240, 2 Гбайт/128-бит DDR3, 730-780/1800 МГц);
Gigabyte GV-R725OC-2GI (Radeon R7 250, 2 Гбайт/128-бит DDR3, 1000-1050/1800 МГц);
NVIDIA GeForce GTX 780 (3 Гбайт/384-бит GDDR5, 863-902/6008 МГц).

Дисковая подсистема: Intel SSD 520 240 GB (SSDSC2CW240A3K5).
Блок питания: Corsair AX760i (80 Plus Platinum, 760 Вт).
Операционная система: Microsoft Windows 8.1 Enterprise x64;
Драйверы:

AMD Chipset Drivers 13.12;
AMD Catalyst 14.3 Beta 1 Driver;
Intel Chipset Driver 9.4.0.1027;
Intel HD Graphics Driver 15.33.18.64.3496;
Intel Management Engine Driver 9.0.2.1345;
Intel Rapid Storage Technology 12.9.0.1001;
NVIDIA GeForce 335.23 Driver.

Обратите внимание, измерение x86-производительности процессоров мы проводили с использованием видеокарты NVIDIA GeForce GTX 780 Ti. Что же касается тестов со встроенной в процессоры графикой, то им посвящены отдельные разделы данной статьи.

Производительность CPU

Общая производительность

Для оценки производительности процессоров в общеупотребительных задачах мы традиционно используем тест Bapco SYSmark 2012, моделирующий работу пользователя в распространённых современных офисных программах и приложениях для создания и обработки цифрового контента. Идея теста очень проста: он выдаёт единственную метрику, характеризующую средневзвешенную скорость компьютера. С выходом Windows 8 бенчмарк SYSmark 2012 обновился до версии 1.5, и мы теперь используем именно эту адаптированную версию.



А вы ждали чего-то другого? Как было показано выше, микроархитектурные улучшения в x86-ядрах процессоров Kaveri дают крайне незначительное улучшение удельной производительности по сравнению с их предшественниками. А вот частота у A10-7850K заметно ниже, чем у A10-6800K. В результате мы и получаем именно такую картину: новый Socket FM2+ процессор работает в традиционных общеупотребительных приложениях хуже, чем старый. Говорить при таком положении дел хоть о каком-то соперничестве с современными Core i3 и Core i5 совершенно невозможно. Тот итоговый показатель производительности, который выдал в SYSmark 2012 новый четырёхъядерный процессор AMD A10-7850K, превосходят даже интеловские Pentium .

Более глубокое понимание результатов SYSmark 2012 способно дать знакомство с оценками производительности, получаемое в различных сценариях использования системы. Сценарий Office Productivity моделирует типичную офисную работу: подготовку текстов, обработку электронных таблиц, работу с электронной почтой и посещение Интернет-сайтов. Сценарий задействует следующий набор приложений: ABBYY FineReader Pro 10.0, Adobe Acrobat Pro 9, Adobe Flash Player 10.1, Microsoft Excel 2010, Microsoft Internet Explorer 10, Microsoft Outlook 2010, Microsoft PowerPoint 2010, Microsoft Word 2010 и WinZip Pro 14.5.



В сценарии Media Creation моделируется создание рекламного ролика с использованием предварительно отснятых цифровых изображений и видео. Для этой цели применяются популярные пакеты компании Adobe: Photoshop CS5 Extended, Premiere Pro CS5 и After Effects CS5.



Web Development - сценарий, в рамках которого моделируется создание web-сайта. Используются приложения: Adobe Photoshop CS5 Extended, Adobe Premiere Pro CS5, Adobe Dreamweaver CS5, Mozilla Firefox 3.6.8 и Microsoft Internet Explorer 10.



Сценарий Data/Financial Analysis посвящён статистическому анализу и прогнозированию рыночных тенденций, которые выполняются в Microsoft Excel 2010.



Сценарий 3D Modeling всецело посвящён созданию трёхмерных объектов и рендерингу статичных и динамических сцен с использованием Adobe Photoshop CS5 Extended, Autodesk 3ds Max 2011, Autodesk AutoCAD 2011 и Google SketchUp Pro 8.



В последнем сценарии, System Management, выполняется создание бэкапов и установка программного обеспечения и апдейтов. Здесь задействуются несколько различных версий Mozilla Firefox Installer и WinZip Pro 14.5.



Худшую, чем Richland, производительность старший Kaveri показывает практически при любых типах нагрузки. Исключение из этого правила лишь одно – трёхмерное моделирование, да и то, превосходство A10-7850K над A10-6800K в этом сценарии составляет менее 3 процентов. Иными словами, если вас не волнует скорость работы встроенного графического ядра, Kaveri – явно неудачный выбор на фоне своего предшественника. Да и вообще, даже Core i3-4340, который стоит заметно дешевле A10-7850K, способен предложить существенно более высокую производительность в обычных приложениях, характерных для домашних или офисных компьютеров. Всё это недвусмысленно свидетельствует о том, что широкое признание Kaveri как добротному процессору для настольных систем явно не светит.

Игровая производительность

Как известно, производительность платформ, оснащенных актуальными процессорами, в подавляющем большинстве современных игр определяется мощностью графической подсистемы. Однако на Kaveri это не распространяется. Скорость его работы настолько низка, что разницу в частоте кадров в современных играх при использовании быстрой дискретной видеокарты можно увидеть даже при максимальных настройках качества. Поэтому тестирование в играх мы провели лишь единожды – с использованием FullHD-разрешения и высоких настроек качества. Наша высокопроизводительная видеокарта GeForce GTX 780 Ti позволяет увидеть существенные различия в процессорной скорости даже в этом случае.















Полученные в игровых тестах результаты ещё раз подтверждают всё сказанное выше. Вычислительная производительность A10-7850K хуже, чем предлагалась в A10-6800K. Процессор поколения Richland, хоть и основывается на микроархитектуре Piledriver, а не Steamroller, имеет на 10 процентов более высокую тактовую частоту и более агрессивную технологию Turbo Core. Этого вполне хватает, чтобы обеспечить большее количество кадров в секунду в играх при использовании дискретной видеокарты.

Впрочем, всё это в конечном счёте совсем неважно: ни один из современных APU компании AMD для использования в составе игровой системы с дискретной видеокартой совершенно не годится. Ни A10-7850K, ни A10-6800K не сравнимы по игровому быстродействию даже с двухъядерным Core i3-4340. Если вы регулярно читаете наши обзоры, то вряд ли это стало для вас сюрпризом: с невысокой игровой производительностью процессоров AMD мы сталкиваемся каждый раз, когда речь заходит о носителях микроархитектуры Bulldozer или её последователей.

Тесты в приложениях

Скорость финального рендеринга в программах трёхмерного моделирования мы оцениваем в Autodesk 3ds max 2014. В этом пакете мы измеряем время визуализации в mental ray специально подготовленной сложной сцены.



Случаев, где вычислительная производительность современных процессоров Kaveri не вызывает отрицательных эмоций, существует совсем немного. 3ds max 2014, пожалуй, можно отнести к числу приложений, где быстродействие A10-7850K сравнительно неплохо. Пусть новый четырёхъядерник AMD и не дотягивает по скорости до младшего четырёхъядерного Haswell, но он хотя бы не отстаёт от двухъядерного Core i3-4340. Кстати, здесь же можно увидеть положительное влияние микроархитектурных улучшений, сделанных в Steamroller: A10-7850K опережает A10-6800K на целых 18 процентов.

Измерение производительности в текущей версии Adobe Photoshop CC мы проводим с использованием собственного теста, представляющего собой творчески переработанный Retouch Artists Photoshop Speed Test, включающий типичную обработку четырёх 24-мегапиксельных изображений, сделанных цифровой камерой.



В Photoshop же складывается вполне обычная картина производительности. Новый A10-7850K работает не быстрее своего предшественника A10-6800K, от которого он отстаёт на 5 процентов, а в сравнении с процессорами Intel его быстродействие просто позорно. Даже двухъядерный Core i3-4340 опережает старшую четырёхъядерную модель Kaveri на 42 процента.

Производительность в современном пакете для нелинейного видеомонтажа Adobe Premiere Pro CC тестируется измерением времени рендеринга в формат H.264 Blu-Ray проекта, содержащего HDV 1080p25 видеоряд с наложением различных эффектов.



Здесь A10-7850K, построенному на микроархитектуре Steamroller, удаётся немного опередить носителя микроархитектуры Piledriver. Однако в целом ситуацию это не меняет. Четыре ядра от AMD работают заметно хуже современного двухъядерного процессора компании Intel с поддержкой технологии Hyper-Threading. Сопоставлять же AMD A10-7850K с процессором аналогичной стоимости, Core i5-4430, вообще бессмысленно: исходя из реальной производительности, это – CPU разных весовых категорий.

При тестировании в системе распознавания текста ABBYY FineReader 11.0 мы проводим перевод объёмного предварительно просканированного документа, содержащего большое количество формул и графической информации, в текстовый формат.



Мы последовательно тестировали новый Kaveri в очень разных программах, решающих совершенно непохожие задачи. Однако почти нигде нам так и не удалось увидеть, чтобы A10-7850K смог бы показать производительность, сравнимую с Core i5 или хотя бы с Core i3. В частности, при оптическом распознавании символов старший Kaveri проигрывает Core i3-4340 в скорости работы 17 процентов, а Core i5-4430 – 28 процентов. Также новый A10-7850K показывает традиционно худшую производительность, чем его Socket FM2-предшественник, A10-6800K.

Производительность процессоров при криптографической нагрузке измеряется встроенным тестом популярной утилиты TrueCrypt, использующим «тройное» шифрование AES-Twofish-Serpent. Следует отметить, что данная программа не только способна эффективно загружать работой любое количество ядер, но и поддерживает специализированный набор инструкций AES.



А вот она, единственная диаграмма в этом разделе, посвящённом x86-производительности Kaveri, которую могут взять на вооружение поклонники продукции компании AMD. A10-7850K здесь не только демонстрирует на 12 процентов лучшее быстродействие, нежели A10-6800K, но и опережает конкурирующие процессоры Intel.

Для измерения быстродействия процессоров при компрессии информации мы пользуемся архиватором WinRAR 5.0, при помощи которого с максимальной степенью сжатия архивируем папку с различными файлами общим объёмом 1.7 Гбайт.



Не даёт поводов для оптимизма и скорость архивации. Новая микроархитектура Steamroller не компенсирует произошедшее в Kaveri снижение тактовой частоты, поэтому A10-7850K затрачивает на сжатие того же объёма файлов больше времени, чем A10-6800K. Отставание же старшего гибридного процессора AMD от интеловских CPU того же класса доходит до полуторакратного размера.

Для оценки скорости перекодирования видео в формат H.264 использовался тест x264 FHD Benchmark 1.0.1 (64bit), основанный на измерении времени кодирования кодером x264 исходного видео в формат MPEG-4/AVC с разрешением 1920x1080@50fps и настройками по умолчанию. Следует отметить, что результаты этого бенчмарка имеют огромное практическое значение, так как кодер x264 лежит в основе многочисленных популярных утилит для перекодирования, например, HandBrake, MeGUI, VirtualDub и проч. Мы периодически обновляем кодер, используемый для измерений производительности, и в данном тестировании приняла участие версия r2389, в которой реализована поддержка всех современных наборов инструкций, включая и AVX2.



Кодирование видео – ещё одна задача наряду с финальным рендерингом и шифрованием, где процессору A10-7850K удаётся показать лучшее, чем A10-6800K, быстродействие. Более того, старший Kaveri почти дотягивает здесь по своей производительности до интеловского двухъядерника Core i3-4340. На фоне результатов в приложениях других типов – это весьма выдающийся результат для нового процессорного дизайна компании AMD.

Поскольку скорость перекодирования видео «голым» кодером x264 представляет скорее академический интерес, мы измерили и производительность при конвертировании при помощи популярной свободной утилиты Freemake Video Converter 4.1.0. Следует отметить, что эта утилита использует библиотеку FFmpeg, то есть, в конечном итоге также опирается на кодер x264, однако в ней сделаны определённые специфические оптимизации. При тестировании для создания максимальной нагрузки именно на вычислительные ядра процессоров технология CUDA отключалась, однако DXVA-оптимизации оставались активированы.



Freemake Video Converter пока не использует инструкции AVX2, поэтому здесь положение процессоров AMD, их не поддерживающих, ещё лучше. Четырёхъядерник A10-7850K опережает не только своего предшественника, но и двухъядерный CPU семейства Haswell, Core i3-4340. Впрочем, уровень этого преимущества невелик, поэтому говорить, что четырёхъядерные процессоры AMD с очередным обновлением микроархитектуры стали лучше двухъядерников Intel с точки зрения производительности x86-ядер, не приходится.

Производительность GPU

Итак, с самой неприятной для Kaveri частью тестирования покончено. Мы убедились в том, что скорость работы его x86-ядер не выдерживает никакой критики, и теперь попробуем посмотреть на новый APU с другой стороны – со стороны графической составляющей. Здесь A10-7850K должен дать нам поводы для оптимизма. Его графическое ядро имеет очень высокую по меркам процессоров с интегрированным GPU теоретическую производительность. Более того, AMD обещает, что Kaveri может позволить обойтись вообще без какой-либо дискретной видеокарты даже при использовании Socket FM2+ платформ в роли игровых систем. Согласно данным, распространяемым компанией, этот гибридный процессор способен обеспечить приемлемый уровень графической производительности (больше 30 кадров в секунду в FullHD-разрешении) не только в большинстве сетевых проектов, но и в популярных однопользовательских играх.

Давайте посмотрим, насколько эти утверждения соответствуют действительности. Для полноты картины в этом разделе A10-7850K мы сравнивали не только с прочими процессорами с интегрированными видеоускорителями, но и с относительно недорогими дискретными видеокартами: Radeon R7 240 и Radeon R7 250 в вариантах c DDR3 и GDDR5 SDRAM.

Для предварительной оценки относительного быстродействия графического ядра гетерогенного процессора Kaveri мы прибегли к синтетическому бенчмарку Futuremark 3DMark. Из состава пакета использовалось два подтеста: Cloud Gate, предназначенный для определения DirectX 10-производительности типовых домашних компьютеров, и более ресурсоёмкий Fire Strike, нацеленный на DirectX 11-игровые системы.






В том, что графическое ядро процессора A10-7850K имеет хорошую производительность, AMD была права. Как видно по результатам, оно способно составить достойную конкуренцию дискретным графическим картам, оснащаемым DDR3-памятью, не говоря уже об интегрированных GPU всех типов. Наиболее показательны в этом плане индексы производительности, полученные в наиболее требовательном 3DMark Fire Strike. Графическое ядро A10-7850K более чем вдвое опережает GPU класса GT2 из Haswell, в полтора раза превосходит встроенную графику Radeon HD 8670D из процессора A10-6800K и даже немного опережает дискретную видеокарту Radeon R7 250 с DDR3 памятью. Это вполне закономерно, ведь количество шейдерных процессоров у старшей версии Spectre доведено до 512, в то время как Richland и Radeon R7 250 довольствуются массивом из 384 шейдеров.

Однако, судя по всему, сравнительно невысокая пропускная способность двухканальной DDR3 SDRAM, используемой в Socket FM2+ системах, не даёт раскрыться потенциалу графического ядра A10-7850K в полной мере. Видеокарта Radeon R7 250, оснащённая GDDR5 памятью, заметно обходит A10-7850K по производительности, несмотря на то, что её графический движок по спецификациям явно слабее. Совершенно очевидно, что если AMD захочет продолжать наращивать мощность встроенной графики, она в первую очередь должна озаботиться либо переходом на подсистемы памяти с принципиально большей пропускной способностью, либо внедрением в процессор какого-либо объёмного высокоскоростного кэша, как это, например, сделано у конкурента в Intel Iris Pro Graphics.

Впрочем, 3DMark – это сугубо синтетический тест, и делать какие-то общие выводы, опираясь лишь на его показатели, было бы не совсем верным. Потому давайте посмотрим, как проявляют себя встроенные графические ядра в реальных играх. Тесты в них запускались в двух режимах: при полноценном FullHD-разрешении 1920x1080 с низкими или средними настройками качества и при разрешении 1280x720 с выбором среднего или высокого качества. Полноэкранное сглаживание, естественно, не применялось.






Battlefield 4 – один из самых популярных многопользовательских шутеров, который создаёт достаточно серьёзную нагрузку на графические ресурсы. Тем не менее, интегрированное в A10-7850K графическое ядро демонстрирует в нём свою полную состоятельность. Оно вполне способно обеспечить приемлемую играбельность в FullHD-разрешении, а с определёнными оговорками можно даже попробовать задействовать средние настройки качества. Никакие другие интегрированные GPU такого уровня быстродействия не предлагают.

Если же снизить разрешение до уровня 720p, то доступным для A10-7850K станет и высокое качество изображения. Впрочем, обратите внимание, здесь A10-7850K всё-таки уступает дискретным видеокартам класса Radeon R7 250, вне зависимости от того, какой памятью они снабжены. Это наводит на мысль о том, что слабым местом Spectre является не только общая с процессорной частью шина памяти, но и невысокая рабочая частота.






F1 2013 - компьютерная игра в жанре гоночного автосимулятора, разработанная компанией Codemasters и базирующаяся на технологии EGO 3.0, используемой также в семействах DiRT и GRiD. Подобные игры не отличаются слишком высокими требованиями к графической производительности системы, поэтому даже на интегрированной графике F1 2013 можно использовать с высокими настройками качества. И хотя в этом случае графика A10-7850K проигрывает дискретным видеоускорителям класса Radeon R7 250, частоту кадров она выдаёт более чем достаточную. Впрочем, надо признать, что для F1 2013 подойдут и процессоры Haswell с графическим ядром GT2 – они в FullHD-разрешении отстают от A10-7850K всего на 5 процентов. Здесь играет роль то, что F1 2013 процессорозависима, а с быстродействием скалярных x86-ядер дело у Kaveri обстоит, мягко говоря, не очень хорошо.






Metro: Last Light – далеко не новый шутер от первого лица, но его всё ещё можно отнести к числу наиболее требовательных к аппаратным компонентам компьютера. Поэтому здесь мы сталкиваемся с тем, что мощности графики A10-7850K для обеспечения приемлемой частоты кадров в FullHD-разрешении хватает далеко не всегда. Даже при самом минимальном качестве изображения новый APU компании AMD вызовет желание снизить разрешение, например, до 720p, где настройки изображения можно будет улучшить уже до среднего уровня. Судя по всему, корень проблемы, возникшей у A10-7850K с Metro: Last Light в FullHD, кроется в недостаточной полосе пропускания памяти. Так, результат DDR3-версии Radeon R7 250 ещё ниже, а преимущество A10-7850K над A10-6800K составляет всего лишь 6 процентов несмотря на всю серьёзность архитектурных различий между их GPU.






Последний приключенческий боевик от третьего лица, вышедший в серии Tomb Raider, предлагает чрезвычайно насыщенный, реалистичный и богатый графическими эффектами игровой мир. Тем не менее, игра с минимальными настройками неплохо идёт и на интегрированной графике, выдавая приемлемый уровень fps на гибридных процессорах AMD даже в FullHD разрешении. Заслуга же Kaveri здесь в том, что в разрешении 1980x1080 он позволяет выставить даже среднее качество изображения, частота же кадров при этом остаётся на приемлемом уровне. Впрочем, графическая карта Radeon R5 250, располагающая всего 384 шейдерными процессорами, но при этом снабжённая GDDR5 памятью, работает быстрее A10-7850K в полтора раза. Отличие же в производительности нового флагманского APU и его предшественника поколения Richland составляет лишь 6 процентов, что в очередной раз приводит нас к выводу о том, что 512 шейдерных процессоров в Kaveri явно избыточны, а инженерам AMD следовало бы в первую очередь задуматься об оптимизации подсистемы памяти.






Популярнейший многопользовательский танковый аркадный симулятор World of Tanks – одна из тех игр, уровень быстродействия в которой волнует очень многих игроков. И здесь A10-7850K показывает себя достаточно неплохо. Фактически, можно говорить, что мощности встроенной в этот APU графики будет достаточно для комфортной игры в FullHD-разрешении при средних настройках качества. Однако отличие в графической производительности Kaveri от старшего процессора Richland вновь весьма незначительно. И это значит, что главная проблема встроенного в A10-7850K графического движка – недостаточная пропускная способность шины памяти – всплывает и здесь. Так, дискретная видеокарта Radeon R7 250 с меньшей вычислительной теоретической производительностью, но быстрой GDDR5-памятью обеспечивает примерно на 38 процентов более высокую скорость.

Подводя итог тестам графической производительности Kaveri в игровых приложениях, отметим, что скорость A10-7850K действительно оказалась заметно выше скорости всех прочих процессоров с интегрированной графикой. Внедрение архитектуры GCN и увеличение числа шейдерных процессоров позволило добиться примерно 10-процентного преимущества встроенного GPU процессора A10-7850K над A10-6800K. И этого оказалось достаточно для того, чтобы многие игры смогли работать в Socket FM2+ системе на базе A10-7850K без дополнительной видеокарты в FullHD-разрешении даже со средними настройками качества.

Однако, к сожалению, графический движок нового гибридного процессора компании AMD нельзя назвать всеядным. Как показывает практика, некоторые требовательные шутеры в FullHD-разрешении всё-таки просаживают производительность Kaveri даже при самых минимальных настройках. Причём, проблема в этом случае заключается не в недостаточной мощности графического ядра, а в том, что дизайн Kaveri не обеспечивает его памятью с удовлетворительным быстродействием. Двухканальная DDR3 SDRAM сдерживает графический потенциал встроенного GPU Spectre и не даёт ему показать всё, на что он способен.

Гетерогенная производительность

Раньше, говоря о производительности гибридных процессоров, раздельным тестированием CPU и GPU можно было бы и ограничиться. Теперь же ситуация изменилась, так как появился целый пласт задач, которые могут активно задействовать одновременно ядра разного типа. Такие гетерогенные приложения пользуются фрейморком OpenCL 1.1, предлагающим средства для переноса части параллельной вычислительной нагрузки на шейдерные конвейеры графического процессора. AMD считает, что большинство задач для обработки и создания медийного контента вполне способно на распределение нагрузки по всем, предоставляемым современными APU, вычислительным ресурсам, за счёт чего скорость их решений может быть серьёзна увеличена. Собственно, концепция HSA, которая в перспективе может быть внедрена в практическое использование, должна сделать такое совместное использование вычислительных ресурсов CPU и GPU более простым и доступным.

Но на данный момент до внедрения HSA ещё далеко. Тем не менее приложения, которые всё же используют мощности графического ядра для вычислений через OpenCL 1.1, существуют. В их число входят как и свободно распространяемые программные продукты



…так и коммерческое программное обеспечение.



В идеале, мы бы не хотели прибегать к отдельным тестам производительности в задачах, использующих OpenCL. Было бы гораздо лучше, если бы поддержка гетерогенных процессоров появилась в общеупотребительных приложениях, в том числе и тех, которые мы используем для обычного тестирования. Однако такого пока нет: гибридные вычисления внедрены далеко не везде, причём в подавляющем числе случаев OpenCL-ускорение применяется лишь для реализации каких-то конкретных операций, и, чтобы его увидеть, необходимо придумывать специальные тесты. Поэтому исследование гетерогенной производительности стало отдельной и независимой частью нашего материала.

Говоря о том приросте, который может дать вовлечение GPU в вычисления, AMD любит хвастаться результатами синтетических бенчмарков. Оно и понятно: одно дело – переделка уже имеющегося кода, а другое - разработка специальных алгоритмов для решения на параллельных процессорах графического ядра.

Наиболее известным тестом OpenCL-производительности выступает бенчмарк Basemark CL, которым мы и воспользовались при проведении нашего тестирования. Этот тест измеряет производительность APU при решении задач трёх типов: при обработке изображений (при шумоподавлении, сглаживании и увеличении резкости), при физическом моделировании (гидродинамических и волновых процессов, а также мягких субстанций) и при построении фракталов.



То, что специально подобранные задачи при выполнении на параллельных процессорах графического ядра могут получать гигантский прирост производительности, не вызывает никакого удивления. Собственно, Basemark CL и призван показать тот вычислительный потенциал, который скрыт в GPU современных интегрированных процессоров. И у процессоров AMD с мощным GPU он, очевидно, выше. При включении OpenCL-оптимизаций A10-7850K опережает процессоры Intel почти в два раза. Именно на подобные числа и опирается AMD. В мире, где большинство ресурсоёмких приложений будет работать не только на x86-ядрах, но и на параллельных шейдерных процессорах GPU, процессоры AMD могут оказаться лучше предложений конкурента. Вопрос лишь в том, окажемся ли когда-нибудь в этом мире мы.

Давайте теперь посмотрим на ситуацию, складывающуюся в реальных общеупотребительных программах. По традиции тестирование гетерогенных приложений мы начинаем с WinZIP, в прошлой версии которого появилась поддержка OpenCL. Впрочем, сразу же стоит отметить, что, как и в большинстве других случаев из реальной жизни, ускорение средствами графического ядра в WinZIP работает лишь изредка, при сжатии файлов объёмом более 8 Мбайт. Мы же для целей тестирования специально файлы не подбирали, а измеряли время архивации директории с дистрибутивом пакета Adobe Photoshop CC.



OpenCL-ускорение в WinZIP малозаметно и по сути ничего не меняет. Как интеловские процессоры работали быстрее в архиваторах, так и продолжают работать с включением OpenCL-поддержки. Более того, прирост скорости у процессоров Haswell даже больше, чем у Kaveri и Richland.

Экспериментальная поддержка OpenCL появилась в последних версиях офисного пакета Libre Office. В частности, в приложении Calc формульные расчёты могут выполняться с использованием мощностей GPU. Для целей тестирования мы измеряли время пересчёта таблицы с финансовыми данными.



В Libre Office Calc OpenCL-оптимизация пока не отшлифована окончательно, поэтому во многих случаях время производительность при переносе вычислений на GPU не повышается, а падает. Так и произошло в нашем случае. При этом ни при включении поддержки OpenCL, ни при её выключении, процессорам Kaveri не удаётся обойти по скорости работы интеловские Haswell.

Формальная поддержка OpenCL появилась и в популярном графическом редакторе Adobe Photoshop CC. Правда, на самом деле гетерогенные возможности APU используются лишь в работе нескольких фильтров. В частности, AMD рекомендует измерять производительность при выполнении операции Smart Sharpen, которую мы и проделали с 24-мегапиксельным изображением.



Тут всё работает как надо. Скорость работы фильтра Smart Sharpen при задействовании вычислительных мощностей GPU возрастает как на процессорах AMD, так и на интеловских CPU. При этом прирост производительности, который наблюдается в системе на базе Kaveri, выше, чем во всех остальных системах, но в итоге даже с OpenCL-оптимизациями A10-7850K проигрывает и Core i5-4430, и Core i3-4340. Значение быстрых x86-ядер для Photoshop переоценить очень сложно.

Ещё один пример популярного приложения, поддерживающего OpenCL, - это профессиональная программа для редактирования и монтажа видео Sony Vegas Pro 12. При выполнении в ней рендеринга видео нагрузка может распределяться по разнородным ресурсам гибридных процессоров.



Ситуация полностью аналогична предыдущему случаю. Гибридные процессоры AMD получают от включения в Sony Vegas OpenCL-алгоритмов существенный прирост, достигающий 60 процентов, однако это их не спасает от поражения. Во-первых, неплохо ускоряются и интеловские Haswell, графическое ядро которых также имеют поддержку OpenCL, а, во-вторых, даже при задействовании для вычислений встроенных GPU, производительность x86-ядер продолжает играть огромное значение. Иными словами, пока идея AMD о том, что быстрое графическое ядро и программные оптимизации позволят компании превзойти конкурента в производительности в приложениях, не работает.

Попутно хочется затронуть и ещё один аспект, связанный с переносом с x86-ядер на GPU алгоритмов транскодирования видео высокого разрешения. Отдельно обсудить этот пример следует потому, что в процессорах Intel имеется специальный движок Quick Sync, направленный на аппаратное ускорение операций этого типа. У AMD формально существует симметричный ответ – движок VCE, однако на практике он не используется, а существующие утилиты для перекодирования видео опираются на OpenCL-оптимизации. Для проверки того, какой прирост в скорости можно получить в этом случае, мы воспользовались программой MediaCoder 0.8.28. Оценка производительности проводилась с использованием исходного 1080p@50fps файла в AVC-формате из бенчмарка x246 FHD Benchmark 1.0.1, имеющего битрейт около 30 Мбит/с.



Задействование возможностей графического ядра через OpenCL при перекодировании видео позволяет процессорам AMD получить некоторый прирост в быстродействии. Однако конкурировать с Intel Quick Sync бесполезно. Эта аппаратная технология имеет очень высокую эффективность, которая пока недостижима никакими другими средствами.

В итоге, можно заключить, что даже в том существующем программном обеспечении, которое способно переносить часть нагрузки на шейдерные процессоры графического ядра, новые процессоры AMD Kaveri не достигают той производительности, которую могут предложить интеловские Haswell аналогичной стоимости. В теории, внедрение HSA может изменить эту расстановку сил, однако когда оно произойдёт на самом деле, и какой возымеет эффект в реальности, прогнозировать очень сложно.

Энергопотребление

Как показывают тесты, смена поколений гибридных процессоров компании AMD с Richland на Kaveri повлекла за собой не очень заметный прогресс в производительности. Но, кажется, с энергопотреблением и тепловыделением ситуация должна быть совсем иной. Во-первых, AMD при разработке нового процессорного дизайна ставила перед собой другие, более жёсткие, цели по TDP. Во-вторых, при производстве Kaveri применяется более совершенный техпроцесс. И, в-третьих, частоты новых процессоров класса A10 стали ниже, чем у их предшественников. Всё это даёт надежду на то, что новые гибридные APU смогут соперничать с конкурирующими предложениями хотя бы по экономичности. Проверим.

На следующих ниже графиках, если иное не оговаривается отдельно, приводится полное потребление систем (без монитора), измеренное на выходе из розетки, в которую подключен блок питания тестовой системы, и представляющее собой сумму энергопотребления всех задействованных в ней компонентов. В суммарный показатель автоматически включается и КПД самого блока питания, однако учитывая, что используемая нами модель БП, Corsair AX760i, имеет сертификат 80 Plus Platinum, его влияние должно быть минимально. Во время измерений нагрузка на вычислительные ядра процессоров создавалась 64-битной версией утилиты LinX 0.6.5 с поддержкой набора инструкций AVX, FMA и AVX2. Для создания нагрузки на графические ядра применялась утилита Furmark 1.13.0. Для правильной оценки энергопотребления в различных режимах мы активировали турбо-режим и все имеющиеся энергосберегающие технологии: C1E, C6, Enhanced Intel SpeedStep и Cool"n"Quiet.



Потребление современных процессоров в состоянии простоя близко к нулю, так что показатели, приведённые на графике выше, касаются скорее платформ в целом, нежели исследуемых APU. И здесь между платформами LGA 1150, Socket FM2 и Socket FM2+ практически нет различий. Все они демонстрируют хорошую экономичность при отсутствии нагрузки.



Зато при появлении процессорной нагрузки картина возвращается в привычное русло. Процессоры AMD потребляют больше конкурирующих предложений компании Intel, а производительность при этом показывают меньшую. Иными словами, Kaveri так и не смог приблизится к Haswell по показателю удельной x86-производительности в пересчёте на каждый ватт затраченной электроэнергии. Однако движение в правильном направлении не увидеть невозможно. По сравнению со старшим Richland потребление A10-7850K снизилось на целых 11 Вт.



Примерно такое же положение дел наблюдается и при графической нагрузке. A10-7850K потребляет заметно больше процессоров с дизайном Intel Haswell, но существенно меньше своего предшественника серии Richland. Очень похоже, что не увеличение производительности, а снижение энергопотребления – именно та основная задача, которая решалась инженерами AMD при разработке Kaveri.

Особенно впечатляющую картину энергопотребления можно наблюдать при полной и одновременной нагрузке на все ресурсы APU.



Здесь A10-7850K удаётся продемонстрировать лучшую энергоэффективность не только по сравнению со своим предшественником, но и на фоне четырёхъядерного процессора конкурента, Core i5-4430. Более того, старший четырёхъядерный Kaveri вплотную приблизился по своему энергопотреблению к двухъядерному Haswell.

Но постойте… Получается, что потребление A10-7850K при нагрузке только на x86-ядра и в случае задействования и вычислительных, и графических ядер почти не отличается. Как такое может быть? Да очень просто! Оказывается, в Kaveri производитель жёстко ограничил максимальное энергопотребление. И если работа ложится на все ресурсы процессора одновременно, частоты CPU и GPU сбрасываются, и очень даже существенно.



Частота CPU-части сбавляется до 3,0 ГГц, а графическое ядро периодически «роняет» свою частоту со штатных 720 МГц до 650 МГц. Именно поэтому максимальное энергопотребление Socket FM2+ платформы на базе A10-7850K ограничивается в тестах величиной 116 Вт.

Снижение частот при нагрузке – хороший приём для удержания энергетических аппетитов APU в заданных рамках. Однако при этом сильно страдает пиковая гетерогенная производительность, которой, кстати, так гордится AMD. Факты нам говорят о том, что заявления о максимальной обобщённой производительности A10-7850K на уровне 856 Гфлопс – это ложь, так как графическое и вычислительные ядра Kaveri одновременно на своей номинальной частоте работать не могут. Реальный показатель пиковой производительности для A10-7850K из-за снижения частот находится в районе 760 Гфлопс.

И, кстати, увиденное нами падение частоты – явление, с которым, вполне возможно, вскоре придётся сталкиваться достаточно часто. Внедрение гетерогенных вычислений как раз и предполагает одновременное и совместное функционирование всех ресурсов гибридного процессора, то есть создаёт именно те условия, при которых ядра Kaveri на номинальных частотах не работают.

Разгон

Старшая модель Kaveri, A10-7850K, формально относится к числу оверклокерских моделей, обладающих разблокированными множителями, - на это недвусмысленно указывает литера K в конце модельного номера и слова «Black Edition», которые указаны на коробке с APU. Но в данном случае это скорее дань традиции, нежели реальная сильная сторона новинок. Новый применяемый для изготовления Kaveri 28-нм техпроцесс совершенно не способствует появлению у этих APU нераскрытого частотного потенциала, и, более того, именно из-за него рабочие частоты A10-7850K стали ниже, чем у A10-6800K. Поэтому новые гибридные процессоры должны гнаться хуже своих предшественников, которые оверклокерскими возможностями тоже не блистали.

Это подтвердилось и на практике. Максимальной частотой, при которой наш экземпляр A10-7850K, с одной стороны, сохранял стабильность, а с другой - не снижал свою скорость из-за превышения предельной температуры, оказалась 4,4 ГГц. Напряжение питания на процессоре при этом пришлось поднять до 1,44 В.



Вместе с традиционной процессорной частью A10-7850K позволяет разогнать и встроенное в нём графическое ядро. В процессе испытаний с увеличением напряжения на северном мосту процессора до 1,3 В нам удалось добиться стабильности GPU при повышении его частоты в BIOS материнской платы до 900 МГц.


Процессор A10-7850K позволяет слегка разогнать в том числе и память. Однако максимальный режим, поддерживаемый контроллером Kaveri – DDR3-2400, и это – аппаратное ограничение. Досадно, но высокоскоростные режимы DDR3 SDRAM , доступные в LGA 1150-системах, в новой платформе AMD не работают. А ведь они вполне могли бы заметно улучшить скорость графического ядра, которому ой как не хватает быстрой памяти…

В результате проведённых испытаний, при одновременном разгоне CPU, GPU и DDR3 SDRAM нам удалось добиться повышения показателя 3DMark Fire Strike до 1785 балов. То есть, итоговая производительность разогнанной системы по сравнению с её изначальным состоянием выросла на 15 процентов.



Получается, что в целом процессоры Kaveri для оверклокерских экспериментов подходят не слишком здорово. Их разгонный потенциал кажется ограниченным даже на фоне APU прошлого поколения, Richland, которые позволяли увеличение частоты процессорной части где-то до 4,7-4,8 ГГц, а разгон графического ядра – до 1,2 ГГц. Новый же микроархитектурный дизайн ядер и 28-нм техпроцесс не только не дали никаких улучшений в оверклокерском потенциале, но и заметно ухудшили его.

Выводы

Да, в Kaveri есть некий набор новых технологий и улучшений, например, реализована аппаратная база для внедрения HSA, но обо всём этом можно говорить лишь в будущем времени и в теоретическом ключе.
Продвигая Kaveri на рынок настольных систем, маркетинговый департамент AMD предъявляет сразу несколько козырей. В их числе: имеющая более высокую чем раньше эффективность микроархитектура Steamroller; построенное на архитектуре GCN быстрое графическое ядро; поддержка спецификации HSA, которая должна посодействовать переходу индустрии на гетерогенные вычисления; и всё это вместе – по доступной цене.



Но на самом деле все эти козыри очень спорны. Новая микроархитектура Steamroller дала крайне незначительный прирост производительности, который полностью нейтрализовали пониженные частоты новых процессоров. В результате, старшие десктопные Richland с точки зрения x86-производительности работают даже быстрее, чем новые Kaveri.

Новое графическое ядро, безусловно, получило очень неплохую потенциальную мощность, однако она оказалась скована низкой пропускной способностью подсистемы памяти. В A10-7850K по сравнению с A10-6800K AMD имеется на треть больше потоковых шейдерных процессоров, а реальная игровая производительность выросла лишь на 10 процентов. Конечно, мы не можем отрицать, что GPU в Kaveri превосходит любые другие встроенные графические ядра десктопных процессоров. На сегодня графическая производительность A10-7850K не доросла до того уровня, чтобы позволить получить приемлемую производительность в FullHD-разрешении с низкими настройками качества во всех без исключения игровых проектах. Хотя, во многих популярных играх, в том числе и сетевых, A10-7850K выдаёт вполне приемлемую частоту кадров в 1920x1080 даже с выбором картинки среднего качества.

Что же касается HSA, то подразумевающиеся этой спецификацией технологии hUMA и hQ кажутся очень интересными и перспективными, но пока они существуют лишь на бумаге. Для того, чтобы мы смогли почувствовать их эффект на практике, должно пройти ещё немало времени. Тот же вариант гетерогенных вычислений, который возможен сегодня, не делает процессоры Kaveri быстрее конкурирующих предложений Intel. Во-первых, поддержка OpenCL в большинстве случаев реализуется в современных программах исключительно в каких-то частных случаях. Во-вторых, прирост скорости от её включения получают не только APU компании AMD, но и интеловские процессоры, что в общей картине относительной производительности ровным счётом ничего не меняет.

К сожалению, при всём этом AMD серьёзно завысила стоимость A10-7850K, противопоставив его младшим процессорам Core i5, которые на самом деле значительно быстрее почти во всех случаях, кроме тех, когда речь идёт об использовании встроенной графики. Возможно, устанавливать A10-7850K может быть интересно в компактных игровых системах начального уровня.

Обзор APU AMD A10-7890K | Введение

Что делать, если вы анонсировали новую технологию, но пока не готовы выпускать продукцию на ее основе? AMD как раз в такой ситуации: процессоры Summit Ridge и Bristol Ridge в ближайшее время не появятся, так что компании нужно чем-то разбавить образовавшийся застой.

Эту задачу призван осуществить новый APU AMD A10-7890K . По сравнению с A10-7870K он нарастил тактовую частоту на 200 МГц и получил в комплекте мощный кулер Wraith. Процессор ориентирован на тех, кто много играет в онлайн игры и не особо нуждается в дискретной графике.

Архитектуру Kaveri и ее маленькое ответвление под названием Godovari можно назвать полностью зрелой, но AMD решила выйти с ней на бис. Скорее всего, это стало возможно благодаря небольшим улучшениями техпроцесса 28 нм, что вполне правдоподобно, учитывая большой и длительный опыт AMD с данными APU и их архитектурой.

Помимо того, можно связать увеличение базовой тактовой частоты APU AMD A10-7890K до 4,1 ГГц и пиковой частоты Turbo Core до 4,3 ГГц с появление кулера Wraith, который поставляет в комплекте с чипом. Он значительно повышает эффективность охлаждения по сравнению со старым штатным радиатором и вентилятором.


Кулер AMD Wraith разработан с учетом тепловыделения процессоров с тепловым пакетом 125 Вт. Следовательно, он должен без проблем охлаждать APU AMD с TDP 95 Вт (на практике в некоторых наших тестах модель APU AMD A10-7890K перешагивала порог в 125 Вт).

Благодаря приросту тактовой частоты новый APU предлагает теоретическую вычислительную мощность 1,02 TFLOPS без графической нагрузки. Для этого параметра у нас есть специальный тест, который покажет, почему APU от AMD так трудно добиться хорошего баланса в работе центрального и графического процессоров.

Прежде чем мы познакомим вас с нашим тестовым ПК, который был сконфигурирован специально для чипов AMD, давайте посмотрим характеристики семейства процессоров AMD x86 на архитектуре Steamroller:

APU AMD A10-7890K AMD A10-7870K AMD A10-7860K AMD A8-7670K AMD A8-7650K AMD A6-7470K
Поколение Godavari Kaveri Godavari Kaveri Kaveri Godavari
Кол-во ядер/потоков 2/4 2/4 2/4 2/4 2/4 1/2
Базовая частота, ГГц 4,1 3,9 3,6 3,6 3,3 3,7
Частота Turbo, ГГц 4,3 4,1 4 3,9 3,8 4
Кэш L2, Мбайт 4 4 4 4 4 4
Графическое ядро GCN
Radeon R7 Series
GCN
Radeon R7 Series
GCN
Radeon R7 Series
GCN
Radeon R7 Series
GCN
Radeon R7 Series
GCN
Radeon R5 Series
Кол-во шейдерных ядер 512 512 512 384 384 256
Тактовая частота GPU, МГц 866 866 757 757 720 800
TDP, Вт 95 95 65 95 95 65

Обзор APU AMD A10-7890K | Собираем ПК для онлайн игр

Испытания на открытом тестовом стенде со временем наскучивают, так что мы решили собрать на базе тестируемого APU недорогой ПК, предлагающий оптимальную производительность для таких игр как Dota 2. Эта система будет использоваться как основа для всех сегодняшних тестов.

Мы остановились на системной плате формата ATX, поскольку нам не удалось подобрать подходящую альтернативу с учетом выдвинутых требований. Оказалось не так просто найти компактную платформу с процессорным разъемом Socket FM2+ и портом DisplayPort. DisplayPort, как вы уже поняли, нужен для тестирования технологии FreeSync. Наш 24-дюймовый монитор AOC G2460PF идеально подходит для такой системы.

Если FreeSync вам не нужна, есть неплохие альтернативные варианты матплат. К примеру, можно найти плату формата mini-ITX по цене до $50 для компактных систем.

Было принято решение установить железо в корпус Aerocool GT-RS ATX Cube. Это относительно недорогой корпус с двумя камерами, по форме напоминающий нечто среднее между "Средней башней" и "Кубом". Розничная цена составляет $75 и в целом подходит для бюджетных систем и ПК среднего класса.

Завершает наш легкий игровой ПК недорогой SSD от Crucial емкостью 240 Гбайт и DVD-привод, который можно установить вертикально. Такая конфигурация или ее разновидности, должна идеально подойти геймерам, предпочитающим не очень ресурсоемкие онлайн игры, при условии, что пользователи понимают ограничения APU AMD и готовые с ними мириться. Ниже мы расскажем более подробно об этих ограничениях.

Обзор APU AMD A10-7890K | Разгон и энергопотребление

Разгон: CPU, GPU или оба?

На сегодняшний день мы можем с уверенностью сказать, что вы можете разогнать ЦП до 4,5 ГГц без потери стабильности, но это не даст увеличения производительности, если чип используется как APU, то есть задействуется встроенное графическое ядро.

Гораздо важнее, что есть возможность разгона интегрированного GPU со штатной частоты 866 МГц до 1040 МГц и даже больше. Прирост графической производительности не только впечатляет в цифрах, но и чувствуется субъективно, особенно в паре с быстрой оперативной памятью DDR3-2400.

Энергопотребления в различных сценариях

Сначала мы измеряем потребляемую энергию в различных задачах. Не трудно заметить, что APU может превышать предел в 125 Вт, когда GPU простаивает. Но чтобы довести APU AMD A10-7890K до 128 Вт потребляемой мощности нам потребовался стресс-тест Prime95. В реальных приложениях, нагружающих все четыре потока (мы проверили это с помощью фотоэлектрического моделирования, включающего солнечное излучение и затенение), пиковая потребляемая мощность может достигать 123 Вт при средних значения в районе 117 Вт. Заявленный AMD тепловой пакет в 95 Вт здесь явно превышен, причем процент превышения довольно большой.

Можно предположить, что показатели энергопотребления в играх будут еще выше, поскольку работает не только хост-процессор, но и графическое ядро. Однако в действительности мы наблюдаем противоположный эффект. Показания потребляемой мощности снизились до 90 – 100 Вт.

Потребляемая мощность APU A10-7890K в различных приложениях, Вт (меньше - лучше)

Чтобы понять эти противоречащие на первый взгляд результаты, необходимо разобраться, как APU регулирует энергопотребление. Когда GPU начинает потреблять слишком много энергии, например, около 50 Вт, так называемая функция Power Control существенно сокращает потребление ЦП. Это достигает за счет значительно понижения тактовой частоты хост процессора.

Мы попробуем продемонстрировать это с помощью записи изменения тактовой частоты во время игрового теста. Обещанная AMD базовая частота 4 ГГц падает до 3 ГГц, причем на ускорение посредством Turbo Core можно не надеяться. Не поможет и ручной разгон ЦП в BIOS. Как только активизируется GPU, частота ЦП снижается.

Изменение тактовой частоты APU A10-7890K в игре Counter Strike: Global Offensive, МГц (больше - лучше)

График выше наводит на мысль, что мы вряд ли увидим разницу в производительности между A10-7870K и APU AMD A10-7890K в играх. Преимущество по тактовой частоте последнего исчезает, как только в работу включается графическое ядро.

Любопытно, что разгон интегрированного GPU не влияет на частоту ЦП. Вот почему мы ставим ударение на разгоне ядра Radeon вместо ЦП.

Посмотрим на показатели энергопотребления APU AMD A10-7890K в различных сценариях:

Энергопотребление APU A10-7890K в различных приложениях, Вт (меньше - лучше)

Между A10-7870K AMD и APU AMD A10-7890K в действительности есть только одно большое отличие. APU последнего поддерживает более высокий устойчивый разгон графического процессора. Однако у нас только два образца для тестов, поэтому мы не можем с уверенностью сказать, связано это с улучшениями производственного техпроцесса или нам просто попался удачный чип.

В таблице ниже приведены характеристики нашего ПК для онлайн игр:

Тестовая конфигурация
Метод тестирования Безконтактное измерение тока на слоте PCIe (с помощью карты расширения)
Безконтактное измерение тока на внешнем кабеле итания БП
Прямое измерение напряжения на блоке питания
Мониторинг и запись инфракрасной видеокамерой в реальном времени
Оборудование для тестирования 2 x Rohde & Schwarz HMO 3054, 500 МГц (четырёхканальный осциллограф с функцией записи данных)
4 x Rohde & Schwarz HZO50 (токовые клещи)
4 x Rohde & Schwarz HZ355 (осциллографический пробник 10:1, 500 МГц)
1 x Rohde & Schwarz HMC 8012 (мультиметр с фукнцией записи данных)
Тестовая система Intel Core i7-6700K, MSI Z170A Gaming M7
Core i3-4160, MSI Z97A Gaming 6
Штатный кулер Intel
2x 8GB Corsair Dominator DDR3-2133
Тестовая система AMD AMD A10-7890K, AMD A10-7870K, AMD A10-7850K
Кулер Wraith
Asus A88X-Pro
2x 8GB Radeon Memory DDR3-2400
1x Crucial BX200, 240GB SSD
Kolink KL 400 80 PLUS Bronze
Aerocool GT-RS ATX Cube
Windows 10 Pro (со всеми обновлениями)
Драйверы AMD: Radeon Software 15.301 B35 (Press Beta Driver, февраль 2016)
Intel: Beta 15.40.18.4380, 09.02.2016

Комплектующие от Intel мы использовали в целях сравнения результатов.



Загрузка...