Настройка системы с АМД феном 2.
(мануал буст мануал)

Содержание.

Вступление.
1. Бульдозер, как двигатель прогресса (долго и не по существу дела).
2. Конфигурируем феном.
3. Итог.


Даже самые дешевые процессоры АМД для AM3 несмотря на заблокированный множитель можно конфигурировать весьма в широких пределах.

Примерно так я выглядел каждый раз, когда открывал новые возможности по конфигурации системы

При разгоне процессора любого производителя многое зависит от конкретной матплаты и главное, от конкретного экземпляра процессора - это всегда лотерея, разгон не гарантируется. Согласимся, что лотерея, но даже в ее пределах где-то изменять параметры системы легко, а где-то просто невозможно.

Еще много зависит от умения и желания человека, поскольку "разгон одной кнопкой" или автоматическое конфигурирование не предусмотрено, что для "простых", т.е. неопытных пользователей делает все эти возможности скорее теоретическими, чем практическими, с другой стороны, за них и не заплачено.

Прошло достаточно много времени, прежде чем мне самому удалось продвинуться в этом вопросе, причем не продвигался я по самой банальной причине - хватало существующей производительности.

1. Бульдозер, как двигатель прогресса.

1.1 Выход бульдозера и хеллоуин-рассказы про него перевели меня в состояние глубокой задумчивости, поскольку не понятно ни одной выгоды от выявленных тестами ухудшения свойств полу-ядра по сравнению с ядром фенома, так как полу-ядро не может задействовать выделенные ресурсы второго полу-ядра при работе на одном потоке, а свои ресурсы почему-то слабые, то отсутствует та самая конфигурабельность, которая иногда выгодно отличает систему на базе АМД от Интела.

На сегодняшний момент АМД оставалась единственной компанией, которая могла предложить систему ПК в своем классическом виде (открытые интерфейсы, расширяемость и конфигурирование), т.е. не убирала именно поголовно из всех своих чипсетов "все, что не нужно домохозяйкам или пользователям офиса, которые составляют 90% рынка" (так и хочется спросить - как сделать компьютер для того, кому не нужен компьютер, потому что он не знает как использовать его возможности и их приходится прятать?).

Производители не торопятся декларировать обновление биосов для всех am3 сокетных плат для поддержки бульдозера, что еще один минус в адрес как амд, так и конкретных производителей, поскольку ранее ближайшие сокеты совмещались полностью, требовалось только добавить микрокод для распознавания процессора.

1.2 Сравнение бульдозера с интелом сделать трудно, поскольку амд не предлагает тестов в открытом виде, которые бы после компиляции выполнялись не медленнее, чем на интел, а сравнение имеющихся закрытых тестов
неизвестные тесты по скорости памяти
показывает, что у бульдозера во-первых, странный кэш или доступ к нему. С таким кэшем при прочих равных условиях он будет проигрывать интелу на всех приложениях, которые имеют хорошую локальность, т.е. долго работают на одном участке памяти.

L3 много, входов нормально, но если он, в отличие от фенома, хоть как-то прощупывается при пальпации на чтение, фактически, как и в феноме, только убирает латентность памяти, это конечно само по себе неплохо и разгоняется этот кэш в феноме до 30%, но пиковая пропускная способность L3 низкая, и с учетом записи равна пропускной способности памяти.

L2 нормально, входов нормально, но он медленней интела. Также L2 в бульдозере имеет отдельное значение, поскольку L1 данных у него "со сквозной записью" (L1 Cache: 16 KB, 4-way associative, write-through), увидев это я радостно вспомнил времена 386/486 машин, у которых был такой кэш и как гордо тогда заявляли производители о своем новом кэше с отложенной записью, прогресс не стоит на месте :). То, что L1 данных "со сквозной записью" меняет требования к скорости L2 кардинально, для такой конфигурации L2 в бульдозере безобразно медленный.

Возможно, что в обзорах под "сквозной записью" подразумевалось что-то иное, например инклюзивность, но термин был применен именно в традиционном значении, который не предполагает различий в кэшах обоих уровней до и после выполнения операции записи в кэш первого уровня. Фактически такой кэш должен использоваться только для read-only памяти, например, для сегментов кода, для данных это очень плохо, хотя и лучше, чем совсем без кэша.

Когда разговор идет о кэше L1 современных процессоров, надо быть осторожным, поскольку вообще непонятно что и как там хранится, но самые общие соображения говорят о том, что число входов не должно быть мало и размер должен быть достаточным.

1.2.1 Кэша должно быть много либо он должен быть быстрым, оба варианта в среднем по производительности будут равны, если не брать самые крайние случаи совсем мало очень быстрого или очень много, но очень медленного. Быстрый кэш на большой локальности будет обгонять, но отставать на большом количестве нитей или используемой нитью памяти.

Сколько это нормально и достаточно в числах? Ну, не меньше чем на моделях предшественников, чтобы не ударить в грязь лицом перед тем, что снято с производства. Я не поленился и порылся в данных процессоров близких к временам кэша "со сквозной записью". В наихудшем для фенома и бульдозера вариантах использования:

CPU		L1d 	L1c	L2	L3
старый		16/4 	16/4 	256/8	-
феном	Х4	64/2	64/2	512/16	1500/12
бульдозер	16/4wt	64/1	1024/8	1024/8

И феном и бульдозер в L1 явно пострадали по числу входов L1, фактически по числу независимо распределенных участков памяти, которые можно закэшировать.

А кэш L1 это быстрый вариант управляемого кэша, который имеет особое значение, поскольку программисты, которые пишут не на системно независимом Джава, уже смирились с тем, что память неоднородна и могут использовать технику вида: предвыборка строки кэша + работа с ней, для которой недостаток входов может приводить к постоянному кэш-промаху, при выполнении нескольких потоков на одном ядре также возрастает потребность в числе входов.

Все это (пункт 1.2.1) разговоры философские, однако по аналогии ясно, что L2 не может заменить L1 если работает на более низкой скорости, вот график для фенома в одной из загруженных конфигураций
тест кэш-памяти фенома под нагрузкой
который показывает разницу скоростей для уровней кэша данных: 25,15,10 Гбайт/с соответственно. Программа, которая правильно уложит данные в L1 фенома будет работать в 1.5-2.5 раза быстрее при прочих равных.

Тесты с закрытым кодом всегда будут вызывать вопросы о достоверности. В данном случае я приведу в пример аналогичный график для атлона в одной из загруженных конфигураций
тест кэш-памяти атлона под нагрузкой
который показывает разницу скоростей для уровней кэша данных: 25,15,5 Гбайт/с соответственно.

Сравнением двух графиков мы обнаруживаем, что у фенома L3 кэш удваивает скорость доступа к находящейся в L3 памяти (10 Гбайт/с вместо 5 Гбайт/с), т.е. хорошо заметен на фоне доступа к обычной памяти, что качественно не соответствует используемой таблице из пункта 1.2 для сравнения памяти бульдозер/феном/интел.

В качестве развлечения сделаем простой тест памяти с открытым кодом cctc.zip и готовый исполнимый файл cctc.exe (для выполнения могут понадобиться бесплатые библиотеки или сам vc2010/vc2013 с сайта Майкрософт).

Это качественный (а не количественный) тест, который пытается обнаружить влияние L1,L2,L3 кэша на доступ к памяти, и сравнить это влияние в принципе, абсолютные значения тестов не могут быть использованы, это связано с погрешностями измерений интервалов и погрешностями вычислительных действий над ними, т.к. не приняты никакие меры по улучшению точности.

Вот пример работы

>cctc.exe -p2
CPU cache test
FSB: 2.620000e+008
CPU_mult: 1.350000e+001
test pattern: '2'
Select CPU assignment for the program and press a key when ready...
pass: block size: clc: seconds: transfer rate
01:     2K: 4.148178e+004: 3.752946e-004s:        170532.70Kb/s (     166.54Mb/s,   0.16Gb/s )
02:     4K: 8.607897e+004: 7.301015e-004s:        164360.71Kb/s (     160.51Mb/s,   0.16Gb/s )
03:     8K: 1.661562e+005: 1.315344e-003s:        170297.61Kb/s (     166.31Mb/s,   0.16Gb/s )
04:    16K: 3.288461e+005: 2.417302e-003s:        172092.67Kb/s (     168.06Mb/s,   0.16Gb/s )
05:    32K: 6.699504e+005: 4.545889e-003s:        168943.86Kb/s (     164.98Mb/s,   0.16Gb/s )
06:    64K: 1.745725e+006: 1.085834e-002s:        129669.94Kb/s (     126.63Mb/s,   0.12Gb/s )
07:   128K: 3.681056e+006: 2.081457e-002s:        122990.78Kb/s (     120.11Mb/s,   0.12Gb/s )
08:   256K: 7.489802e+006: 3.811604e-002s:        120893.98Kb/s (     118.06Mb/s,   0.12Gb/s )
09:   512K: 2.240409e+007: 1.013473e-001s:         80830.97Kb/s (      78.94Mb/s,   0.08Gb/s )
10:  1024K: 4.963850e+007: 1.964770e-001s:         72965.29Kb/s (      71.26Mb/s,   0.07Gb/s )
11:  2048K: 1.000993e+008: 3.396075e-001s:         72365.90Kb/s (      70.67Mb/s,   0.07Gb/s )
12:  4096K: 3.110647e+008: 8.794593e-001s:         46574.07Kb/s (      45.48Mb/s,   0.04Gb/s )
13:  8192K: 9.442160e+008: 2.135631e+000s:         30686.95Kb/s (      29.97Mb/s,   0.03Gb/s )
14: 16384K: 2.188540e+009: 3.712535e+000s:         26478.94Kb/s (      25.86Mb/s,   0.03Gb/s )
15: 32768K: 4.634060e+009: 5.240667e+000s:         25010.56Kb/s (      24.42Mb/s,   0.02Gb/s )
16: 65536K: 9.358919e+009: 5.292010e+000s:         24767.91Kb/s (      24.19Mb/s,   0.02Gb/s )
Это файл результатов выполнения "cctc.exe" для двух процессоров на am3 и на 1156, можете сравнить со своими результатами для "cctc.exe".

Чтобы скомпилировать тест в vc2010 надо сделать новый проект как консольное приложение win32 и вставить в главный файл (совпадает с именем проекта, имеет расширение cpp, в нем в первой строке сверху может быть написано "определяет точку входа для консольного приложения") нового проекта (после строки с #include "stdafx.h") содержимое из исходника "cctc.cpp" (тоже после #include "stdafx.h"). А в файл "stdafx.h" нового проекта содержимое из исходника "stdafx.h" (после строки с #pragma once).

Экспресс выпуск vc2010 для легальной копии ОС windows можно скачать у Майкрософт бесплатно (Раскройте ваш творческий потенциал!).

2. Конфигурируем феном.

И при чем тут бульдозер? А притом, что я подумал, а что можно выжать из фенома, в пику такому бульдозерству?

Я обратил внимание на свой атлон 2 x3 2700МНz, который уже был до этого успешно разлочен asrock платой до фенома 2 х4 2700МНz. Разлочивание заключалось только в установке в БИОСе опции ACC в [авто], после чего к процессору добавился кэш и ядро.

Вот данные процессора

adx425wfk32gi
CACYC AC 0939EPAW
9a56524j90327

За месяцы эксплуатации для некритических задач существенных проблем (для разогнанного процессора) не выявилось, компьютер сбоил не чаще раза в месяц, но точную причину не установить.

Попался удачный экземпляр, несмотря на низкую частоту. Вообще, при незаблокированном вниз множителе нет никакого смысла брать процессоры с малой гарантированной частотой, кроме экономии денег.

Мои прикидочные рассчеты показывали, что брать процессор с числом ядер меньше трех невыгодно, а для ядер без гипертрединга и нежелательно, поэтому у меня при покупке медленный атлон x3 победил быстрый феном x2 с доплатой менее 10 уе (ядро победило кэш+10уе).

Куда больше хлопот доставило программное обеспечение, которое долго не работало как надо и злило меня (страшно вспоминать все те горькие слова, которые были сказаны в адрес АМД, asrock и майкрософт), пока я не адаптировался к нему (оно в общем и целом адаптироваться ко мне не стало).

2.1 Нормальные герои всегда идут в обход.

Но. Прежде чем разогнать процессор надо что? Правильно. Сначало надо его затормозить.

Нет, не только для того, чтобы разгон смотрелся эффективнее, на контрастах или чтобы проверить тормоза. С исторической точки зрения, прежде чем появился бульдозер и мой атлон стали разгонять, его сначала затормозили.

Как оказалось, этот атлоно-феном процессор обладает феноменальной способностью выделять тепло. Там где тепло, там вентиляторы, там где вентиляторы, там шум, а там где шум, там нет места творчеству.

Чтобы дать творчеству дорогу, пришлось пересадить все вентиляторы на пониженное питание. И тут-то я узнал, что энергоэффективость это материя.

Для этого процессора мне пришлось приобрести (назовем это так) специальный корпус, который состоит в основном из вентиляционных отверстий, в предыдущем доисторическом корпусе провентилировать все выделяемое системой тепло с закрытыми крышками было просто нереально.

Также огорчение вызвал блок питания, который охлаждается снизу на вдув, а не на выдув. При малой скорости вращения вентиляторов там образуются зоны с плохим обдувом, тем более при этом он не способен прокачать много воздуха через корпус. Пришлось найти еще вентиляторы, которые не воют на 5 вольтах, и улучшить выдув, по счастливому стечению обстоятельств в конце концов и их хватило, и для них хватило штатных выдувных мест.

Радиатор на CPU вполне хорош для охлаждения неразогнанного девайса такой цены, лежачий, но крупных габаритов и веса.

Но все это не помогло! Перегрев. Процессор на штатной частоте быстро разогревается до 70 градусов и сбрасывается в самый неподходящий момент.

Пришлось ковыряться в настройках windows 7 для схемы управления питанием процессора. Часть из них по умолчанию заблокирована, чтобы открыть их надо рыскать в интернете в поисках инструкций, часть не работает так как надо именно для процессора АМД (заговор коллаборационистов), часть не работает так как надо просто так, к тому же никакой справки (особенно контекстной) и т.д.

Засилие виджетов без контекстной справки одна из визитных карточек windows 7 по сравнению с XP, видимо боролись с правой кнопкой мыши, заодно под топор попала и справка.

Собственно, задача простая, надо указать windows 7 множители и питание для каждого из режимов энергосбережения процессора, уровни нагрузки и время ее действия, при которых процессор переходит в тот или иной режим или подключает/отключает ядра. Еще надо уметь указать как распределять задачи по ядрам - равномерно или с парковой неиспользованных ядер и что приоритетней при смене каждого энергетического состояния - подключение/отключение ядра или повышение/понижение частоты.

Я не помню подробности о реализации энергосбережения при парковке ядер у АМД, но если в Windows 7 ее включить, то перестает сбрасываться частота при переходе в энергосберегающее состояние.

Следующие картинки демонстрируют у меня на компьютере парковку ядер фенома, которая конфликтует с режимом энергосбережения процессора АМД. На втором графике есть надписи "ЦП1 - остановлено" и "ЦП2 - остановлено", это и есть парковка ядер, которая отсутствует на первом и последнем графике. Также на каждом графике "ЦП - Всего" можно наблюдать синюю линию, которая показывает частоту процессора, ее низкое значение показывает режим энергосбережения, ее подъем при включении парковки отсутствие этого режима и ее обратное снижение при выключении парковки.

Ступеньки на синей линии достигаются манипуляциями с пунктом таинственно звучащим "Переопределение ядра приостановки ядра ..." в дополнительных параметрах электропитания. Я долго думал что бы могла бы значить эта странная фраза "переопределение ядра приостановки ядра", но так и не понял, а в комментариях к этому пункту тоже таинственно указано "убедитесь, что в каждом ядре работает по крайней мере один процессор". Возможно, это есть шутка от разработчиков и переводчиков майкрософт, но как бы они ее не называли, она не работает.

прямо перед включением парковки

феном и windows 7 в период активной парковки

сразу после выключения парковки

Вставить эти картинки меня побудила статья , где есть относящийся к нам пункт, гордо озаглавленный "Парковка ядер: работает" (это про бульдозер) и соответствующая иллюстрация к нему
как паркуется бульдозер

Также есть ограничения на максимальный множитель, если по мнению Windows 7 он недостаточно велик, то никакого энергосбережения вам не будет, у Windows 7 нет возможности задать множители и питание CPU, а также на не-ноутбуках не удается вывести значок схемы питания на панель задач.

А как Windows 7 вычисляет проценты диапазонов, это что-то (выдержка из одного научного труда: в первом опыте мы посадили сто деревьев - пять померзло, во втором сто деревьев ...), шкала крайне нелинейна (в справке об этом ни слова, а в процентной шкале 100 отдельных значений, большой простор для опытов по разгону), "крайне" это действительно крайне, например диапазоны отличающихся между собой в разы значений могут быть отображены на проценты так: 0-97, 98, 99-100. Попробуй угадай чиселки.

Разблокируются настройки в рееестре, вот статья в интернете.
А вот картинки с моей настройки энергосбережения
моя настройка энергосбережения (кликните для открытия в полном размере)

Без настроек схемы питания с тихим режимом совсем плохо. Если разгон и тепловыделение совсем не допустимы в процессе работы, то можно ограничить макс. частоту процессора, все зависит от конкретных частей системы, но мне приходилось ограничиваться аж 2ГГц.

В итоге изыскания по замедлению процессора привели к тому, что я положился на режим энергосбережения фенома, а начинающие завывать вентиляторы при управлении от ШИМ укажут вам, что вы эковредитель и заработались, пора перекурить. Очень удобно и объективно.

2.2 Атлон Щукин.

Итак, восстановив озоновый слой, вернемся к буржуазному бульдозеру, сыну миллионера и к зависти к нему моего маленького атлона, на страх врагам причисленного к феномам.

Первое, что я сделал, я начал увеличивать частоту FSB, как это и делается для процессоров с фиксированным множителем. Но не тут-то было.

Первым на разгоне более 10% категорически отказал PCIe, который говорят и не терпит разгонов. Пришлось задействовать в БИОС пункт "асинхронная частота PCIe" и в итоге остановиться на 6% (106МГц). У меня не оказалось устройств, которые бы выигрывали от разгона PCIe и смогли бы его выдержать.

Вторым отказала моя DDR3 память, которая просто не желает работать на частоте выше 666 даже с таймингами 10 и более, эти конкретные модули памяти выдерживают тайминг 9 до 700МГц и все. Это соответствует разгону всех компонент на 5%:

210 МГц	FSB
2835МГц	процессор
2100МГц	NB контроллер
700МГц	память
4	число ядер
65грц	температура под нагрузкой

Никаких проблем с разогнанным процессором, заметно быстрее и очень похоже на АМД, которая вместо допуска 10% на нарушение параметров применяет 5%.

Однако, это очень скромный итог, никак не тянет на лавры системы для разгона и самое печальное, что мне никакими способами так и не удалось улучшить этот результат, чтобы система работала стабильно.

Все конфигурации, которые были быстрее этой хотя бы на 1Мгц FSB оказались нестабильны!

Нет, процессор загружался вплоть до частоты где-то 280 МГц FSB (точное число забыл) и шаманство с напряжением и множителями и четырьмя режимами делителей памяти позволяли системе работать. Но даже если система проходила короткий тест на стабильность, то один-два-восемь часов работы под нагрузкой вызывал или сбой нагруженного приложения или аварийный останов системы.

Извините, это не разгон, а фикция. А еще я могу добавить бочку с дегтем - я пробовал запретить ACC и превратить атлон обратно в атлон. Никакой разницы. АМД правильно маркирует свои процессоры. Какое разочарование и крах надежд :(.

В мучительных раздумьях о зря потраченном времени и липовой славе о разгоняемости феномов я бродил по БИОСу, а может и не бродил, но вспомнил, что забыл про ACC.

Ткнувшись в пункт АСС я обнаружил, что помимо "нет" и "авто" есть еще пункты ручной корректировки. Вот статья об ACC. Я начал экспериментировать с ними, атлон опять превратился в феном и все опять завертелось. 240 МГц FSB. +2% ACC. Нет. +4% ACC. Да. Да. Нет! +8% ACC. Да. Нет! +10% ACC. Да. Да. Да. Да. Да. Да! Нет. Не работатет, собака.

Так. Пусть +10% ACC. 239 МГц FSB. Нет. 238 МГц FSB. Жаль, но нет. Не хочу ниже...Надо что-то сделать на компьютере по делу? Так, 230 МГц FSB. Работаем, работаем, работаем. Фууу, сглючнуло, когда я уже сохранился. Удачно разогнался.

Тупик. Как быть? Если что-то разгоняемое не работает, то его надобно охладить. Вот так. Кулера у меня другого нет, значит что: понижаем напругу.

Аж на 0.025 вольта. Не помогает. Еще понижаем. Стабильность падает быстрее, чем температура.

Хорошо, тогда выключим нафиг два ядра, +0% ACC, напругу вверх, интересно, сколько можно дать на NB, где то я слышал более 1.2В нельзя. На, гад, 260 МГц FSB. Да. Да. Да. Работает.

Итак, ускорение 30%

260 МГц	FSB
3510МГц	процессор
2600МГц	NB контроллер
693МГц	память
2	число ядер
55грц	температура под нагрузкой

2 ядра 260 FSB (кликните для открытия в полном размере)

Результат 55грц очень хорош. Чем объяснить выбор? Конкретная память при 700МГц тайминг 9 дает оптимальный результат, число 260 круглое. А одно ядро даже не рассматриваем.

Но и два мало, включим-ка еще одно ядро. Работает. Все же три исправных ядра оказались интереснее чем кэш - выбор удался.

260 МГц	FSB
3510МГц	процессор
2600МГц	NB контроллер
693МГц	память
3	число ядер
65грц	температура под нагрузкой

3 ядра 260 FSB (кликните для открытия в полном размере)

Результат 65грц это последний рубеж. Больше нельзя с таким охлаждением. А вот поймали на процессоре под нагрузкой мощность 133 ватта
выделили 133 ватта на 3 ядра 260 FSB (кликните для открытия в полном размере)

Фантастика, при разгоне +1 ватт на 1 МГц FSB, зря спасали озоновую дыру торможением. Но на деле это может быть артефакт обновления - не успевает окно перерисовываться под полной загрузкой процессора.

Перепуганный бульдозером атлон ускорился на 30%. Ну и что же еще? Эта плата с АМД процессором имеет много разных крутилок, которые можно крутить в любую сторону сколько угодно в разных комбинациях. Впереди простор для деятельности.

3. Итог.

Удачный результат.

Большие возможности по настройке за умеренные деньги, фиксированные при загрузке пресеты максимальной мощности плюс автоматически работающее энергосбережение.

Можно загрузиться для работы по номиналу или быстро, средне, медленно + многоядерно, малоядерно в зависимости от задач, а в чипсет также напихать шесть-семь, в зависимости от модели матплаты, плат расширения: эфирные тюнеры и видео карты, карты новых версий sata и usb (некоторые эфирные тюнеры и сетевые карты можно и через usb3, а некоторые эфирные тюнеры, звуковые и сетевые карты можно и через usb2).



Сайт создан в системе uCoz