Si të konfiguroni telefonat inteligjentë dhe PC. Portali informativ

Çfarë është ura me rërë. Kodimi audio në formate të ndryshme

Krahasimi me procesorët celularë dhe desktop

Në mesin e janarit, ne kryem studimin e parë të sistemit në platformën e re Intel Sandy Urë. Në atë provë, një laptop prototip Toshiba A665-3D me një përshtatës të ri video NVIDIA dhe Teknologjia NVIDIA Optimus. Sidoqoftë, siç thonë ata, ata ishin shumë të zgjuar: grafika e jashtme nuk përfshihej në laptop. Prandaj, aplikacionet që përdorin grafikë (para së gjithash, lojëra) thjesht nuk kishin kuptim të testoheshin. Dhe në përgjithësi, disa gjëra nuk mund të testohen në mënyrë adekuate në një kampion të hershëm dhe me performancë të dobët.

Prandaj, u vendos që të ritestohej një sistem tjetër dhe rasti nuk zgjati shumë. Ne testuam një laptop tjetër, Hewlett-Packard DV7, në një platformë të re dhe me një gjeneratë të re grafike nga AMD. Vërtetë, kur testet ishin përfunduar tashmë, u shfaqën informacione për gabimin famëkeq në urën jugore, për shkak të të cilit pajisjet e shitura (përfshirë ato celulare) janë subjekt i tërheqjes. Pra, edhe këtu, rezultatet në kuptimin e ngushtë të fjalës nuk janë plotësisht zyrtare (sipas të paktën, Hewlett-Packard kërkoi të kthente laptopin), por ne e kuptojmë se gabimi (dhe madje edhe aq "teorik") nuk mund të ndikojë në rezultatet e testimit.

Sidoqoftë, nuk ia vlente të lëshohej një material i veçantë vetëm për të përsëritur matjet edhe një herë dhe për t'i quajtur ato përfundimtare. Prandaj, në këtë përmbledhje, ne i kemi vendosur vetes disa detyra:

  • kontrolloni rezultatet e sistemit të ri në metodologjinë "celular";
  • kontrolloni funksionimin e sistemit overclocking intel Turbo Boost në një sistem tjetër me ftohje të ndryshme;
  • krahasoni versionet celulare dhe desktop të procesorit Ura e rërës në metodologjinë desktop për testimin e sistemeve kompjuterike.

Epo, le të kalojmë në testim.

Konfigurimi i pjesëmarrësve në test sipas metodologjisë për sistemet celulare

Siç është vërejtur tashmë, duke krahasuar performancën e nënsistemeve kompjuterët celularë shumë më e vështirë, sepse ato ofrohen për testim në formën e produkteve të gatshme. Është e vështirë të nxirren përfundime, sepse më shumë se një komponent mund të ndikojnë në ndryshimin e performancës.

Le të shohim konkurrentët, më saktë, ndryshimin e përbërjes së tyre në krahasim me testimin e mëparshëm. Së pari, vendosëm të hiqnim modelin Core i5-540M nga krahasimi. I përket një linje më të dobët me dy bërthama, dhe modele të tjera do t'i korrespondojnë asaj në linjën Sandy Bridge. Nëse rezultatet e këtij procesori janë kaq të rëndësishme, ato mund të merren nga artikulli i mëparshëm. Në vend të kësaj, krahasimi përfshin Hewlett-Packard Elitebook 8740w, gjithashtu në procesorin Core i7-720QM, dhe sistemi kryesor i testimit për sot është shtuar - Hewlett-Packard Pavillon DV7 në procesorin Sandy Bridge 2630QM.

Kështu, dy modele në procesorin Core i7-720QM dhe dy modele në procesorin Core i7 2630QM marrin pjesë në test. Kjo jo vetëm që do t'ju lejojë të krahasoni performancën e sistemeve në një procesor më të vjetër dhe të ri, por gjithashtu të siguroheni që niveli i performancës të jetë i njëjtë për dy sisteme në të njëjtin procesor.

Epo, ne po kalojmë në analizimin e konfigurimeve të laptopëve që marrin pjesë në testim.

Emri i fletoresHP 8740wASUS N53JqToshiba A665-3DHP DV7
CPUCore i7-720QMCore i7-720QMCore i7-2630QMCore i7-2630QM
Numri i bërthamave4 (8 transmetime)4 (8 transmetime)4 (8 transmetime)4 (8 transmetime)
Frekuenca e vlerësuar1.6 GHz1.6 GHz2 GHz2 GHz
Maks. Frekuenca e rritjes turbo2.6* GHz2.6* GHz2,9* GHz2,9* GHz
Madhësia e cache LLC6 MB6 MB6 MB6 MB
RAM10 GB10 GB4 GB4 GB
Nënsistem videoNVIDIA QUADROFX 2800MNVIDIA GT 425MIntegrimi Intel.ATI 6570

* Frekuenca e mbingarkesës automatike tregohet nëse procesori i ka të katër bërthamat nën ngarkesë. Nëse ka dy bërthama nën ngarkesë, atëherë frekuenca ende mund të rritet (nga 2.6 GHz në 2.8 GHz), dhe nëse një - atëherë ngrihet në pikën maksimale (nga 2.6 GHz në 2.9 GHz).

Ne analizojmë të dhënat për përpunuesit e nevojshëm për krahasim. Së pari, prodhuesi pretendon se arkitektura e brendshme e procesorit është optimizuar në linjën Sandy Bridge, kjo duhet të sjellë një rritje të performancës së përgjithshme.

Numri i bërthamave dhe fijeve të hipertregtimit është i njëjtë për të gjithë pjesëmarrësit. Megjithatë, shpejtësia e orës është e ndryshme: 720QM ka vetëm 1.6 GHz, ndërsa procesorët e rinj funksionojnë në 2 GHz. Frekuenca maksimale e orës, megjithatë, nuk ndryshon aq shumë. Fakti është se për 720QM frekuenca tregohet kur përfshihen katër bërthama, dhe për 2630QM - kur përfshihet një. Nëse ka katër bërthama të ngarkuara, atëherë frekuencë maksimaleështë e njëjta 2.6 GHz. Me fjalë të tjera, në gjendjen "overclocked", procesorët duhet të punojnë të njëjtën frekuencë(derisa kontrolli i temperaturës të fillojë). Por Sandy Bridge ka teknologjinë më të avancuar të mbingarkesës Intel Turbo Boost, e cila mund ta mbajë frekuencën e rritur më gjatë, kështu që mund të ketë një avantazh. Por është e pamundur të parashikohet saktësisht se si do të sillet overclocking, sepse ka shumë varësi nga faktorët e jashtëm.

Le të kalojmë drejtpërdrejt në teste.

Krahasoni performancën e linjës së procesorit Sandy Bridge me gjeneratën e mëparshme në paketën e aplikacioneve të metodologjisë së kërkimit të performancës celulare. Përcaktimi i përsëritshmërisë së rezultateve

Për teste, ne përdorëm metodologjinë e testimit të laptopit në aplikacione reale mostër e vitit 2010. Krahasuar me desktopin, ai ka një grup të reduktuar aplikacionesh, por pjesa tjetër lansohet me të njëjtat cilësime (përveç lojërave, cilësimet në këtë grup janë ndryshuar seriozisht dhe parametrat e detyrës së provës për Programet Photoshop). Prandaj, rezultatet e testeve individuale mund të krahasohen me rezultatet e procesorëve desktop.

Rezultatet e vlerësimit grupe individuale aplikacionet nga ky material nuk mund të krahasohen drejtpërdrejt me të dhënat e vlerësimit të desktopit. Gjatë testimit të performancës së laptopëve, jo të gjitha aplikacionet e metodologjisë lëshohen, përkatësisht, vlerësimi konsiderohet ndryshe. Rezultatet e vlerësimeve të sistemeve desktop që marrin pjesë në testim janë rillogaritur.

Do të bëj një rezervim menjëherë që për secilin sistem testet u kryen dy herë, dhe midis ekzekutimeve sistemi u riinstalua dhe konfigurohej përsëri. Me fjalë të tjera, nëse rezultatet e testimit duken të çuditshme, ato janë të paktën të përsëritshme: në dy sisteme të ndryshme të sapo instaluara me një grup drejtuesish të përditësuar.

Le të fillojmë me aplikacionet profesionale.

Vizualizimi 3D

Ky grup përmban aplikacione që kërkojnë performancën e procesorit dhe grafikën.

HP 8740w
Core i7-720QM
ASUS N53Jq
Core i7-720QM
Toshiba A665-3D
Core i7-2630QM
HP DV7
Core i7-2630QM
Lightwave - punë20,53 22,97 24,87 16,17
Solidworks - punë52,5 58,83 133,12 60,45
Vala e lehtë - vlerësim122 109 101 155
Solidworks - vlerësim129 115 51 112
Grupi - vlerësim126 112 76 134

Është interesante se të dy sistemet e "valës së dytë" tejkalojnë ndjeshëm sistemet e testuara një muaj e gjysmë më parë. Pyes veten se çfarë është - ndikimi i shoferëve? Një grafikë tjetër, dukshëm më e fuqishme në të dyja rastet? Edhe përveç rezultateve të vjetra të Sandy Bridge, i njëjti korrelacion vërehet kur krahasohen dy Core i7.

Tani mund të thuhet me siguri se brezi i ri është më i shpejtë. Me përjashtim të rezultateve të çuditshme të SolidWorks, por ne do t'u kthehemi atyre në një diskutim të rezultateve të teknikës së desktopit.

Rendering 3D

Le të shohim se si qëndrojnë gjërat në interpretimin e skenës finale. Një renderim i tillë kryhet nga CPU.

HP 8740w
Core i7-720QM
ASUS N53Jq
Core i7-720QM
Toshiba A665-3D
Core i7-2630QM
HP DV7
Core i7-2630QM
valë e lehtë138,58 131,56 269,89 90,22
3Ds Max0:10:04 0:10:06 00:21:56 0:07:45
Vala e lehtë - vlerësim95 101 49 146
Vlerësimi maksimal i 3D113 112 52 147
Grupi - vlerësim104 107 51 147

Më lejoni t'ju kujtoj se kampioni i Toshiba-s tregoi rezultate shumë të dobëta në këtë test. Por në një sistem plotësisht funksional, procesori Sandy Bridge ju lejon të arrini epërsi të konsiderueshme në të dyja paketat grafike. Në Lightwave, siç mund ta shihni, ka një ndryshim midis dy Core i7-720QM, por në 3Ds MAX nuk ka pothuajse asnjë ndryshim.

Por në të dy testet është e qartë se procesori Core i7-2630QM është dukshëm më i shpejtë, duke tejkaluar ndjeshëm përfaqësuesit e gjeneratës së mëparshme.

Informatikë

Le të shohim performancën e procesorëve në aplikacionet që lidhen me llogaritjet matematikore.

HP 8740w
Core i7-720QM
ASUS N53Jq
Core i7-720QM
Toshiba A665-3D
Core i7-2630QM
HP DV7
Core i7-2630QM
Solidworks46,36 45,88 44,02 38,42
MATLAB0,0494 0,0494 0,0352 0,0365
Solidworks - vlerësim111 112 117 134
MATLAB - renditja113 113 159 153
Grupi - vlerësim112 113 138 144

Epo, testet e matematikës nuk e ndjejnë ndryshimin midis dy Core i7-720QM. Nga kjo mund të nxjerrim një përfundim paraprak se këto aplikacione reagojnë minimalisht ndaj komponentëve të tjerë të sistemit dhe pjesës së softuerit.

Procesori i gjeneratës së re është më i shpejtë, por hendeku këtu nuk është aq i madh, kjo është veçanërisht e dukshme nga numrat e vlerësimit. Disi performanca e DV7 në testin MATLAB është pak më e ulët se A660.

Le të shohim nëse në teste të tjera hendeku midis brezit të ri dhe atij të vjetër do të jetë afërsisht i njëjtë.

Përmbledhje

Testi i shpejtësisë së përpilimit të programit duke përdorur përpiluesin Microsoft Visual Studio 2008. Ky test i përgjigjet mirë shpejtësisë së procesorit dhe cache-it dhe mund të përdorë gjithashtu shumë bërthama.

HP 8740w
Core i7-720QM
ASUS N53Jq
Core i7-720QM
Toshiba A665-3D
Core i7-2630QM
HP DV7
Core i7-2630QM
Përpiloni0:06:29 0:06:24 0:04:56 0:04:54
Përpilimi - vlerësimi123 125 162 163

Dallimi në rezultate është i vogël, mendoj se mund t'i atribuohet gabimit. Dallimi i performancës midis dy gjeneratave është i rëndësishëm.

Performanca e aplikacionit Java

Ky pikë referimi përfaqëson shpejtësinë e ekzekutimit të një grupi aplikacionesh Java. Testi është kritik për shpejtësinë e procesorit dhe reagon shumë pozitivisht ndaj bërthamave shtesë.

HP 8740w
Core i7-720QM
ASUS N53Jq
Core i7-720QM
Toshiba A665-3D
Core i7-2630QM
HP DV7
Core i7-2630QM
Java79,32 83,64 111,8 105,45
Java - vlerësim90 94 126 119

Dhe këtu rezultatet janë pak, por dukshëm më të ulëta për laptopët më të rinj të testuar. Nuk do ta marrim me mend pse ndodhi kjo, por theksoj se rezultatet u përsëritën dy herë. Dallimi midis procesorëve të gjeneratave të ndryshme është pothuajse i njëjtë si në testin e mëparshëm.

Le të kalojmë në detyra produktive shtëpiake: duke punuar me video, tinguj dhe foto.

grafika 2D

Më lejoni t'ju kujtoj se në këtë grup mbetën vetëm dy teste, mjaft të ndryshme. ACDSee konverton një grup fotografish nga Formati RAW në JPEG, dhe Photoshop kryen një sërë operacionesh të përpunimit të imazhit - mbivendosja e filtrit, etj. Aplikacionet varen nga shpejtësia e procesorit, por shumë-bërthama është e përfshirë deri në atë masë.

HP 8740w
Core i7-720QM
ASUS N53Jq
Core i7-720QM
Toshiba A665-3D
Core i7-2630QM
HP DV7
Core i7-2630QM
ACDSshih0:07:01 0:06:55 0:05:11 0:04:52
photoshop0:01:17 0:01:17 0:00:49 0:00:51
ACDSee - vlerësim108 110 146 156
Photoshop - vlerësim426 426 669 643
Grupi - vlerësim267 268 408 400

ACDSee tregon njëfarë paqëndrueshmërie të rezultateve, por në përgjithësi, diferenca midis brezave është në përputhje me trendin, madje është pak më e madhe.

Vlerësimet e Photoshop-it nuk ia vlen t'i kushtohen vëmendje për shkak të detyrës së modifikuar të testit. Po këto vlerësime prishin dhe Vlerësimi i përgjithshëm grupe. Por nëse shikoni kohën e ekzekutimit, mund të shihni se avantazhi është pothuajse i njëjtë.

Kodimi audio në formate të ndryshme

Kodimi i audios në formate të ndryshme audio është një detyrë mjaft e thjeshtë për procesorët modernë. Mbështjellësi dBPowerAmp përdoret për kodim. Ajo di se si të përdorë shumë bërthama (kanë nisur transmetime shtesë të kodimit). Rezultati i testit janë pikat e saj, ato janë anasjellta e kohës së shpenzuar për kodim, d.m.th. sa më shumë, aq më i mirë është rezultati.

HP 8740w
Core i7-720QM
ASUS N53Jq
Core i7-720QM
Toshiba A665-3D
Core i7-2630QM
HP DV7
Core i7-2630QM
mollë148 159 241 238
flac199 214 340 343
majmuni143 155 239 235
mp389 96 150 152
nero85 91 135 142
ogg60 65 92 90
mollë - vlerësim90 97 147 145
vlerësim i dobët99 106 169 171
vlerësimi i majmunit97 105 163 160
vlerësim mp3103 112 174 177
nero-vlerësim104 111 165 173
ogg-vlerësimi103 112 159 155
Grupi - vlerësim99 107 163 164

Testi është mjaft i thjeshtë, por në të njëjtën kohë vizual. Krejt papritur, ndryshimi midis dy procesorëve Core i7-720QM u shfaq këtu, dhe jo në favor të sistemit të testuar së fundmi. Procesorët Sandy Bridge treguan pothuajse të njëjtën performancë. Siç mund ta shihni, avantazhi i procesorëve të rinj është shumë domethënës, më shumë se në grupet e mëparshme të testeve.

Kodimi i videos

Tre teste nga katër janë duke koduar një videoklip në një format të veçantë video. Testi Premiere veçohet, në këtë aplikacion skripti parashikon krijimin e një videoje, duke përfshirë vendosjen e efekteve, dhe jo vetëm kodimin. Fatkeqësisht, Sony Vegas nuk funksionoi në disa sisteme, kështu që ne hoqëm rezultatet e tij për këtë artikull.

HP 8740w
Core i7-720QM
ASUS N53Jq
Core i7-720QM
Toshiba A665-3D
Core i7-2630QM
HP DV7
Core i7-2630QM
DivX0:05:02 0:05:23 0:04:26 0:04:18
Premiera0:05:04 0:04:47 0:03:38 0:03:35
x2640:10:29 0:10:01 0:07:45 0:07:35
Xvid0:03:31 0:03:34 0:02:34 0:02:30
Vlerësimi DivX86 80 98 101
Premiera - vlerësim101 107 140 142
x264 - vlerësim100 105 135 138
XviD - vlerësim87 86 119 123
Grupi - vlerësim94 95 123 126

Rezultatet e kodimit në DivX janë të ndara. Për disa arsye, në këtë test, ka një ndryshim shumë të madh në sistemet me 720QM dhe një ndryshim shumë të vogël midis gjeneratave të vjetra dhe të reja.

Në teste të tjera, ndryshimi është i rëndësishëm, dhe ndryshimi midis brezave përafërsisht korrespondon me trendin e përgjithshëm. Interesante, në Premiere ndryshimi është pothuajse i njëjtë si në kodimin e thjeshtë. Meqë ra fjala, në këtë test tërheq vëmendjen edhe dallimi i madh mes dy sistemeve të bazuara në 720QM.

Dhe së fundi, disa lloje të detyrave shtëpiake.

Arkivimi

Arkivimi është një problem matematikor mjaft i thjeshtë në të cilin të gjithë komponentët e procesorit janë duke punuar në mënyrë aktive. 7z është më i avancuar, sepse mund të përdorë çdo numër bërthamash dhe në përgjithësi punon në mënyrë më efikase me procesorin. Winrar përdor deri në dy bërthama.

HP 8740w
Core i7-720QM
ASUS N53Jq
Core i7-720QM
Toshiba A665-3D
Core i7-2630QM
HP DV7
Core i7-2630QM
7 zip0:01:57 0:01:55 0:01:30 0:01:27
WinRAR0:01:50 0:01:48 0:01:25 0:01:25
Shpaketo (RAR)0:00:50 0:00:49 0:00:42 0:00:41
7-zip - vlerësim115 117 149 154
WinRAR - vlerësim135 138 175 175
Shpaketo (RAR) - vlerësim140 143 167 171
Grupi - vlerësim130 133 164 167

Dallimi midis procesorëve identikë është shumë i vogël. Përsëri, ne mund të shohim se në krahasim me dy sisteme të bazuara në 720QM, 8740 nuk është shumë, por vazhdimisht më i shpejtë. Procesorët e gjeneratës së re janë dukshëm më të shpejtë, ndryshimi midis dy gjeneratave është përgjithësisht i njëjtë si në shumicën e grupeve të tjera.

Performanca në testet e shfletuesit

Teste mjaft të thjeshta gjithashtu. Të dy matin performancën në Javascript, e cila është ndoshta pjesa më e kërkuar për performancën e motorit të shfletuesit. Truku është se testi V8 ka një rezultat në pikë, ndërsa Sunspider ka një rezultat në milisekonda. Prandaj, në rastin e parë, sa më i lartë numri, aq më mirë, në të dytën - anasjelltas.

HP 8740w
Core i7-720QM
ASUS N53Jq
Core i7-720QM
Toshiba A665-3D
Core i7-2630QM
HP DV7
Core i7-2630QM
Googlev8-chrome6216 6262 7414 7366
googlev8-firefox556 555 662 654
Googlev8-dmth122 123 152 147
Googlev8-opera3753 3729 4680 4552
Googlev8-safari2608 2580 3129 3103
sunspider-firefox760 747 627 646
Sunspider-dmth4989 5237 4167 4087
Opera Sunspider321 322 275 275
safari me merimangë dielli422 421 353 354
Googlev8 - vlerësim134 134 162 160
Sunspider - vlerësim144 143 172 172
Grupi - vlerësim139 139 167 166

Krahasimi në HD Play

Ky test është hequr nga renditja për sistemet desktop, por është ende i rëndësishëm për celularët. Edhe nëse sistemi përballon deshifrimin e një videoje komplekse, në një laptop është ende shumë e rëndësishme se sa burime nevojiten për të përfunduar këtë detyrë, sepse si ngrohja e sistemit ashtu edhe jeta e baterisë varen nga ajo ...

HP 8740w
Core i7-720QM
ASUS N53Jq
Core i7-720QM
Toshiba A665-3D
Core i7-2630QM
HP DV7
Core i7-2630QM
hardueri H.2642,6 2,5 2,3 1,2
Softueri H.26419,7 18,9 13,4 14
Vlerësimi i harduerit H.264631 656 713 1367
Vlerësimi i softuerit H.264173 180 254 243

Në terma absolutë, ndryshimi midis dy 720QM nuk është shumë i madh, megjithëse në vlerësime mund të duket i rëndësishëm. Është interesante të shikosh ndryshimin midis dy procesorëve Core i7-2630QM në modalitetin e përdorimit përshpejtimi i harduerit. Sistemi me grafikë AMD tregon ngarkesë më të ulët, por rezultatet ishin shumë të mira me përshtatësin Intel. AT modaliteti i programit të dy sistemet bëjnë një punë të mirë të deshifrimit, përdorimi i CPU-së është i ulët. Për procesorët Sandy Bridge, ngarkesa e sistemit është e parashikueshme më e ulët.

Le të shohim rezultatin mesatar të sistemeve që morën pjesë në teste.

HP 8740w
Core i7-720QM
ASUS N53Jq
Core i7-720QM
Toshiba A665-3D
Core i7-2630QM
HP DV7
Core i7-2630QM
Vlerësimi i përgjithshëm i sistemit128 129 158 173

Edhe pse në disa teste dallimi midis dy sistemeve me procesorë Intel Core i7-720QM ishte i dukshëm, në përgjithësi ata treguan rezultate pothuajse identike.

Performanca e një sistemi plotësisht funksional dhe funksional me një procesor Core i7-2630QM është shumë më i lartë se ai i mostrës që testuam më parë. Bazuar në këto rezultate, tashmë është e mundur të nxirren përfundime në lidhje me performancën e platformës.

Dhe këto përfundime janë se performanca platformë e re Sandy Bridge është diku rreth 35% (në varësi të aplikacioneve të përdorura) më e lartë se platforma e gjeneratës së mëparshme të përdorur. Sigurisht, përfundimet nuk janë ende përfundimtare. Në minimum, çipat kanë frekuenca të ndryshme. Dhe në përgjithësi, në lidhje me procesorët e rinj Intel, një koncept i tillë si "frekuenca e orës" është bërë mjaft iluzion, sepse ne kemi teknologjinë Intel Turbo Boost.

Kontrollimi i funksionimit të sistemit Intel Turbo Boost

Procesorët e serisë Sandy Bridge janë implementuar një version të ri Teknologjia Intel Turbo Boost, e cila ka shumë më tepër kontroll mbi shpejtësinë e orës së procesorit. Sistemi i kontrollit dhe menaxhimit është bërë shumë më kompleks dhe inteligjent. Tani mund të marrë parasysh shumë parametra: cilat bërthama dhe sa të ngarkuara, temperatura e procesorit dhe komponente individuale(d.m.th. sistemi mund të monitorojë dhe parandalojë mbinxehjen e lokalizuar).

Meqenëse kontrolli i temperaturës dhe ngarkesës është bërë më efikas, procesori ka nevojë për një diferencë më të vogël sigurie në mënyrë që të punojë në mënyrë të qëndrueshme dhe efikase në çdo kusht të jashtëm (kryesisht temperaturë). Kjo ju lejon të përdorni aftësitë e tij në mënyrë më efikase. Në fakt, ky sistem është një mbingarkesë e kontrolluar: frekuenca e punës rritet, dhe kontrolli nuk lejon që procesori të shkojë përtej kushteve të sigurta të funksionimit dhe të humbasë stabilitetin ose prishet. Nëse procesori që punon me një frekuencë të rritur nxehet shumë, sistemi i monitorimit do të ulë automatikisht frekuencën dhe tensionin e furnizimit në kufijtë e sigurt.

Për më tepër, sistemi i ri kontrolli i nxitimit është në gjendje të marrë parasysh "efektin e inercisë". Kur procesori është i ftohtë, frekuenca mund të rritet shumë e lartë për një kohë të shkurtër, procesori madje mund të tejkalojë kufirin e përcaktuar nga prodhuesi për shpërndarjen e nxehtësisë. Nëse ngarkesa është afatshkurtër, procesori nuk do të ketë kohë për t'u ngrohur temperaturat ekstreme, dhe nëse ngarkesa zgjat më shumë, procesori do të nxehet dhe sistemi do të ulë temperaturën në kufijtë e sigurt.

Kështu, procesori Sandy Bridge ka tre pozicione funksionimi:

Aktivizohen mekanizmat e kursimit të energjisë, procesori funksionon me një frekuencë të ulët dhe një tension të reduktuar të furnizimit. Sistemi Intel Turbo Boost aktivizohet, procesori përshpejtohet në frekuencën maksimale të lejuar të mbingarkesës (kjo varet, ndër të tjera, nga sa bërthama dhe sa e ngarkuar), rritet tensioni i furnizimit. Procesori funksionon me këtë shpejtësi orë për aq kohë sa e lejon temperatura e bërthamës. Procesori, kur kapërcehen pragjet për ngarkesë ose ngrohje, kthehet në frekuencën e orës në të cilën garantohet të punojë në mënyrë të qëndrueshme. Për shembull, për 2630QM kjo frekuencë është specifikuar si 2 GHz, kjo frekuencë është e specifikuar në specifikime dhe prodhuesi garanton që procesori do të jetë në gjendje ta ruajë këtë frekuencë për një kohë të pacaktuar, në varësi të kushteve të përcaktuara të jashtme. Intel Turbo Boost ju lejon të rritni frekuencën e funksionimit, por parametrat e funksionimit të tij dhe frekuenca e funksionimit varen nga kushtet e jashtme, kështu që prodhuesi nuk mund të garantojë që ky sistem të funksionojë gjithmonë në të njëjtën mënyrë.

Sidoqoftë, ky informacion mund të merret nga rishikimi i parë. Më lejoni t'ju kujtoj se në provën e parë, procesori në kohë boshe ka punuar me parametrat e mëposhtëm:

  • Në punë: 800 MHz, tensioni i furnizimit 0,771 V.
  • Ngarkesa (të gjitha bërthamat, maksimumi): frekuenca 2594 MHz (shumëzuesi 26), tensioni i furnizimit 1,231 V.
  • Ngarkesa (pas rreth 5 minutash funksionimi) - ose 2594 MHz (shumëzues 26) ose 2494 MHz (shumëzues 25).
  • Ngarkesa (pas rreth 7-8 minutash pune) - 1995 MHz (shumëzues 20). Tensioni është 1.071 V. Sistemi u kthye në parametrat e qëndrueshëm të funksionimit të vendosura nga prodhuesi.

Le të shohim se sa do të zgjasë Hewlett-Packard DV7 i mbingarkuar.

Ne lëshojmë programe për monitorimin e gjendjes së procesorit.

Frekuenca dhe voltazhi i funksionimit janë të njëjta si në testin e mëparshëm. Le të shohim leximet e temperaturës.

Gjithçka është e qetë, temperaturat janë relativisht të ulëta - 49 gradë. Për një procesor me performancë të lartë, kjo nuk është shumë. Vini re ndryshimin e temperaturës midis bërthamës së parë dhe të katërt.

Ne nisim testi i ngarkesës. Më lejoni t'ju kujtoj se ngarkon të gjitha bërthamat menjëherë, kështu që ne nuk do të shohim numrat maksimalë (2.9 GHz) në Intel Turbo Boost.

Siç mund ta shihni, voltazhi është rritur në 1,211 volt, frekuenca është bërë 2594 MHz për shkak të shumëzuesit të ndryshuar, tani është 26. Procesori fillon të fitojë me shpejtësi temperaturën, ventilatori i sistemit të ftohjes fillon të tingëllojë gjithnjë e më fort.

Epo, le të shohim se sa do të zgjasë procesori kur të kalojë në frekuencën e aksioneve.

Ka kaluar një minutë, duket qartë se temperaturat kanë filluar të stabilizohen.

Kaluan pesë minuta dhe temperaturat u stabilizuan. Për disa arsye, temperatura e bërthamave të parë dhe të katërt ndryshon me 10 gradë. Dallimi në temperatura është i pranishëm në të gjitha testet, madje edhe në boshe është i dukshëm. Nuk do të them pse po ndodh kjo.

Kanë kaluar 15 minuta që nga fillimi i testit. Temperaturat janë të qëndrueshme, sistemi i ftohjes përballon. Frekuenca e orës mbetet në 2.6 GHz.

Kanë kaluar 48 minuta. Laptopi vazhdon të punojë nën ngarkesë, temperaturat janë të qëndrueshme (mirë, u rrit me një shkallë). Frekuenca e orës është e njëjtë:

Epo, të paktën në dimër dhe në një dhomë jo shumë të nxehtë, DV7 mund të funksionojë në frekuencën maksimale të disponueshme për një kohë të pacaktuar. Fuqia e sistemit të ftohjes është e mjaftueshme që Intel Turbo Boost të mbajë pa asnjë problem frekuencën maksimale të disponueshme të "overclocking". Teorikisht, do të ishte e mundur që procesori të mbingarkohej pak më shumë.

Ky përfundim ndryshon nga rezultatet e mëparshme. Tani ju e dini se çfarë të blini laptop cilësor: nëse projektuesit kanë bërë një punë të mirë për krijimin e një sistemi ftohjeje, do të merrni dividentë jo vetëm në formën e një kase me cilësi të lartë dhe të fortë, por edhe në performancë!

Epo, le të kalojmë në pjesën e dytë shumë interesante të artikullit: një krahasim i procesorit celular Core i7-2630QM me procesorët desktop të serisë Sandy Bridge në një metodologji testimi desktop.

Performanca e procesorit celular Core i7-2630QM krahasuar me procesorët e desktopit Sandy Bridge

Për krahasim, ne përdorim rezultatet nga studimi ynë i procesorëve desktop Core i7 dhe Core i5 bazuar në Sandy Bridge.

Le të krahasojmë konfigurimet e pjesëmarrësve duke përfshirë informacione rreth Core i7-2630QM në tabelë.

CPUCore i5-2300Core i5-2400Core i5-2500/2500KCore i7-2600/2600KCore i7-2630QM
Emri i kernelitUra e rërësUra e rërësUra e rërësUra e rërësUra e rërës
Teknologjia e prodhimit32 nm32 nm32 nm32 nm32 nm
Frekuenca bazë (std/max), GHz2,8/3,1 3,1/3,4 3,3/3,7 3,4/3,8 2,0/2,9
Faktori i fillimit të shumëzimit28 31 33 34 20
Si funksionon Turbo Boost3-2-2-1 3-2-2-1 4-3-2-1 4-3-2-1 n/a
Numri i bërthamave/fijeve të llogaritjes4/4 4/4 4/4 4/8 4/8
L1 cache, I/D, KB32/32 32/32 32/32 32/32 n/a
L2 cache, KB4×2564×2564×2564×256n/a
L3 cache, MiB6 6 6 8 6
RAM2×DDR3-1333
Bërthama grafike GMA HD2000 2000 2000/3000 2000/3000 3000
Frekuenca e bërthamës grafike (maksimum), MHz1100 1100 1100 1350 1100
prizëLGA1155LGA1155LGA1155LGA1155n/a
TDP95 W95 W95 W95 W45 W

Frekuenca e orës së procesorit celular është më e ulët, gjë që është e dukshme. Në modalitetin maksimal Turbo Boost, ai mbingarkon pak desktopin më të ri Core i5, i cili funksionon pa Turbo Boost, për sa i përket shpejtësisë së orës, por asgjë më shumë. Por paketa termike është shumë më e ulët - më shumë se dy herë. Përveç kësaj, ai ka një cache më të vogël të nivelit të fundit, vetëm 6 MB. Nga pluset, vlen të përmendet se procesori celular ka katër bërthama dhe tetë fije llogaritëse, pasi ky është Core i7. Të paktën disa avantazhe ndaj desktopit më të ri Core i5. Le të shohim se si do të dalë në praktikë.

Fatkeqësisht, një krahasim i plotë ende nuk funksionoi. Disa paketa nga metodologjia e desktopit nuk filluan (për shembull, Pro/Engineer vareshin në mënyrë të qëndrueshme në sistemin tonë të testimit), si rezultat, rezultatet e tyre duhej të hidheshin jashtë vlerësimit, që do të thotë se vetë vlerësimi ndryshoi në krahasim me vlerësimet nga materiali kryesor.

Le të kalojmë te testet. Shprehja "testi nuk filloi" do të thotë se testi nuk filloi në laptopin tonë, kështu që rezultatet e të gjithë pjesëmarrësve në test u hoqën. Vlerësimet në këtë rast rillogariten.

Sipas rezultateve, është menjëherë e qartë se procesori celular humbet mjaft seriozisht ndaj desktopit - ai nuk mund të arrijë nivelin e performancës as të procesorit të ri të linjës së re të desktopit. Rezultatet e procesorit të desktopit Core i7, për mendimin tim, janë mjaft të dobëta, por duhet të jetë shumë më i fuqishëm se linja Core i5, sipas rezultateve, varësia duket të jetë lineare. Rezultatet e Solidworks janë përgjithësisht pothuajse të njëjta për të gjitha sistemet desktop. A i intereson këtij testi shpejtësinë e orës që ka procesori?

Le të shohim shpejtësinë e paraqitjes së skenave 3D.

Core i5-2300Core i5-2400Core i5-2500/2500KCore i7-2600/2600KCore i7-2630QM
3ds max181 195 207 233 157
valë e lehtë153 168 180 234 161
Maya142 170 181 240 165
Rendering159 178 189 236 161

Këtu situata është pak më argëtuese - sistemi celular ende arriti nivelin e desktopit më të ri. Sidoqoftë, desktopi Core i7 është shumë përpara në të gjitha testet. Për krahasim, këtu janë rezultatet absolute të një prej testeve, Maya. Rezultati i këtij testi është koha e shpenzuar në projekt, e cila është më e dukshme se pikët në testet e tjera.

Core i5-2300Core i5-2400Core i5-2500/2500KCore i7-2600/2600KCore i7-2630QM
Maya00:08:47 00:07:20 00:06:52 00:05:11 00:07:34

Siç mund ta shihni, edhe me një kohë jo shumë të gjatë të llogaritjes së projektit, ndryshimi është i rëndësishëm. Në rastin e projekteve më komplekse, duhet të jetë edhe më shumë.

Le të kalojmë në testin tjetër.

Pothuajse të gjitha aplikacionet përdorin llogaritje komplekse matematikore, kështu që sundimtari i desktopit me më shumë Frekuencë e lartë padyshim përpara. Në të njëjtën kohë, jam shumë i hutuar nga ndryshimi shumë i vogël midis desktopit Core i5-2500 dhe Core i7-2600, në disa aplikacione edhe procesori më i fuqishëm humbet. A është vërtet hiper-treading kaq joefikas në këto aplikacione sa edhe ndryshimi në shpejtësinë e orës nuk mund të kompensojë ngadalësimin që shkakton? Kjo është edhe më interesante, sepse konfigurimi thelbësor në procesorin celular është i njëjtë si në serinë 2600, dhe në përgjithësi nuk është aq larg nga procesori më i ri i desktopit, duke pasur parasysh ndryshimin në frekuencat e funksionimit midis tyre.

Dhe kalojmë në teste më pak profesionale dhe më të zakonshme. Dhe le të fillojmë me grafika raster. Fatkeqësisht, një nga testet nuk filloi, gjë që ndikoi sërish në pamjen e testeve.

Dhe përsëri, sistemi celular është vazhdimisht në një nivel pak më poshtë zgjidhjes më të re të desktopit. Dhe pastaj papritur Rezultati i lartë në Photoimpact, përndryshe fotografia do të ishte edhe më e trishtuar. Për qartësi, unë do të jap rezultatet për dy pako në numra absolut.

Core i5-2300Core i5-2400Core i5-2500/2500KCore i7-2600/2600KCore i7-2630QM
ACDSshih00:04:20 00:03:59 00:03:46 00:03:34 00:04:57
photoshop00:03:36 00:03:15 00:03:07 00:02:58 00:04:00

Në këtë mënyrë ju mund të vlerësoni ndryshimin specifik në kohën e ekzekutimit të detyrës.

Le të kalojmë në testet e arkivimit. Këto janë llogaritje të thjeshta që ndjehen mirë si për shpejtësinë ashtu edhe për praninë e bërthamave shtesë të procesorit (megjithëse ka pyetje në lidhje me këtë).

Core i5-2300Core i5-2400Core i5-2500/2500KCore i7-2600/2600KCore i7-2630QM
7 zip140 151 156 213 137
RAR191 207 216 229 173
Shpaketo (RAR)179 194 206 219 167
Arkivuesit170 184 193 220 159

Dhe përsëri, dhe përsëri... Nëse shikoni rezultatet e 7-zip, mund të shihni se multi-core (madje edhe në formën e hiper-threading) jep dividentë të rëndësishëm. Por, me sa duket, shpejtësia e orës jep gjithashtu dividendë të rëndësishëm, sepse celulari Core i7 me tetë bërthama përsëri nuk arriti as procesorin më të ri të desktopit. Dhe e njëjta situatë vazhdoi në testet e Winrar. Por desktopi Core i7-2600 në testin me 7 zip shkon shumë përpara.

Testi i përpilimit, përsëri duke përdorur aftësitë matematikore të procesorit ...

Në testin e performancës së aplikacionit Java, trendi konfirmohet në thelb. Por ngecja e procesorit celular është edhe më e madhe.

Le të hedhim një vështrim në performancën e Javascript në shfletuesit modernë.

Core i5-2300Core i5-2400Core i5-2500/2500KCore i7-2600/2600KCore i7-2630QM
Google V8161 176 190 191 148
merimangë dielli156 162 167 170 198
Shfletuesi159 169 179 181 173

Nëse rezultatet e testit nga Google përputhen afërsisht me atë që kemi parë më parë, atëherë është e qartë se diçka nuk shkon me Sunspider. Megjithëse, në parim, në të gjithë shfletuesit, ky test funksionoi në një procesor celular më shpejt sesa në të gjithë desktopët, përfshirë desktopin Core i7 (i cili, megjithatë, sipas rezultateve, është shumë pak i ndryshëm nga Core i5 më i vjetër).

Në përgjithësi, një rezultat shumë i papritur i testit të dytë, të cilin nuk mund ta shpjegoj. Ndoshta diçka funksionoi ndryshe në softuer?

Le të lëmë aplikacionet e internetit dhe të kalojmë në punën me video dhe audio. Është gjithashtu një lloj aktiviteti mjaft i popullarizuar, përfshirë për kompjuterët celularë.

Core i5-2300Core i5-2400Core i5-2500/2500KCore i7-2600/2600KCore i7-2630QM
Humbja e mollës135 149 154 206 126
FLAC145 159 171 233 144
Audioja e majmunit150 165 174 230 139
MP3 (LAME)162 179 191 258 152
Nero AAC154 171 179 250 148
Ogg Vorbis164 179 191 252 147
Audio152 167 177 238 143

Kodimi audio nuk na paraqet ndonjë surprizë. Celulari Core i7-2630QM është pak më i dobët se të gjithë procesorët e testuar të desktopit, desktopi Core i7 është shumë prapa. Po në lidhje me kodimin e videos?

Core i5-2300Core i5-2400Core i5-2500/2500KCore i7-2600/2600KCore i7-2630QM
DivX146 160 170 157 96
Koncepti kryesor (VC-1)153 167 175 187 133
Premiera155 169 178 222 132
Vegas164 177 185 204 131
x264152 165 174 225 136
Xvid166 180 190 196 133
video156 170 179 199 127

Mbështetja e procesorit celular është rritur, desktopi Core i7 është ende shumë përpara të gjithë procesorëve të tjerë, megjithëse hendeku është ngushtuar.

Epo, një nga testimet më "reale": lojërat!

Core i5-2300Core i5-2400Core i5-2500/2500KCore i7-2600/2600KCore i7-2630QM
Batman131 134 135 134 40
Vendet kufitare142 149 157 160 234
DiRT 2109 110 110 110 36
Far Cry 2200 218 232 237 84
Fritz Shah142 156 166 215 149
GTA IV162 164 167 167 144
e keqe banore125 125 125 125 119
S.T.A.L.K.E.R.104 104 104 104 28
UT3150 152 157 156 48
Crysis: Kokë luftarake127 128 128 128 40
bota në konflikt163 166 168 170 0
Lojëra141 146 150 155 84

Më bën të dua të them "oh". Të gjitha lojërat ndahen qartë në të varura nga procesori dhe të varura nga grafika. Duke instaluar një procesor më të fuqishëm, ju mund të rrisni shumë shpejtësinë në Borderlands, Far Cry 2 dhe Fritz Chess. Disa lojëra reagojnë shumë pak ndaj procesorëve më të fuqishëm, disa nuk reagojnë fare. Nëse heqim nga konsiderata World in Confict, ku celulari Core i7 mori 0, atëherë vlerësimi i përgjithshëm duket kështu.

Rezultatet ishin zhgënjyese për sistemi celular, dhe në pjesën më të madhe, procesori nuk është fajtor për këtë. Para se të nxjerrim përfundime, le të shohim shifrat absolute të performancës në lojëra.

Core i5-2300Core i5-2400Core i5-2500/2500KCore i7-2600/2600KCore i7-2630QM
Batman205 209 210 209 63
Vendet kufitare75 79 83 85 124
DiRT 276 77 77 77 25
Far Cry 276 83 88 90 32
Fritz Shah8524 9368 9982 12956 8936
GTA IV63 64 65 65 56
e keqe banore128 128 128 128 121,6
S.T.A.L.K.E.R.62,9 62,9 63 62,9 17,2
UT3166 169 174 173 53
Crysis: Kokë luftarake57,4 57,6 57,7 57,7 18,1
bota në konflikt62,6 63,5 64,3 65

Siç mund ta shihni, nëse procesorët e desktopit pothuajse gjithmonë tregojnë rezultate mjaft të mira, atëherë sistemi celular është në shumë vende në pragun e luajtshmërisë ose nën të.

Për pothuajse të gjitha lojërat, procesorët janë shumë të shpejtë, rezultati përfundimtar varet kryesisht nga performanca e kartës video. Në të njëjtën kohë, niveli i performancës së sistemit celular është dukshëm më i ulët, gjë që na lejon të nxjerrim disa përfundime në lidhje me ndryshimin shumë të madh midis zgjidhjeve video desktop dhe celular. Dallimi në shembullin e testeve tona është mesatarisht tre herë. Të veçuara janë GTA IV dhe Resident Evil, të cilat tregojnë rezultate të ngjashme në të gjitha sistemet, përfshirë celularin.

Në një program shahu intensiv me CPU, celulari Core i7 performon mirë midis modeleve të desktopit buxhetor.

Epo, le ta përmbledhim.

Core i5-2300Core i5-2400Core i5-2500/2500KCore i7-2600/2600KCore i7-2630QM
Rezultati i përgjithshëm157 170 180 203 141

Rezultati i përgjithshëm konfirmon trendin: një nga më të fuqishmit procesorë celularë Core i7-2360QM nuk mund të përputhet me performancën e procesorit të vogël të desktopit në linjën më të dobët Core i5. Procesori desktop Core i7 për sa i përket performancës është shumë prapa edhe procesorëve desktop nga linja më e re, për të mos thënë asgjë për versionin celular.

konkluzioni

Pra, është koha për të nxituar në përfundime. Më lejoni t'ju kujtoj disa rezultate nga materiali i mëparshëm.

Në pamje të parë, Sandy Bridge është me të vërtetë një procesor shumë i suksesshëm. Së pari, është përmirësuar shumë, janë hequr zgjidhjet e palogjikshme (të njëjtat dy kristale të veçantë të bërë sipas proceseve të ndryshme teknike), struktura e çipit është bërë logjike dhe e optimizuar mirë. Përmirësimi i komponentëve të autobusit të komunikimit brenda procesorit (i cili tani përfshin bërthamën e videos!). Së dyti, struktura e bërthamave të procesorit është optimizuar, gjë që gjithashtu duhet të ndikojë anën më të mirë mbi performancën. Praktika konfirmon teorinë: procesori që kishim në provë shkon shumë përpara në performancë në krahasim me platformën aktuale.

Në të vërtetë, në praktikë testimi bazë i7-2630QM, që supozohet të jetë më i riu në linjën e re të celularëve Core i7, tejkalon seriozisht Core i7-720QM, procesori më i zakonshëm me performancë të lartë (ose më i zakonshëm i zakonshëm) në gjeneratën e parë të linjës celulare Intel Core . Me sa duket, 2630QM duhet të zërë vendin e tij, domethënë të bëhet mainstream përpunues produktiv në linjën Core të gjeneratës së dytë.

Në përgjithësi, mund të konkludojmë se gjenerata e dytë e procesorëve celularë Core për sa i përket performancës është një hap i mirë përpara. Sa i përket avantazheve të tjera të linjës, mendoj se ia vlen të presësh për lëshimin e linjave më të reja, dhe vetëm një numër të madh modelesh në procesorë të rinj, dhe madje edhe më pas të vlerësohen cilësi të tilla të linjës së re si ngrohja, efikasiteti i energjisë, etj.

Sidoqoftë, krahasuar me procesorët e rinj Sandy Bridge Core i5 dhe i7 të desktopit, celulari i ri Core i7-2630QM ende humbet. Për më tepër, platforma celulare është më e dobët dhe e qëndrueshme në të gjitha grupet e testeve. Kjo është një situatë normale, sepse gjatë krijimit sundimtarë të lëvizshëm prioritet është jo vetëm performanca, por edhe konsumi i ulët i energjisë (për të siguruar jetëgjatësi më të madhe të baterisë) dhe konsumi i ulët i energjisë (për shkak të sistemeve më të vogla dhe më të dobëta të ftohjes). Vlen të shikosh të paktën paketën termike të procesorit të ri celular, e cila është më shumë se dy herë (!) më e ulët se ajo e versioneve të desktopit. Ju duhet të paguani për këtë, duke përfshirë frekuencën nominale më të ulët dhe performancën në përgjithësi.

Nga rruga, nëse flasim për frekuenca. Hewlett-Packard DV7 prezantoi një surprizë të këndshme në këtë drejtim (edhe pse ka mundësi që gjërat të mos jenë aq rozë në verën e nxehtë). Procesori, me një sistem të mirë ftohjeje, mund të funksionojë pafundësisht në një frekuencë maksimale Turbo Boost prej 2.6 GHz, kështu që është mjaft i aftë të demonstrojë një nivel më të lartë të performancës sesa sipas specifikimeve standarde. Sigurisht, nuk ka asnjë garanci që sistemi i ftohjes do të përballojë gjatë verës, dhe nëse jo, atëherë niveli performancë reale në krahasim me sistemet desktop, mund të jetë dukshëm më i ulët se në testet tona. Prandaj, prania e një sistemi kompetent ftohjeje në një laptop me një procesor të ri celular Core i7 del në pah.

Mund të gjeni një përmbledhje të detajuar të tij në faqen tonë të internetit (megjithatë, mbështetja për gjendjen e gjumit të thellë C6 dhe memorien LV-DDR3 me tension të ulët u shfaq vetëm në Westmere). Dhe çfarë u shfaq në SB?

Së pari - lloji i dytë i sensorëve të temperaturës. Një diodë termike e njohur, leximet e së cilës "shihen" nga BIOS dhe shërbimet, mat temperaturën për të rregulluar shpejtësinë e ventilatorit dhe për të mbrojtur nga mbinxehja (mbytja e frekuencës dhe, nëse nuk ndihmon, mbyllja emergjente e CPU) . Sidoqoftë, zona e saj është shumë e madhe, sepse ka vetëm një prej tyre në secilën bërthamë (përfshirë GPU) dhe në agjentin e sistemit. Atyre, në çdo bllok të madh, u shtuan disa qarqe kompakte analoge me transistorë termikë. Ata kanë një gamë më të vogël të matjeve (80–100 °C), por nevojiten për të rafinuar të dhënat e diodës termike dhe për të ndërtuar një hartë të saktë të ngrohjes kristalore, pa të cilën funksionet e reja të TB 2.0 janë të parealizueshme. Për më tepër, kontrolluesi i energjisë mund të përdorë edhe një sensor të jashtëm nëse prodhuesi i motherboard vendos dhe lidh një të tillë - megjithëse nuk është plotësisht e qartë se si do të ndihmojë.

Është shtuar funksioni i rinumërimit të gjendjeve C, për të cilin historia e tranzicioneve ndërmjet tyre gjurmohet për çdo bërthamë. Tranzicioni kërkon më shumë kohë, aq më i madh është "numri i gjumit" në të cilin hyn ose del bërthama. Kontrolluesi përcakton nëse ka kuptim të vihet thelbi në gjumë, duke marrë parasysh mundësinë e "zgjimit" të tij. Nëse një pritet së shpejti, atëherë në vend të sistemit operativ të kërkuar, kerneli do të transferohet në C3 ose C1, përkatësisht, d.m.th., në një gjendje më aktive, e cila do të hyjë shpejt në funksion. Mjaft e çuditshme, pavarësisht nga konsumi më i lartë i energjisë në një ëndërr të tillë, kursime totale mund të mos vuajnë, sepse të dyja janë reduktuar periudhe tranzicioni, gjatë së cilës procesori nuk fle fare.

Për modelet celulare, transferimi i të gjitha bërthamave në C6 shkakton një rivendosje dhe çaktivizim të memories L3 të zakonshme për bankat çelësat e energjisë. Kjo do të zvogëlojë konsumin edhe më shumë kur është në punë, por është e mbushur me një vonesë shtesë gjatë zgjimit, pasi bërthamat do të duhet të humbasin L3 disa qindra ose mijëra herë derisa të dhënat dhe kodi i nevojshëm të pompohen atje. Natyrisht, në lidhje me funksionin e mëparshëm, kjo do të ndodhë vetëm nëse kontrolluesi është i sigurt që CPU bie në gjumë për një kohë të gjatë (sipas standardeve të kohës së procesorit).

Core i3/i5 i gjeneratës së mëparshme ishin një lloj kampionësh për sa i përket kompleksitetit të sistemit energjetik të CPU-së në pllakën amë, që kërkonte deri në 6 tensione - më saktë, të 6 ishin më parë, por jo të gjithë çuan te procesori. Në SB, ata ndryshuan jo nga numri, por nga përdorimi:

  • x86-bërthama dhe L3 - 0,65–1,05 V (në Nehalem L3 është i ndarë);
  • GPU - e ngjashme (në Nehalem, pothuajse e gjithë ura veriore, e cila, kujtojmë, ishte çipi i dytë i CPU-së atje, mundësohet nga një autobus i zakonshëm);
  • një agjent sistemi me një frekuencë fikse dhe një tension konstant prej 0,8, 0,9 ose 0,925 V (dy opsionet e para janë për modelet e lëvizshme), ose një 0,879-0,971 V të rregullueshme dinamike;
  • - konstante 1,8 V ose e rregullueshme 1,71-1,89 V;
  • shoferi i autobusit të kujtesës - 1,5 V ose 1,425–1,575 V;
  • Drejtues PCIe - 1,05 V.

Versionet e rregulluara të shinave të rrymës përdoren në llojet e shkyçura SB me shkronjën K. Modelet e desktopit kanë rritur orën e papunë të bërthamave x86 nga 1,3 në 1,6 GHz, me sa duket pa sakrifikuar ekonominë. Në të njëjtën kohë, një CPU me 4 bërthama konsumon 3,5-4 vat në gjendje të plotë boshe. Versionet celulare janë të papunë në 800 MHz dhe kërkojnë edhe më pak. Modele dhe çipa

Performanca

Çfarë bën ky kapitull në një përmbledhje teorike të mikroarkitekturës? Dhe fakti që ekziston një test i njohur përgjithësisht që është përdorur për 20 vjet (në versione të ndryshme) për të vlerësuar shpejtësinë jo teorike, por të arritshme programatike të kompjuterëve - SPEC CPU. Ai mund të vlerësojë në mënyrë gjithëpërfshirëse performancën e procesorit, dhe në rastin më të mirë për të, kur kodi burimor i testimit përpilohet dhe optimizohet për sistemin në provë (d.m.th., përpiluesi me bibliotekat gjithashtu kontrollohet kalimthi). Kështu, e dobishme programet do të jenë më të shpejta vetëm me inserte të shkruara me dorë në asembler, të cilët sot janë programues të rrallë të guximshëm me shumë kohë. SPEC mund t'i atribuohet testeve gjysmë sintetike, sepse nuk llogarit asgjë të dobishme dhe nuk jep ndonjë numër specifik (IPC, flops, kohëzgjatje, etj.) - "papagallët" e një CPU nevojiten vetëm për krahasim me të tjerët. .

Në mënyrë tipike, Intel ofron rezultate për CPU-të e tyre pothuajse në të njëjtën kohë kur ato lëshohen. Por ka pasur një vonesë të pakuptueshme 3-mujore me SB dhe shifrat e marra në mars janë ende paraprake. Çfarë saktësisht po i vonon ato nuk është e qartë, por është akoma më mirë se situata me AMD, e cila nuk lëshoi ​​asnjë rezultatet zyrtare CPU-të e tyre të fundit. Shifrat e mëposhtme për Opteron janë dhënë nga prodhuesit e serverëve që përdorin përpiluesin Intel, kështu që këto rezultate mund të mos optimizohen: çfarë Paketa e veglave të softuerit Intel mund të bëjë me kodin që funksionon në një CPU "të huaj". ;)


Krahasimi i sistemeve në testet SPEC CPU2006. Tabela e përpiluar nga David Kanter që nga marsi 2011.

Krahasuar me CPU-të e mëparshme, SB tregon rezultate të shkëlqyera (në kuptimin literal) në terma absolutë dhe madje rezultate rekord për çdo bërthamë dhe gigahertz. Aktivizimi i HT dhe shtimi i 2 MB në L3 jep +3% shpejtësi reale dhe +15% shpejtësi numër i plotë. Sidoqoftë, modeli me 2 bërthama ka shpejtësinë më të lartë specifike, dhe ky është një vëzhgim udhëzues: padyshim, Intel përdori AVX, por meqenëse një fitim i plotë nuk mund të merret ende, mund të presim një përshpejtim të mprehtë vetëm të treguesve realë. Por nuk ka asnjë kërcim për ta, gjë që tregohet nga një krahasim i modeleve me 4 bërthama - dhe rezultatet për i3-2120 zbulojnë arsyen: duke pasur të njëjtat 2 kanale ICP, çdo bërthamë merr dyfishin e brezit të memories, që është reflektuar nga një rritje prej 34% në shpejtësinë reale specifike. Me sa duket, cache 6-8 MB L3 është shumë e vogël dhe shkallëzimi i PS-së së vet duke përdorur autobusin e ziles nuk ndihmon më. Tani është e qartë pse Intel planifikon të pajisë serverin Xeons me ICP 3 dhe madje 4 kanalesh. Vetëm tani ka 8 bërthama tashmë dhe ato nuk janë të mjaftueshme për t'u kthyer në maksimum ...

Shtimi: U shfaqën rezultatet përfundimtare të SB - numrat (pritur) u rritën pak, por përfundimet cilësore janë të njëjta. Perspektivat dhe rezultatet

Dihet shumë për pasardhësin 22 nm të Sandy Bridge, Ivy Bridge, që do të dalë në pranverën e 2012. Bërthamat Qëllimi i përgjithshëm do të mbështesë një nëngrup paksa të përditësuar të AES-NI; është mjaft i mundshëm dhe “falas” kopjimi i regjistrave në fazën e riemërtimit. Përmirësimet në Turbo Boost nuk priten, por GPU (i cili, nga rruga, do të funksionojë në të gjitha versionet e chipset) do të rrisë numrin maksimal të FU-ve në 16, do të mbështesë lidhjen jo të dy, por tre ekraneve dhe më në fund do të fitoni mbështetje normale për OpenCL 1.1 (së bashku me DirectX 11 dhe OpenGL 3.1) dhe përmirësoni aftësitë e përpunimit të videos harduerike. Me shumë mundësi, tashmë në desktop dhe modele celulare ICP do të mbështesë një frekuencë prej 1600 MHz, dhe kontrolluesi PCIe do të mbështesë versionin 3.0 të autobusit. Risia kryesore teknologjike është se cache L3 do të përdorë (për herë të parë në prodhimin masiv mikroelektronik!) tranzistorë me një portë shumëpalëshe të vendosur vertikalisht (FinFET), të cilët kanë përmirësuar rrënjësisht karakteristikat elektrike (detajet - në një nga artikujt e ardhshëm ). Ka zëra se versionet GPU do të bëhen përsëri me shumë çipa, vetëm këtë herë një ose më shumë çipa të shpejtë të memories video do të shtohen në procesor.

Ivy Bridge do të lidhet me çipa të rinj (d.m.th. urat e jugut) Seritë 70: Z77, Z75 dhe H77 për shtëpi (zëvendëson Z68/P67/H67) dhe Q77, Q75 dhe B75 për zyrë (në vend të Q67/Q65/B65). Ajo është(d.m.th., çipi fizik me emra të ndryshëm) do të ketë ende jo më shumë se dy porte SATA 3.0 dhe më në fund do të shfaqet mbështetja për USB 3.0, por një vit më vonë se konkurrenti. Mbështetja e integruar PCI do të zhduket (pas 19 vjetësh, është koha që autobusi të pushojë), por kontrolluesi nënsistemi i diskut Z77 dhe Q77 do të marrin teknologjinë Smart Response për të rritur performancën duke ruajtur memorien e diskut duke përdorur një SSD. Megjithatë, lajmi më emocionues është se pavarësisht e vjetër e mirë Tradicionalisht, versionet desktop të Ivy Bridge jo vetëm që do të vendosen në të njëjtën fole LGA1155 si SB, por do të jenë gjithashtu të pajtueshme me to - d.m.th., bordet moderne do të përshtaten me CPU-në e re.

Epo, për entuziastët, tashmë në tremujorin e 4-të të këtij viti, do të jetë gati një çip shumë më i fuqishëm X79 (për SB-E me 4-8 bërthama për lidhësin "server ekstrem" LGA2011). Nuk do të ketë ende USB 3.0, por do të ketë 10 nga 14 porte SATA 3.0 (plus mbështetje për 4 lloje RAID), dhe 4 nga 8 korsi PCIe mund të lidhen me CPU-në paralelisht me DMI, duke dyfishuar çipsetin e CPU-së. lidhje PS. Fatkeqësisht, X79 nuk do të funksionojë me Ivy Bridge me 8 bërthama.

Si një përjashtim (dhe ndoshta një rregull i ri), ne nuk do të japim një listë të asaj që do të dëshironim të përmirësonim dhe rregullojmë në Sandy Bridge. Tashmë është e qartë se çdo ndryshim është një kompromis kompleks - rreptësisht sipas ligjit të ruajtjes së materies (në formulimin e Lomonosov): nëse diçka ka mbërritur diku, atëherë diku e njëjta sasi do të ulet. Nëse Intel nxitonte të rregullonte gabimet e të vjetrës në çdo arkitekturë të re, atëherë numri i druve të zjarrit të thyer dhe çipave fluturues mund të tejkalonte përfitimet e marra. Prandaj, në vend të ekstremeve dhe një ideali të paarritshëm, është më fitimprurëse ekonomikisht të kërkosh një ekuilibër midis kërkesave që ndryshojnë vazhdimisht dhe ndonjëherë të kundërta.

Pavarësisht disa pikave, arkitektura e re jo vetëm që duhet të shkëlqejë shkëlqyeshëm (gjë që, duke gjykuar nga testet, e bën), por edhe të shkëlqejë më shumë se të gjitha të mëparshmet - si të sajën ashtu edhe rivalin e saj. Qëllimet e shpallura për performancën dhe ekonominë janë arritur, me përjashtim të optimizimit për grupin AVX, i cili do të shfaqet në versionet e reja të programeve të njohura. Dhe pastaj Gordon Moore do të befasohet edhe një herë me mprehtësinë e tij. Me sa duket, Intel është plotësisht i përgatitur për Betejën Epic midis arkitekturave që do të shohim këtë vit.

Falenderimet shprehen:

  • Maxim Loktyukhin, i njëjti "përfaqësues i Intel", një punonjës i departamentit të optimizimit të softuerit dhe harduerit, për t'iu përgjigjur pyetjeve të shumta sqaruese.
  • Mark Buxton, Inxhinier kryesor i Softuerit dhe Shef i Optimizimit, për përgjigjet e tij dhe gjithashtu për mundësinë për të marrë një lloj përgjigjeje zyrtare.
  • Agner Fog, programues dhe studiues i procesorit, për testimin e pavarur të nivelit të ulët të SB, i cili zbuloi shumë gjëra të reja dhe misterioze.
  • Lexues i vëmendshëm - për vëmendje, qëndrueshmëri dhe gërhitje me zë të lartë.
  • Tifozët e tërbuar të kampit të kundërt - deri në grumbull.

Së fundi Intel njoftoi zyrtarisht procesorë të rinj që funksionojnë në një mikroarkitekturë të re Ura e rërës. Për shumicën e njerëzve, "Njoftimi Sandy Bridge" është vetëm fjalë, por në përgjithësi, gjeneratat e Intel Core ll janë, nëse jo një epokë e re, atëherë të paktën një përditësim për pothuajse të gjithë tregun e procesorëve.


Fillimisht, u raportua se u lansuan vetëm shtatë procesorë, por në faqen më të dobishme arc.intel.com tashmë ka informacion për të gjitha produktet e reja. Kishte disa procesorë të tjerë, ose më saktë modifikimet e tyre (në kllapa, unë tregova çmimin e vlerësuar - sa do të kushtojë secili procesor në një grup prej 1000 copë):

Celular:

Intel Core i5-2510E (~ 266 dollarë)
Intel Core i5-2520M
Intel Core i5-2537M
Intel Core i5-2540M

Krahasimi vizual i detajuar i celularit Procesorët Intel Core i5 gjenerata e dytë.

Intel Core i7-2617M
Intel Core i7-2620M
Intel Core i7-2629M
Intel Core i7-2649M
Intel Core i7-2657M
Intel Core i7-2710QE (~ 378 dollarë)
Intel Core i7-2720QM
Intel Core i7-2820QM
Intel Core i7-2920XM Extreme Edition

Krahasimi vizual i detajuar i procesorëve celularë të gjeneratës së dytë Intel Core i7.

Desktop:

Intel Core i3-2100 (~ 117 dollarë)
Intel Core i3-2100T
Intel Core i3-2120 (138 dollarë)

Një krahasim vizual dhe i detajuar i gjeneratës së dytë të procesorëve desktop Intel Core i3.

Intel Core i5-2300 (~ 177 dollarë)
Intel Core i5-2390T
Intel Core i5-2400S
Intel Core i5-2400 (~ 184$)
Intel Core i5-2500K (~ 216 dollarë)
Intel Core i5-2500T
Intel Core i5-2500S
Intel Core i5-2500 (~ 205 dollarë)

Një krahasim vizual dhe i detajuar i gjeneratës së dytë të procesorëve desktop Intel Core i5.

Intel Core i7-2600K (~ 317 dollarë)
Intel Core i7-2600S
Intel Core i7-2600 (~ 294 dollarë)

Një krahasim vizual dhe i detajuar i gjeneratës së dytë të procesorëve desktop Intel Core i7.

Siç mund ta shihni, emrat e modeleve tani kanë katër shifra në emër - kjo është bërë në mënyrë që të mos ketë konfuzion me procesorët e gjeneratës së mëparshme. Formacioni doli të ishte mjaft i plotë dhe logjik - seritë më interesante i7 ndahen qartë nga i5 nga prania e teknologjisë Hyper Threading dhe rritja e madhësisë së cache-it. Dhe procesorët e familjes i3 ndryshojnë nga i5 jo vetëm në një numër më të vogël bërthamash, por edhe në mungesë të teknologjisë përforcim turbo.

Ndoshta ju i keni kushtuar vëmendje edhe shkronjave në emrat e procesorëve, pa të cilët diapazoni i modelit është bërë shumë i hollë. Pra, letrat S dhe T flasin për konsumin e reduktuar të energjisë, dhe për tëështë një shumëzues falas.

Një strukturë vizuale e procesorëve të rinj:

Siç mund ta shihni, përveç bërthamave grafike dhe kompjuterike, memories cache dhe kontrolluesit të memories, ekziston një i ashtuquajtur. Agjenti i sistemit- shumë gjëra janë hedhur atje, për shembull, kontrollorët e memories DDR3 dhe PCI-Express 2.0, një model i menaxhimit të energjisë dhe blloqe që janë përgjegjës në nivelin e harduerit për funksionimin e GPU-së së integruar dhe për shfaqjen e një imazhi nëse ai përdoret.

Të gjithë komponentët "bërthamë" (përfshirë procesorin grafik) janë të ndërlidhur nga një autobus unazor me shpejtësi të lartë me akses të plotë në cache L3, i cili rriti shpejtësinë e përgjithshme të shkëmbimit të të dhënave në vetë procesorin; Interesante, kjo qasje ju lejon të rritni performancën në të ardhmen, thjesht duke rritur numrin e bërthamave të shtuara në autobus. Edhe pse edhe tani gjithçka premton të jetë në krye - në krahasim me procesorët e gjeneratës së mëparshme, performanca e të rinjve është më adaptive dhe, sipas prodhuesit, në shumë detyra mund të demonstrojë një rritje prej 30-50% në shpejtësinë e ekzekutimit të detyrave!

Nëse dëshironi të mësoni më shumë rreth arkitekturës së re, atëherë në Rusisht mund t'ju këshilloj këto tre artikuj -,,.

Procesorët e rinj janë ndërtuar tërësisht në procesin 32 nm dhe për herë të parë kanë një mikroarkitekturë "vizualisht të zgjuar" që kombinon fuqinë më të mirë të përpunimit në klasë dhe teknologjinë e përpunimit të grafikës 3D në një çip të vetëm. Ka me të vërtetë shumë risi në grafikët Sandy Bridge, që synojnë kryesisht rritjen e performancës kur punoni me 3D. Mund të debatoni gjatë për “imponimin” e një sistemi video të integruar, por zgjidhje tjetër si e tillë nuk ka. Por ekziston një rrëshqitje e tillë nga prezantimi zyrtar, i cili pretendon të jetë i besueshëm, përfshirë në produktet celulare (laptopë):

Unë kam folur tashmë për teknologjitë e reja të gjeneratës së dytë të procesorëve Intel Core, kështu që nuk do ta përsëris veten. Do të fokusohem vetëm te zhvillimi. Intel Insider, pamja e së cilës u befasuan shumë. Siç e kuptoj unë, ky do të jetë një lloj dyqani që do t'u japë pronarëve të kompjuterëve akses në filma me definicion të lartë direkt nga krijuesit e këtyre filmave - diçka që shfaqej vetëm pak kohë pas shpalljes dhe shfaqjes. Disqet DVD ose Blu-ray. Për të demonstruar këtë veçori, Intel VP Muli Eden(Mooly Eden) i ftuar në skenë Kevin Tsujiharu(Kevin Tsujihara), President i Warner Home Entertainment Group. Unë citoj:

« Warner Bros. gjen sistemet personale platformën më të gjithanshme dhe më të përhapur për ofrimin e përmbajtjes argëtuese me cilësi të lartë, dhe tani Intel po e bën këtë platformë edhe më të besueshme dhe më të sigurt. Tani e tutje, ne do të jemi në gjendje t'u ofrojmë përdoruesve të PC-ve publikime dhe filma të rinj nga katalogu ynë në cilësi të vërtetë HD përmes WBShop, si dhe partnerëve tanë si CinemaNow.”- Muli Eden demonstroi punën e kësaj teknologjie duke përdorur shembullin e filmit “Inception”. Duke bashkëpunuar me studiot dhe gjigantët kryesorë të medias (siç janë Best Buy CinemaNow, Hungama Digital Media Entertainment, Image Entertainment, Sonic Solutions, Warner Bros. Digital Distribution dhe më shumë), Intel po ndërton një (hardware) të sigurt dhe të mbrojtur nga pirateria ekosistem për shpërndarjen, ruajtjen dhe luajtjen e videove me cilësi të lartë.

Funksionimi i teknologjisë së përmendur më sipër do të jetë në përputhje me dy zhvillime po aq interesante që janë gjithashtu të pranishme në të gjitha modelet e procesorëve të gjeneratës së re. po flas per ( Intel WiFi 2.0) dhe Intel InTru 3-D. E para është për transmetimin pa tel të videos HD (duke mbështetur rezolucione deri në 1080p), e dyta është për shfaqjen e përmbajtjes stereo në monitorë ose HDTV përmes një lidhjeje HDMI 1.4.

Dy funksione të tjera për të cilat nuk gjeta një vend më të përshtatshëm në artikull - Zgjerime të avancuara të vektorit të Intel(AVX). Mbështetja e përpunuesve për këto udhëzime përmirëson performancën e aplikacioneve me të dhëna intensive si redaktorët audio dhe softuerët e redaktimit audio. redaktimi profesional Fotografitë.

… dhe Video e sinkronizimit të shpejtë të Intel- falë punë e përbashkët me kompanitë softuerike si CyberLink, Corel dhe ArcSoft, gjigandi i procesorëve ka qenë në gjendje të përmirësojë performancën në këtë detyrë (transkodimi midis formateve H.264 dhe MPEG-2) me 17 herë krahasuar me grafikët e integruar të gjeneratës së mëparshme.

Supozoni se ka procesorë - si t'i përdorni ato? Kjo është e drejtë - së bashku me ta, u njoftuan edhe çipa të rinj (grupe logjike), të cilat janë përfaqësues të serisë së "gjashtëdhjetë". Me sa duket, janë vetëm dy komplete të rezervuara për Konsumatorët e etur, këto janë Intel H67 dhe Intel P67, mbi të cilat do të ndërtohen shumica e pllakave të reja amë. H67 është në gjendje të punojë me bërthamën e integruar video, ndërsa P67 është i pajisur me Performance Tuning për të mbingarkuar procesorin. Të gjithë procesorët do të punojnë në prizën e re, 1155 .


Më vjen mirë që duket se procesorët e rinj janë të pajtueshëm me prizat e procesorit Intel me arkitekturën e gjeneratës së ardhshme. Ky plus është i dobishëm si për përdoruesit e zakonshëm ashtu edhe për prodhuesit që nuk kanë nevojë të ridizajnojnë dhe krijojnë pajisje të reja.

Në total, Intel prezantoi më shumë se 20 çipa, çipa dhe adaptorë me valë, duke përfshirë procesorët e rinj Intel Core i7, i5 dhe i3, Çipa Intel Seritë 6 dhe adaptorët Intel Centrino Wi-Fi dhe WiMAX. Përveç atyre të përmendura më lart, në treg mund të shfaqen edhe "distinktivët" e mëposhtëm:

Më shumë se 500 modele pritet të dalin këtë vit në procesorë të rinj kompjuterët desktop dhe laptopë të markave kryesore në botë.

Dhe në fund, edhe një herë, një video fantastike, në rast se dikush nuk e ka parë:

Dallimi midis procesorëve "plotësisht" dhe "pjesërisht" të zhbllokuar

Cili është rezultati? Pasi testoi Turbo Boost në gjeneratat e kaluara të procesorëve, Intel vendosi ta kthejë atë në një mjet për pozicionimin e çmimeve reale të produkteve të tyre në raport me njëri-tjetrin. Nëse entuziastët e mëparshëm blenë më shpesh procesorë të rinj në seri, shpesh duke i mbingarkuar me lehtësi në nivelin e modeleve të vjetra, tani diferenca 400 MHz midis i3-2100 dhe i3-2120 kushton 21 dollarë dhe nuk mund të bësh asgjë për këtë.

Të dy procesorët e zhbllokuar do të kushtojnë pak më shumë se modelet e zakonshme. Ky ndryshim do të jetë më i vogël se në rastin e gjeneratave të mëparshme - 11 dollarë për modelin 2500 dhe 23 dollarë për modelin 2600. Intel ende nuk dëshiron t'i trembë shumë overclockers. Megjithatë, tani 216 dollarë është pragu për t'u bashkuar me klubin. Overclocking është argëtim për të cilin duhet të paguani. Është e qartë se një pozicion i tillë mund të tërheqë disa përdorues në kampin e AMD, procesorët e buxhetit të të cilëve overclock shumë mirë.

Overclocking vetë në tërësi është bërë më e lehtë - kërkesat për motherboard dhe RAM janë ulur, ka më pak telashe me kohën dhe koeficientët e ndryshëm. Por njerëzit ekstremë kanë një vend ku të kthehen - me siguri, do të shkruhen traktate të tëra për rregullimin e BCLK.

Bërthama grafike dhe sinkronizimi i shpejtë

Intel filloi të forcojë performancën e bërthamës së saj të integruar grafike edhe me shpalljen e Clarkdale dhe Arrandale, por në atë kohë nuk ishte e mundur të kapërcente konkurrentët. Një shirit tjetër është vendosur nga AMD, e cila është gati të shkatërrojë tregun e grafikëve diskrete të nivelit fillestar. Zgjidhja e Intel erdhi herët, por a do të jetë në nivelin e detyrës?

Le të fillojmë me dy zgjidhje. Ata quhen HD 2000 dhe HD 3000, dhe ndryshimi midis tyre qëndron në numrin e ndryshëm të njësive të ekzekutimit (BE). Në rastin e parë, janë 6 prej tyre, dhe në të dytin - 12. GMA HD gjithashtu kishte 12 të tilla, por rritja e performancës për shkak të integrimit dhe arkitekturës së ridizajnuar doli të ishte shumë domethënëse. Në grupin e procesorëve desktop Intel, vetëm disa procesorë me një shumëzues të zhbllokuar morën grafikë të avancuar. Këto janë pikërisht modelet në të cilat grafika e integruar do të përdoret me më pak probabilitet. Ky vendim na duket shumë i çuditshëm. Mbetet të shpresojmë që në të ardhmen Intel do të lëshojë gjithashtu modifikime të procesorëve më të ulët me një bërthamë grafike plotësisht të zhbllokuar.

Për fat të mirë, të gjithë procesorët e rinj celularë të kompanisë janë të pajisur me HD 3000. Intel është i vendosur të ushtrojë presion mbi konkurrentët në këtë segment sa më shumë që të jetë e mundur, sepse duhet të jetë më e lehtë për të arritur nivelin e performancës së zgjidhjeve të nivelit fillestar këtu .

Performanca e grafikëve të integruar varet nga më shumë sesa vetëm nga numri i BE-ve. Të gjithë Sandy-t desktop kanë të njëjtën frekuencë bazë (850 MHz), por ato më të vjetrat (2600 dhe 2600K) kanë një frekuencë maksimale më të lartë Turbo Boost - 1350 MHz kundrejt 1100 për pjesën tjetër. Rezultati gjithashtu do të ndikohet në një farë mase nga fuqia e bërthamave të CPU-së, por shumë më fort nga sasia e memories së tij cache. Në fund të fundit, një nga karakteristikat kryesore grafika të rejaështë përdorimi i memories cache të nivelit të tretë me bërthamat informatike, i zbatuar falë autobusit të unazave LLC.

Ashtu si me procesorët Clarkdale, produktet e reja përdorin përshpejtimin e harduerit për dekodimin MPEG, VC-1 dhe AVC. Megjithatë, ky proces tani është shumë më i shpejtë. Si në "të rritur" grafika diskrete, Procesorët Sandy Bridge kanë një bllok të veçantë që merret me kodimin / dekodimin e videos. Për dallim nga procesorët e gjeneratës së mëparshme, ai e merr plotësisht këtë detyrë. Përdorimi i përshpejtimit të harduerit është shumë më i dobishëm për sa i përket efikasitetit të energjisë, dhe performanca në rastin e SNB është shumë e lartë. Intel premton aftësinë për të deshifruar njëkohësisht më shumë se dy transmetime 1080p. Një performancë e tillë mund të jetë e nevojshme për të transkoduar shpejt videon ekzistuese në një format të përshtatshëm për një pajisje celulare. Për më tepër, të pasurit aftësitë multimediale bëjnë SNB zgjedhjen më të mirë kur ndërtoni një sistem HTPC.

Zhvillimi i zgjidhjeve grafike për procesorët Intel kryhet nga një ndarje e veçantë e kompanisë. Zhvillimet e reja të këtij divizioni janë gjithashtu shumë të rëndësishme për procesorët celularë të kompanisë. Derisa projekti Larrabee në një formë ose në një tjetër të marrë zhvillimin e duhur, Intel do të duhet të vendosë komponentët "jo-x86" në CPU-të e tyre.

Intel Core i5-2400 dhe Core i5-2500K

Ne morëm 2 procesorë të bazuar në arkitekturën Sandy Bridge. Para së gjithash, modeli 2500K është me interes, pasi ka një shumëzues të zhbllokuar. Në të ardhmen, standardet e modeleve me dy bërthama dhe procesorëve të serisë i7 mund të publikohen veçmas.

A është epërsia e Core i parë (Nehalem dhe, në 2009, Westmere) ndaj CPU-së së kundërshtarit final? Situata është pak si viti i parë pas daljes në treg të Pentium II: duke u mbështetur në dafinat tona dhe duke marrë fitime rekord, do të ishte mirë të vazhdonim një arkitekturë të suksesshme pa ndryshuar shumë emrin e saj, duke shtuar të reja, përdorimi i të cilave do përmirësojnë ndjeshëm performancën, duke mos harruar risitë e tjera që përshpejtojnë programet e versioneve të sotme. Vërtetë, ndryshe nga situata 10 vjet më parë, duhet t'i kushtohet vëmendje edhe temës aktualisht në modë të efikasitetit të energjisë, të luajtur me mbiemrin e paqartë Cool - "cool" dhe "ftohtë", - dhe dëshirën jo më pak në modë për të ndërtuar në procesor gjithçka që ekziston ende si e veçantë. Këtu, nën një salcë të tillë, shërbehet një risi.

"Pardje", "dje" dhe "sot" të procesorëve Intel.


Përpara transportues. tregojnë ngjyrat tipe te ndryshme informacion dhe bllokon përpunimin ose ruajtjen e tij.

Parashikim

Le të fillojmë me njoftimin e Intel për një (BPU) plotësisht të ridizajnuar. Ashtu si në Nehalem, ai parashikon adresën e pjesës së ardhshme prej 32 bajtësh të kodit çdo cikël (dhe përpara ekzekutimit aktual) në varësi të sjelljes së pritshme të udhëzimeve të kërcimit në pjesën e sapo parashikuar - dhe, me sa duket, pavarësisht nga numri dhe lloj kërcimesh. Më saktësisht, nëse pjesa aktuale përmban një tranzicion të supozuar të shkaktuar, adresat e saj dhe të synuara jepen; përndryshe, ajo kalon në pjesën tjetër me radhë. Vetë parashikimet janë bërë edhe më të sakta për shkak të dyfishimit (BTB), zgjatjes (GBHR) dhe optimizimit të funksionit hash të aksesit (BHT). Vërtetë, testet aktuale kanë treguar se në disa raste efikasiteti i parashikimit është ende pak më i keq se në Nehalem. Ndoshta rritja e performancës me një ulje të konsumit nuk është në përputhje me parashikimin e degëve me cilësi të lartë? Le të përpiqemi ta kuptojmë.

Në Nehalem (si dhe arkitektura të tjera moderne) BTB është i pranishëm në formën e një hierarkie me dy nivele - L1 i vogël - "i shpejtë" dhe i madh - "i ngadalshëm" L2. Kjo ndodh për të njëjtën arsye pse ka disa nivele: një zgjidhje me një nivel do të jetë shumë kompromisi në të gjithë parametrat (madhësia, shpejtësia e përgjigjes, konsumi, etj.). Por në SB, arkitektët vendosën të vendosin një nivel, dhe dyfishin e madhësisë së L2 BTB të Nehalem, pra ndoshta të paktën 4096 qeliza - kjo është saktësisht sa ka në Atom. (Duhet të theksohet se madhësia e kodit të ekzekutuar më shpesh po rritet ngadalë dhe ka gjithnjë e më pak gjasa të futet në cache, madhësia e së cilës është e njëjtë për të gjithë CPU-të Intel nga Pentium M i parë.) Në teori, kjo do të rrisë zonën e zënë nga BTB, dhe për shkak se sipërfaqja totale për të ndryshuar nuk rekomandohet (ky është një nga postulatet fillestare të arkitekturës) - diçka do të duhet të hiqet nga një strukturë tjetër. Por ka ende shpejtësi. Duke marrë parasysh që SB duhet të projektohet për një shpejtësi pak më të lartë për të njëjtin proces, mund të pritet që kjo strukturë e madhe të jetë pengesa e të gjithë transportuesit - përveç nëse është gjithashtu i tubacionit (dy janë tashmë të mjaftueshme). Vërtetë, numri i përgjithshëm i transistorëve që funksionojnë për cikël në BTB do të dyfishohet në këtë rast, gjë që nuk kontribuon aspak në kursimin e energjisë. Bllokim përsëri? Për këtë, Intel përgjigjet se adresat e reja BTB i ruan në një lloj gjendje të ngjeshur, e cila ju lejon të keni dy herë më shumë qeliza me sipërfaqe dhe konsum të ngjashëm. Por ende nuk është e mundur të verifikohet kjo.

Ne shikojmë nga ana tjetër. SB mori jo algoritme të reja parashikimi, por optimizoi ato të vjetra: të përgjithshme, për kërcime indirekte, sythe dhe kthime. Nehalem ka GBHR 18-bit dhe BHT me madhësi të panjohur. Sidoqoftë, mund të garantoni që numri i qelizave në tabelë është më pak se 2 18, përndryshe do të merrte pjesën më të madhe të kernelit. Prandaj, ekziston një funksion i veçantë hash që kolapson 18 bitët e historisë së të gjitha tranzicioneve dhe pjesët e adresës së udhëzimit në një indeks me një gjatësi më të vogël. Dhe, ka shumë të ngjarë, ka të paktën dy hash - për të gjitha bitet GBHR dhe për ato që pasqyrojnë funksionimin e tranzicioneve më të vështira. Dhe këtu është efikasiteti i shpërndarjes së rastësishme sipas indekseve të modeleve të ndryshme të sjelljes nga numrat e qelizave BHT përcakton suksesin e parashikuesit të përgjithshëm. Ndërsa nuk është thënë në mënyrë eksplicite, Intel sigurisht ka përmirësuar hash-et për të lejuar GBHR më të gjata me mbushje po aq efikase. Por ende mund të hamendësohet për madhësinë e BHT - si dhe për mënyrën se si konsumi i energjisë i parashikuesit në tërësi ka ndryshuar në të vërtetë ... Sa i përket (RSB), është ende 16-adresa, por një kufizim i ri në Vetë thirrjet janë prezantuar - jo më shumë kodi katër me 16 bajt.

Para se të shkojmë më tej, le të themi për një mospërputhje të lehtë midis teorisë së deklaruar dhe praktikës së vëzhguar - dhe tregoi se parashikuesi i ciklit në SB është hequr, si rezultat i të cilit parashikimi i kalimit përfundimtar në fillimin e ciklit është bërë nga një algoritëm i përgjithshëm, pra më keq. Një përfaqësues i Intel na siguroi se nuk mund të bëhej "më keq", megjithatë...

Dekodimi dhe IDQ

Adresat e komandave të ekzekutueshme të parashikuara paraprakisht (në mënyrë alternative për çdo thread - me teknologjinë e aktivizuar) lëshohen për të kontrolluar praninë e tyre në cache instruksionet (L1I) dhe (L0m), por ne do të heshtim për këtë të fundit - do të përshkruajmë pjesa tjetër e përparme për momentin. Mjaft e çuditshme, Intel e mbajti madhësinë e pjesës së udhëzimit të lexuar nga L1I në 16 bajt (këtu fjala "pjesë" kuptohet sipas tonës). Deri më tani, kjo ka qenë një pengesë për kodin, madhësia mesatare e instruksionit të të cilit është rritur në 4 bajt, dhe për këtë arsye 4 instruksionet që janë të dëshirueshme për ekzekutim për cikël nuk do të përshtaten më në 16 bajt. AMD e zgjidhi këtë problem në arkitekturën K10 duke zgjeruar pjesën e udhëzimeve në 32 bajt - megjithëse CPU-të e saj nuk kanë më shumë se 3 tubacione deri më tani. Në SB, pabarazia e madhësisë çon në një efekt anësor: parashikuesi nxjerr adresën tjetër të bllokut 32-bajtë, dhe nëse një tranzicion (me sa duket) i shkaktuar gjendet në gjysmën e tij të parë, atëherë nuk është e nevojshme të lexohet dhe deshifrohet e dyta - megjithatë, do të bëhet.

Nga L1I, pjesa shkon te paradekoderi, dhe prej andej - te vetë matësi i gjatësisë (), duke përpunuar deri në 7 ose 6 komanda / orë (me dhe pa ; Nehalem mund të bënte maksimumi 6), në varësi të gjatësisë totale të tyre dhe kompleksiteti. Menjëherë pas tranzicionit, përpunimi fillon me një komandë në adresën e synuar, përndryshe, nga bajt para të cilit paradekoderi ndaloi një cikël më parë. Ngjashëm me pikën përfundimtare: ose kjo është (ndoshta) një degë e aktivizuar, adresa e bajtit të fundit të së cilës erdhi nga BTB, ose bajtit të fundit të vetë pjesës - përveç nëse arrihet kufiri i 7 komandave / orës, ose një haset komanda “e pakëndshme”. Me shumë mundësi, tamponi i matësit të gjatësisë ka vetëm 2-4 servime, megjithatë, matësi i gjatësisë mund të marrë çdo 16 prej tij e suksesshme bajt. Për shembull, nëse në fillim të një pjese njihen 7 komanda me dy bajt, atëherë në ciklin tjetër mund të përpunohen edhe 16 bajt të tjerë, duke filluar nga data 15.

Matësi i gjatësisë, ndër të tjera, është i angazhuar në zbulimin e çifteve të komandave të bashkimit makro. Ne do të flasim për vetë çiftet pak më vonë, por tani për tani, vini re se, si në Nehalem, jo ​​më shumë se një çift i tillë mund të zbulohet për cikël, megjithëse mund të shënohen maksimumi 3 (dhe një komandë tjetër e vetme). . Megjithatë, matja e gjatësisë së instruksioneve është një proces pjesërisht serial, kështu që nuk do të ishte e mundur të përcaktohen disa çifte makro-bashkimi gjatë një cikli.

Komandat e etiketuara bien në njërën nga dy komandat (IQ: radhë instruksionesh) - një për thread, 20 komanda secila (që është 2 më shumë se Nehalem). lexon në mënyrë alternative komandat nga radhët dhe i përkthen ato në uops. Ai ka 3 të thjeshta (përkthe 1 instruksion në 1 uop, dhe me bashkim makro - 2 instruksione në 1 uop), një përkthyes kompleks (1 instruksion në 1-4 Uop ose 2 komanda në 1 Uop) dhe një mikrosekuencer për më komplekset komandat që kërkojnë 5 ose më shumë leckë nga . Për më tepër, ruan vetëm "bishtat" e çdo sekuence, duke filluar nga fshirja e 5-të, sepse 4 të parat lëshohen nga një përkthyes kompleks. Për më tepër, nëse numri i uop-ve në firmware nuk është i pjesëtueshëm me 4, atëherë katër të fundit të tyre do të jenë të paplota, por futja e 1-3 uops të tjera nga përkthyesit në të njëjtën masë nuk do të funksionojë. Rezultati i dekodimit vjen në dhe dy (një për rrjedhë). Këto të fundit (të quajtura zyrtarisht IDQ - radhë dekodimi instruksionesh, radhë komandash të deshifruara) kanë ende 28 uops dhe aftësinë për të bllokuar ciklin nëse pjesa e tij e ekzekutueshme përshtatet aty.

E gjithë kjo (përveç cache-it të pastrimit) ishte tashmë në Nehalem. Dhe cilat janë ndryshimet? Para së gjithash, padyshim, dekoderi është mësuar të trajtojë udhëzimet e reja të nëngrupeve. Mbështetja për grupet SSE me të gjitha shifrat nuk është më befasuese dhe përshpejtimi i enkriptimit të komandës (përfshirë PCLMULQDQ) është shtuar në Westmere (versioni 32 nm i Nehalem). Është shtuar një kurth: ky funksion nuk funksionon për komandat që kanë adresim konstant dhe RIP (relativ me RIP, adresa është në lidhje me treguesin e komandës - mënyra e zakonshme aksesimi i të dhënave në kodin 64-bit). Komanda të tilla kërkojnë 2 uops (ngarkim dhe funksionim të veçantë), që do të thotë se dekoderi do t'i përpunojë ato jo më shumë se një për cikël, duke përdorur vetëm një përkthyes kompleks. Intel pretendon se këto sakrifica janë bërë për të kursyer energji, por nuk është e qartë se çfarë: vendosja dy herë, ekzekutimi dhe uops do të kërkojnë qartë më shumë burime, dhe për rrjedhojë do të konsumojnë energji, se një.

Bashkimi makro është optimizuar - më parë vetëm krahasimi aritmetik ose logjik (CMP ose TEST) mund të ishte komanda e parë e bashkuar, tani komandat e thjeshta aritmetike të mbledhjes dhe zbritjes (ADD, SUB, INC, DEC) dhe logjike "AND" (AND) lejohen. , edhe ndërruesit për tranzicionin (skuadra e dytë e çiftit). Kjo ju lejon të reduktoni 2 komandat e fundit në 1 uop në pothuajse çdo lak. Sigurisht, kufizimet në komandat e bashkuara mbeten, por ato nuk janë kritike, sepse situatat e listuara për një palë komandash ekzekutohen pothuajse gjithmonë:

  • e para e komandës së parë duhet të jetë një regjistër;
  • nëse operandi i dytë i instruksionit të parë është në memorie, adresimi relativ i RIP është i pavlefshëm;
  • komanda e dytë nuk mund të jetë në fillim ose të kalojë një kufi të linjës.

Rregullat për vetë tranzicionin janë:

  • vetëm TEST dhe AND janë në përputhje me çdo kusht;
  • Krahasimet mbi (jo) të barabarta dhe çdo të nënshkruar janë të pajtueshme me çdo komandë të parë të lejuar;
  • Krahasimet në (jo) të kryera dhe të panënshkruarat nuk janë në përputhje me INC dhe DEC;
  • Krahasimet e tjera (shenja, tejmbushja, barazia dhe mohimet e tyre) lejohen vetëm për TEST dhe DHE.

Ndryshimi kryesor në radhët e uop-ve është se uop-të e bashkuara të tipit , qasja në memorie e të cilave kërkon leximin e regjistrit të indeksit, (dhe disa lloje të tjera të rralla) ndahen në çifte kur shkruajnë në IDQ. Edhe nëse ka 4 leckë të tillë, atëherë të 8 ato përfundimtare do të regjistrohen në IDQ. Kjo është bërë sepse fshirësi (IDQ), dispeçeri (ROB) dhe radhët e rezervimit përdorin tani formatin e shkurtuar të leckës pa fushën e indeksit 6-bit (natyrisht, për të kursyer para kur lëvizni leckën). Supozohet se raste të tilla do të jenë të rralla, dhe për këtë arsye shpejtësia nuk do të ndikohet shumë.

Ne do të përshkruajmë historinë e shfaqjes së mënyrës së bllokimit të ciklit në këtë tampon më poshtë, por këtu do të tregojmë vetëm një gjë të vogël: kalimi në fillim të ciklit më parë mori 1 cikël shtesë, duke formuar një "flluskë" midis leximeve të fundi dhe fillimi i ciklit, por tani ai ka ikur. Megjithatë, uop-të e fundit nga përsëritja aktuale dhe ato të parat nga tjetra nuk mund të jenë në katër uop-të e lexuara për cikël, kështu që në mënyrë ideale numri i uop-ve në cikli duhet të pjesëtohet me 4. Pra, kriteret për bllokimin e tij kanë nuk ka ndryshuar shumë:

  • lapat e lakut duhet të gjenerohen nga jo më shumë se 8 pjesë 32-bajtë të kodit burimor;
  • këto pjesë duhet të ruhen në L0m (në Nehalem, natyrisht, në L1I);
  • Lejohen deri në 8 kërcime të pakushtëzuara, të parashikuara në zjarr (përfshirë atë përfundimtare);
  • thirrjet dhe kthimet nuk lejohen;
  • Qasjet e paçiftuara në stek nuk lejohen (më shpesh me një numër të pabarabartë komandash PUSH dhe POP) - më shumë për këtë më poshtë.

motor rafte

Ekziston edhe një mekanizëm tjetër, punën e të cilit nuk e kemi marrë parasysh në artikujt e mëparshëm - motori i stivës (gjurmuesi i treguesit të stivës, "gjurmuesi për treguesin (në krye) të pirgut"), i vendosur përpara IDQ. Ajo u shfaq në Pentium M dhe nuk ka ndryshuar deri më sot. Thelbi i tij është që modifikimi i treguesit të stivës (regjistri ESP / RSP për modalitetin 32/64-bit) me komanda për të punuar me të (PUSH, POP, CALL dhe RET) bëhet nga një grumbullues i veçantë, rezultati ruhet. në një regjistër të veçantë dhe u kthye në leckë si konstante - në vend që të modifikohet treguesi pas çdo udhëzimi, siç kërkohet dhe siç ishte rasti me CPU-të Intel përpara Pentium M.

Kjo ndodh derisa disa instruksione të kenë akses drejtpërdrejt te treguesi (dhe në disa raste të tjera të rralla) - motori i stivës krahason treguesin e hijes me zero dhe, nëse vlera është jo zero, fut uops në rrjedhë përpara se udhëzimi që thërret treguesin të sinkronizojë uop që i shkruan treguesit vlerën aktuale nga regjistri special (dhe vetë regjistri është rivendosur). Meqenëse kjo është e nevojshme rrallë, shumica e akseseve të stivës që modifikojnë vetëm në mënyrë implicite treguesin përdorin një kopje hije të tij që modifikohet në të njëjtën kohë me operacionet e tjera. Kjo do të thotë, nga pikëpamja e blloqeve të tubacionit, komanda të tilla kodohen nga një leckë e vetme e bashkuar dhe nuk ndryshojnë nga akseset e zakonshme të memories, pa kërkuar përpunim në ALU.

Lexuesi i vëmendshëm (mirëmëngjes!) do të vërejë lidhjen: kur radha e pastiçeve është në qark, hyrjet e paçiftuara në pirg janë të papranueshme pikërisht sepse motori i stivës është në linjë. përpara IDQ - nëse pas përsëritjes tjetër vlera e treguesit të hijes rezulton të jetë jo zero, do të jetë e nevojshme të futni një sinkron në përsëritjen e re, dhe në modalitetin ciklik kjo është e pamundur (uops lexohen vetëm nga IDQ). Për më tepër, motori i pirgut në përgjithësi fiket për të kursyer energji, si të gjitha pjesët e tjera të pjesës së përparme.

Jeta sekrete e nops

Një tjetër ndryshim është bërë në matësin e gjatësisë, por ky rast bie pak në sy. Së pari, le të kujtojmë se çfarë janë dhe pse janë të nevojshme. Në arkitekturën x86, nop ishte vetëm 1 bajt. Kur ishte e nevojshme të zhvendosej kodi me më shumë se 1 bajt ose të zëvendësoheshin komanda më të gjata se 1 bajt, ata thjesht i futnin ato disa herë. Por pavarësisht faktit se kjo komandë nuk bën asgjë, duhet ende kohë për ta deshifruar atë dhe është në përpjesëtim me numrin e nyjeve. Në mënyrë që performanca e programit "të arnuar" të mos ulet, nop mund të zgjatet. Sidoqoftë, në CPU të viteve '90, shkalla e komandave të deshifrimit me numrin e prefikseve mbi një vlerë të caktuar (e cila është shumë më pak se gjatësia maksimale e lejueshme e komandës x86 prej 15 bajt) ra ndjeshëm. Për më tepër, posaçërisht për nopa, prefiksi përdoret, si rregull, i një lloji, por përsëritet shumë herë, gjë që lejohet vetëm si një përjashtim i padëshirueshëm, duke ndërlikuar gjatësinë.

Për të zgjidhur këto çështje, duke filluar me Pentium Pro dhe Përpunuesit Athlon kuptoni "long nop" me bajt modR/M për zgjatjen "zyrtare" të komandës duke përdorur regjistrat dhe kompensimin e adresës. Natyrisht, nuk ndodhin asnjë operacion me memorie dhe regjistra, por blloqet e gjatësisë së njëjtë përdoren për të përcaktuar gjatësinë si për komandat e zakonshme shumëbajtëshe. Përdorimi i nopsave të gjata tani rekomandohet zyrtarisht nga udhëzimet e optimizimit të softuerit të nivelit të ulët të Intel dhe AMD. Nga rruga, paradekoduesi SB përgjysmoi (nga 6 në 3 cikle) dënimin për prefikset 66 dhe 67 që ndryshojnë gjatësinë e konstantës dhe kompensimit të adresës - por, si në Nehalem, dënimi nuk vendoset për komandat ku bëjnë këto parashtesa. në fakt nuk ndryshon gjatësinë (për shembull, nëse prefiksi 66 zbatohet në një instruksion pa një operand të menjëhershëm) ose janë pjesë e një liste ndërprerësash (që shpesh përdoret në kodin vektorial).

Gjatësia maksimale e një nop të gjatë të formatuar siç duhet nuk i kalon 9 bajt për Intel dhe 11 për AMD. Dhe për këtë arsye, për shtrirjen në 16 ose 32 bajt, mund të ketë ende disa nops. Megjithatë, meqenëse kjo komandë është e thjeshtë, dekodimi dhe "ekzekutimi" i saj nuk do të marrë fare burime. më shumë përpunim komandat më të thjeshta. Prandaj, për shumë vite, ka pasur testime me hundë të gjatë metodë standarde përcaktimi i parametrave të pjesës së përparme të transportuesit, në veçanti, matësit të gjatësisë dhe dekoderit. Dhe këtu Sandy Bridge prezantoi një surprizë shumë të çuditshme: testimi i performancës së programeve të zakonshme nuk zbuloi ndonjë vonesë dhe ngadalësim, por kontrolli sintetik në detyrë i parametrave të dekoderit tregoi papritur se performanca e tij është e barabartë me një udhëzim për orë! Në të njëjtën kohë, Intel nuk dha asnjë njoftim zyrtar për ndryshime të tilla rrënjësore në dekoder.

Procedura e matjes funksionoi mirë në Nehalem dhe tregoi saktë 4 . Mund ta fajësoni Turbo Boost 2.0 të ri dhe "mbi" aktiv, duke prishur normat e matura të orës, por për teste ai u çaktivizua. Mbinxehja me mbytje të ngadalësimit të frekuencës është gjithashtu e përjashtuar. Dhe kur, më në fund, u zbulua arsyeja, ajo u bë edhe më e çuditshme: rezulton se nop-et e gjata në SB përpunohen vetëm nga përkthyesi i parë i thjeshtë, megjithëse nops 1-byte me çdo numër parashtesash dhe komanda të ngjashme "mosveprimi" (për shembull, kopjimi i një regjistri në vetvete) pranohen lehtësisht të katër. Pse u bë në këtë mënyrë nuk është e qartë, megjithatë, të paktën një pengesë e tillë zgjidhje teknike tashmë e ka treguar qartë veten: ekipi ynë hulumtues kaloi dhjetë ditë për të zbuluar arsyet e ngadalësisë misterioze të dekoderit ... Për hakmarrje, u kërkojmë tifozëve të egër të Kampit Përballë të nxjerrin një lloj teorie konspirative për planet tinzare të një kompanie të caktuar I. për të ngatërruar studiuesit naivë trima të procesorëve. :)

Nga rruga, siç doli, përkthyesi nr. 1 ishte tashmë "më i barabartë" ndër të tjera. Në Nehalem, komandat e lëvizjes ciklike (ROL dhe ROR) me një operand konstant të qartë u dekoduan gjithashtu vetëm në përkthyesin e parë, dhe i katërti u çaktivizua në të njëjtin cikël, kështu që vlera e IPC ra në 3. Do të duket - pse jepni një shembull kaq të rrallë këtu? Por pikërisht për shkak të kësaj kapjeje, për të arritur shpejtësinë maksimale në algoritmet e hashimit si SHA-1, nevojitej një planifikim shumë i saktë i udhëzimeve, të cilat përpiluesit nuk mund ta përballonin. Sidoqoftë, në SB, udhëzime të tilla thjesht u bënë 2-kahëshe, kështu që, duke zënë një përkthyes kompleks (i cili tashmë është një), ato sillen pothuajse në mënyrë të padallueshme për CPU-në, por më të parashikueshme për një person dhe një përpilues. Me nopas, ishte e kundërta. Mop cache

Qëllimet dhe paraardhësit

Jo më kot e ndamë këtë kapitull nga pjesa tjetër e përshkrimit të pjesës së përparme - shtimi i cache-it të leckës tregon qartë se cilën rrugë ka zgjedhur Intel për të gjithë procesorët e saj, duke filluar me Core 2. Për herë të parë (për Intel) , u shtua një bllok që arriti në të njëjtën kohë dy, me sa duket, qëllime kontradiktore: rritja e shpejtësisë dhe kursimi i energjisë. Bëhet fjalë për radhën e komandës (IQ) ndërmjet paradekoderit dhe dekoderit, i cili më pas ruante deri në 18 komanda deri në 64 bajt në total. Nëse do të zbutej vetëm diferenca në shkallët e përgatitjes dhe dekodimit të komandave (si një buffer normal), përfitimi do të ishte i vogël. Por Intel mendoi të bashkëngjitte një bllok të vogël LSD në IQ (nuk ka gjasa që djemtë të "pranonin" diçka, ata thjesht kanë një humor të tillë) - Detektor i Rrjedhës Loop, "Detektori i rrjedhës ciklike". Me zbulimin e një cikli që përshtatet në 18 instruksione, LSD çaktivizon të gjitha fazat e mëparshme (parashikuesin, memorien e fshehtë L1I dhe paradekoduesin) dhe i vendos udhëzimet e ciklit në dekoder derisa të përfundojë, ose derisa të bëhet një kalim përtej tij (thirrjet dhe kthimet janë nuk lejohet). Kështu, energjia kursehet duke çaktivizuar blloqet e përkohshme të papunë dhe performanca rritet për shkak të një fluksi të garantuar prej 4 instruksionesh / cikli për dekoderin, edhe nëse ato ishin "të siguruara" me prefikset më të papërshtatshme.

Intel padyshim që i pëlqeu kjo ide, kështu që skema u optimizua për Nehalem: IQ u kopjua (për dy rryma), dhe midis dekoderit dhe dispeçerit (d.m.th., saktësisht në kufirin e pjesës së përparme dhe të pasme), dy radhë IDQ prej 28 uops secili u vendos dhe blloku LSD iu transferua atyre. Tani, kur cikli është i bllokuar, dekoderi është gjithashtu i fikur dhe performanca është rritur, përfshirë për shkak të fluksit të garantuar të jo 4 komandave, por 4 uops për orë, edhe nëse ato janë krijuar me një minimum (për Core 2 / i) me një ritëm prej 2 uop/bar. Tifozët e tërbuar të Kampit Përballë, duke u shkëputur nga aktiviteti i tyre i preferuar për një sekondë, do të fusin menjëherë një kapëse flokësh: nëse LSD është një gjë kaq e mirë, pse nuk u fut në Atom? Dhe kapaku i flokëve është i vërtetë - duke pasur një radhë 32-uP pas dekoderit, Atom nuk është në gjendje të bllokojë ciklin në të, gjë që do të ishte shumë e dobishme për kursimin e milivateve të çmuara. Sidoqoftë, Intel nuk do të hiqte dorë nga ideja dhe përgatiti një përditësim për CPU-të e reja, dhe çfarë përditësimi!

Emri zyrtar i brendshëm për cache uop është DSB (dekodimi i transmetimit buffer), megjithëse nuk është aq i saktë sa termi i rekomanduar DIC (cache instruksioni i deshifruar). Mjaft e çuditshme, ai nuk zëvendëson, por plotëson radhët IDQ, të cilat tani janë të lidhura me dekoderin ose me një cache leckë. Në parashikimin e degës tjetër, adresa e synuar kontrollohet njëkohësisht në memorien e instruksioneve dhe uop. Nëse e fundit funksionon, atëherë leximi i mëtejshëm vjen prej tij, dhe pjesa tjetër e përparme është e fikur. Kjo është arsyeja pse cache uop është cache e nivelit 0 për uop, d.m.th. L0m.

Është interesante që kjo ide mund të vazhdohet duke i quajtur memoriet e IDQ "minus nivelin e parë". :) Por a nuk është e tepërt një hierarki kaq komplekse në kuadrin e as të gjithë bërthamës, por vetëm të një fronti? Le të Intel, si përjashtim, të mos kursejë hapësirë, por a do të sjellë një palë IDQ kursime shtesë të konsiderueshme, duke pasur parasysh që vetëm cache e uops është çaktivizuar tani gjatë funksionimit të tyre, pasi pjesa tjetër e përparme (përveç parashikuesit) është tashmë në gjumë? Dhe në fund të fundit, nuk do të merrni as një rritje të veçantë të shpejtësisë, sepse cache uop gjithashtu është vendosur të gjenerojë 4 uop / cikël. Me sa duket, inxhinierët e Intel vendosën që një lojë me 3 nivele ia vlen sa qirinjtë milivat.

Përveç kursimeve, cache e leckës përshpejton performancën, duke përfshirë uljen e dënimit për parashikimin e rremë të degës: në Nehalem, kur u gjet kodi i saktë në L1I, dënimi ishte 17 cikle, në SB - 19, por nëse kodi ishte gjendet në L0m, atëherë vetëm 14. Për më tepër, këta janë numrat maksimalë: me një tranzicion të parashikuar gabimisht, planifikuesi ende duhet të fillojë dhe të përfundojë uop-et e mëparshme në rendin e programit, dhe gjatë kësaj kohe L0m mund të ketë kohë për të pompuar saktë uops në mënyrë që planifikuesi t'i nisë ato menjëherë pas dorëheqjes së komandave përpara tranzicionit. Në Nehalem, kjo teknikë funksionoi me IDQ dhe pjesën e përparme, por në rastin e parë, probabiliteti që adresa e saktë e objektivit do të jetë gjithashtu brenda ciklit 28 mop është shumë e vogël, dhe në të dytin, ngadalësia e pjesës së përparme në shumicën e rasteve. rastet nuk lejonin zvogëlimin e vonesës në zero. SB ka një shans të tillë më shumë.

Pajisja

Topologjikisht, L0m përbëhet nga 32 x 8 rreshta (8- ). Çdo rresht ruan 6 uops (në të gjithë cache - 1536, d.m.th. "një kiloop e gjysmë"), dhe cache mund të shkruajë dhe lexojë një rresht në të njëjtën kohë. Parashikuesi jep adresat e blloqeve 32-bajtë, dhe është kjo madhësi që funksionon për L0m, prandaj, më tej, me termin "copë" nënkuptojmë një bllok kodi 32-bajtë të rreshtuar dhe parashikuar si një bllok ekzekutues 32-bajtë. i kodit (dhe jo 16-byte, si për një dekoder). Gjatë deshifrimit, kontrolluesi L0m pret që pjesa të përpunohet deri në fund ose derisa të aktivizohet tranzicioni i parë në të (natyrisht, me sa duket - këtu e tutje ne supozojmë se parashikimet janë gjithmonë të sakta), duke grumbulluar uops në të njëjtën kohë me dërgimin e tyre në pjesën e pasme. Më pas rregullon pikat e hyrjes dhe daljes së pjesës sipas sjelljes së tranzicionit. Zakonisht, pika e hyrjes është adresa e synuar e tranzicionit të shkrepur në pjesën e mëparshme (më saktë, 5 bitet e poshtme të adresës), dhe pika e daljes është adresa e vetë tranzicionit të shkrepur në këtë pjesë. Në rastin ekstrem, nëse as pjesët e mëparshme dhe as ato aktuale nuk shkaktojnë një tranzicion të vetëm (d.m.th., pjesët jo vetëm që ekzekutohen, por gjithashtu ruhen në një rresht), atëherë të dyja do të ekzekutohen në tërësinë e tyre - hyrja e tyre do të jetë në zero mop dhe bajtin e parë të të parës që përshtatet plotësisht në këtë pjesë të komandës, dhe dalja është në fshirjen e fundit të komandës së fundit plotësisht të përshtatshme dhe bajtin e saj fillestar.

Nëse ka më shumë se 18 uops në një pjesë, ajo nuk ruhet në memorie të fshehtë. Kjo vendos një madhësi minimale mesatare (brenda një pjese) të instruksionit prej 1.8 bajt, e cila nuk do të jetë një kufizim serioz në shumicën e programeve. Mund të kujtojmë pikën e dytë të kufizimeve IDQ - nëse cikli përshtatet në një pjesë, por merr nga 19 në 28 uops, as cache L0m dhe as radha IDQ nuk do ta rregullojnë atë, megjithëse do të përshtatej kudo në madhësi. Sidoqoftë, në këtë rast, gjatësia mesatare e komandave duhet të jetë 1.1-1.7 bajt, gjë që është jashtëzakonisht e pamundur për dy duzina komandash me radhë.

Me shumë mundësi, pjesët uops shkruhen në cache në të njëjtën kohë, duke zënë 1-3 rreshta të një grupi, kështu që për L0m shkelet një nga parimet kryesore të funksionimit të një cache-shoqëruese të grupeve: zakonisht me një rresht të një aktivizohet grupi. Menjëherë, etiketat deri në tre rreshta mund të marrin adresën e së njëjtës pjesë, që ndryshojnë vetëm në numra serialë. Kur adresa e parashikuar hyn në L0m, leximi ndodh në të njëjtën mënyrë - aktivizohen 1, 2 ose 3 shtigje të grupit të dëshiruar. Vërtetë, një skemë e tillë është e mbushur me një pengesë.

Nese nje program i ekzekutueshëm në të gjitha pjesët deshifrohet në 13-18 uops, të cilat do të marrin 3 rreshta L0m për të gjitha pjesët, do të gjenden sa vijon: nëse grup aktualështë tashmë e zënë nga dy pjesë me 3 rreshta, dhe e treta po përpiqet t'i shkruajë (që nuk mjafton për një rresht), do të duhet të hiqni me forcë një nga ato të vjetrat dhe duke marrë parasysh lidhjen e tij, të gjitha 3 te vjetra. Kështu, më shumë se dy pjesë të kodit "small-command" në një grup nuk duhet të përshtaten. Gjatë testimit të këtij supozimi në praktikë, kjo është ajo që ndodhi: pjesët me komanda të mëdha që kërkonin më pak se 7 uops u paketuan në L0m me një numër prej 255 (për disa arsye nuk funksionoi për të marrë një më shumë), duke përshtatur pothuajse 8 KB të kodit. Pjesët mesatare (7–12 uops) mbushën të gjitha 128 pozicionet e mundshme (2 rreshta secila), të ruajtura saktësisht 4 KB. Epo, komandat e vogla përshtaten në 66 pjesë, që është dy më shumë se vlera e pritur (2112 bajt kundrejt 2048), e cila, me sa duket, shpjegohet nga efektet kufitare të kodit tonë të provës. Mungesë në fytyrë - nëse 256 linja me 6 leckë mund të plotësohen plotësisht, ato do të mjaftonin për 85 treshe të plota me një madhësi totale të kodit prej 2720 bajt.

Ndoshta Intel nuk pret që në disa kode të ketë aq shumë komanda të shkurtra dhe të thjeshta sa më shumë se 2/3 e tyre do të bien në pjesë me 3 rreshta, të cilat do ta detyrojnë njëri-tjetrin të largohen nga L0m para kohe. Dhe edhe nëse haset një kod i tillë - duke pasur parasysh thjeshtësinë e dekodimit të tij, pjesa tjetër e blloqeve të përparme mund të përballojnë lehtësisht detyrën e furnizimit të 4 uops / ciklit të nevojshëm për pjesën e pasme (megjithatë, pa kursimet e premtuara në vat dhe penalitetet ciklet në rast të parashikimit të rremë). Çuditërisht, nëse L0m do të kishte 6 shtigje, nuk do të kishte asnjë problem. Intel vendosi që të kesh një madhësi cache një të tretën më të madhe për shkak të asociativitetit është më e rëndësishme ...

Dimensionet

Kujtoni që ideja për të ruajtur një numër të madh uops në vend të udhëzimeve x86 nuk është e re. Ai u shfaq për herë të parë në Pentium 4 në formën e një cache të gjurmëve uop - sekuenca të uops pas shpalosjes së lakut. Për më tepër, cache-i i gjurmës nuk plotësoi, por zëvendësoi L1I-në që mungonte - komandat për dekoderin u lexuan menjëherë nga . Pavarësisht harresës së arkitekturës NetBurst, është e arsyeshme të supozohet se inxhinierët e Intel-it kanë përdorur përvojën e kaluar, ndonëse pa hapje të ciklit dhe një parashikues të dedikuar për cache. Le të krahasojmë zgjidhjet e vjetra dhe të reja (CPU-të e reja quhen këtu Core i 2, sepse numrat e pothuajse të gjitha modeleve me arkitekturë SB fillojnë me një dy):

* - me sa duket

Këtu na duhet një shpjegim. Së pari, xhiroja për L0m bazohet në një kufi të gjerësisë totale të tubacionit prej 4 uops. Më sipër, supozuam se L0m mund të lexojë dhe të shkruajë 18 uops për cikël. Sidoqoftë, kur lexoni, të 18-të (nëse do të kishte kaq shumë prej tyre gjatë deshifrimit të pjesës origjinale) nuk mund të dërgohen për orë, dhe dërgimi bëhet në disa orë.

Më tej, madhësia e leckës në copa në përgjithësi i referohet informacionit shumë delikat që prodhuesit ose nuk i japin fare, ose vetëm kur shtypen pas murit (ata thonë, ju keni llogaritur tashmë gjithçka, kështu qoftë - ne do konfirmojeni). Për një CPU Intel, shifra e fundit e njohur me besueshmëri është 118 bit për Pentium Pro. Është e qartë se madhësia është rritur që atëherë, por supozimet fillojnë nga këtu. 118 bit për një CPU 32-bit x86 mund të merret nëse lecka ka fusha për adresën e instruksionit që e ka gjeneruar atë (32 bit), operandin e menjëhershëm (32 bit), kompensimin e adresës (32 bit), operandët e regjistrit (3 me 3 bit + 2 bit për shkallë për regjistrin e indeksit) dhe opcode (11 bit, në të cilin kodohet një version specifik i komandës x86, duke marrë parasysh prefikset). Pas shtimit të , dhe SSE2, fusha e kodit të optikës ndoshta është rritur me 1 bit, nga i cili është marrë numri 119.

Pas kalimit në (Prescott dhe më gjerë), në teori, të gjitha fushat 32-bit duhet të rriten në 64 bit. Por ka hollësi këtu: konstantet 64-bit në x86-64 lejohen vetëm një nga një (d.m.th., të dyja konstantat në komandë definitivisht nuk do të zënë më shumë se 8 bajt), dhe më pas, dhe tani, kushton 48 bit . Pra, duhen vetëm 16 bit të adresës dhe 3 bit shtesë të numrave të regjistrit (nga të cilët janë 16) për të rritur madhësinë e leckës - marrim (afërsisht) 138 bit. Epo, në SB, lecka, me sa duket, është rritur me 1 bit tjetër për shkak të shtimit të disa qindra komandave të tjera që nga P4 e fundit, dhe 8 të tjera - për shkak të një rritje në numri maksimal deri në 5 regjistra të specifikuar në mënyrë eksplicite për komandë (kur përdorni AVX). Kjo e fundit, megjithatë, është e dyshimtë: meqenëse, imagjinoni, aq sa i386, asnjë i vetëm nuk është shtuar në arkitekturën x86 i ri një komandë që kërkon të paktën 4 bajt konstante (me të vetmin përjashtim të fundit dhe jashtëzakonisht delikat në SSE4.a të AMD-së që edhe shumica e programuesve nuk e dinë). Dhe meqenëse Intel AVX dhe AMD përditësuan kodimin vetëm të udhëzimeve vektoriale, pjesët e numrave të regjistrave shtesë do të vendosen në gjysmën e sipërme të fushës 32-bit pjesërisht të papërdorur (për këto udhëzime) të operandit të menjëhershëm. Për më tepër, në vetë komandën x86, regjistri i 4-të ose i 5-të është i koduar me vetëm katër bit të një konstante.

Është e qartë se ruajtja dhe përcjellja e "përbindëshave" të tillë në ndonjë në numër të madh- shumë e kushtueshme. Prandaj, edhe për P4, Intel doli me një version të shkurtuar të leckës, në të cilin ka vetëm një fushë për të dy konstantat, dhe nëse ato nuk përshtaten atje, atëherë pjesët që mungojnë vendosen në të njëjtën fushë të leckës fqinje. . Megjithatë, nëse ajo tashmë ruan konstantet e saj atje, atëherë është e nevojshme të futet nop si një dhurues-bartës i biteve shtesë si fqinj. Vazhdimësia e një skeme të tillë vërehet edhe në SB: nyjet shtesë nuk futen, por komandat me konstante 8 bajt (ose me shumën e madhësive të konstantës dhe zhvendosjen e adresës prej 5-8 bajt) kanë një madhësi të dyfishtë. në L0m. Megjithatë, duke pasur parasysh gjatësinë e komandave të tilla, më shumë se 4 prej tyre nuk do të përshtaten në një pjesë, kështu që kufizimi në leckën e zënë është qartësisht jokritik. Sidoqoftë, ne theksojmë: SB, ndryshe nga CPU-të e mëparshme, ka deri në 3 formate uop - të dekodueshëm (më i kompletuari), i ruajtur në cache uop (me reduktim të vazhdueshëm) dhe kryesor (pa fushë të regjistrit të indeksit), të përdorura më tej në tubacion. . Megjithatë, shumica e uops mbeten të paprekura nga deshifrimi në pension.

Kufizimet

"Rregullat për përdorimin e cache" nuk mbarojnë me formatin e veçantë të leckës. Natyrisht, një bllok i tillë i përshtatshëm si L0m nuk mund të ishte plotësisht pa kufizime të një shkalle ose një tjetër të ashpërsisë, për të cilën nuk na u tha në materialet promovuese. :) Le të fillojmë me faktin se të gjitha uop-të e komandës së përkthyer duhet të përshtaten në një rresht, përndryshe ato transferohen në tjetrën. Kjo shpjegohet me faktin se adresat e uop-ve të linjës ruhen veçmas (për të ruajtur 48 bit në secilën uop), dhe të gjitha uop-të e gjeneruara nga komanda duhet të korrespondojnë me adresën e bajtit të saj të parë, të ruajtur në etiketë. vetëm nga një rresht. Për të rivendosur adresat origjinale, etiketat ruajnë gjatësinë e komandave që gjeneruan uops. "Intoleranca" e uops prish disi efikasitetin e përdorimit të L0m, sepse komandat e hasura herë pas here që gjenerojnë disa uop kanë një shans të konsiderueshëm që të mos futen në rreshtin tjetër.

Për më tepër, uop-të e udhëzimeve më komplekse ruhen ende në ROM-in e mikrokodit, dhe vetëm 4 uop-të e para të sekuencës, plus një lidhje me vazhdimin, futen në L0m, kështu që gjithçka së bashku zë një rresht të tërë. Nga kjo rrjedh se jo më shumë se tre udhëzime mikrokodi mund të ndodhin në një pjesë, dhe duke pasur parasysh madhësinë mesatare të një udhëzimi, dy do të jenë një kufi më i mundshëm. Në realitet, megjithatë, ato hasen shumë më rrallë.

Një pikë tjetër e rëndësishme - L0m nuk e ka të vetin. Duket se kjo duhet të përshpejtojë verifikimin e adresave (të cilat këtu janë vetëm virtuale) dhe të reduktojë konsumin e energjisë. Por gjithçka është shumë më interesante - nuk është më kot që kanë të gjitha memoriet moderne. Hapësirat e adresave virtuale të programeve që ekzekutohen në OS mund të mbivendosen, prandaj, kur ndërroni kontekstin e detyrës, në mënyrë që të mos lexoni të dhëna të vjetra ose kode në të njëjtat adresa, cache praktikisht e adresueshme duhet të rivendoset (ky ishte pikërisht rasti me P4 gjurmë cache). Sigurisht, efektiviteti i tij do të jetë i ulët në këtë rast. Në disa arkitektura, të ashtuquajturat. ASID (identifikuesi i hapësirës së adresës, identifikuesi i hapësirës së adresës) - numra unikë të caktuar nga OS për secilën fije. Megjithatë, x86 nuk e mbështet ASID pasi është i panevojshëm - duke pasur parasysh praninë e etiketave fizike për të gjitha cache. Por më pas erdhi L0m dhe e theu foton. Për më tepër, mbani mend se cache uop, si shumica e burimeve të kernelit, ndahet midis dy thread-ve, kështu që uops do të jenë në të programe të ndryshme. Dhe nëse shtoni kalimin midis sistemeve operative virtuale në modalitetin e duhur, atëherë fshirëset e dy programeve mund të përputhen në adresa. Çfarë duhet bërë?

Problemi me fijet është i lehtë për t'u zgjidhur - L0m thjesht ndahet në gjysmë me grupe, kështu që numri i fillit jep pjesën më të rëndësishme të numrit të grupit. Përveç kësaj, L1I ka një politikë mbajtjeje në raport me L0m. Prandaj, kur një kod nxirret nga L1I, uop-et e tij hiqen gjithashtu nga L0m, gjë që kërkon kontrollimin e dy pjesëve ngjitur (madhësia e linjës së të gjitha cache-ve moderne të CPU, pa llogaritur vetë L0m, është 64 bajt). Kështu, një adresë virtuale nga uop-et e ruajtura mund të kontrollohet gjithmonë në etiketat L1I duke përdorur TLB-në e saj. Rezulton se megjithëse L0m ka adresim virtual, ai huazon etiketat fizike për kodin nga L1I. Sidoqoftë, ekziston një situatë në të cilën L0m është rivendosur plotësisht - dhe zëvendësimi në L1I TLB, si dhe i tij rivendosje e plotë(përfshirë kur ndërroni mënyrat e funksionimit të CPU-së). Përveç kësaj, L0m është plotësisht i çaktivizuar nëse adresa bazë e përzgjedhësit të kodit (CS) nuk është zero(Gjë që është jashtëzakonisht e pamundur në OS-të moderne).

Puna

Sekreti kryesor i cache uop është një algoritëm që zëvendëson punën e pjesës së përparme për përpunimin e komandave në uop duke lexuar nga L0m. Fillon duke përdorur bitet 5–9 të adresës së objektivit të kërcimit (ose bitet 5–8 plus numrin e rrymës në rastin e 2 fijeve) për të zgjedhur një grup L0m. Etiketat e grupit përmbajnë pikën hyrëse në porcion, uop-të e së cilës shkruhen në rreshtin që korrespondon me etiketën dhe numrin rendor të kësaj rreshti brenda pjesës. Mund të përputhen 1-3 rreshta, të cilat (ka shumë të ngjarë) lexohen njëkohësisht në një tampon 18 fshirëse. Nga atje, katër uop dërgohen në IDQ derisa të arrihet pika e daljes - dhe gjithçka përsëritet nga fillimi. Për më tepër, kur 1–3 uop-të e fundit mbeten të padërguara në porcion, ato dërgohen me 3–1 Uop-të e para të porcionit të ri, në total që arrijnë në katër të zakonshmet. Kjo do të thotë, nga pikëpamja e fshirjes së marrjes së radhës IDQ, të gjitha tranzicionet zbuten në një rrjedhë uniforme të kodit - si në P4, por pa cache-in e gjurmës.

Dhe tani një moment kurioz - jo më shumë se dy kalime lejohen në një rresht, dhe nëse njëri prej tyre është i pakushtëzuar, atëherë do të jetë i fundit për rreshtin. Lexuesi ynë i vëmendshëm do të kuptojë se për të gjithë porcionin lejohet të ketë deri në 6 kërcime të kushtëzuara (secila prej të cilave mund të funksionojë pa qenë pikë daljeje), ose 5 me kusht dhe 1 të pakushtëzuar, që do të jetë komanda e fundit e porcionit. Parashikuesi i degës në CPU Intel është krijuar në mënyrë që të mos e vërejë degën e kushtëzuar derisa të ndizet të paktën një herë, dhe vetëm atëherë do të parashikohet sjellja e tij. Por edhe tranzicionet "të përjetshme" janë gjithashtu subjekt i kufizimit. Në fakt, kjo do të thotë se lejohet të përfundojë ekzekutimi i leckës së porcionit dhe përpara pikat e saj të daljes.

Por një mashtrim i ngjashëm me hyrje të shumta nuk do të funksionojë - nëse ka një kalim në një pjesë tashmë të ruajtur në memorie, por me një zhvendosje të ndryshme në të (për shembull, kur ka më shumë se një tranzicion të pakushtëzuar), atëherë L0m rregullon një gabim, kthen në pjesën e përparme dhe shkruan uop-et e marra në një pjesë të re. Kjo do të thotë, në cache, kopjet lejohen për copa me hyrje të ndryshme dhe të njëjtin dalje, saktësisht të njohur (përveç disa të tjerave të mundshme). Dhe kur kodi nxirret nga L1I në L0m, të gjitha linjat fshihen, pikat hyrëse të të cilave bien në cilindo nga 64 bajt të dy pjesëve. Nga rruga, kopjet ishin gjithashtu të mundshme në cache-in e gjurmëve P4, dhe ato ulën ndjeshëm efikasitetin e ruajtjes së kodit ...

Kufizime të tilla reduktojnë disponueshmërinë e hapësirës L0m. Le të përpiqemi të llogarisim se sa prej saj mbetet për përdorim aktual. Madhësia mesatare e instruksionit x86-64 është 4 bajt. Numri mesatar i uops për ekip është 1.1. Kjo do të thotë, me shumë mundësi do të keni 8–10 leckë për racion, që është 2 rreshta. Siç është llogaritur më parë, L0m do të jetë në gjendje të ruajë 128 çifte të tilla, e cila është e mjaftueshme për 4 KB kod. Megjithatë, duke marrë parasysh përdorimin jo ideal të vargjeve, numri real ndoshta do të jetë 3-3,5 KB. Pyes veten se si përshtatet kjo në bilancin e përgjithshëm të vëllimeve të nënsistemit të memories së memories?

  • 1 (në fakt pjesë e L3, mesatarisht për bërthamë) - 2 MB;
  • L2 - 256 KB, 8 herë më pak;
  • të dyja L1 - 32 KB secila, 8 herë më pak;
  • vëllimi i memorizuar në L0m është rreth 10 herë më pak.

Çuditërisht, nëse gjeni një strukturë tjetër në kernel që ruan shumë udhëzime ose uops, atëherë do të rezultojë se është radha ROB e dispeçerit, e cila përshtatet me 168 uops të gjeneruara nga afërsisht 650-700 bajt kodi, që është 5 herë më pak se vëllim efektiv ekuivalent L0m (3– 3,5 KB) dhe 9 herë më i vogël se ai i plotë (6 KB). Në këtë mënyrë, cache uop plotëson një hierarki të mirë-renditur të depove të ndryshme të kodeve me parametra të ndryshëm, por të balancuar mirë. Intel pretendon se, mesatarisht, 80% e goditjeve përfundojnë në L0m. Kjo është shumë më poshtë shifrës 98-99% për një cache 32 KB L1I, por megjithatë - në katër raste nga pesë, cache uop justifikon praninë e saj.

Artikujt kryesorë të lidhur