Kako podesiti pametne telefone i računare. Informativni portal
  • Dom
  • Zanimljivo
  • Šta je peščani most. Audio kodiranje u raznim formatima

Šta je peščani most. Audio kodiranje u raznim formatima

Poređenje sa mobilnim i desktop procesorima

Sredinom januara izvršili smo prvo istraživanje sistema na novoj platformi. Intel Sandy Most. Taj test je uključivao prototip Toshiba A665-3D laptopa sa novim NVIDIA video adapterom i NVIDIA tehnologija Optimus. Međutim, kako kažu, bili su previše pametni: eksterna grafika nije bila uključena na laptopu. Stoga nije imalo smisla testirati aplikacije koje koriste grafiku (prvenstveno igre). U svakom slučaju, neke stvari se ne mogu adekvatno testirati na ranom i loše radnom uzorku.

Stoga je odlučeno da se ponovo testira drugačiji sistem, a slučaj nije dugo čekao. Testirali smo još jedan laptop, Hewlett-Packard DV7, na novoj platformi i sa novom generacijom grafike iz AMD-a. Istina, kada su testovi već završeni, pojavile su se informacije o ozloglašenoj grešci na južnom mostu, zbog koje su prodani uređaji (uključujući i mobilne) podložni opozivu. Dakle, ni ovdje rezultati u užem smislu riječi nisu sasvim zvanični (prema najmanje, Hewlett-Packard je tražio da vrati laptop), ali razumijemo da greška (pa čak i "teorijska") ne može utjecati na rezultate testa.

Ipak, nije vrijedilo izdavati poseban materijal samo da bi se mjerenja ponovila i nazvala konačnim. Stoga smo si u ovom pregledu postavili nekoliko zadataka:

  • provjeriti rezultate novog sistema "mobilnom" metodom;
  • provjeriti rad sistema Intel overclocking Turbo Boost na drugom sistemu sa drugačijim hlađenjem;
  • uporedite mobilnu i desktop verziju procesora Peščani most u stolnoj tehnici za testiranje kompjuterskih sistema.

Pa, idemo na testiranje.

Konfiguracija učesnika testa prema metodi za mobilne sisteme

Kao što je navedeno, uporedite performanse podsistema mobilnih računara mnogo teže, jer se daju za testiranje u obliku gotovih proizvoda. Teško je izvući zaključke jer više od jedne komponente može uticati na razlike u performansama.

Pogledajmo konkurente, odnosno promjenu u njihovom sastavu u odnosu na prethodno testiranje. Prvo smo odlučili da izbacimo Core i5-540M iz poređenja. Spada u slabiju dual-core liniju, au Sandy Bridge liniji će odgovarati ostalim modelima. Ako su rezultati ovog procesora toliko važni, mogu se preuzeti iz prethodnog članka. Umesto toga, poređenje uključuje Hewlett-Packard Elitebook 8740w, takođe baziran na procesoru Core i7-720QM, i glavni testni sistem današnjice - Hewlett-Packard Pavillon DV7 na Sandy Bridge 2630QM procesoru.

Dakle, test uključuje dva modela na Core i7-720QM procesoru i dva modela na Core i7 2630QM procesoru. Ovo će vam omogućiti ne samo da uporedite performanse sistema na starijem i novijem procesoru, već i da osigurate da je nivo performansi isti za dva sistema na istom procesoru.

Pa, prelazimo na analizu konfiguracija laptopa koji učestvuju u testiranju.

Naziv notebook-aHP 8740wASUS N53JqToshiba A665-3DHP DV7
CPUCore i7-720QMCore i7-720QMCore i7-2630QMCore i7-2630QM
Broj jezgara4 (8 tema)4 (8 tema)4 (8 tema)4 (8 tema)
Nazivna frekvencija1,6 GHz1,6 GHz2 GHz2 GHz
Max. Turbo Boost frekvencija2,6 * GHz2,6 * GHz2,9 * GHz2,9 * GHz
LLC veličina keša6 MB6 MB6 MB6 MB
RAM10 GB10 GB4GB4GB
Video podsistemNVIDIA QUADRO FX 2800MNVIDIA GT 425MIntel integ.ATI 6570

* frekvencija automatskog overkloka je naznačena ako procesor ima sva četiri jezgra pod opterećenjem. Ako su pod opterećenjem dvije jezgre, frekvencija i dalje može rasti (sa 2,6 GHz na 2,8 GHz), a ako je jedna, onda porasti do maksimalne oznake (sa 2,6 GHz na 2,9 GHz).

Analiziramo podatke o procesorima potrebne za poređenje. Prvo, proizvođač tvrdi da je interna arhitektura procesora optimizovana u Sandy Bridge liniji, što bi trebalo da donese neku vrstu povećanja ukupnih performansi.

Broj jezgara i niti hipertrgovine je isti za sve učesnike. Međutim, brzina takta je drugačija: 720QM ima samo 1,6 GHz, dok novi procesori rade na 2 GHz. Ograničena brzina takta se, međutim, ne razlikuje toliko. Činjenica je da je za 720QM frekvencija naznačena kada su uključene četiri jezgre, a za 2630QM - kada je uključeno jedno. Ako ima četiri učitana jezgra, onda maksimalna frekvencija je isti 2,6 GHz. Drugim riječima, u "overclockanom" stanju, procesori moraju raditi dalje istu frekvenciju(dok se ne aktivira kontrola temperature). Samo Sandy Bridge ima napredniju Intel Turbo Boost overclocking tehnologiju, koja može duže zadržati povećanu frekvenciju, tako da može imati prednost. Ali nemoguće je tačno predvideti kako će se overklok ponašati, jer postoji previše zavisnosti od spoljnih faktora.

Idemo direktno na testove.

Poređenje performansi linije procesora Sandy Bridge sa prethodnom generacijom u kompletu alata za istraživanje performansi mobilnih uređaja. Određivanje ponovljivosti rezultata

Za testove smo koristili metodologiju testiranja laptopa u stvarne aplikacije uzorak 2010. U poređenju sa desktopom, skup aplikacija je u njemu skraćen, ali se ostale pokreću sa istim postavkama (osim igara, podešavanja u ovoj grupi su ozbiljno promenjena, a parametri testnog problema za Photoshop programi). Stoga se rezultati pojedinačnih testova mogu uporediti sa rezultatima desktop procesora.

Rezultati ocjenjivanja pojedinačne grupe Aplikacije u ovom materijalu ne mogu se direktno porediti sa rangiranjem na desktopu. Prilikom testiranja performansi prijenosnih računala ne pokreću se sve aplikacije ove metode, stoga se ocjena drugačije izračunava. Referentni rezultati su ponovo izračunati za referentne desktop sisteme.

Odmah ću rezervisati da su testovi obavljeni dva puta za svaki sistem, a između pokretanja sistem je ponovo instaliran i ponovo podešen. Drugim riječima, ako se rezultati testa čine čudnim, onda su barem ponovljivi: na dva različita svježe instalirana sistema sa ažuriranim skupom drajvera.

Počnimo s profesionalnim aplikacijama.

3D vizualizacija

Ova grupa sadrži aplikacije koje su zahtjevne i za performanse procesora i za grafiku.

HP 8740w
Core i7-720QM
ASUS N53Jq
Core i7-720QM
Toshiba A665-3D
Core i7-2630QM
HP DV7
Core i7-2630QM
Lightwave - posao20,53 22,97 24,87 16,17
Solidworks - rad52,5 58,83 133,12 60,45
Lightwave - ocjena122 109 101 155
Solidworks - ocjena129 115 51 112
Grupa - rejting126 112 76 134

Zanimljivo je da oba sistema "drugog talasa" u performansama značajno nadmašuju sisteme testirane prije mjesec i po dana. Pitam se šta je ovo - uticaj vozača? Još jedna, znatno moćnija grafika u oba slučaja? Čak i bez obzira na stare rezultate Sandy Bridge procesora, poređenje između dva Core i7s pokazuje isti odnos.

Sada se sa sigurnošću može reći da je nova generacija brža. Osim čudnih rezultata SolidWorksa, na njih ćemo se vratiti u raspravi o rezultatima bench-top tehnike.

3D rendering

Pogledajmo kako stvari stoje u renderiranju završne scene. Ovo prikazivanje vrši CPU.

HP 8740w
Core i7-720QM
ASUS N53Jq
Core i7-720QM
Toshiba A665-3D
Core i7-2630QM
HP DV7
Core i7-2630QM
Lightwave138,58 131,56 269,89 90,22
3Ds MAX0:10:04 0:10:06 00:21:56 0:07:45
Lightwave - ocjena95 101 49 146
3Ds MAX - ocjena113 112 52 147
Grupa - rejting104 107 51 147

Da vas podsjetim da je Toshibin uzorak pokazao vrlo slabe rezultate na ovom testu. S druge strane, u potpuno funkcionalnom sistemu, Sandy Bridge procesor može postići značajnu superiornost u oba grafička paketa. U Lightwaveu, kao što vidite, postoji razlika između dva Core i7-720QM, dok u 3Ds MAX-u gotovo da i nema razlike.

Ali u oba testa je jasno da je procesor Core i7-2630QM znatno brži, značajno nadmašujući predstavnike prethodne generacije.

Izračuni

Pogledajmo performanse procesora u matematičkim računarskim aplikacijama.

HP 8740w
Core i7-720QM
ASUS N53Jq
Core i7-720QM
Toshiba A665-3D
Core i7-2630QM
HP DV7
Core i7-2630QM
Solidni radovi46,36 45,88 44,02 38,42
MATLAB0,0494 0,0494 0,0352 0,0365
Solidworks - ocjena111 112 117 134
MATLAB - rangiranje113 113 159 153
Grupa - rejting112 113 138 144

Pa, ali matematički testovi ne osjećaju razliku između dva Core i7-720QM. Iz ovoga možemo napraviti preliminarni zaključak da ove aplikacije minimalno reaguju na druge sistemske komponente i softver.

Procesor nove generacije je brži, ali tu razlika nije tako velika, što je posebno vidljivo iz brojki rejtinga. Iz nekog razloga, performanse DV7 u MATLAB benchmarku su nešto niže od A660.

Da vidimo da li će u ostalim testovima jaz između nove i stare generacije biti približno isti.

Kompilacija

Testirajte brzinu kompilacije programa pomoću kompajlera Microsoft Visual Studio 2008. Ovaj test dobro reaguje na brzinu procesora i keš memorije, a zna i kako da koristi višejezgrene.

HP 8740w
Core i7-720QM
ASUS N53Jq
Core i7-720QM
Toshiba A665-3D
Core i7-2630QM
HP DV7
Core i7-2630QM
Compile0:06:29 0:06:24 0:04:56 0:04:54
Sastavite - rejting123 125 162 163

Razlika u rezultatima je mala, mislim da se može pripisati grešci. Razlika u performansama između ove dvije generacije je značajna.

Performanse Java aplikacije

Ovaj benchmark predstavlja brzinu izvršavanja skupa Java aplikacija. Test je kritičan za brzinu procesora i vrlo pozitivno reaguje na dodatna jezgra.

HP 8740w
Core i7-720QM
ASUS N53Jq
Core i7-720QM
Toshiba A665-3D
Core i7-2630QM
HP DV7
Core i7-2630QM
Java79,32 83,64 111,8 105,45
Java - rangiranje90 94 126 119

Ovde su rezultati neznatno, ali primetno niži za novije testirane laptopove. Nećemo se pitati zašto se to dogodilo, ali ističem da su rezultati dva puta ponovljeni. Razlika između procesora različitih generacija je otprilike ista kao u prethodnom testu.

Prijeđimo na produktivne kućne zadatke: rad s videom, zvukom i fotografijama.

2D grafika

Podsjećam da su u ovoj grupi ostala samo dva testa, koji su prilično raznoliki. ACDSee konvertuje skup fotografija iz RAW format u JPEG, a Photoshop izvodi niz operacija obrade slike – primjena filtera itd. Aplikacije zavise od brzine procesora, ali se koristi više jezgara utoliko.

HP 8740w
Core i7-720QM
ASUS N53Jq
Core i7-720QM
Toshiba A665-3D
Core i7-2630QM
HP DV7
Core i7-2630QM
ACDSee0:07:01 0:06:55 0:05:11 0:04:52
Photoshop0:01:17 0:01:17 0:00:49 0:00:51
ACDSee - rejting108 110 146 156
Photoshop - ocjena426 426 669 643
Grupa - rejting267 268 408 400

ACDSee pokazuje izvjesnu nestabilnost rezultata, ali generalno, razlika između generacija odgovara trendu, čak je i nešto veća.

Photoshop ocjene nisu vrijedne pažnje zbog promijenjene testne stavke. Iste ocjene kvare i ukupna ocjena grupe. Ali ako pogledate vrijeme izvršenja, možete vidjeti da je prednost otprilike ista.

Audio kodiranje u raznim formatima

Kodiranje zvuka u različite audio formate prilično je jednostavan zadatak za moderne procesore. Za kodiranje se koristi omotač dBPowerAmp. Ona zna kako se koristi višejezgrena (pokreću se dodatni tokovi kodiranja). Rezultat testa su svoje bodove, one su inverzne vremenu utrošenom na kodiranje, odnosno što više, to je rezultat bolji.

HP 8740w
Core i7-720QM
ASUS N53Jq
Core i7-720QM
Toshiba A665-3D
Core i7-2630QM
HP DV7
Core i7-2630QM
jabuka148 159 241 238
flac199 214 340 343
majmun143 155 239 235
mp389 96 150 152
nero85 91 135 142
ogg60 65 92 90
jabuka - ocjena90 97 147 145
flac - rejting99 106 169 171
majmun - ocjena97 105 163 160
mp3 - rejting103 112 174 177
nero - rejting104 111 165 173
ogg - rejting103 112 159 155
Grupa - rejting99 107 163 164

Test je prilično jednostavan, ali u isto vrijeme pokazan. Sasvim neočekivano, postoji razlika između dva Core i7-720QM procesora, a ne u korist nedavno testiranog sistema. Sandy Bridge procesori su pokazali gotovo iste performanse. Kao što vidite, prednost novih procesora je veoma značajna, više nego u prethodnim grupama testova.

Video kodiranje

Tri od četiri testa kodiraju video zapis u određeni video format. Test Premiere se izdvaja, u ovoj aplikaciji skripta predviđa kreiranje filma, uključujući nametanje efekata, a ne samo kodiranje. Nažalost, Sony Vegas nije radio na nekim sistemima, pa smo uklonili njegove rezultate za ovaj članak.

HP 8740w
Core i7-720QM
ASUS N53Jq
Core i7-720QM
Toshiba A665-3D
Core i7-2630QM
HP DV7
Core i7-2630QM
DivX0:05:02 0:05:23 0:04:26 0:04:18
Premijera0:05:04 0:04:47 0:03:38 0:03:35
x2640:10:29 0:10:01 0:07:45 0:07:35
XviD0:03:31 0:03:34 0:02:34 0:02:30
DivX - rejting86 80 98 101
Premijera - rejting101 107 140 142
x264 - rejting100 105 135 138
XviD - rejting87 86 119 123
Grupa - rejting94 95 123 126

Rezultati kodiranja u DivX-u se izdvajaju. Iz nekog razloga, u ovom testu postoji vrlo velika razlika za sisteme sa 720QM i vrlo mala razlika između stare i nove generacije.

U ostalim testovima razlika je značajna, a razlika između generacija otprilike odgovara opštem trendu. Zanimljivo je da je u Premiereu razlika otprilike ista kao u jednostavnom kodiranju. Inače, na ovom testu pažnju privlači i velika razlika između dva 720QM sistema.

Konačno, postoji nekoliko vrsta kućnih poslova.

Arhiviranje

Arhiviranje je prilično jednostavan matematički problem u kojem sve komponente procesora aktivno rade. 7z je napredniji, budući da može koristiti bilo koji broj jezgara i općenito efikasnije radi s procesorom. Winrar koristi do dvije jezgre.

HP 8740w
Core i7-720QM
ASUS N53Jq
Core i7-720QM
Toshiba A665-3D
Core i7-2630QM
HP DV7
Core i7-2630QM
7-zip0:01:57 0:01:55 0:01:30 0:01:27
WinRAR0:01:50 0:01:48 0:01:25 0:01:25
Raspakujte (RAR)0:00:50 0:00:49 0:00:42 0:00:41
7-zip ocjena115 117 149 154
WinRAR - ocjena135 138 175 175
Raspakujte (RAR) - ocjena140 143 167 171
Grupa - rejting130 133 164 167

Razlika između istih procesora je vrlo mala. Opet, 8740 nije mnogo brži od dva 720QM sistema, ali je konstantno brži. Procesori nove generacije su znatno brži, razlika između dvije generacije je generalno ista kao u većini drugih grupa.

Performanse u testovima pretraživača

I prilično jednostavni testovi. Oba mjere performanse u Javascript-u, koji je možda najintenzivniji dio motora pretraživača. Trik je u tome što V8 benchmark postiže bodove, dok Sunspider postiže rezultate u milisekundama. Shodno tome, u prvom slučaju, što je veći broj, to bolje, u drugom - obrnuto.

HP 8740w
Core i7-720QM
ASUS N53Jq
Core i7-720QM
Toshiba A665-3D
Core i7-2630QM
HP DV7
Core i7-2630QM
Googlev8-chrome6216 6262 7414 7366
Googlev8-firefox556 555 662 654
Googlev8-tj122 123 152 147
Googlev8-opera3753 3729 4680 4552
Googlev8-safari2608 2580 3129 3103
Sunspider-Firefox760 747 627 646
Sunčev pauk tj4989 5237 4167 4087
Sunspider-opera321 322 275 275
Sunčev safari422 421 353 354
Googlev8 - rangiranje134 134 162 160
Sunspider - ocjena144 143 172 172
Grupa - rejting139 139 167 166

Poređenje u HD Play-u

Ovaj test je uklonjen iz mjerila za desktop sisteme, ali je i dalje relevantan za mobilne. Čak i ako sistem može da se nosi sa dekodiranjem složenog videa, u laptopu je i dalje veoma važno koliko resursa je potrebno za završetak ovog zadatka, jer od toga zavisi zagrevanje sistema i trajanje baterije ...

HP 8740w
Core i7-720QM
ASUS N53Jq
Core i7-720QM
Toshiba A665-3D
Core i7-2630QM
HP DV7
Core i7-2630QM
H.264 hardver2,6 2,5 2,3 1,2
H.264 softver19,7 18,9 13,4 14
H.264 hardver - ocjena631 656 713 1367
H.264 softver - ocjena173 180 254 243

U apsolutnom smislu, razlika između dva 720QM-a nije velika, iako u ocjenama može izgledati značajno. Zanimljivo je vidjeti razliku između dva Core i7-2630QM procesora u načinu korištenja hardversko ubrzanje... Sistem sa AMD grafikom pokazuje manje opterećenje, ali rezultati su bili veoma dobri kada se koristi Intel adapter. V programski mod oba sistema rade dobar posao dekodiranja, opterećenje procesora je malo. Za Sandy Bridge procesore, opterećenje sistema je predvidljivo niže.

Pogledajmo prosječnu ocjenu sistema koji su učestvovali u testovima.

HP 8740w
Core i7-720QM
ASUS N53Jq
Core i7-720QM
Toshiba A665-3D
Core i7-2630QM
HP DV7
Core i7-2630QM
Ukupna ocjena sistema128 129 158 173

Iako je u nekim testovima razlika između dva sistema sa procesorima Intel Core i7-720QM je bio opipljiv, općenito su pokazali gotovo identične rezultate.

Performanse potpuno funkcionalnog i funkcionalnog sistema sa Core i7-2630QM procesorom su mnogo veće od performansi uzorka koji smo ranije testirali. Na osnovu ovih rezultata već je moguće izvući zaključke o performansama platforme.

I ovi nalazi su taj učinak nova platforma Sandy Bridge je oko 35% (ovisno o korištenim aplikacijama) viši od korištene platforme prethodne generacije. Naravno, zaključci još uvijek nisu konačni. Barem čipovi imaju različite frekvencije. U svakom slučaju, u odnosu na nove Intel procesore, koncept kao što je „frekvencija sata“ postao je prilično iluzoran, jer imamo Intel Turbo Boost tehnologiju.

Provjera rada Intel Turbo Boost sistema

Sandy Bridge serija procesora uključuje nova verzija Intel Turbo Boost tehnologija, koja ima mnogo više kontrole nad brzinom procesora. Sistem nadzora i kontrole postao je mnogo sofisticiraniji i inteligentniji. Sada može uzeti u obzir mnoge parametre: koje jezgre i koliko su opterećene, temperaturu procesora i pojedinačne komponente(tj. sistem može pratiti i spriječiti lokalno pregrijavanje).

Budući da je kontrola temperature i opterećenja postala efikasnija, procesoru je potrebna manja granica sigurnosti kako bi stabilno i efikasno radio u svim vanjskim uvjetima (prije svega, temperaturi). Ovo vam omogućava da efikasnije koristite njegove mogućnosti. U stvari, ovaj sistem je kontrolisani overklok: radna frekvencija je povećana, a kontrola ne dozvoljava procesoru da izađe iz bezbednih uslova rada i izgubi stabilnost ili se pokvari. Ako se procesor koji radi na povećanoj frekvenciji pregrije, sistem za nadzor će sam smanjiti frekvenciju i napon napajanja do sigurnih granica.

Štaviše, novi sistem kontrola ubrzanja je u stanju da uzme u obzir "efekat inercije". Kada je procesor hladan, frekvencija može porasti vrlo visoko na kratko vrijeme, procesor može čak i premašiti ograničenje rasipanje topline koje je odredio proizvođač. Ako je opterećenje kratkotrajno, procesor neće imati vremena da se zagrije ekstremne temperature ili ako opterećenje traje duže, procesor će se zagrijati i sistem će sniziti temperaturu do sigurnih granica.

Dakle, Sandy Bridge procesor ima tri radne pozicije:

Aktivirani su mehanizmi za uštedu energije, procesor radi na niskoj frekvenciji i podnaponu. Intel Turbo Boost sistem je aktiviran, procesor je overklokan na maksimalno dozvoljenu frekvenciju overkloka (zavisi koliko je jezgara i kako su učitane), raste napon napajanja. Procesor radi na ovoj brzini sve dok temperatura jezgre to dozvoljava. Procesor, kada su pragovi opterećenja ili grijanja prekoračeni, vraća se na frekvenciju takta na kojoj je zagarantovan stabilan rad. Na primjer, za 2630QM ova frekvencija je naznačena kao 2 GHz, ova frekvencija je navedena u specifikacijama i proizvođač garantuje da će procesor moći održavati ovu frekvenciju onoliko dugo koliko je potrebno, u skladu sa navedenim vanjskim uvjetima. Intel Turbo Boost vam omogućava da povećate radnu frekvenciju, ali njegovi radni parametri i radna frekvencija zavise od spoljnih uslova, tako da proizvođač ne može garantovati da će ovaj sistem uvek raditi isto.

Međutim, ove informacije mogu se izvući iz prve recenzije. Podsjećamo, u prvom testu procesor je radio sa sljedećim parametrima u vremenu mirovanja:

  • Jednostavno: 800 MHz, napon napajanja 0,771 V.
  • Opterećenje (sve jezgre, maksimalno): frekvencija 2594 MHz (množitelj 26), napon napajanja 1,231 V.
  • Opterećenje (nakon otprilike 5 minuta rada) je ili 2594 MHz (množitelj 26) ili 2494 MHz (množitelj 25).
  • Opterećenje (nakon oko 7-8 minuta rada) - 1995 MHz (množitelj 20). Napon 1,071 V. Sistem se vratio na stabilne radne parametre koje je postavio proizvođač.

Hajde da vidimo koliko će Hewlett-Packard DV7 izdržati u overclockanoj poziciji.

Pokrećemo programe za praćenje stanja procesora.

Radna frekvencija i napon su isti kao u prethodnom testiranju. Pogledajmo očitanja temperature.

Sve je tiho, temperature su relativno niske - 49 stepeni. Za procesor visokih performansi to nije mnogo. Obratite pažnju na razliku u temperaturi između prve i četvrte jezgre.

Pokreni test opterećenja... Da vas podsjetim da učitava sve jezgre odjednom, tako da nećemo vidjeti maksimalne brojke (2,9 GHz) u Intel Turbo Boostu.

Kao što vidite, napon je porastao na 1.211 Volti, frekvencija je postala 2594 MHz zbog promijenjenog množitelja, sada je 26. Procesor počinje ubrzano dobivati ​​temperaturu, ventilator za hlađenje počinje da zvuči sve glasnije i glasnije.

Pa, da vidimo koliko će procesor izdržati kada pređe na nominalnu frekvenciju.

Prošao je minut, jasno je da temperature počinju da se stabilizuju.

Prošlo je pet minuta i temperature su se stabilizovale. Iz nekog razloga, temperature prvog i četvrtog jezgra se razlikuju za 10 stepeni. Razlika u temperaturama je prisutna na svim testovima, čak i u mirovanju je uočljiva. Neću se usuditi da kažem zašto se to dešava.

Prošlo je 15 minuta od početka testiranja. Temperature su stabilne, sistem hlađenja se nosi. Brzina takta ostaje na 2,6 GHz.

Prošlo je 48 minuta. Laptop nastavlja da radi pod opterećenjem, temperature su stabilne (pa, porasle su za stepen). Frekvencija takta je ista:

Pa, barem zimi iu ne baš vrućoj prostoriji, DV7 može raditi s maksimalnom dostupnom frekvencijom neograničeno vrijeme. Sistem hlađenja ima dovoljno snage za Intel Turbo Boost da zadrži maksimalnu dostupnu frekvenciju overkloka bez ikakvih problema. Teoretski, bilo bi moguće malo više overclockati procesor.

Ovaj nalaz se razlikuje od prethodnih rezultata. Sada možete vidjeti šta se isplati kupiti kvalitetan laptop: Ako su dizajneri dobro obavili posao na kreiranju rashladnog sistema, dobit ćete dividende ne samo u vidu kvalitetnog i čvrstog kućišta, već i u performansama!

Pa, sada prelazimo na drugi vrlo zanimljiv dio članka: poređenje mobilnog procesora Core i7-2630QM sa desktop procesorima Sandy Bridge serije u metodi desktop testa.

Poređenje mobilnog procesora Core i7-2630QM u odnosu na Sandy Bridge desktop procesore

Za poređenje, koristimo rezultate iz naše studije desktop Core i7 i Core i5 procesora na Sandy Bridge jezgri.

Hajde da uporedimo konfiguracije učesnika, uključujući u tabeli informacije o Core i7-2630QM.

CPUCore i5-2300Core i5-2400Core i5-2500 / 2500KCore i7-2600 / 2600KCore i7-2630QM
Naziv kernelaPeščani mostPeščani mostPeščani mostPeščani mostPeščani most
Prospect tehnologija32 nm32 nm32 nm32 nm32 nm
Frekvencija jezgre (std / max), GHz2,8/3,1 3,1/3,4 3,3/3,7 3,4/3,8 2,0/2,9
Započni faktor množenja28 31 33 34 20
Turbo Boost radni tok3-2-2-1 3-2-2-1 4-3-2-1 4-3-2-1 N / A
Broj jezgara / niti4/4 4/4 4/4 4/8 4/8
L1 keš memorija, I/D, KB32/32 32/32 32/32 32/32 N / A
L2 keš memorija, KB4 × 2564 × 2564 × 2564 × 256N / A
L3 keš memorija, MiB6 6 6 8 6
RAM2 × DDR3-1333
Grafička jezgra GMA HD2000 2000 2000/3000 2000/3000 3000
Frekvencija grafičke jezgre (maks), MHz1100 1100 1100 1350 1100
SocketLGA1155LGA1155LGA1155LGA1155N / A
TDP95 vati95 vati95 vati95 vati45 vati

Brzina radnog takta mobilnog procesora je niža, što je očigledno. U maksimalnom Turbo Boost modu, malo nadmašuje mlađi desktop Core i5, koji radi bez Turbo Boosta, ali ništa više. Ali termalni paket je mnogo niži - više od polovine. Plus, ima manje keš memorije zadnjeg nivoa na samo 6MB. Od prednosti, vrijedi napomenuti da mobilni procesor ima četiri jezgra i osam niti računarstva, budući da se radi o Core i7. Barem neka prednost u odnosu na niži desktop Core i5. Da vidimo šta će to rezultirati u praksi.

Nažalost, potpuno poređenje ionako nije uspjelo. Neki paketi iz desktop metode nisu se pokrenuli (na primjer, Pro / Engineer je stabilno visio na našem testnom sistemu), zbog čega smo morali izbaciti njihove rezultate iz ocjene, što znači da se sama ocjena promijenila u odnosu na ocjene iz glavni materijal.

Pređimo na testove. Izraz "test nije počeo" znači da test nije započeo na našem laptopu, pa su rezultati svih učesnika testa uklonjeni. U ovom slučaju, ocjene se preračunavaju.

Prema rezultatima, odmah je jasno da mobilni procesor prilično ozbiljno gubi u odnosu na desktop – ne može dostići nivo performansi čak ni mlađeg procesora nove desktop linije. Rezultati desktop procesora Core i7, po mom mišljenju, su prilično slabi, ali bi ipak trebao biti mnogo moćniji od Core i5 linije, prema rezultatima, ovisnost se čini linearnom. Rezultati Solidworksa su generalno skoro isti za sve desktop sisteme. Ovaj benchmark ne zanima kolika je brzina procesora?

Hajde da pogledamo brzinu renderovanja 3D scena.

Core i5-2300Core i5-2400Core i5-2500 / 2500KCore i7-2600 / 2600KCore i7-2630QM
3ds max181 195 207 233 157
Lightwave153 168 180 234 161
Maya142 170 181 240 165
Rendering159 178 189 236 161

Ovde je situacija malo zabavnija - mobilni sistem je ipak dostigao nivo junior desktop sistema. Međutim, desktop Core i7 je daleko ispred u svim benchmarkovima. Za poređenje, evo apsolutnih rezultata jednog od benčmarka, Maya. Rezultat ovog testa je vrijeme provedeno na projektu, što je ilustrativnije od rezultata na drugim testovima.

Core i5-2300Core i5-2400Core i5-2500 / 2500KCore i7-2600 / 2600KCore i7-2630QM
Maya00:08:47 00:07:20 00:06:52 00:05:11 00:07:34

Kao što vidite, čak i uz ne tako dugo vrijeme za renderiranje projekta, razlika je značajna. U slučaju složenijih projekata, trebao bi biti još veći.

Pređimo na sljedeći test.

Gotovo sve aplikacije koriste složene matematičke proračune, tako da desktop ravnalo sa više visoka frekvencija očigledno će biti ispred. U isto vrijeme, jako me zbunjuje premala razlika između desktop Core i5-2500 i Core i7-2600, u nekim aplikacijama moćniji procesor čak gubi. Da li je hiperdreading zaista toliko neefikasan u ovim aplikacijama da čak ni razlika u brzinama ne može nadoknaditi usporavanje koje uzrokuje? Ovo je utoliko interesantnije, jer je kod mobilnog procesora konfiguracija jezgre ista kao kod 2600 serije, ali generalno ne zaostaje toliko za mlađim desktop procesorom, s obzirom na razliku u radnim frekvencijama između njih.

I prelazimo na manje profesionalne i uobičajenije testove. I počnimo sa bitmap grafika... Nažalost, jedan od testova nije počeo, što je opet uticalo na sliku testova.

I opet, mobilni sistem je konstantno na nivou nešto ispod najmlađeg desktop rešenja. A onda na račun neočekivano visok rezultat u Photoimpact-u, inače bi slika bila još tužnija. Radi jasnoće dat ću rezultate za dva paketa u apsolutnim brojevima.

Core i5-2300Core i5-2400Core i5-2500 / 2500KCore i7-2600 / 2600KCore i7-2630QM
ACDSee00:04:20 00:03:59 00:03:46 00:03:34 00:04:57
Photoshop00:03:36 00:03:15 00:03:07 00:02:58 00:04:00

Na taj način možete procijeniti specifičnu razliku u vremenu potrebnom za dovršetak zadatka.

Pređimo na testove arhiviranja. Ovo su jednostavne kalkulacije koje su dobre i po brzini i po prisustvu dodatnih procesorskih jezgri (iako ima pitanja u vezi s tim).

Core i5-2300Core i5-2400Core i5-2500 / 2500KCore i7-2600 / 2600KCore i7-2630QM
7-zip140 151 156 213 137
RAR191 207 216 229 173
Raspakujte (RAR)179 194 206 219 167
Arhivari170 184 193 220 159

I opet i opet... Ako pogledate rezultate 7-zip-a, možete vidjeti da višejezgrena (čak i u obliku hiper-threading-a) isplati značajne dividende. No, očito se i frekvencija takta isplati, jer mobilni Core i7 sa osam jezgri opet nije stigao ni do mlađeg desktop procesora. Ista situacija se nastavila i na Winrar testovima. Ali desktop Core i7-2600 u 7-zip testu ide daleko naprijed.

Test kompilacije, opet koristeći matematičke mogućnosti procesora...

U testu performansi Java aplikacije, trend je u principu potvrđen. Ali zaostajanje mobilnog procesora je još veće.

Hajde da pogledamo performanse Javascript-a u modernim pretraživačima.

Core i5-2300Core i5-2400Core i5-2500 / 2500KCore i7-2600 / 2600KCore i7-2630QM
Google v8161 176 190 191 148
Sunčani pauk156 162 167 170 198
Pretraživač159 169 179 181 173

Iako se Google-ovi benchmark rezultati otprilike poklapaju sa onim što smo ranije vidjeli, nešto očigledno nije u redu sa Sunspiderom. Iako je u principu u svim pretraživačima ovaj test radio brže na mobilnom procesoru nego na svim desktop računarima, uključujući i desktop Core i7 (koji se, međutim, prema rezultatima vrlo malo razlikuje od starijeg Core i5).

Općenito, vrlo neočekivan rezultat drugog testa, koji ne mogu objasniti. Možda je nešto drugačije radilo u softveru?

Napustimo internet aplikacije i pređimo na rad sa video i audio. To je također prilično popularna vrsta aktivnosti, uključujući i za mobilne računare.

Core i5-2300Core i5-2400Core i5-2500 / 2500KCore i7-2600 / 2600KCore i7-2630QM
Apple bez gubitaka135 149 154 206 126
FLAC145 159 171 233 144
Majmunski audio150 165 174 230 139
MP3 (LAME)162 179 191 258 152
Nero AAC154 171 179 250 148
Ogg Vorbis164 179 191 252 147
Audio152 167 177 238 143

Audio kodiranje nas ne iznenađuje. Mobilni Core i7-2630QM je nešto slabiji od svih testiranih desktop procesora, a desktop Core i7 ide u ozbiljnu prednost. Šta će se dogoditi u video kodiranju?

Core i5-2300Core i5-2400Core i5-2500 / 2500KCore i7-2600 / 2600KCore i7-2630QM
DivX146 160 170 157 96
Glavni koncept (VC-1)153 167 175 187 133
Premijera155 169 178 222 132
Vegas164 177 185 204 131
x264152 165 174 225 136
XviD166 180 190 196 133
Video156 170 179 199 127

Zaostajanje mobilnog procesora se povećalo, pri čemu je desktop Core i7 i dalje daleko ispred svih ostalih procesora, iako se jaz smanjio.

Pa, i jedan od "najstvarnijih" testova: igre!

Core i5-2300Core i5-2400Core i5-2500 / 2500KCore i7-2600 / 2600KCore i7-2630QM
Batman131 134 135 134 40
Borderlands142 149 157 160 234
DiRT 2109 110 110 110 36
Far Cry 2200 218 232 237 84
Fritz Chess142 156 166 215 149
Gta iv162 164 167 167 144
Resident evil125 125 125 125 119
S.T.A.L.K.E.R.104 104 104 104 28
UT3150 152 157 156 48
Crysis: Warhead127 128 128 128 40
Svijet u sukobu163 166 168 170 0
Igre141 146 150 155 84

Samo želim da kažem "oh". Sve igre su jasno podijeljene na CPU zavisne i zavisne od grafike. Instaliranje snažnijeg procesora može značajno povećati brzinu u Borderlands, Far Cry 2 i Fritz Chess. Neke igre vrlo slabo reaguju na snažnije procesore, neke ne reaguju uopće. Ako izuzmemo iz razmatranja World in Confict, gdje je mobilni Core i7 dobio 0, onda ukupna ocjena izgleda ovako.

Rezultati su bili razočaravajući mobilni sistem, a za to uglavnom nije kriv procesor. Prije izvlačenja zaključaka, pogledajmo apsolutne brojke performansi u igricama.

Core i5-2300Core i5-2400Core i5-2500 / 2500KCore i7-2600 / 2600KCore i7-2630QM
Batman205 209 210 209 63
Borderlands75 79 83 85 124
DiRT 276 77 77 77 25
Far Cry 276 83 88 90 32
Fritz Chess8524 9368 9982 12956 8936
Gta iv63 64 65 65 56
Resident evil128 128 128 128 121,6
S.T.A.L.K.E.R.62,9 62,9 63 62,9 17,2
UT3166 169 174 173 53
Crysis: Warhead57,4 57,6 57,7 57,7 18,1
Svijet u sukobu62,6 63,5 64,3 65

Kao što vidite, ako desktop procesori gotovo uvijek pokazuju prilično dobre rezultate, onda je mobilni sistem na mnogim mjestima na pragu igrivosti ili ispod njega.

Za skoro sve igre procesori su prebrzi, konačni rezultat zavisi uglavnom od performansi video kartice. Istovremeno, nivo performansi mobilnog sistema je znatno niži, što nam omogućava da izvučemo neke zaključke o veoma velikoj razlici između desktop i mobilnih video rešenja. Razlika u našim testovima je u prosjeku tri puta. Izdvajaju se GTA IV i Resident Evil, koji pokazuju slične rezultate na svim sistemima, uključujući mobilne.

U šahovskom programu koji zahtijeva puno procesora, mobilni Core i7 radi dobro između jeftinih desktop modela.

Pa, hajde da sumiramo.

Core i5-2300Core i5-2400Core i5-2500 / 2500KCore i7-2600 / 2600KCore i7-2630QM
Ukupni rezultat157 170 180 203 141

Ukupni rezultat potvrđuje trend: jedan od najmoćnijih mobilni procesori Core i7-2360QM ne može da parira nivou performansi nižeg procesora za desktop računare u slabijoj liniji Core i5. Desktop procesor Core i7 po performansama je daleko ispred čak i desktop procesora iz mlađe linije, a kamoli mobilne verzije.

Izlaz

Dakle, vrijeme je za prebrzo zaključke. Dozvolite mi da vas podsjetim na neke rezultate iz prethodnog materijala.

Na prvi pogled, Sandy Bridge je zaista vrlo uspješan procesor. Prvo, značajno je poboljšan, uklonjena su nelogična rješenja (ista dva odvojena kristala napravljena prema različitim tehničkim procesima), struktura čipa je postala logična i dobro optimizirana. Unaprijeđena je komunikaciona magistrala komponenti unutar procesora (koja sada uključuje i video jezgro!). Drugo, optimizovana je struktura procesorskih jezgara, što bi takođe trebalo da utiče bolja strana na performanse. Praksa potvrđuje teoriju: procesor koji smo imali na testu ide daleko ispred u performansama u odnosu na trenutnu platformu.

Zaista, u praktičnom smislu Core testing i7-2630QM, koji bi trebao biti najmlađi u novoj liniji Core i7 mobilnih uređaja, ozbiljno nadmašuje Core i7-720QM, najmoćniji (ili najmoćniji) procesor u prvoj generaciji Intel mobilne Core linije. Po svemu sudeći, 2630QM bi trebao zauzeti njegovo mjesto, odnosno postati mainstream moćan procesor u 2. generaciji Core liniji.

Generalno, možemo zaključiti da je druga generacija mobilnih Core procesora u pogledu performansi dobar korak naprijed. Što se ostalih prednosti linije tiče, mislim da je vredno sačekati izlazak nižih linija, i to samo velikog broja modela na novim procesorima, pa čak i tada ocijeniti takve kvalitete nove linije kao što su grijanje, energetska efikasnost, itd.

Međutim, u poređenju sa novim Sandy Bridge desktop Core i5 i i7 procesorima, novi mobilni Core i7-2630QM i dalje gubi. Štaviše, mobilna platforma je slabija stabilna u svim test grupama. Ovo je normalna situacija, od kada kreirate mobilni lenjiri prioriteti nisu samo performanse, već i niska potrošnja energije (za duži vijek trajanja baterije) i niska potrošnja energije (zbog kompaktnijih i slabijih sistema hlađenja). Vrijedi pogledati barem termalni paket novog mobilnog procesora, koji je više od dva puta (!) niži od onog kod desktop verzija. Ovo ima svoju cijenu, uključujući nižu nominalnu frekvenciju i ukupne performanse.

Usput, kad smo već kod frekvencija. Hewlett-Packard DV7 je u tom pogledu predstavljao prijatno iznenađenje (iako je moguće da tokom vrelog leta sve neće biti tako ružičasto). Procesor, pod pretpostavkom da ima dobar sistem hlađenja, može raditi neograničeno na maksimalnoj Turbo Boost frekvenciji od 2,6 GHz, tako da je sasvim sposoban da pokaže viši nivo performansi od standardnih specifikacija. Naravno, nema garancije da će sistem hlađenja izdržati ljeti, a ako ne, onda nivo pravi učinak u odnosu na desktop sisteme može se pokazati znatno nižim nego na našim testovima. Stoga, prisustvo kompetentnog sistema hlađenja u laptopu sa novim mobilnim procesorom Core i7 dolazi do izražaja.

Njegov detaljan pregled na našoj web stranici (međutim, podrška za C6 ​​duboko spavanje i LV-DDR3 niskonaponsku memoriju pojavila se samo u Westmereu). Šta ima novo u SB?

Prvo, drugi tip temperaturnih senzora. Poznata termalna dioda, čija očitavanja "vide" BIOS i uslužni programi, mjeri temperaturu radi podešavanja brzine ventilatora i zaštite od pregrijavanja (prigušivanje frekvencije i, ako ne pomogne, hitno gašenje CPU-a). Međutim, njegovo područje je veoma veliko, jer postoji samo jedan od njih u svakom jezgru (uključujući GPU) i u sistemskom agentu. Njima je u svakom velikom bloku dodano nekoliko kompaktnih analognih kola sa termotranzistorima. Imaju kraći radni opseg mjerenja (80-100°C), ali su potrebni za preciziranje podataka o termalnim diodama i pravljenje precizne karte grijanja kristala, bez koje se nove funkcije TB 2.0 ne mogu realizirati. Štaviše, kontroler napajanja može čak koristiti eksterni senzor ako ga proizvođač matične ploče postavi i poveže - iako nije jasno kako će to pomoći.

Dodata funkcija za prenumeraciju C-stanja, za koju se prati istorija tranzicija između njih za svako jezgro. Prijelaz traje duže, što je veći "broj spavanja" u koji jezgro ulazi ili izlazi. Kontroler određuje da li ima smisla staviti kernel u stanje mirovanja, uzimajući u obzir vjerovatnoću njegovog "buđenja". Ako se to uskoro očekuje, tada će umjesto traženog OS-a, kernel biti prebačen na C3 odnosno C1, odnosno u aktivnije stanje koje brže počinje raditi. Čudno, uprkos većoj potrošnji energije u takvom snu, ukupna ušteda možda neće uticati, jer su oba smanjena prelazni periodi tokom kojih procesor uopšte ne spava.

Za mobilne modele, prijenos svih jezgri na C6 uzrokuje resetiranje i onemogućavanje L3 keš memorije uobičajene za banke tipke za napajanje... Ovo će dodatno smanjiti potrošnju u stanju mirovanja, ali je prepuno dodatnog kašnjenja pri buđenju, jer će jezgre morati promašiti nekoliko stotina ili hiljada puta u L3 dok se potrebni podaci i kod upumpavaju tamo. Očigledno, u kombinaciji s prethodnom funkcijom, to će se dogoditi samo ako je kontroler potpuno siguran da CPU dugo zaspi (po standardima procesorskog vremena).

Core i3/i5 prethodne generacije bili su svojevrsni rekorderi po složenosti CPU sistema napajanja na matičnoj ploči, zahtijevajući čak 6 napona - tačnije, svih 6 je bilo ranije dostupno, ali nisu svi vodili na procesor. U SB se mijenjaju ne brojem, već korištenjem:

  • x86 jezgra i L3 - 0,65-1,05 V (odvojeno u Nehalem L3);
  • GPU - slično (u Nehalemu, skoro cijeli sjeverni most, koji je, podsjetimo, bio drugi CPU kristal tamo, napaja se zajedničkom magistralom);
  • sistemski agent za koji je frekvencija fiksna i napon konstantan 0,8, 0,9 ili 0,925 V (prve dvije opcije su za mobilne modele), ili dinamički podesiv 0,879–0,971 V;
  • - konstantni 1,8 V ili podesivi 1,71-1,89 V;
  • drajver memorijske magistrale - 1,5 V ili 1,425-1,575 V;
  • PCIe drajver - 1.05V.

Regulisane verzije sabirnice napajanja se koriste u otključanim prikazima SB sa slovom K. U desktop modelima, frekvencija u mirovanju x86 jezgara je povećana sa 1,3 GHz na 1,6 GHz, očigledno bez žrtvovanja uštede. Istovremeno, 4-jezgarni CPU u punom stanju mirovanja troši 3,5-4 vata. Mobilne verzije ne rade na 800 MHz i traže još manje. Modeli i čipsetovi

Performanse

Šta ovo poglavlje radi u teorijskom pregledu mikroarhitekture? I činjenica da postoji jedan opštepriznat test koji se koristi već 20 godina (u različitim verzijama) za procenu ne teorijske, već programski dostižne brzine računara - SPEC CPU. On može sveobuhvatno da proceni performanse procesora, a u najboljem slučaju za njega - kada se izvorni kod testova kompajlira i optimizuje za sistem koji se testira (tj. usputno se proverava i kompajler sa bibliotekama). dakle, korisno programi će se pokazati bržima samo sa rukopisnim ubacivanjima u asembler, koji su danas retki programeri smelih sa velikom marginom vremena. SPEC se može svrstati u polusintetičke testove, jer ne izračunava ništa korisno i ne daje nikakve specifične brojeve (IPC, flops, tajming, itd.) - "papagaji" jednog CPU-a su potrebni samo za poređenje sa drugima.

Intel obično daje rezultate za svoje CPU skoro istovremeno sa njihovim izdavanjem. Ali SB je doživio neshvatljivo kašnjenje od 3 mjeseca, a brojke dobijene u martu su još uvijek preliminarne. Nejasno je šta ih tačno koči, ali je ipak bolje od situacije sa AMD-om koji nije objavio zvanični rezultati njihov najnoviji procesor. Sljedeće brojke za Opteron daju proizvođači servera koji koriste Intelov kompajler, tako da ovi rezultati mogu biti nedovoljno optimizirani: šta Intelov softverski alat može raditi s izvršavanjem koda na "stranom" CPU-u. ;)


Poređenje sistema u SPEC CPU2006 testovima. Tabelu koju je sastavio David Kanter iz marta 2011.

U poređenju sa prethodnim CPU-ima, SB pokazuje odlične (u bukvalnom smislu) rezultate u apsolutnim i potpuno rekordnim za svaku jezgru i gigaherc. Uključivanje HT-a i dodavanje 2 MB na L3 daje +3% na stvarnu brzinu i +15% na cijeli broj. Međutim, 2-jezgarni model ima najveću specifičnu brzinu, i ovo je poučno zapažanje: očito je da je Intel koristio AVX, ali budući da je cjelobrojni dobitak još uvijek nemoguće dobiti, može se očekivati ​​naglo ubrzanje samo stvarnih pokazatelja. Ali čak ni za njih nema skoka, što pokazuje poređenje 4-jezgrenih modela - a rezultati za i3-2120 otkrivaju razlog: imajući ista 2 IKP kanala, svako jezgro prima dvostruko veći propusni opseg, što se odražava na povećanje specifične stvarne brzine za 34%. Očigledno je L3 keš memorija od 6-8 MB premala, a skaliranje sopstvenog propusnog opsega na račun prstenaste magistrale ne pomaže. Sada je jasno zašto Intel planira da opremi serverske Xeone sa 3, pa čak i 4-kanalnim ICP-ovima. Samo što sada 8 jezgri već nije dovoljno da se u potpunosti razmjesti...

Ažuriranje: Pojavili su se konačni rezultati SB - brojke (očekivano) su blago porasle, ali su kvalitativni zaključci isti. Izgledi i rezultati

22nm nasljednik Sandy Bridgea, Ivy Bridge, koji će biti predstavljen u proljeće 2012. godine, već je dobro poznat. Kernels opće namjene podržavat će malo ažurirani podskup AES-NI; sasvim je moguće i "besplatno" kopiranje registara u fazi preimenovanja. Poboljšanja u Turbo Boostu se ne očekuju, ali će GPU (koji će, inače, raditi na svim verzijama čipseta) povećati maksimalan broj FU-ova na 16, podržavaće povezivanje ne dva, već tri ekrana, i će konačno dobiti normalnu podršku za OpenCL 1.1 (zajedno sa DirectX 11 i OpenGL 3.1) i poboljšaće hardverske mogućnosti obrade videa. Najvjerovatnije već na desktopu i mobilni modeli IKP će podržavati 1600 MHz, a PCIe kontroler će podržavati verziju sabirnice 3.0. Glavna tehnološka inovacija je da će L3 keš koristiti (prvi put u masovnoj mikroelektronskoj proizvodnji!) tranzistori sa vertikalno raspoređenim višestranim gate-finom (FinFET), koji imaju radikalno poboljšane električne karakteristike (detalji - u jednom od nadolazećih članci). Priča se da će GPU verzije ponovo postati multi-GPU, samo što će ovaj put jedan ili više kristala brze video memorije biti dodat procesoru.

Ivy Bridge će se povezati na novije čipsetove (tj. južni mostovi) 70 serija: Z77, Z75 i H77 za dom (zamjenjuje Z68 / P67 / H67) i Q77, Q75 i B75 za ured (umjesto Q67 / Q65 / B65). Ona(odnosno, fizički čip pod različitim imenima) i dalje će imati najviše dva SATA 3.0 porta, a podrška za USB 3.0 će se konačno pojaviti, ali godinu dana kasnije od konkurenta. Ugrađena PCI podrška će nestati (nakon 19 godina, autobus je vrijeme za odmor), ali kontroler diskovni podsistem Z77 i Q77 će dobiti Smart Response tehnologiju za povećanje performansi keširanjem diskova pomoću SSD-a. Međutim, najuzbudljivija vijest je da uprkos dobri stari Tradicionalno, desktop verzije Ivy Bridge-a ne samo da će biti smeštene u istom LGA1155 soketu kao i SB, već će takođe biti kompatibilne sa njima unazad – to jest, moderne ploče će takođe odgovarati novom CPU-u.

Pa, za entuzijaste, mnogo moćniji X79 čipset će biti spreman već u 4. kvartalu ove godine (za 4-8-jezgarni SB-E za "server-extreme" LGA2011 socket). Još neće imati USB 3.0, ali će postojati 10 od 14 SATA 3.0 portova (plus podrška za 4 vrste RAID-a), a 4 od 8 PCIe traka mogu se povezati na CPU paralelno sa DMI, duplirajući " CPU-chipset" komunikacioni propusni opseg. Nažalost, X79 neće odgovarati 8-jezgarnom Ivy Bridgeu.

Kao izuzetak (a možda i novo pravilo), nećemo dati listu onoga što bismo željeli poboljšati i popraviti u Sandy Bridgeu. Već je očito da je svaka promjena složen kompromis - striktno prema zakonu održanja materije (u formulaciji Lomonosova): ako nešto stigne negdje, onda će se negdje ista količina smanjiti. Ako bi Intel požurio da ispravi greške stare u svakoj novoj arhitekturi, onda bi broj polomljenog drveta i leteće iverice mogao premašiti dobijenu korist. Stoga je, umjesto ekstrema i nedostižnog ideala, ekonomski isplativije tražiti ravnotežu između stalno promjenjivih i ponekad suprotnih zahtjeva.

Uprkos nekim nedostacima, nova arhitektura ne samo da bi trebalo da blista (što, sudeći po testovima, jeste), već i da zasjaji sve prethodne – i svoju i rivalsku. Najavljeni ciljevi u pogledu performansi i ekonomičnosti su ostvareni, sa izuzetkom optimizacije za AVX paket, koji će se pojaviti u novim verzijama popularnih programa. I tada će Gordon Moore još jednom biti iznenađen svojom oštroumnošću. Očigledno, Intel je potpuno naoružan za Epsku bitku između arhitektura, koju ćemo vidjeti ove godine.

Priznanja se izražavaju:

  • Maxim Loktyukhin, sam "predstavnik Intela", zaposlenik odjela za optimizaciju softvera i hardvera - za odgovore na brojna pojašnjavajuća pitanja.
  • Marku Buxtonu, vodećem softverskom inženjeru i šefu optimizacije, na njegovim odgovorima i na samoj prilici da dobijem neku vrstu službenog odgovora.
  • Agner Fogh, programer i istraživač procesora - za nezavisno testiranje niskog nivoa SB-a, koje je otkrilo mnogo novog i tajanstvenog.
  • Pažljivom čitaocu - za pažnju, upornost i glasno hrkanje.
  • Bijesni navijači Suprotnog kampa - do gomile.

Konačno Intel službeno najavio nove procesore koji rade na novoj mikroarhitekturi Peščani most... Za većinu ljudi, "najava Sandy Bridgea" su samo riječi, ali u velikoj mjeri, Intel Core II generacije su, ako ne nova era, onda barem ažuriranje gotovo cijelog tržišta procesora.


Prvobitno je javljeno o lansiranju samo sedam procesora, ali na najkorisnijoj stranici ark.intel.com informacije o svim novim proizvodima su se već pojavile. Bilo je još nekoliko procesora, odnosno njihovih modifikacija (u zagradama sam naveo približnu cijenu - koliko će koštati svaki procesor u seriji od 1000 komada):

Mobitel:

Intel Core i5-2510E (~ 266 USD)
Intel Core i5-2520M
Intel Core i5-2537M
Intel Core i5-2540M

Usporedno detaljno poređenje mobilnih uređaja Intel procesori Druga generacija Core i5.

Intel Core i7-2617M
Intel Core i7-2620M
Intel Core i7-2629M
Intel Core i7-2649M
Intel Core i7-2657M
Intel Core i7-2710QE (~ 378 USD)
Intel Core i7-2720QM
Intel Core i7-2820QM
Intel Core i7-2920XM Extreme Edition

Uporedo, detaljno poređenje druge generacije Intel Core i7 mobilnih procesora.

Desktop:

Intel Core i3-2100 (~ 117 USD)
Intel Core i3-2100T
Intel Core i3-2120 (138 dolara)

Uporedo detaljno poređenje druge generacije Intel Core i3 desktop procesora.

Intel Core i5-2300 (~ 177 USD)
Intel Core i5-2390T
Intel Core i5-2400S
Intel Core i5-2400 (~ 184 USD)
Intel Core i5-2500K (~ 216 USD)
Intel Core i5-2500T
Intel Core i5-2500S
Intel Core i5-2500 (~ 205 USD)

Detaljno poređenje druge generacije Intel Core i5 procesora za desktop računare.

Intel Core i7-2600K (~ 317 USD)
Intel Core i7-2600S
Intel Core i7-2600 (~ 294 USD)

Detaljno poređenje druge generacije Intel Core i7 procesora za desktop računare.

Kao što vidite, nazivi modela sada imaju četiri cifre u nazivu - ovo je učinjeno kako bi se izbjegla zabuna sa procesorima prethodne generacije. Linija se pokazala prilično kompletnom i logičnom - najzanimljivije serije i7 jasno su odvojene od i5 prisustvom tehnologije Hyper threading i povećana veličina keša. A procesori porodice i3 razlikuju se od i5 ne samo po manjem broju jezgara, već i po nedostatku tehnologije Turbo Boost.

Vjerovatno ste primijetili i slova u nazivima procesora, bez kojih se linija dosta prorijedila. Dakle, pisma S i T govore o manjoj potrošnji energije, i TO Je besplatni množitelj.

Vizuelna struktura novih procesora:

Kao što vidite, pored grafičke i računske jezgre, keš memorije i memorijskog kontrolera, postoji i tzv. System Agent- tu je bačeno dosta stvari, na primjer, DDR3 memorija i PCI-Express 2.0 kontroleri, model upravljanja napajanjem i blokovi koji su na hardverskom nivou odgovorni za rad integriranog GPU-a i za prikaz slike ako se koristi .

Sve "jezgrene" komponente (uključujući grafički procesor) su međusobno povezane brzom prstenastom magistralom sa punim pristupom L3 keš memoriji, što povećava ukupnu brzinu razmjene podataka u samom procesoru; Zanimljivo, ovaj pristup vam omogućava da povećate performanse u budućnosti, jednostavno povećanjem broja jezgara dodatih sabirnici. Iako čak i sada sve obećava da će biti najbolje - u poređenju sa procesorima prethodne generacije, performanse nove su prilagodljivije i, prema proizvođaču, u mnogim zadacima mogu pokazati povećanje od 30-50% u brzina izvršenja zadatka!

Ako postoji želja da saznate više o novoj arhitekturi, onda na ruskom mogu savjetovati ova tri članka -,,.

Novi procesori su u potpunosti i potpuno napravljeni prema normama 32nm procesne tehnologije i po prvi put imaju "vizuelno pametnu" mikroarhitekturu koja kombinuje najbolju računarsku snagu u klasi i tehnologiju obrade 3D grafike na jednom čipu. Zaista postoje mnoge inovacije u grafici Sandy Bridge, usmjerene uglavnom na povećanje produktivnosti pri radu sa 3D. Može se dugo raspravljati o "nametanju" integrisanog video sistema, ali drugog rješenja kao takvog još uvijek nema. Ali postoji takav slajd iz službene prezentacije, za koji se tvrdi da je uvjerljiv, uključujući mobilne proizvode (laptop):

Već sam govorio o novim tehnologijama druge generacije Intel Core procesora, tako da se neću ponavljati. Zadržaću se samo na razvoju Intel Insider, čijim izgledom su mnogi bili iznenađeni. Koliko sam shvatio, ovo će biti neka vrsta trgovine koja će vlasnicima kompjutera omogućiti pristup filmovima visoke definicije direktno od kreatora ovih filmova - nešto što se ranije pojavilo tek neko vrijeme nakon najave i pojavljivanja DVD diskovi ili Blu-ray. Da bi demonstrirao ovu funkciju, Intel VP Mouli Eden(Mooly Eden) pozvan na binu Kevin Tsujiharu(Kevin Tsujihara), predsjednik Warner Home Entertainment Group. citiram:

« Warner Bros. smatra lične sisteme najsvestranijim i najraširenijim platformama za isporuku visokokvalitetnog zabavnog sadržaja, a Intel sada čini platformu još pouzdanijom i sigurnijom. Od sada ćemo uz pomoć WBShop trgovine, kao i naših partnera kao što je CinemaNow, moći korisnicima PC-a pružiti nova izdanja i filmove iz našeg kataloga u pravom HD kvalitetu."- Muli Eden je demonstrirao rad ove tehnologije na primjeru filma "Početak". U saradnji sa vodećim studijima i medijskim divovima u industriji (kao što su Best Buy CinemaNow, Hungama Digital Media Entertainment, Image Entertainment, Sonic Solutions, Warner Bros. Digital Distribution i drugi), Intel gradi siguran i bez piraterije (hardverski- baziran) ekosistem za distribuciju, skladištenje i reprodukciju video zapisa visokog kvaliteta.

Rad gore navedene tehnologije bit će kompatibilan sa dva podjednako zanimljiva razvoja, koja su također prisutna u svim modelima procesora nove generacije. govorim o ( Intel WiDi 2.0) i Intel InTru 3-D... Prvi je dizajniran za bežični prijenos HD-videa (sa podrškom za rezolucije do 1080p), drugi je namijenjen za prikaz stereo sadržaja na monitorima ili TV-u visoke definicije putem veze HDMI 1.4.

Još dvije funkcije za koje nisam našao bolje mjesto u članku - Intel Advanced Vector Extensions(AVX). Podrška procesora za ove komande poboljšava brzinu aplikacija koje intenzivno koriste podatke kao što su audio uređivači i softver za profesionalno uređivanje fotografije.

… i Intel Quick Sync Video- Hvala za raditi zajedno sa softverskim kompanijama kao što su CyberLink, Corel i ArcSoft, procesorski gigant je bio u mogućnosti da poboljša performanse na ovom zadatku (transkodiranje između H.264 i MPEG-2 formata) 17 puta u odnosu na prethodnu generaciju integrisane grafike.

Recimo da postoje procesori - kako ih koristiti? Tako je - uz njih su najavljeni i novi čipsetovi (logički setovi) koji su predstavnici serije "šezdesete". Očigledno, postoje samo dva seta za žedne potrošače, ovo jeste Intel H67 i Intel P67 na kojoj će biti izgrađena većina novih matičnih ploča. H67 može da radi sa video jezgrom integrisanim u procesor, dok je P67 opremljen funkcijom podešavanja performansi za overklokiranje procesora. Svi procesori će raditi u novom soketu, 1155 .


Drago mi je što se čini da su novi procesori uključili kompatibilnost sa soketima Intel procesora sa arhitekturom sledeće generacije. Ovaj plus je koristan i za obične korisnike i za proizvođače koji ne moraju redizajnirati i kreirati nove uređaje.

Intel je ukupno predstavio preko 20 čipova, skupova čipova i bežični adapteri uključujući nove Intel Core i7, i5 i i3 procesore, Intel čipsetovi Serija 6 i Intel Centrino Wi-Fi i WiMAX adapteri. Pored gore navedenih, na tržištu se mogu pojaviti i sljedeće "značke":

Očekuje se da će ove godine biti pušteno više od 500 modela na novim procesorima desktop računare i bilježnice vodećih svjetskih brendova.

I konačno, još jednom odličan video, odjednom neko nije video:

Razlika između "potpuno" i "djelimično" otključanih procesora

Šta je rezultat? Nakon što je isprobao Turbo Boost na prethodnim generacijama procesora, Intel je odlučio da od njega napravi alat za realno cjenovno pozicioniranje svojih proizvoda u odnosu na druge. Ranije su entuzijasti često kupovali mlađe procesore u seriji, često ih lako overclockajući na nivo starijih modela, ali sada razlika od 400 MHz između i3-2100 i i3-2120 košta 21 dolar i nećete ništa učiniti po tom pitanju. .

Oba otključana procesora koštat će nešto više od običnih modela. Ova razlika će biti manja nego u slučaju prethodnih generacija - 11 dolara za model 2500 i 23 dolara za 2600. Intel i dalje ne želi previše da plaši overklokere. Međutim, sada je 216 dolara prag za ulazak u klub. Overclocking je zabavan i morate ga platiti. Jasno je da takva pozicija može odvući neke korisnike u AMD kamp, ​​gdje su budžetski procesori vrlo dobro overclockani.

Sam overclocking je generalno postao lakši - smanjeni su zahtjevi za matičnu ploču i RAM, manje je gnjavaža s tajmingima i raznim koeficijentima. Ali ekstremni entuzijasti imaju gdje da se okrenu – vjerovatno će biti napisane čitave rasprave o prilagođavanju BCLK-a.

Grafičko jezgro i brza sinhronizacija

Intel je počeo da poboljšava performanse svoje integrisane grafičke jezgre najavom Clarkdalea i Arrandalea, ali ovoga puta nije uspjelo prestići konkurente. Dalje, ljestvicu je postavio AMD, koji se sprema da uništi tržište diskretne grafike ulaznog nivoa. Intelovo rješenje se pojavilo ranije, ali može li se nositi sa zadatkom?

Počnimo s činjenicom da postoje dva rješenja. Zovu se HD 2000 i HD 3000, a razlika između njih leži u različitom broju izvršnih jedinica (EU). U prvom slučaju ih je 6, au drugom - 12. 12 ih je također bilo u GMA HD-u, ali se povećanje produktivnosti zbog integracije i redizajnirane arhitekture pokazalo vrlo značajnim. U liniji Intelovih desktop procesora, samo nekoliko procesora sa otključanim množiteljem nagrađeno je naprednom grafikom. Ovo su modeli u kojima je najmanje vjerovatno da će se koristiti ugrađena grafika. Ova odluka nam se čini veoma čudnom. Nadamo se da će u budućnosti Intel izdati i modifikacije nižih procesora sa potpuno otključanom grafičkom jezgrom.

Srećom, svi novi mobilni procesori kompanije opremljeni su HD 3000. Intel je odlučan u namjeri da snažno pritisne konkurente u ovom segmentu kako bi lakše dostigao početni nivo performansi.

Performanse integrisane grafike ne zavise samo od broja EU. Svi desktop Sandy imaju istu osnovnu frekvenciju (850 MHz), ali stariji (2600 i 2600K) imaju višu maksimalnu Turbo Boost frekvenciju - 1350 MHz naspram 1100 za ostale. Na rezultat će donekle uticati i snaga računarskih jezgara CPU-a, ali mnogo više od količine njegove keš memorije. Uostalom, jedna od glavnih karakteristika nova grafika je zajednička upotreba L3 keš memorije sa računskim jezgrama, implementirana zahvaljujući LLC prstenastoj magistrali.

Kao iu Clarkdale procesorima, novi proizvodi koriste hardversko ubrzanje za dekodiranje MPEG, VC-1 i AVC. Međutim, ovaj proces se sada odvija mnogo brže. kao u "odraslim" diskretna grafika, Sandy Bridge procesori imaju zasebnu jedinicu za video kodiranje/dekodiranje. Za razliku od procesora prethodne generacije, ovaj zadatak preuzima u potpunosti. Upotreba hardverskog ubrzanja je mnogo korisnija u smislu energetske efikasnosti, a performanse u slučaju SNB-a su veoma visoke. Intel obećava mogućnost dekodiranja više od dva 1080p streama u isto vrijeme. Takve performanse mogu biti potrebne za brzo transkodiranje postojećeg videa u format prikladan za mobilni uređaj. Plus bogati multimedijalne mogućnostičine SNB najboljim izborom pri izgradnji HTPC sistema.

Grafička rješenja za Intel procesore razvija posebna divizija kompanije. Novi razvoj ovog odjela također je vrlo relevantan za mobilne procesore kompanije. Sve dok Larrabee projekat u ovom ili onom obliku ne dobije odgovarajući razvoj, Intel će morati da se nosi sa komponentama koje nisu "x86" u svojim CPU-ima.

Intel Core i5-2400 i Core i5-2500K

Imamo 2 procesora bazirana na Sandy Bridge arhitekturi. Prije svega, interesantan je model 2500K, jer ima otključan množitelj. U budućnosti je moguće da će benchmarkovi dual-core modela i procesora serije i7 biti objavljeni zasebno.

Da li je superiornost prvog Core i (Nehalem i 2009. Westmere) nad rivalskim CPU finalom? Situacija je pomalo kao u prvoj godini nakon izlaska Pentiuma II: počivajući na lovorikama i rekordnim profitom, bilo bi dobro da nastavimo uspješnu arhitekturu ne mijenjajući joj mnogo imena, dodajući nove, čija će upotreba značajno povećati. poboljšati performanse, ne zaboravljajući na druge inovacije koje ubrzavaju današnje verzije programa. Istina, za razliku od situacije od prije 10 godina, treba obratiti pažnju na sada modernu temu energetske efikasnosti, poigranu dvosmislenim pridevom Cool - "kul" i "hladno" - i ništa manje modernom željom da se u procesor ugradi sve koja i dalje postoji kao odvojena. Ovo je sos pod kojim se servira novitet.

"Prekjučer", "juče" i "danas" Intel procesora.


Prednja strana transportera. Boje pokazuju različite vrste informacije i blokovi za obradu ili pohranjivanje.

Predviđanje

Počnimo sa Intelovom najavom potpuno prerađenog (BPU). Kao u Nehalemu, svaki ciklus takta (i prije stvarnog izvršenja) predviđa adresu sljedećeg 32-bajtnog dijela koda, ovisno o očekivanom ponašanju instrukcija za skok u upravo predviđenom dijelu - i, očigledno, bez obzira na broj i vrste prelaza. Preciznije, ako postoji navodno aktiviran prijelaz u trenutnom dijelu, izdaje se vlastita i ciljna adresa, u suprotnom - prijelaz na sljedeći dio u nizu. Sama predviđanja su postala još preciznija zbog udvostručavanja (BTB), produžavanja (GBHR) i optimizacije heš funkcije pristupa (BHT). Istina, stvarni testovi su pokazali da je u nekim slučajevima efikasnost predviđanja ipak nešto lošija nego u Nehalemu. Možda povećanje performansi sa smanjenjem potrošnje nije kompatibilno s dobrim predviđanjem grana? Pokušajmo to shvatiti.

U Nehalemu (kao i u drugim modernim arhitekturama) BTB je prisutan u obliku hijerarhije na dva nivoa - mali - "brzi" L1 i veliki - "spori" L2. To se događa iz istog razloga zašto postoji nekoliko razina: rješenje na jednom nivou će se pokazati previše kompromisno po svim parametrima (veličina, brzina odziva, potrošnja, itd.). Ali u SB, arhitekti su odlučili da stave jedan nivo, a veličina je duplo veća od L2 BTB iz Nehalema, odnosno vjerovatno najmanje 4096 ćelija - toliko ih je u Atomu. (Treba napomenuti da veličina najčešće izvršavanog koda polako raste i da se sve manje uklapa u keš memoriju, čija je veličina ista za sve Intelove procesore iz prvog Pentium M.) U teoriji, ovo će se povećati površina koju zauzima BTB, pošto se ukupna površina neće mijenjati nije preporučljivo (ovo je jedan od početnih principa arhitekture) - morate uzeti nešto od neke druge strukture. Ali postoji i brzina. S obzirom na to da bi SB trebao biti dizajniran za nešto veću brzinu uz istu procesnu tehnologiju, možete očekivati ​​da će ova velika konstrukcija biti usko grlo cijelog transportera - osim ako ga ne postavite cijevi (dva su već dovoljna). Istina, ukupan broj tranzistora koji rade po ciklusu u BTB-u će se udvostručiti, što nimalo ne doprinosi uštedi energije. Opet slijepa ulica? Intel na ovo odgovara da novi BTB čuva adrese u određenom komprimovanom stanju, što vam omogućava da imate duplo više ćelija sa istom površinom i potrošnjom. Ali to još nije moguće provjeriti.

Gledamo sa druge strane. SB nije dobio nove algoritme predviđanja, već optimizovane stare: opšte, za indirektne grane, petlje i nazad. Nehalem ima 18-bitni GBHR i BHT nepoznate veličine. Međutim, možete garantirati da je broj ćelija u tabeli manji od 2 18, inače bi zauzela većinu kernela. Stoga postoji posebna hash funkcija koja savija 18 bitova povijesti svih prijelaza i bitova adrese instrukcija u kraći indeks. Štoviše, najvjerovatnije, postoje najmanje dva hasha - za sve GBHR bitove i za one koji odražavaju pokretanje najtežih prijelaza. A sada efikasnost haotične distribucije indeksa različitih obrazaca ponašanja prema broju BHT ćelija određuje uspjeh općeg prediktora. Iako nije eksplicitno navedeno, Intel je svakako poboljšao hešove, što je omogućilo korištenje dužih GBHR-ova uz ništa manje efikasnosti dodavanja. Ali još uvijek možete nagađati o veličini BHT-a - kao io tome kako se u cjelini zapravo promijenila potrošnja energije prediktora... Što se tiče (RSB), on je i dalje 16-adresni, ali je uvedeno novo ograničenje na sami pozivaju - ne više četiri puta 16 bajtova koda.

Dok nismo otišli dalje, recimo o malom raskoraku između deklarisane teorije i posmatrane prakse – a pokazalo se da je prediktor ciklusa u SB uklonjen, usled čega je predviđanje konačnog prelaska na početak ciklusa napravljen opštim algoritmom, tj. gore. Portparol Intela nas je uvjerio da ništa ne bi trebalo biti "gore", međutim...

Dekodiranje i IDQ

Adrese izvršnih naredbi koje su unaprijed predviđene (naizmenično za svaku nit - sa omogućenom tehnologijom) se izdaju kako bi se provjerilo njihovo prisustvo u predmemoriji instrukcija (L1I) i (L0m), ali ćemo prešutjeti ovo drugo - opisati ćemo ostatak ruba za sada. Čudno je da je Intel zadržao veličinu dela instrukcija pročitanog iz L1I na 16 bajtova (ovde se reč "porcija" razume prema našem). Do sada je to bila prepreka kodu čija je prosječna veličina instrukcije prelazila 4 bajta, pa stoga 4 instrukcije koje su poželjne za izvršenje po ciklusu više neće stati u 16 bajtova. AMD je riješio ovaj problem u arhitekturi K10 proširivši dio instrukcija na 32 bajta – iako njegovi CPU-i do sada nemaju više od 3 cjevovoda. U SB, nejednakost veličina dovodi do nuspojave: prediktor izdaje sljedeću adresu 32-bajtnog bloka, a ako se (vjerovatno) aktivirani prijelaz pronađe u njegovoj prvoj polovini, tada nije potrebno čitati i dekodirati drugi - međutim, biće učinjeno.

Od L1I, dio ide u preddekoder, a odatle - na samu dužinu (), koja obrađuje do 7 ili 6 komandi/ciklus (sa i bez; Nehalem može imati najviše 6), ovisno o njihovoj ukupna dužina i složenost. Odmah nakon tranzicije počinje obrada komandom na ciljnoj adresi, inače - od bajta pred kojim je preddekoder stao sat ranije. Slično i sa završnom tačkom: ili je ovo (vjerovatno) pokrenuti prijelaz, čija je adresa posljednjeg bajta došla iz BTB-a, ili posljednji bajt samog dijela - osim ako se ne dosegne granica od 7 instrukcija / sat, ili naišla je na "nezgodna" komanda. Najvjerovatnije, bafer mjerača dužine ima samo 2-4 dijela, ali mjerač dužine može primiti bilo kojih 16 uzastopno bajt. Na primjer, ako se na početku dijela prepozna 7 dvobajtnih instrukcija, tada u sljedećem ciklusu možete obraditi još 16 bajtova, počevši od 15.

Mjerač dužine, između ostalog, bavi se detekcijom parova makro spojenih naredbi. O samim parovima ćemo govoriti nešto kasnije, ali za sada imajte na umu da, kao u Nehalemu, ne može se detektovati više od jednog takvog para na svakom satu, iako se najviše njih može označiti sa 3 (i još jednim pojedinačnim). komanda). Međutim, mjerenje dužina instrukcija je djelomično sekvencijalan proces, tako da ne bi bilo moguće odrediti nekoliko makro spojenih parova tokom ciklusa.

Označene komande spadaju u jednu od dvije komande (IQ: red instrukcija) - jednu po niti, po 20 komandi (što je 2 više od Nehalemove). naizmjenično čita komande iz redova i prenosi ih na mops. Ima 3 jednostavna (prevedi 1 komandu u 1 mop, a sa makro spajanjem - 2 komande u 1 mop), složeni prevodilac (1 komanda u 1–4 mop ili 2 komande u 1 mop) i mikrosekvencer za najsloženije komande koje zahtijevaju 5 i više brisanja. Štaviše, pohranjuje samo "repove" svake sekvence, počevši od 5. mopa, jer prva 4 proizvodi složeni prevodilac. Štoviše, ako broj mopa u mikroprogramu nije djeljiv sa 4, tada će njihova posljednja četiri biti nepotpuna, ali neće raditi ubaciti još 1-3 mopa od prevoditelja u istom ciklusu. Rezultat dekodiranja dolazi i izlazi dva (jedan po streamu). Potonji (zvanično nazvan IDQ - red za dekodiranje instrukcija) još uvijek ima 28 uops-a i mogućnost blokiranja petlje ako njen izvršni dio stane tamo.

Sve je to (osim keša za brisanje) već bilo u Nehalemu. Koje su razlike? Prije svega, očito je da je dekoder naučen da rukuje novim naredbama podskupa. Podrška za komplete SSE sa svim znamenkama više nije iznenađujuća, a ubrzanje komandi (uključujući PCLMULQDQ) je dodato Westmereu (32nm verzija Nehalema). Postavili smo zamku: ova funkcija ne radi za komande koje imaju i konstantno i RIP-relativno adresiranje (RIP-relativno, adresa je relativna u odnosu na pokazivač komande - uobičajeni način pristup podacima u 64-bitnom kodu). Takve naredbe zahtijevaju 2 mopa (odvojeno punjenje i rad), što znači da će ih dekoder obraditi najviše jednu po ciklusu, koristeći samo složeni translator. Intel tvrdi da su ove žrtve podnesene radi uštede energije, ali nije jasno na čemu: dvostruko postavljanje, izvođenje i brisanje će očigledno zauzeti više resursa, što znači da će trošiti energiju od jednog.

Makro-spajanje je optimizirano - ranije se samo aritmetičko ili logičko poređenje (CMP ili TEST) moglo koristiti kao prva naredba za spajanje, sada jednostavne aritmetičke upute za sabiranje i oduzimanje (ADD, SUB, INC, DEC) i logičko " AND" (AND) su dozvoljeni, kao i zamjena za tranziciju (drugi tim para). Ovo omogućava smanjenje zadnje 2 komande na 1 mop u gotovo svakom ciklusu. Naravno, ograničenja na spojene komande ostaju, ali nisu kritična, jer se navedene situacije za par naredbi gotovo uvijek izvršavaju:

  • prva od prve naredbe mora biti registar;
  • ako je drugi operand prve naredbe u memoriji, RIP-relativno adresiranje je nevažeće;
  • druga naredba ne može biti na početnoj ili poprečnoj granici linije.

Pravila za samu tranziciju su sljedeća:

  • samo TEST i AND su kompatibilni sa bilo kojim stanjem;
  • poređenja sa (ne)jednakim i sve potpisane su kompatibilne sa bilo kojom dozvoljenom prvom komandom;
  • poređenja za (ne) crtice i bilo koje nepotpisane poređenja nisu kompatibilne sa INC i DEC;
  • druga poređenja (znak, prelivanje, parnost i njihove negativne vrijednosti) vrijede samo za TEST i AND.

Glavna promjena u redovima mopa su spojeni mopovi tipa, u kojem pristup memoriji zahtijeva čitanje indeksnog registra, (i još nekoliko rijetkih tipova) se dijele u parove prilikom pisanja u IDQ. Čak i ako postoje 4 takva mopa, tada će svih 8 ukupno biti zabilježeno u IDQ. Ovo je učinjeno jer se u redovima za brisanje (IDQ), dispečeru (ROB) i rezervaciji sada koristi skraćeni format mop bez 6-bitnog indeksnog polja (naravno, radi uštede pri premeštanju krpa). Pretpostavlja se da će ovakvi slučajevi biti rijetki, pa stoga neće bitno utjecati na brzinu.

Ispričat ćemo vam povijest načina blokiranja petlje ovog bafera u nastavku, ali ovdje ćemo istaknuti samo jednu sitnicu: prijelaz na početak petlje prethodno je trajao 1 dodatni ciklus, formirajući "mjehur" između očitavanja kraj i početak petlje, ali sada ne postoji. Ipak, četiri mopa očitana po ciklusu ne mogu sadržavati posljednju iz tekuće iteracije i prvu iz sljedeće, stoga bi u idealnom slučaju broj mopa u petlji trebao biti potpuno djeljiv sa 4. Ali kriteriji za blokiranje imaju jedva promijenjeno:

  • loop mops moraju biti generirani od najviše 8 32-bajtnih dijelova izvornog koda;
  • ovi dijelovi moraju biti keširani u L0m (u Nehalemu, naravno, u L1I);
  • dozvoljeno je do 8 bezuslovnih skokova, za koje se predviđa da će se pokrenuti (uključujući i završni);
  • pozivi i povrati nisu dozvoljeni;
  • neupareni pozivi steku su neprihvatljivi (najčešće sa nejednakim brojem PUSH i POP komandi) - više o tome u nastavku.

Stack engine

Postoji još jedan mehanizam, čiji rad nismo razmatrali u prethodnim člancima - tragač pokazivača steka koji se nalazi ispred IDQ-a. Pojavio se u Pentium M i još uvijek se nije promijenio. Njegova suština je da se modifikacija pokazivača steka (ESP/RSP registar za 32/64-bitni mod) sa komandama za rad sa njim (PUSH, POP, CALL i RET) vrši u posebnom sabiraču, rezultat se pohranjuje u poseban registar i vraćen u MOP kao konstanta - umjesto modifikacije pokazivača u nakon svake naredbe, kako je potrebno i kao što je to bilo u Intel CPU prije Pentium M.

Ovo se dešava sve dok neka naredba direktno pristupi pokazivaču (iu nekim drugim rijetkim slučajevima) - mehanizam steka upoređuje pokazivač sjene sa nulom i, ako je vrijednost različita od nule, ubacuje sinhronizaciju uop u tok mopsa prije naredbe koja poziva pokazivač , upisujući u pokazivač stvarnu vrijednost iz posebnog registra (a sam registar se resetuje). Pošto je ovo retko potrebno, većina poziva steku koji samo implicitno modifikuju pokazivač koristi njegovu kopiju u senci, koja se modifikuje istovremeno sa drugim operacijama. Odnosno, sa stanovišta blokova cjevovoda, takve instrukcije su kodirane jednim spojenim mopom i ne razlikuju se od običnih pristupa memoriji, bez potrebe za obradom u ALU-u.

Pažljivi čitač (dobar dan!) će primijetiti vezu: kada petlja u redu čekanja, neupareni pozivi steku su neprihvatljivi upravo zato što je mehanizam steka u pripremi. prije IDQ - ako se nakon sljedeće iteracije vrijednost pokazivača sjene pokaže da je različita od nule, morat ćete umetnuti sinkromop u novi, ali to je nemoguće u cikličkom načinu rada (mopovi se čitaju samo iz IDQ-a). Štaviše, motor steka je potpuno isključen radi uštede energije, kao i svi ostali dijelovi prednjeg dijela.

Tajni život nopa

Još jedna promjena je uticala na mjerač dužine, ali ovaj slučaj se donekle ističe. Prvo, prisjetimo se šta su i zašto su potrebni. Nekada davno u arhitekturi x86, nop je bio samo 1-bajt. Kada je bilo potrebno pomaknuti kod za više od 1 bajta ili zamijeniti komande duže od 1 bajta, ali su ga samo ubacili nekoliko puta. Ali uprkos činjenici da ova komanda ne radi ništa, vrijeme se i dalje troši na njeno dekodiranje, i to proporcionalno broju nopsa. Da bi se spriječilo smanjenje performansi "zakrpanog" programa, dugme se može produžiti. Međutim, u CPU-u iz 90-ih, brzina dekodiranja instrukcija s brojem prefiksa iznad određene vrijednosti (koja je mnogo manja od maksimalno dozvoljene dužine x86 instrukcije od 15 bajtova) naglo je opala. Osim toga, posebno za nopa, prefiks se u pravilu koristi jedne vrste, ali se ponavlja više puta, što je dopušteno samo kao nepoželjan izuzetak, komplicirajući mjerač dužine.

Za rješavanje ovih problema počevši od Pentium Pro i Athlon procesori razumjeti "long nop" sa modR / M bajtom da "zvanično" produži naredbu koristeći registre i pomak adrese. Naravno, ne dešavaju se nikakve operacije sa memorijom i registrima, ali pri određivanju dužine koriste se blokovi merača iste dužine kao i za obične višebajtne instrukcije. Korištenje dugih čvorova zvanično preporučuju i Intel i AMD vodiči za optimizaciju softvera niskog nivoa. Inače, SB preddekoder je prepolovio (sa 6 na 3 sata) kaznu za prefikse 66 i 67, koji mijenjaju dužinu konstante i pomak adrese - ali, kao u Nehalemu, kazna se ne izriče na komande pri čemu ovi prefiksi zapravo ne mijenjaju dužinu (na primjer, ako se prefiks 66 primjenjuje na naredbu bez neposrednog operanda) ili su dio liste prekidača (što se često koristi u vektorskom kodu).

Maksimalna dužina dobro formiranog dugog nop-a ne prelazi 9 bajtova za Intel i 11 za AMD. Stoga, za poravnanje za 16 ili 32 bajta, još uvijek može postojati nekoliko nops. Međutim, pošto je ova naredba jednostavna, njeno dekodiranje i "izvršenje" neće zauzeti resurse ni na koji način. više obrade najjednostavnije operativne komande. Stoga se dugi niz godina provodi testiranje dugim čvorovima standardna metoda određivanje parametara prednjeg dela transportera, posebno dužinomera i dekodera. I ovdje je Sandy Bridge predstavio vrlo čudno iznenađenje: testiranje performansi običnih programa nije otkrilo nikakva kašnjenja ili usporavanja, ali je sintetička provjera parametara dekodera na dužnosti neočekivano pokazala da je njegova izvedba jednaka jednoj komandi po taktu! Istovremeno, Intel nije dao nikakve službene najave o tako radikalnim promjenama u dekoderu.

Procedura mjerenja je odlično funkcionisala na Nehalemu i pokazala je tačan 4. Možete kriviti novi i "previše" aktivan Turbo Boost 2.0, koji kvari izmjerene taktove, ali za testove je onemogućen. Pregrijavanje sa usporavanjem frekvencije prigušenja je također isključeno. A kada je konačno otkriven razlog, postalo je još čudnije: ispostavilo se da duge nops na SB obrađuje samo prvi jednostavni prevodilac, iako 1-bajtne nops s bilo kojim brojem prefiksa i sličnih naredbi "neaktivnošću" ( na primjer, kopiranje registra u sebe) lako se prihvaćaju sva četiri. Zašto je to urađeno nije jasno, ali postoji barem jedan nedostatak ovoga tehničko rješenje već se jasno pokazao: našem istraživačkom timu trebalo je deset dana da otkrije razloge misteriozne sporosti dekodera... U znak odmazde tražimo od bijesnih fanova Suprotnog kampa da smisle neku teoriju zavjere o podmuklim planovima određene kompanije I. da zbuni naivne hrabre istraživače prerađivača. :)

Inače, kako se ispostavilo, prevodilac broj 1 već je bio "ravnopravniji" među ostalima. U Nehalemu su naredbe cikličkog skrolovanja (ROL i ROR) sa eksplicitnim konstantnim operandom također dekodirane samo u prvom translatoru, au istom ciklusu je isključen i četvrti, tako da je IPC vrijednost pala na 3. Čini se - zašto ovdje navoditi tako rijedak primjer? Ali upravo zbog ovog trika, da bi se postigla maksimalna brzina kod algoritama za heširanje poput SHA-1, bili su potrebni vrlo precizni rasporedi komandi, sa kojima kompajleri nisu mogli da se nose. U SB-u su, međutim, takve komande jednostavno postale 2-Mops, tako da se, zauzimajući složeni prevodilac (koji je već jedan), ponašaju gotovo nerazlučivo za CPU, ali su predvidljivije za osobu i kompajlera. Sa čvorovima se dogodilo suprotno. Mops za gotovinu

Ciljevi i prethodnici

Namjerno smo odvojili ovo poglavlje od ostatka opisa prednje strane - dodavanje keš memorije za brisanje jasno pokazuje koji je put Intel izabrao za sve svoje procesore, počevši od Core 2. U potonjem, po prvi put (za Intel ), dodan je blok koji je istovremeno postigao dva, čini se suprotstavljena cilja: povećanje brzine i uštedu energije. Riječ je o redu naredbi (IQ) između preddekodera i dekodera, koji zatim pohranjuje do 18 komandi do 64 bajta ukupno. Kada bi se samo izgladila razlika u brzinama pripreme i dekodiranja naredbi (poput normalnog bafera), bilo bi malo koristi. Ali Intel je smislio da priključi mali LSD blok na IQ (malo je vjerovatno da su momci nešto "prihvatili", jednostavno imaju takav humor) - Loop Stream Detector, "detektor cikličkog protoka". Kada se otkrije petlja koja se uklapa u 18 instrukcija, LSD isključuje sve prethodne faze (prediktor, L1I keš memoriju i preddekoder) i stavlja u red instrukcije petlje u dekoder dok se ne završi ili dok se prijelaz ne izvrši izvan njegovih granica (pozivi i povrati nisu prihvatljivi). Tako se štedi energija onemogućavanjem privremeno neaktivnih blokova, a performanse se povećavaju zbog zagarantovanog protoka od 4 instrukcije/takt za dekoder, čak i ako su bili "isporučeni" sa najnezgodnijim prefiksima.

Intelu se ova ideja očito dopala, pa je šema optimizirana za Nehalem: IQ je dupliran (za dva toka), a dva IDQ reda, po 28 ups svaki, postavljena su između dekodera i dispečera (tj. tačno na granici sprijeda i pozadi), a LSD blok je premješten na njih. Sada, kada je petlja blokirana, dekoder se takođe isključuje, a performanse su povećane, uključujući i zbog garantovanog priliva ne 4 komande, već 4 mopsa po ciklusu, čak i ako su generisane sa minimumom (za Core 2 / i) tempo od 2 brisanja / ciklus. Bijesni obožavatelji Opposite Campa, na sekundu skrećući pogled sa svoje omiljene aktivnosti, odmah će ubaciti ukosnicu: ako je LSD tako dobra stvar, zašto nije ugrađen u Atom? A ukosnica je poštena - imajući u redu od 32 megapiksela nakon dekodera, Atom ne zna kako da blokira petlju u njemu, što bi bilo vrlo korisno za uštedu dragocjenih milivata. Ipak, Intel nije htio odustati od ideje i pripremio je ažuriranje za nove CPU, i to kakvo ažuriranje!

Zvanični interni naziv za bafer toka dekodiranja je DSB (bafer toka dekodiranja), iako nije toliko tačan kao preporučeni termin dekodirana keš instrukcija (DIC). Čudno, ne zamjenjuje, već nadopunjuje IDQ redove, koji su sada povezani s dekoderom ili sa kešom krpa. Prilikom sljedećeg predviđanja grananja, ciljna adresa se istovremeno provjerava u kešovima instrukcija i brisanja. Ako se potonji pokrene, dalje čitanje ide od njega, a ostatak ruba se isključuje. Zbog toga je keš za brisanje keš memorije nulte razine, tj. L0m.

Zanimljivo je da se ova ideja može nastaviti pozivanjem IDQ nivoa „minus 1” keš memorije. :) Ali nije li tako složena hijerarhija u okvirima čak i čitavog jezgra, već samo jednog fronta, pretjerana? Čak i da Intel, kao izuzetak, nije poštedeo područje, da li će IDQ par doneti značajne dodatne uštede, s obzirom da je tokom njihovog rada sada isključen samo keš mopova, pošto je ostatak prednje strane (osim prediktora) već spava? A nećete dobiti ni posebno povećanje brzine, jer je keš mopsa također konfiguriran za generiranje 4 mopsa / ciklus. Očigledno, Intelovi inženjeri su odlučili da igra na 3 nivoa vrijedi milivatnih svijeća.

Pored uštede, keš mops-a ubrzava performanse, uključujući smanjenje kazne za lažno predviđanje tranzicije: u Nehalemu, kada je ispravan kod pronađen u L1I, kazna je bila 17 ciklusa takta, u SB - 19, ali ako kod je pronađen u L0m, tada samo 14. Štaviše, ovo su maksimalni brojevi: u slučaju lažno predviđenog prijelaza, planer i dalje treba da započne i završi prethodne mopse programskim redoslijedom, a za to vrijeme L0m može imati vremena da pumpajte ispravne mopove tako da planer ima vremena da ih pokrene odmah nakon što se komande povuku prije tranzicije. U Nehalemu, ova tehnika je radila sa IDQ-om i frontom, ali u prvom slučaju, vjerovatnoća da će ispravna ciljna adresa također biti unutar ciklusa od 28 Mop je vrlo mala, au drugom slučaju sporost fronta u većina slučajeva nije dozvoljavala smanjenje latencije na nulu. SB ima veću šansu.

Uređaj

Topološki, L0m se sastoji od 32 puta 8 linija (8-). Svaka linija sadrži 6 mopova (u cijeloj keš memoriji - 1536, odnosno "jedan i pol kilo-megapiksela"), a keš može pisati i čitati jedan red po ciklusu. Prediktor daje adrese blokova od 32 bajta, a ta veličina je ta koja radi za L0m, stoga ispod pojma "komad" mislimo na poravnat i predviđen kao izvršavajući blok koda od 32 bajta (a ne 16-bajtni, što se tiče dekodera). Prilikom dekodiranja, L0m kontroler čeka da se dio obradi do kraja ili do prvog prijelaza koji se u njemu aktivira (naravno, vjerovatno - u nastavku pretpostavljamo da su predviđanja uvijek tačna), akumulirajući mopove istovremeno s njihovim slanjem na pozadi. Zatim fiksira ulazne i izlazne točke dijela, prema ponašanju prijelaza. Obično je ulazna tačka ciljna adresa tranzicije koja je pokrenuta u prethodnom dijelu (tačnije, nižih 5 bitova adrese), a izlazna tačka je vlastita adresa aktiviranog prijelaza u ovom dijelu. U ekstremnom slučaju, ako ni prethodni ni trenutni dijelovi nisu pokrenuli jedan prijelaz (to jest, dijelovi se ne samo izvršavaju, već se i pohranjuju u nizu), tada će se oba izvršiti u potpunosti - ulazak u njih će biti uključen nulti mop i prvi bajt prve potpuno uklapaju u ovaj dio naredbe, a izlaz je na posljednjem mop-u posljednje potpuno prilagođene komande i njenom početnom bajtu.

Ako u porciji ima više od 18 mopova, on se ne kešira. Ovo postavlja minimalnu prosječnu (unutar dijela) veličinu komande na 1,8 bajtova, što neće biti ozbiljno ograničenje u većini programa. Možete se prisjetiti druge točke IDQ ograničenja - ako ciklus stane u dio, ali traje od 19 do 28 mopsa, ni L0m keš ni IDQ red to neće popraviti, iako bi stao svuda po veličini. Međutim, u ovom slučaju, prosječna dužina naredbi bi trebala biti 1,1–1,7 bajtova, što je krajnje malo vjerovatno za dva tuceta timova za redom.

Najvjerovatnije se dijelovi mopova istovremeno upisuju u keš memoriju, koji zauzimaju 1-3 reda jednog seta, tako da je za L0m narušen jedan od glavnih principa set-asocijativnog keša: kada se obično aktivira jedna linija skupa. Upravo tu, oznake od do tri reda mogu primiti adresu istog dijela, razlikuju se samo po rednim brojevima. Kada predviđena adresa uđe u L0m, očitavanje se nastavlja na isti način - aktiviraju se 1, 2 ili 3 putanje traženog skupa. Istina, takva shema je puna nedostataka.

Ako izvršni program u svim dijelovima se dekodira u 13-18 mopova, koji će uzeti 3 reda L0m za sve porcije, naći će se sljedeće: ako trenutni set je već zauzet sa dva dela od 3 reda, a treći pokušava da mu piše (što neće biti dovoljno za jedan red), moraćete da pomerite jedan od starih, a uzimajući u obzir njegovu koherentnost - sva 3 stare. Dakle, više od dva dijela koda "small-command" u skupu ne bi trebalo stati. Prilikom testiranja ove pretpostavke u praksi, pokazalo se sljedeće: dijelovi sa velikim timovima koji zahtijevaju manje od 7 mopsa bili su spakovani u L0m broj od 255 (iz nekog razloga nije uspjelo uzeti još jedan), uklapajući skoro 8 KB koda . Srednji dijelovi (7-12 mopsa) zauzeli su svih 128 mogućih pozicija (po 2 reda), keširajući tačno 4 KB. Pa, male komande se uklapaju u 66 delova, što je dva više od očekivane vrednosti (2112 bajtova naspram 2048), što je očigledno zbog graničnih efekata našeg testnog koda. Nedostatak je očigledan – kada bi se 256 linija od 6 megapiksela popunilo u potpunosti, bilo bi dovoljno za 85 punih tripleta ukupne veličine koda od 2720 bajtova.

Možda Intel ne očekuje da će neki kod sadržavati toliko kratkih i jednostavnih komandi da će više od 2/3 toga pasti na komade od 3 reda, koji će jedni druge izbaciti iz L0m ranije nego što je potrebno. Pa čak i ako se takav kod pronađe - s obzirom na jednostavnost njegovog dekodiranja, ostatak prednjih blokova lako će se nositi sa zadatkom isporuke 4 mopsa / ciklus potrebnih za stražnji (iako bez obećane uštede vata i kaznenih ciklusa u slučaj lažnog predviđanja). Zanimljivo je da da smo imali L0m 6 putanja, problem ne bi nastao. Intel je odlučio da je veličina keša za jednu trećinu veća upravo zbog asocijativnosti važnija ...

Dimenzije (uredi)

Podsjetimo da ideja keširanja velikog broja uop-ova umjesto x86 naredbi nije nova. Prvi put se pojavio u Pentiumu 4 kao keš tragova mopa - sekvenci mopova nakon odmotavanja petlji. Štaviše, predmemorija praćenja nije dopunila, već je zamijenila nedostajući L1I - naredbe za dekoder su odmah pročitane. Uprkos zaboravu NetBurst arhitekture, razumno je pretpostaviti da su Intelovi inženjeri koristili prošlo iskustvo, iako bez odmotavanja petlji i namjenskog prediktora za keš memoriju. Uporedimo stara i nova rješenja (novi CPU-i se ovdje nazivaju Core i 2, jer brojevi skoro svih modela sa SB arhitekturom počinju sa dva):

* - vjerovatno

Ovdje je potrebno objašnjenje. Prvo, propusnost za L0m je zasnovana na ukupnom ograničenju širine transportera od 4 mopa. Iznad smo pretpostavili da L0m može čitati i pisati 18 mopsa po satu. Međutim, prilikom čitanja, svih 18 (ako ih ima tačno toliko pri dekodiranju originalnog dijela) ne može se poslati po taktu, a slanje se događa u nekoliko ciklusa takta.

Nadalje, veličina mopa u bitovima općenito se odnosi na vrlo delikatne informacije koje proizvođači ili ne daju uopće, ili samo kada se pričvrste na zid (kažu, sve ste već shvatili, neka bude - potvrdit ćemo) . Za Intel CPU, posljednja poznata brojka je 118 bita za Pentium Pro. Jasno je da se veličina od tada povećala, ali tu počinje nagađanje. 118 bita za 32-bitni x86-CPU može se dobiti ako mop ima polja za adresu instrukcije koja ga je generirala (32 bita), neposredni operand (32 bita), pomak adrese (32 bita), operande registra ( 3 x 3 bita + 2 bita po skali za indeksni registar) i opkod (11 bita, u kojem je kodirana specifična verzija x86 komande, uzimajući u obzir prefikse). Nakon sabiranja i SSE2, polje opkoda se vjerovatno povećalo za 1 bit, odakle se dobija broj 119.

Nakon prelaska na (Prescott i dalje), u teoriji, sva 32-bitna polja bi se trebala povećati na 64-bitna. Ali ovdje postoje suptilnosti: 64-bitne konstante u x86-64 su dozvoljene samo jedna po jedna (to jest, obje konstante u naredbi definitivno neće zauzeti više od 8 bajtova), a i tada i sada košta 48 bita. Dakle za povećanje veličine mopa potrebno je samo 16 bitova adrese i 3 dodatna bita registarskih brojeva (od kojih ima 16) - dobijamo (otprilike) 138 bita. Pa u SB je mop, očigledno, porastao za još 1 bit zbog dodavanja sljedećih nekoliko stotina komandi od posljednjeg P4, a za još 8 zbog povećanja maksimalan broj eksplicitno specificirani registri u naredbi do 5 (kada se koristi AVX). Ovo posljednje je, međutim, sumnjivo: od dana, zamislite, čak ni i386 nije dodat u x86 arhitekturu novo naredba koja zahtijeva najmanje 4 bajta konstante (sa jedinim nedavnim i izuzetno suptilnim izuzetkom u SSE4.a od AMD-a za koji čak ni većina programera ne zna). Pošto su Intel AVX i AMD ažurirali kodiranje samo vektorskih instrukcija, bitovi dodatnih registarskih brojeva će stati u gornju polovinu delimično nekorišćenog (za ove instrukcije) 32-bitnog polja neposrednog operanda. Štaviše, u samoj komandi x86, 4. ili 5. registar je kodiran sa samo četiri konstantna bita.

Očigledno, za pohranjivanje i slanje takvih "čudovišta" u bilo kojem veliki broj- vrlo skupo. Stoga je čak i za P4 Intel smislio skraćenu verziju mopa, u kojoj postoji samo jedno polje za obje konstante, a ako se tu ne uklapaju, onda se bitovi koji nedostaju stavljaju u isto polje susjednog mopa. . Međutim, ako već tamo pohranjuje svoje konstante, tada je kao susjeda potrebno ubaciti np kao donor nosač dodatnih bitova. Kontinuitet ove šeme se takođe posmatra u SB: dodatni nops se ne ubacuju, ali komande sa 8-bajtnim konstantama (ili sa zbrojem veličina konstante i pomaka adrese od 5-8 bajtova) imaju duplu veličinu u L0m. Međutim, s obzirom na dužinu ovakvih komandi, više od 4 od njih neće stati u jedan dio, tako da je ograničenje zauzetih krpa očito nekritično. Ipak, konstatujemo: SB, za razliku od prethodnih CPU-a, ima čak 3 mop formata - dekodirani (najpotpuniji), pohranjen u keš memoriji mop (sa smanjenim konstantama) i glavni (bez polja indeksnog registra), koji je koristi se dalje u pripremi. Većina krpa, međutim, prolazi netaknuta od dekodiranja do penzionisanja.

Ograničenja

"Pravila za korištenje predmemorije" na posebnom formatu mopova se tu ne završava. Očigledno, tako zgodan blok kao što je L0m ne bi mogao biti potpuno bez ograničenja ovog ili onog stepena, o čemu nam u promotivnim materijalima nije rečeno. :) Počnimo s činjenicom da svi mopovi prevedene komande moraju stati u jedan red, inače se prenose na sljedeći. Ovo se objašnjava činjenicom da se adrese linija mopova pohranjuju odvojeno (da bi se pohranilo 48 bita u svakom mopu), a svi mopovi generirani naredbom moraju odgovarati adresi njenog prvog bajta pohranjenog u oznaci samo jednog linija. Da biste vratili originalne adrese, dužine naredbi koje su generirale mopove se pohranjuju u oznake. "Netolerancija" mopova donekle kvari efikasnost korišćenja L0m, jer povremene komande koje generišu nekoliko mopova imaju značajnu šansu da se ne mogu uklopiti u sledeći red.

Štaviše, mopovi najsloženijih naredbi su i dalje pohranjeni u ROM-u s mikrokodom, a samo prva 4 mopa sekvence, plus link za nastavak, ulaze u L0m, tako da sve zajedno zauzima cijeli red. Iz ovoga proizilazi da se u jednom dijelu ne mogu naći više od tri mikrokodne instrukcije, a s obzirom na prosječnu veličinu tima, dvije su vjerovatnije ograničenje. U stvarnosti se, međutim, susreću mnogo rjeđe.

Još jedna važna stvar je da L0m nema svoj. Čini se da bi ovo trebalo ubrzati verifikaciju adresa (koje su ovdje samo virtuelne) i smanjiti potrošnju energije. Ali sve je mnogo zanimljivije - nije uzalud sve moderne keš memorije. Virtuelni adresni prostori programa koji se izvršavaju u OS-u mogu se preklapati, stoga, prilikom prebacivanja konteksta zadatka, tako da se stari podaci ili kod ne čitaju na istim adresama, virtuelna adresabilna keš memorija mora biti isprana (to je upravo ono što se dogodilo sa keš praćenja P4). Naravno, njegova efikasnost će biti niska. Neke arhitekture koriste tzv. ASID (identifikator adresnog prostora) su jedinstveni brojevi koje OS dodjeljuje svakom streamu. Međutim, x86 ne podržava ASID-ove kao nepotrebne - s obzirom na prisustvo fizičkih oznaka za sve keš memorije. Ali onda je L0m došao i razbio sliku. Štaviše, imajte na umu da se keš mop, kao i većina kernel resursa, dijeli između dvije niti, tako da će u njemu biti mopova. različiti programi... A ako dodate prebacivanje između virtuelnih operativnih sistema u odgovarajućem režimu, onda se mopovi dva programa mogu podudarati u adresama. šta da radim?

Problem sa tokovima je lako riješiti - L0m se jednostavno prepolovi skupovima, tako da broj toka daje najznačajniji bit broja skupa. Osim toga, L1I ima politiku zadržavanja u odnosu na L0m. Stoga, kada je kod preuzet iz L1I, njegovi mopovi se uklanjaju iz L0m, što zahtijeva provjeru dva susjedna dijela (veličina linije svih keš memorija modernih CPU-a, isključujući sam L0m, je 64 bajta). Dakle, virtuelna adresa iz keširanih uops-a uvijek se može provjeriti u L1I tagovima koristeći svoj TLB. Ispostavilo se da iako L0m ima virtuelno adresiranje, on pozajmljuje fizičke oznake za kod od L1I. Ipak, postoji situacija u kojoj je L0m potpuno resetovan - i zamena u L1I TLB, kao i njegov potpuno resetovanje(uključujući i pri prebacivanju CPU režima rada). Osim toga, L0m je potpuno onemogućen ako osnovna adresa selektora koda (CS) nije je nula(što je malo vjerovatno u modernim operativnim sistemima).

Posao

Glavna tajna keš memorije za brisanje je algoritam koji zamjenjuje očitanja sa L0m za rad fronta na procesuiranju komandi u mopove. Počinje sa činjenicom da na sljedećem skoku, za odabir L0m skupa, koristi bitove 5-9 adrese cilja skoka (ili bitove 5-8 plus broj toka u slučaju 2-threadinga). Postavljene oznake označavaju ulaznu tačku u porciju, čiji su mopovi ispisani u liniji koja odgovara oznaci, a redni broj ovog reda unutar porcije. Mogu se podudarati 1-3 reda, koje se (najvjerovatnije) istovremeno čitaju u bafer od 18 megapiksela. Odatle se krpe po četiri šalju u IDQ dok se ne dođe do izlazne tačke - i sve se ponavlja od početka. Štaviše, kada 1–3 posljednja mopa ostanu neposlana u porciji, oni se šalju s prvih 3–1 mopa nove porcije, što čini uobičajena četiri ukupno. To jest, sa tačke gledišta IDQ reda koji prima mop, svi prelazi su izglađeni u uniforman tok koda - kao u P4, ali bez keša tragova.

A sada zanimljiva stvar - u liniji nisu dozvoljena više od dva prelaza, a ako je jedan od njih bezuslovan, onda će to biti posljednji za liniju. Naš pažljivi čitalac će shvatiti da je dozvoljeno da cijeli dio ima do 6 uslovnih skokova (od kojih se svaki može pokrenuti bez izlazne tačke), ili 5 uslovnih i 1 bezuslovni, što će biti posljednja naredba dijela . Prediktor grananja u Intel CPU-u je dizajniran tako da ne primjećuje uslovnu granu sve dok se ne pokrene barem jednom, a tek nakon toga će se predvideti njegovo ponašanje. Ali čak i "vječni" prijelazi također podliježu ograničenju. Zapravo, to znači da je dozvoljeno dovršiti izvođenje porcionih mopova i prije tačka njenog izlaska.

Ali sličan trik s višestrukim unosom neće raditi - ako postoji prijelaz na već keširani dio, ali na drugom pomaku u njemu (na primjer, kada postoji više od jednog bezuslovnog prijelaza), tada L0m popravlja promašaj, okreće na prednjoj strani i upisuje primljene krpe u novi dio. Odnosno, u kešu su dozvoljene kopije za delove sa različitim ulazima i istim, tačno poznatim izlazom (pored još nekoliko mogućih). A kada se kod pomeri sa L1I na L0m, brišu se svi redovi, čije ulazne tačke spadaju u bilo koji od 64 bajta dva dela. Inače, kopije su bile moguće i u kešu praćenja P4, a značajno su smanjile efikasnost pohranjivanja koda...

Ovakva ograničenja smanjuju dostupnost prostora L0m. Pokušajmo izračunati koliko je ostalo za stvarnu upotrebu. Prosječna veličina x86-64 komande je 4 bajta. Prosječan broj mopova po timu je 1,1. Odnosno, vjerovatno će se potrošiti 8-10 krpa po porciji, što je 2 reda. Kako je ranije izračunato, L0m će moći pohraniti 128 ovih parova, što je dovoljno za 4 KB koda. Međutim, uzimajući u obzir nesavršeno korištenje stringova, stvarni broj će vjerovatno biti 3–3,5 KB. Pitam se kako se ovo uklapa u ukupnu ravnotežu volumena podsistema keša?

  • 1 (zapravo dio L3, u prosjeku po jezgri) - 2 MB;
  • L2 - 256 KB, 8 puta manje;
  • oba L1 - po 32 KB, 8 puta manje;
  • keširani volumen u L0m je oko 10 puta manji.

Zanimljivo je da ako pronađete drugu strukturu u kernelu koja pohranjuje mnoge komande ili mopove, onda će se ispostaviti da je to dispečerski ROB red, u koji može stati 168 mopova, generiranih od oko 650-700 bajtova koda, što je 5 puta manje od efektivnog ekvivalentnog volumena L0m (3–3,5 KB) i 9 puta manje od punog (6 KB). Na ovaj način, keš mop nadopunjuje urednu hijerarhiju različitih skladišta kodova s ​​različitim, ali dobro izbalansiranim parametrima. Intel tvrdi da je u prosjeku 80% pogodaka u L0m. Ovo je znatno niže od cifre od 98–99% za 32 KB L1I keš memorije, ali ipak - u četiri slučaja od pet cache mopova opravdava svoje prisustvo.

Top srodni članci