Kako postaviti pametne telefone i računala. Informativni portal
  • Dom
  • Zanimljiv
  • Što je pješčani most. Audio kodiranje u raznim formatima

Što je pješčani most. Audio kodiranje u raznim formatima

Usporedba s mobilnim i desktop procesorima

Sredinom siječnja proveli smo prvo istraživanje sustava na novoj platformi. Intel Sandy Most. Taj je test uključivao prototip Toshiba A665-3D prijenosnog računala s novim NVIDIA video adapterom i NVIDIA tehnologija Optimus. Međutim, kako kažu, bili su previše pametni: vanjska grafika nije bila uključena na prijenosnom računalu. Stoga nije imalo smisla testirati aplikacije koje koriste grafiku (prvenstveno igre). U svakom slučaju, neke stvari se ne mogu adekvatno testirati na ranom i loše radnom uzorku.

Stoga je odlučeno ponovno testirati drugačiji sustav, a slučaj nije dugo čekao. Testirali smo još jedno prijenosno računalo, Hewlett-Packard DV7, na novoj platformi i s novom generacijom grafike iz AMD-a. Istina, kada su testovi već bili završeni, pojavile su se informacije o ozloglašenoj pogrešci na južnom mostu, zbog koje su prodani uređaji (uključujući i mobilne) podložni opozivu. Dakle, ni ovdje rezultati u užem smislu riječi nisu sasvim službeni (prema barem, Hewlett-Packard je tražio da vrati prijenosno računalo), ali razumijemo da pogreška (pa čak i "teorijska") ne može utjecati na rezultate testa.

Ipak, nije se isplatilo izdavati poseban materijal samo da bi se mjerenja još jednom ponovila i nazvala konačnima. Stoga smo si u ovom pregledu postavili nekoliko zadataka:

  • provjeriti rezultate novog sustava u "mobilnoj" metodi;
  • provjeriti rad sustava Intelov overclocking Turbo Boost na drugom sustavu s drugačijim hlađenjem;
  • usporedite mobilnu i desktop verziju procesora Pješčani most u stolnoj tehnici za testiranje računalnih sustava.

Pa, prijeđimo na testiranje.

Konfiguracija sudionika testiranja prema metodi za mobilne sustave

Kao što je navedeno, usporedite performanse podsustava mobilnih računala mnogo teže, budući da se za ispitivanje daju u obliku gotovih proizvoda. Teško je donijeti zaključke jer više od jedne komponente može utjecati na razlike u izvedbi.

Pogledajmo natjecatelje, odnosno promjenu njihovog sastava u odnosu na prethodno testiranje. Prvo smo odlučili izbaciti Core i5-540M iz usporedbe. Spada u slabiju dvojezgrenu liniju, a u liniji Sandy Bridge odgovarat će ostalim modelima. Ako su rezultati ovog procesora toliko važni, mogu se preuzeti iz prethodnog članka. Umjesto toga, usporedba uključuje Hewlett-Packard Elitebook 8740w, također baziran na procesoru Core i7-720QM, i dodan je glavni testni sustav za danas - Hewlett-Packard Pavillon DV7 na Sandy Bridge 2630QM procesoru.

Dakle, test uključuje dva modela na procesoru Core i7-720QM i dva modela na procesoru Core i7 2630QM. To će vam omogućiti ne samo usporedbu performansi sustava na starijem i novijem procesoru, već i da osigurate da je razina performansi ista za dva sustava na istom procesoru.

Pa, prelazimo na analizu konfiguracija prijenosnih računala koji sudjeluju u testiranju.

Naziv bilježniceHP 8740wASUS N53JqToshiba A665-3DHP DV7
CPUCore i7-720QMCore i7-720QMCore i7-2630QMCore i7-2630QM
Broj jezgri4 (8 niti)4 (8 niti)4 (8 niti)4 (8 niti)
Nazivna frekvencija1,6 GHz1,6 GHz2 GHz2 GHz
Maks. Turbo Boost frekvencija2,6 * GHz2,6 * GHz2,9 * GHz2,9 * GHz
LLC veličina predmemorije6 MB6 MB6 MB6 MB
radna memorija10 GB10 GB4 GB4 GB
Video podsustavNVIDIA QUADRO FX 2800MNVIDIA GT 425MIntel integ.ATI 6570

* učestalost automatskog overclockanja je naznačena ako procesor ima sve četiri jezgre pod opterećenjem. Ako su dvije jezgre pod opterećenjem, frekvencija i dalje može rasti (s 2,6 GHz na 2,8 GHz), a ako je jedna, onda porasti do maksimalne oznake (s 2,6 GHz na 2,9 GHz).

Analiziramo podatke o procesorima potrebne za usporedbu. Prvo, proizvođač tvrdi da je interna arhitektura procesora optimizirana u liniji Sandy Bridge, što bi trebalo donijeti neku vrstu povećanja ukupne performanse.

Broj jezgri i niti hipertrgovine jednak je za sve sudionike. Međutim, brzina takta je drugačija: 720QM ima samo 1,6 GHz, dok novi procesori rade na 2 GHz. Međutim, ograničenje brzine takta ne razlikuje se toliko. Činjenica je da je za 720QM frekvencija naznačena kada su uključene četiri jezgre, a za 2630QM - kada je uključena jedna. Ako ima četiri jezgre učitane, onda maksimalna frekvencija je isti 2,6 GHz. Drugim riječima, u "overclockanom" stanju, procesori moraju raditi dalje istu frekvenciju(dok se ne aktivira kontrola temperature). Samo Sandy Bridge ima napredniju Intel Turbo Boost overclocking tehnologiju, koja može duže zadržati povećanu frekvenciju, pa može imati prednost. Ali nemoguće je točno predvidjeti kako će se overclocking ponašati, budući da postoji previše ovisnosti o vanjskim čimbenicima.

Idemo izravno na testove.

Usporedba performansi linije procesora Sandy Bridge s prethodnom generacijom u kompletu alata za istraživanje mobilnih performansi. Određivanje ponovljivosti rezultata

Za testove smo koristili metodologiju testiranja laptopa u stvarne aplikacije uzorak 2010. U usporedbi s desktopom, skup aplikacija je u njemu skraćen, ali se ostale pokreću s istim postavkama (osim igara, postavke u ovoj grupi su ozbiljno promijenjene, a parametri testnog zadatka za Photoshop programi). Stoga se rezultati pojedinačnih testova mogu usporediti s rezultatima stolnih procesora.

Rezultati ocjenjivanja pojedine grupe Aplikacije u ovom materijalu ne mogu se izravno uspoređivati ​​s rangiranjem na stolnim računalima. Prilikom testiranja performansi prijenosnih računala ne pokreću se sve aplikacije metode, stoga se ocjena drugačije izračunava. Referentni rezultati ponovno su izračunati za referentne stolne sustave.

Odmah ću rezervirati da su testovi obavljeni dva puta za svaki sustav, a između pokretanja sustav je ponovno instaliran i ponovno podešen. Drugim riječima, ako se rezultati testiranja čine čudnim, onda su barem ponovljivi: na dva različita svježe instalirana sustava s ažuriranim skupom upravljačkih programa.

Počnimo s profesionalnim aplikacijama.

3D vizualizacija

Ova grupa sadrži aplikacije koje su zahtjevne i za performanse procesora i za grafiku.

HP 8740w
Core i7-720QM
ASUS N53Jq
Core i7-720QM
Toshiba A665-3D
Core i7-2630QM
HP DV7
Core i7-2630QM
Svjetlosni val - posao20,53 22,97 24,87 16,17
Solidworks - rad52,5 58,83 133,12 60,45
Lightwave - ocjena122 109 101 155
Solidworks - ocjena129 115 51 112
Grupa - ocjena126 112 76 134

Zanimljivo je da oba sustava "drugog vala" u performansama značajno nadmašuju sustave testirane prije mjesec i pol. Pitam se što je to - utjecaj vozača? Još jedna, znatno snažnija grafika u oba slučaja? Čak i bez obzira na stare rezultate Sandy Bridge procesora, usporedba između dva Core i7 pokazuje isti odnos.

Sada se sa sigurnošću može reći da je nova generacija brža. Osim čudnih rezultata SolidWorksa, na njih ćemo se vratiti u raspravi o rezultatima bench-top tehnike.

3D renderiranje

Pogledajmo kako stvari stoje u renderiranju završne scene. Ovo renderiranje vrši CPU.

HP 8740w
Core i7-720QM
ASUS N53Jq
Core i7-720QM
Toshiba A665-3D
Core i7-2630QM
HP DV7
Core i7-2630QM
Svjetlosni val138,58 131,56 269,89 90,22
3Ds MAX0:10:04 0:10:06 00:21:56 0:07:45
Lightwave - ocjena95 101 49 146
3Ds MAX - ocjena113 112 52 147
Grupa - ocjena104 107 51 147

Podsjetim da je Toshibin uzorak pokazao vrlo slabe rezultate na ovom testu. S druge strane, u potpuno funkcionalnom sustavu, Sandy Bridge procesor može postići značajnu superiornost u oba grafička paketa. U Lightwaveu, kao što vidite, postoji razlika između dva Core i7-720QM, dok u 3Ds MAX-u razlike gotovo da i nema.

No, u oba testa jasno je da je procesor Core i7-2630QM znatno brži, značajno nadmašujući predstavnike prethodne generacije.

Izračuni

Pogledajmo performanse procesora u matematičkim računalnim aplikacijama.

HP 8740w
Core i7-720QM
ASUS N53Jq
Core i7-720QM
Toshiba A665-3D
Core i7-2630QM
HP DV7
Core i7-2630QM
Solidworks46,36 45,88 44,02 38,42
MATLAB0,0494 0,0494 0,0352 0,0365
Solidworks - ocjena111 112 117 134
MATLAB - rangiranje113 113 159 153
Grupa - ocjena112 113 138 144

Pa, ali matematički testovi ne osjećaju razliku između dva Core i7-720QM. Iz ovoga možemo napraviti preliminarni zaključak da ove aplikacije minimalno reagiraju na ostale komponente sustava i softver.

Procesor nove generacije je brži, ali ovdje razlika nije tako velika, što je posebno vidljivo iz brojki ocjena. Iz nekog razloga, performanse DV7 u MATLAB benchmarku su nešto niže od A660.

Da vidimo hoće li u ostalim testovima jaz između nove i stare generacije biti približno jednak.

Kompilacija

Testirajte brzinu kompilacije programa pomoću prevoditelja Microsoft Visual Studio 2008. Ovaj test dobro reagira na brzinu procesora i predmemorije, a zna koristiti i višejezgrenu.

HP 8740w
Core i7-720QM
ASUS N53Jq
Core i7-720QM
Toshiba A665-3D
Core i7-2630QM
HP DV7
Core i7-2630QM
Sastaviti0:06:29 0:06:24 0:04:56 0:04:54
Sastaviti - ocjenu123 125 162 163

Razlika u rezultatima je mala, mislim da se može pripisati grešci. Razlika u performansama između dvije generacije je značajna.

Performanse Java aplikacije

Ovo mjerilo predstavlja brzinu izvršavanja skupa Java aplikacija. Test je ključan za brzinu procesora i vrlo pozitivno reagira na dodatne jezgre.

HP 8740w
Core i7-720QM
ASUS N53Jq
Core i7-720QM
Toshiba A665-3D
Core i7-2630QM
HP DV7
Core i7-2630QM
Java79,32 83,64 111,8 105,45
Java - rangiranje90 94 126 119

Ovdje su rezultati nešto, ali osjetno niži za novija testirana prijenosna računala. Nećemo se pitati zašto se to dogodilo, ali ističem da su rezultati dva puta ponovljeni. Razlika između procesora različitih generacija je otprilike ista kao u prethodnom testu.

Prijeđimo na produktivne kućne zadatke: rad s videom, zvukom i fotografijama.

2D grafika

Podsjetim da su u ovoj skupini ostala samo dva testa koji su prilično raznoliki. ACDSee pretvara skup fotografija iz RAW format u JPEG, a Photoshop provodi niz operacija obrade slike – primjena filtera i sl. Aplikacije ovise o brzini procesora, ali se višejezgrena koristi utoliko što.

HP 8740w
Core i7-720QM
ASUS N53Jq
Core i7-720QM
Toshiba A665-3D
Core i7-2630QM
HP DV7
Core i7-2630QM
ACDSee0:07:01 0:06:55 0:05:11 0:04:52
Photoshop0:01:17 0:01:17 0:00:49 0:00:51
ACDSee - ocjena108 110 146 156
Photoshop - ocjena426 426 669 643
Grupa - ocjena267 268 408 400

ACDSee pokazuje izvjesnu nestabilnost rezultata, ali općenito, razlika među generacijama odgovara trendu, čak je nešto veća.

Photoshop ocjene nisu vrijedne pažnje zbog promijenjene testne stavke. Iste ocjene kvare i Cjelokupna ocjena grupe. Ali ako pogledate vrijeme izvršenja, možete vidjeti da je prednost otprilike ista.

Audio kodiranje u raznim formatima

Kodiranje zvuka u različite audio formate prilično je jednostavan zadatak za moderne procesore. Za kodiranje se koristi omotač dBPowerAmp. Ona zna koristiti višejezgrenu (pokreću se dodatni tokovi kodiranja). Rezultat testa su vlastite točke, one su inverzne vremenu utrošenom na kodiranje, odnosno što je više, to je rezultat bolji.

HP 8740w
Core i7-720QM
ASUS N53Jq
Core i7-720QM
Toshiba A665-3D
Core i7-2630QM
HP DV7
Core i7-2630QM
jabuka148 159 241 238
flac199 214 340 343
majmun143 155 239 235
mp389 96 150 152
nero85 91 135 142
ogg60 65 92 90
jabuka - ocjena90 97 147 145
flac - ocjena99 106 169 171
majmun - ocjena97 105 163 160
mp3 - ocjena103 112 174 177
nero - ocjena104 111 165 173
ogg - ocjena103 112 159 155
Grupa - ocjena99 107 163 164

Test je prilično jednostavan, ali u isto vrijeme pokazan. Sasvim neočekivano postoji razlika između dva procesora Core i7-720QM, a ne u korist nedavno testiranog sustava. Sandy Bridge procesori pokazali su gotovo iste performanse. Kao što vidite, prednost novih procesora je vrlo značajna, više nego u prethodnim skupinama testova.

Video kodiranje

Tri od četiri testa kodiraju video zapis u određeni video format. Test Premiere se izdvaja, u ovoj aplikaciji skripta predviđa stvaranje filma, uključujući nametanje efekata, a ne samo kodiranje. Nažalost, Sony Vegas nije radio na nekim sustavima, pa smo uklonili njegove rezultate za ovaj članak.

HP 8740w
Core i7-720QM
ASUS N53Jq
Core i7-720QM
Toshiba A665-3D
Core i7-2630QM
HP DV7
Core i7-2630QM
DivX0:05:02 0:05:23 0:04:26 0:04:18
Premijera0:05:04 0:04:47 0:03:38 0:03:35
x2640:10:29 0:10:01 0:07:45 0:07:35
XviD0:03:31 0:03:34 0:02:34 0:02:30
DivX - ocjena86 80 98 101
Premijera - ocjena101 107 140 142
x264 - ocjena100 105 135 138
XviD - ocjena87 86 119 123
Grupa - ocjena94 95 123 126

Rezultati kodiranja u DivX-u se izdvajaju. Iz nekog razloga, u ovom testu postoji vrlo velika razlika za sustave sa 720QM i vrlo mala razlika između stare i nove generacije.

U ostalim testovima razlika je značajna, a razlika između generacija otprilike odgovara općem trendu. Zanimljivo je da je u Premiereu razlika otprilike ista kao u jednostavnom kodiranju. Inače, na ovom testu pozornost privlači i velika razlika između dva 720QM sustava.

Konačno, postoji nekoliko vrsta kućanskih poslova.

Arhiviranje

Arhiviranje je prilično jednostavan matematički problem u kojem sve komponente procesora aktivno rade. 7z je napredniji jer može koristiti bilo koji broj jezgri i općenito učinkovitije radi s procesorom. Winrar koristi do dvije jezgre.

HP 8740w
Core i7-720QM
ASUS N53Jq
Core i7-720QM
Toshiba A665-3D
Core i7-2630QM
HP DV7
Core i7-2630QM
7 patentni zatvarač0:01:57 0:01:55 0:01:30 0:01:27
WinRAR0:01:50 0:01:48 0:01:25 0:01:25
Raspakiraj (RAR)0:00:50 0:00:49 0:00:42 0:00:41
Ocjena sa 7 patentnih zatvarača115 117 149 154
WinRAR - ocjena135 138 175 175
Raspakiraj (RAR) - ocjena140 143 167 171
Grupa - ocjena130 133 164 167

Razlika između istih procesora je vrlo mala. Opet, 8740 nije mnogo brži od dva 720QM sustava, ali je stalno brži. Procesori nove generacije su znatno brži, razlika između dvije generacije općenito je ista kao u većini drugih grupa.

Izvedba u testovima preglednika

I prilično jednostavni testovi. Obje mjere performanse u Javascriptu, koji je možda dio motora preglednika koji najviše zahtijeva performanse. Trik je u tome što V8 benchmark postiže bodove, dok Sunspider postiže rezultate u milisekundama. Sukladno tome, u prvom slučaju, što je veći broj, to bolje, u drugom - obrnuto.

HP 8740w
Core i7-720QM
ASUS N53Jq
Core i7-720QM
Toshiba A665-3D
Core i7-2630QM
HP DV7
Core i7-2630QM
Googlev8-chrome6216 6262 7414 7366
Googlev8-Firefox556 555 662 654
Googlev8-tj122 123 152 147
Googlev8-opera3753 3729 4680 4552
Googlev8-safari2608 2580 3129 3103
Sunčev pauk-vatreni lisac760 747 627 646
Sunčev pauk-tj4989 5237 4167 4087
Sunčev pauk-opera321 322 275 275
Sunčev pauk-safari422 421 353 354
Googlev8 - rangiranje134 134 162 160
Sunčev pauk - ocjena144 143 172 172
Grupa - ocjena139 139 167 166

Usporedba u HD Playu

Ovaj je test uklonjen iz mjerila za stolne sustave, ali je i dalje relevantan za mobilne uređaje. Čak i ako se sustav može nositi s dekodiranjem složenog videa, u prijenosnom računalu i dalje je vrlo važno koliko je resursa potrebno za dovršetak ovog zadatka, jer o tome ovise grijanje sustava i trajanje baterije ...

HP 8740w
Core i7-720QM
ASUS N53Jq
Core i7-720QM
Toshiba A665-3D
Core i7-2630QM
HP DV7
Core i7-2630QM
H.264 hardver2,6 2,5 2,3 1,2
H.264 softver19,7 18,9 13,4 14
H.264 hardver - ocjena631 656 713 1367
H.264 softver - ocjena173 180 254 243

U apsolutnom smislu, razlika između dva 720QM-a nije velika, iako se u ocjenama može činiti značajnom. Zanimljivo je vidjeti razliku između dva Core i7-2630QM procesora u načinu korištenja hardversko ubrzanje... Sustav s AMD grafikom pokazuje manje opterećenje, ali rezultati su bili vrlo dobri kada se koristi Intel adapter. V programski način rada oba sustava rade dobar posao dekodiranja, opterećenje procesora je nisko. Za Sandy Bridge procesore opterećenje sustava je predvidljivo niže.

Pogledajmo prosječnu ocjenu sustava koji su sudjelovali u testovima.

HP 8740w
Core i7-720QM
ASUS N53Jq
Core i7-720QM
Toshiba A665-3D
Core i7-2630QM
HP DV7
Core i7-2630QM
Ukupna ocjena sustava128 129 158 173

Iako je u nekim testovima razlika između dva sustava s procesorima Intel Core i7-720QM je bio opipljiv, općenito su pokazali gotovo identične rezultate.

Performanse potpuno funkcionalnog i funkcionalnog sustava s procesorom Core i7-2630QM puno su veće od performansi uzorka koji smo ranije testirali. Na temelju ovih rezultata već je moguće donijeti zaključke o performansama platforme.

A ovi nalazi su ta izvedba nova platforma Sandy Bridge je oko 35% (ovisno o korištenim aplikacijama) viši od korištene platforme prethodne generacije. Naravno, zaključci još uvijek nisu konačni. Barem čipovi imaju različite frekvencije. U svakom slučaju, u odnosu na nove Intelove procesore, koncept "taktne frekvencije" postao je prilično iluzoran, jer imamo Intel Turbo Boost tehnologiju.

Provjera rada Intel Turbo Boost sustava

Sandy Bridge serija procesora uključuje nova verzija Intel Turbo Boost tehnologija, koja ima puno više kontrole nad brzinom procesora. Sustav nadzora i upravljanja postao je mnogo sofisticiraniji i inteligentniji. Sada može uzeti u obzir mnoge parametre: koje jezgre i koliko su opterećene, temperaturu procesora i pojedinačne komponente(tj. sustav može pratiti i spriječiti lokalno pregrijavanje).

Budući da je kontrola temperature i opterećenja postala učinkovitija, procesoru je potrebna manja granica sigurnosti kako bi stabilno i učinkovito radio u svim vanjskim uvjetima (prije svega, temperaturi). To vam omogućuje učinkovitije korištenje njegovih mogućnosti. Zapravo, ovaj sustav je kontrolirani overclocking: radna frekvencija je povećana, a kontrola ne dopušta procesoru da izađe izvan sigurnih radnih uvjeta i izgubi stabilnost ili se pokvari. Ako se procesor koji radi na povećanoj frekvenciji pregrije, sustav nadzora će sam smanjiti frekvenciju i napon napajanja do sigurnih granica.

Štoviše, novi sustav kontrola ubrzanja u stanju je uzeti u obzir "učinak inercije". Kada je procesor hladan, frekvencija može porasti vrlo visoko na kratko vrijeme, procesor može čak i premašiti ograničenje rasipanje topline koje je odredio proizvođač. Ako je opterećenje kratkotrajno, procesor se neće imati vremena zagrijati ekstremne temperature ili ako opterećenje traje dulje, procesor će se zagrijati i sustav će sniziti temperaturu do sigurnih granica.

Dakle, Sandy Bridge procesor ima tri radna položaja:

Aktivirani su mehanizmi za uštedu energije, procesor radi na niskoj frekvenciji i podnaponu. Aktiviran je Intel Turbo Boost sustav, procesor je overclockan na maksimalno dopuštenu frekvenciju overclockanja (ovisi koliko je jezgri i kako su učitane), raste napon napajanja. Procesor radi ovom brzinom sve dok temperatura jezgre to dopušta. Procesor, kada su pragovi za opterećenje ili grijanje prekoračeni, vraća se na frekvenciju takta na kojoj je zajamčeno da će raditi stabilno. Na primjer, za 2630QM ova frekvencija je naznačena kao 2 GHz, ova frekvencija je navedena u specifikacijama i proizvođač jamči da će procesor moći održavati ovu frekvenciju koliko god je potrebno, podložno navedenim vanjskim uvjetima. Intel Turbo Boost omogućuje povećanje radne frekvencije, ali njegovi radni parametri i radna frekvencija ovise o vanjskim uvjetima, pa proizvođač ne može jamčiti da će ovaj sustav uvijek raditi isto.

Međutim, ove se informacije mogu prikupiti iz prve recenzije. Podsjetimo, u prvom testu procesor je u stanju mirovanja radio sa sljedećim parametrima:

  • Jednostavno: 800 MHz, napon napajanja 0,771 V.
  • Opterećenje (sve jezgre, maksimalno): frekvencija 2594 MHz (množitelj 26), napon napajanja 1,231 V.
  • Opterećenje (nakon otprilike 5 minuta rada) je ili 2594 MHz (množitelj 26) ili 2494 MHz (množitelj 25).
  • Opterećenje (nakon oko 7-8 minuta rada) - 1995 MHz (množitelj 20). Napon 1,071 V. Sustav se vratio na stabilne radne parametre koje je postavio proizvođač.

Pogledajmo koliko će Hewlett-Packard DV7 izdržati u overclockanom položaju.

Pokrećemo programe za praćenje stanja procesora.

Radna frekvencija i napon su isti kao u prethodnom ispitivanju. Pogledajmo očitanja temperature.

Sve je tiho, temperature su relativno niske - 49 stupnjeva. Za procesor visokih performansi to nije puno. Obratite pažnju na razliku u temperaturi između prve i četvrte jezgre.

Pokreni test opterećenja... Podsjetim da učitava sve jezgre odjednom, tako da nećemo vidjeti maksimalne brojke (2,9 GHz) u Intel Turbo Boostu.

Kao što vidite, napon je porastao na 1,211 Volti, frekvencija je postala 2594 MHz zbog promijenjenog množitelja, sada je 26. Procesor počinje brzo dobivati ​​temperaturu, ventilator za hlađenje počinje zvučati glasnije.

Pa da vidimo koliko će procesor izdržati kad se prebaci na nominalnu frekvenciju.

Prošla je minuta, jasno je da se temperature počinju stabilizirati.

Prošlo je pet minuta i temperature su se stabilizirale. Iz nekog razloga, temperature prve i četvrte jezgre razlikuju se za 10 stupnjeva. Razlika u temperaturama je prisutna na svim testovima, čak i u mirovanju je uočljiva. Neću se usuditi reći zašto se to događa.

Prošlo je 15 minuta od početka testiranja. Temperature su stabilne, sustav hlađenja se nosi. Brzina takta ostaje na 2,6 GHz.

Prošlo je 48 minuta. Laptop nastavlja raditi pod opterećenjem, temperature su stabilne (dobro, porasle su za stupanj). Frekvencija sata je ista:

Pa, barem zimi iu ne baš vrućoj prostoriji, DV7 može raditi s maksimalnom dostupnom frekvencijom neograničeno vrijeme. Sustav hlađenja ima dovoljno snage za Intel Turbo Boost da zadrži maksimalnu dostupnu frekvenciju overkloka bez ikakvih problema. Teoretski, bilo bi moguće malo više overclockati procesor.

Ovaj nalaz se razlikuje od prethodnih rezultata. Sada možete vidjeti što se isplati kupiti kvalitetan laptop: Ako su dizajneri napravili dobar posao na izradi rashladnog sustava, dobit ćete dividende ne samo u obliku visokokvalitetnog i čvrstog kućišta, već i u performansama!

Pa, sada prelazimo na drugi vrlo zanimljiv dio članka: uspoređivanje mobilnog procesora Core i7-2630QM s stolnim procesorima serije Sandy Bridge u metodi desktop testa.

Usporedba mobilnog procesora Core i7-2630QM s procesorima za stolna računala Sandy Bridge

Za usporedbu koristimo rezultate našeg istraživanja stolnih Core i7 i Core i5 procesora na Sandy Bridge jezgri.

Usporedimo konfiguracije sudionika, uključujući u tablici informacije o Core i7-2630QM.

CPUCore i5-2300Core i5-2400Core i5-2500 / 2500KCore i7-2600 / 2600KCore i7-2630QM
Naziv kernelaPješčani mostPješčani mostPješčani mostPješčani mostPješčani most
Prospect tehnologija32 nm32 nm32 nm32 nm32 nm
Frekvencija jezgre (std / max), GHz2,8/3,1 3,1/3,4 3,3/3,7 3,4/3,8 2,0/2,9
Početni faktor množenja28 31 33 34 20
Turbo Boost tijek rada3-2-2-1 3-2-2-1 4-3-2-1 4-3-2-1 n/a
Broj jezgri / niti4/4 4/4 4/4 4/8 4/8
L1 predmemorija, I/D, KB32/32 32/32 32/32 32/32 n/a
L2 predmemorija, KB4 × 2564 × 2564 × 2564 × 256n/a
L3 keš memorija, MiB6 6 6 8 6
radna memorija2 × DDR3-1333
Grafička jezgra GMA HD2000 2000 2000/3000 2000/3000 3000
Frekvencija grafičke jezgre (max), MHz1100 1100 1100 1350 1100
UtičnicaLGA1155LGA1155LGA1155LGA1155n/a
TDP95 vata95 vata95 vata95 vata45 vata

Radni takt mobilnog procesora je manji, što je očito. U maksimalnom Turbo Boost načinu rada neznatno nadmašuje mlađi desktop Core i5 koji radi bez Turbo Boosta, ali ništa više. Ali termalni paket je puno niži - više od polovice. Osim toga, ima manje predmemorije zadnje razine na samo 6MB. Od prednosti vrijedi napomenuti da mobilni procesor ima četiri jezgre i osam niti računala, budući da se radi o Core i7. Barem neka prednost u odnosu na niži desktop Core i5. Da vidimo što će to rezultirati u praksi.

Nažalost, punopravna usporedba ionako nije uspjela. Neki paketi iz desktop metode nisu se pokrenuli (na primjer, Pro / Engineer je stabilno visio na našem testnom sustavu), zbog čega smo morali izbaciti njihove rezultate iz ocjene, što znači da se sama ocjena promijenila u odnosu na ocjene iz glavni materijal.

Prijeđimo na testove. Izraz "test nije započeo" znači da test nije započeo na našem prijenosnom računalu, stoga su rezultati svih sudionika testa uklonjeni. U tom slučaju se ocjene ponovno izračunavaju.

Prema rezultatima, odmah je jasno da mobilni procesor prilično ozbiljno gubi od desktopa – ne može dostići razinu performansi čak ni mlađeg procesora nove stolne linije. Rezultati stolnog procesora Core i7, po mom mišljenju, prilično su slabi, no ipak bi trebao biti puno moćniji od Core i5 linije, prema rezultatima, ovisnost se čini linearnom. Rezultati Solidworksa općenito su gotovo isti za sve stolne sustave. Ovo mjerilo ne zanima kolika je brzina procesora?

Pogledajmo brzinu renderiranja 3D scena.

Core i5-2300Core i5-2400Core i5-2500 / 2500KCore i7-2600 / 2600KCore i7-2630QM
3ds max181 195 207 233 157
Svjetlosni val153 168 180 234 161
Maya142 170 181 240 165
Renderiranje159 178 189 236 161

Ovdje je situacija malo zabavnija - mobilni sustav je ipak dosegao razinu junior desktop sustava. Međutim, stolni Core i7 je daleko ispred u svim mjerilima. Za usporedbu, ovdje su apsolutni rezultati jednog od mjerila, Maya. Rezultat ovog testa je vrijeme provedeno na projektu, što je ilustrativnije od rezultata u drugim testovima.

Core i5-2300Core i5-2400Core i5-2500 / 2500KCore i7-2600 / 2600KCore i7-2630QM
Maya00:08:47 00:07:20 00:06:52 00:05:11 00:07:34

Kao što vidite, čak i uz ne tako dugo vrijeme za renderiranje projekta, razlika je značajna. U slučaju složenijih projekata, trebao bi biti još veći.

Prijeđimo na sljedeći test.

Gotovo sve aplikacije koriste složene matematičke izračune, pa stolno ravnalo s više visoka frekvencija očito će biti naprijed. Pritom me jako zbunjuje premala razlika između desktop Core i5-2500 i Core i7-2600, u nekim aplikacijama moćniji procesor čak gubi. Je li hiperdreading doista toliko neučinkovit u ovim aplikacijama da čak ni razlika u brzinama ne može nadoknaditi usporavanje koje uzrokuje? To je tim zanimljivije, jer je u mobilnom procesoru konfiguracija jezgre ista kao u 2600 seriji, a općenito ne zaostaje toliko za mlađim desktop procesorom s obzirom na razliku u radnim frekvencijama među njima.

I prelazimo na manje profesionalne i češće testove. I počnimo s bitmap grafika... Nažalost, jedan od testova nije započeo, što je opet utjecalo na sliku testova.

I opet, mobilni sustav je dosljedno na razini nešto ispod najmlađeg desktop rješenja. A onda na račun neočekivano visok rezultat u Photoimpactu, inače bi slika bila još tužnija. Radi jasnoće dat ću rezultate za dva pakiranja u apsolutnim brojevima.

Core i5-2300Core i5-2400Core i5-2500 / 2500KCore i7-2600 / 2600KCore i7-2630QM
ACDSee00:04:20 00:03:59 00:03:46 00:03:34 00:04:57
Photoshop00:03:36 00:03:15 00:03:07 00:02:58 00:04:00

Na taj način možete procijeniti specifičnu razliku u vremenu potrebnom za dovršetak zadatka.

Prijeđimo na testove arhiviranja. Riječ je o jednostavnim izračunima koji su dobri i po brzini i po prisutnosti dodatnih procesorskih jezgri (iako s tim postoje pitanja).

Core i5-2300Core i5-2400Core i5-2500 / 2500KCore i7-2600 / 2600KCore i7-2630QM
7 patentni zatvarač140 151 156 213 137
RAR191 207 216 229 173
Raspakiraj (RAR)179 194 206 219 167
Arhivisti170 184 193 220 159

I opet i opet... Ako pogledate rezultate 7-zip-a, možete vidjeti da višejezgrena (čak i u obliku hyper-threadinga) isplati značajne dividende. No, očito se i frekvencija takta isplati, jer mobilni Core i7 s osam jezgri opet nije stigao ni do mlađeg stolnog procesora. Ista se situacija zadržala i na Winrar testovima. No stolni Core i7-2600 u 7-zip testu ide jako daleko naprijed.

Test kompilacije, opet koristeći matematičke mogućnosti procesora ...

U testu izvedbe Java aplikacije trend je načelno potvrđen. No, zaostajanje mobilnog procesora je još veće.

Pogledajmo izvedbu Javascripta u modernim preglednicima.

Core i5-2300Core i5-2400Core i5-2500 / 2500KCore i7-2600 / 2600KCore i7-2630QM
Google v8161 176 190 191 148
Sunčani pauk156 162 167 170 198
Preglednik159 169 179 181 173

Iako se Googleovi benchmark rezultati otprilike podudaraju s onim što smo već vidjeli, nešto očito nije u redu sa Sunspiderom. Iako je, u principu, u svim preglednicima ovaj test radio brže na mobilnom procesoru nego na svim stolnim računalima, uključujući i desktop Core i7 (koji se, međutim, prema rezultatima vrlo malo razlikuje od starijeg Core i5).

Općenito, vrlo neočekivani rezultat drugog testa, koji ne mogu objasniti. Možda je nešto drugačije radilo u softveru?

Ostavimo internetske aplikacije i prijeđimo na rad s video i audio. To je također prilično popularna vrsta aktivnosti, uključujući i za mobilna računala.

Core i5-2300Core i5-2400Core i5-2500 / 2500KCore i7-2600 / 2600KCore i7-2630QM
Apple bez gubitaka135 149 154 206 126
FLAC145 159 171 233 144
Zvuk majmuna150 165 174 230 139
MP3 (LAME)162 179 191 258 152
Nero AAC154 171 179 250 148
Ogg Vorbis164 179 191 252 147
Audio152 167 177 238 143

Audio kodiranje nas ne iznenađuje. Mobilni Core i7-2630QM nešto je slabiji od svih testiranih desktop procesora, stolni Core i7 ide u ozbiljno vodstvo. Što će se dogoditi u video kodiranju?

Core i5-2300Core i5-2400Core i5-2500 / 2500KCore i7-2600 / 2600KCore i7-2630QM
DivX146 160 170 157 96
Glavni koncept (VC-1)153 167 175 187 133
Premijera155 169 178 222 132
Vegas164 177 185 204 131
x264152 165 174 225 136
XviD166 180 190 196 133
Video156 170 179 199 127

Zaostajanje mobilnog procesora se povećalo, a stolni Core i7 i dalje je daleko ispred svih ostalih procesora, iako se jaz smanjio.

Pa, i jedan od naj "stvarnijih" testova: igre!

Core i5-2300Core i5-2400Core i5-2500 / 2500KCore i7-2600 / 2600KCore i7-2630QM
Batman131 134 135 134 40
Borderlands142 149 157 160 234
DiRT 2109 110 110 110 36
Far Cry 2200 218 232 237 84
Fritz Šah142 156 166 215 149
Gta iv162 164 167 167 144
Resident evil125 125 125 125 119
S.T.A.L.K.E.R.104 104 104 104 28
UT3150 152 157 156 48
Crysis: Warhead127 128 128 128 40
Svijet u sukobu163 166 168 170 0
Igre141 146 150 155 84

Samo želim reći "oh". Sve igre su jasno podijeljene na CPU ovisne i ovisne o grafici. Instaliranje snažnijeg procesora može uvelike povećati brzinu u Borderlands, Far Cry 2 i Fritz Chess. Neke igre vrlo slabo reagiraju na snažnije procesore, neke uopće ne reagiraju. Izuzmemo li iz razmatranja World in Confict, gdje je mobilni Core i7 dobio 0, onda ukupna ocjena izgleda ovako.

Rezultati su bili razočaravajući mobilni sustav, a za to uglavnom nije kriv procesor. Prije izvlačenja zaključaka, pogledajmo apsolutne brojke performansi u igrama.

Core i5-2300Core i5-2400Core i5-2500 / 2500KCore i7-2600 / 2600KCore i7-2630QM
Batman205 209 210 209 63
Borderlands75 79 83 85 124
DiRT 276 77 77 77 25
Far Cry 276 83 88 90 32
Fritz Šah8524 9368 9982 12956 8936
Gta iv63 64 65 65 56
Resident evil128 128 128 128 121,6
S.T.A.L.K.E.R.62,9 62,9 63 62,9 17,2
UT3166 169 174 173 53
Crysis: Warhead57,4 57,6 57,7 57,7 18,1
Svijet u sukobu62,6 63,5 64,3 65

Kao što vidite, ako stolni procesori gotovo uvijek pokazuju prilično dobre rezultate, onda je mobilni sustav na mnogim mjestima na pragu igrivosti ili ispod njega.

Za gotovo sve igre procesori su prebrzi, konačni rezultat ovisi uglavnom o performansama video kartice. Pritom je razina performansi mobilnog sustava znatno niža, što nam omogućuje da izvučemo neke zaključke o vrlo velikoj razlici između desktop i mobilnih video rješenja. Razlika na primjeru naših testova je u prosjeku tri puta. Izdvajaju se GTA IV i Resident Evil, koji pokazuju slične rezultate na svim sustavima, uključujući mobilne.

U šahovskom programu koji zahtijeva puno procesora, mobilni Core i7 ima dobre rezultate između proračunskih stolnih modela.

Pa, da rezimiramo.

Core i5-2300Core i5-2400Core i5-2500 / 2500KCore i7-2600 / 2600KCore i7-2630QM
Ukupna ocjena157 170 180 203 141

Ukupni rezultat potvrđuje trend: jedan od najmoćnijih mobilni procesori Core i7-2360QM ne može odgovarati razini performansi nižeg procesora za stolna računala u slabijoj liniji Core i5. Stolni procesor Core i7 po performansama je daleko ispred čak i desktop procesora iz mlađe linije, a kamoli mobilne verzije.

Izlaz

Dakle, vrijeme je za prebrzo zaključke. Dopustite mi da vas podsjetim na neke rezultate iz prethodnog materijala.

Na prvi pogled, Sandy Bridge je doista vrlo uspješan procesor. Prvo, uvelike je poboljšan, uklonjena su nelogična rješenja (ista dva odvojena kristala izrađena prema različitim tehničkim procesima), struktura čipa je postala logična i dobro optimizirana. Komunikacijska sabirnica komponenti unutar procesora je poboljšana (koja sada uključuje video jezgru!). Drugo, optimizirana je struktura procesorskih jezgri, što bi također trebalo utjecati bolja strana na izvedbu. Praksa potvrđuje teoriju: procesor koji smo imali na testu ide daleko ispred u performansama u odnosu na trenutnu platformu.

Doista, u praktičnom smislu Ispitivanje jezgre i7-2630QM, koji bi trebao biti najmlađi u novoj mobilnoj liniji Core i7, ozbiljno nadmašuje Core i7-720QM, najmoćniji (ili najsnažniji) procesor u prvoj generaciji Intelovih mobilnih Core linija. Navodno bi 2630QM trebao zauzeti njegovo mjesto, odnosno postati mainstream moćan procesor u 2. generaciji Core liniji.

Općenito, možemo zaključiti da je druga generacija mobilnih Core procesora u pogledu performansi dobar iskorak. Što se ostalih prednosti linije tiče, mislim da je vrijedno pričekati izlazak nižih linija, te samo velikog broja modela na novim procesorima, pa čak i tada ocijeniti takve kvalitete nove linije kao što su grijanje, energetska učinkovitost, itd.

Međutim, u usporedbi s novim Sandy Bridge stolnim Core i5 i i7 procesorima, novi mobilni Core i7-2630QM i dalje gubi. Štoviše, mobilna platforma je slabija stabilna u svim testnim skupinama. Ovo je normalna situacija, od kada stvarate pokretna ravnala prioriteti nisu samo performanse, već i niska potrošnja energije (za dulji vijek trajanja baterije) i niska potrošnja energije (zbog kompaktnijih i slabijih sustava hlađenja). Vrijedi pogledati barem termalni paket novog mobilnog procesora, koji je više od dva puta (!) Niži od onog u verzijama za stolna računala. To ima svoju cijenu, uključujući nižu nominalnu frekvenciju i ukupne performanse.

Usput, kad smo već kod frekvencija. Hewlett-Packard DV7 je u tom pogledu predstavio ugodno iznenađenje (iako je moguće da u vrućem ljetu sve neće biti tako ružičasto). Procesor, pod pretpostavkom dobrog sustava hlađenja, može raditi neograničeno na maksimalnoj Turbo Boost frekvenciji od 2,6 GHz, tako da je sasvim sposoban pokazati višu razinu performansi od standardnih specifikacija. Naravno, nema jamstva da će se sustav hlađenja nositi ljeti, a ako ne, onda razina pravi učinak u odnosu na stolne sustave može se pokazati znatno nižim nego na našim testovima. Stoga do izražaja dolazi prisutnost kompetentnog sustava hlađenja u prijenosnom računalu s novim mobilnim procesorom Core i7.

Njegov detaljan pregled na našoj web stranici (međutim, podrška za C6 ​​duboko spavanje i LV-DDR3 niskonaponsku memoriju pojavila se samo u Westmereu). Što je novo u SB-u?

Prvo, druga vrsta temperaturnih senzora. Poznata termalna dioda, čija očitanja "vide" BIOS i uslužni programi, mjeri temperaturu za podešavanje brzine ventilatora i zaštitu od pregrijavanja (prigušivanje frekvencije i, ako ne pomogne, hitno gašenje CPU-a). Međutim, njegovo područje je vrlo veliko, jer postoji samo jedan od njih u svakoj jezgri (uključujući GPU) i u agentu sustava. Njima je u svakom velikom bloku dodano nekoliko kompaktnih analognih sklopova s ​​termotranzistorima. Imaju kraći radni raspon mjerenja (80-100 °C), ali su potrebni za pročišćavanje podataka o termalnim diodama i izgradnju točne karte grijanja kristala, bez koje se nove funkcije TB 2.0 ne mogu realizirati. Štoviše, kontroler napajanja može čak koristiti i vanjski senzor ako ga proizvođač matične ploče postavi i poveže - iako nije jasno kako će to pomoći.

Dodana je funkcija za prenumeraciju C-stanja, za koju se prati povijest prijelaza između njih za svaku jezgru. Prijelaz traje dulje, što je veći "broj spavanja" u koji jezgra ulazi ili izlazi. Kontroler određuje ima li smisla staviti kernel u stanje mirovanja, uzimajući u obzir vjerojatnost njegovog "buđenja". Ako se to uskoro očekuje, tada će umjesto traženog OS-a, kernel biti prebačen na C3 odnosno C1, odnosno u aktivnije stanje koje brže počinje raditi. Čudno, unatoč većoj potrošnji energije u takvom snu, ukupna ušteda ne može utjecati jer su oba smanjena prijelazna razdoblja tijekom kojih procesor uopće ne spava.

Za mobilne modele, prijenos svih jezgri na C6 uzrokuje resetiranje i onemogućavanje L3 predmemorije uobičajene za banke tipke za napajanje... To će dodatno smanjiti potrošnju u stanju mirovanja, ali je ispunjeno dodatnim kašnjenjem pri buđenju, budući da će jezgre morati promašiti nekoliko stotina ili tisuća puta u L3 dok se tamo upumpavaju potrebni podaci i kod. Očito, u kombinaciji s prethodnom funkcijom, to će se dogoditi samo ako je kontroler potpuno siguran da CPU dugo zaspi (prema standardima procesorskog vremena).

Core i3 / i5 prethodne generacije bili su svojevrsni rekorderi po složenosti CPU sustava napajanja na matičnoj ploči, zahtijevajući čak 6 napona - točnije, svih 6 je bilo prije dostupno, ali nisu svi vodili na procesor. U SB se mijenjaju ne brojem, već korištenjem:

  • x86 jezgre i L3 - 0,65-1,05 V (odvojeno u Nehalem L3);
  • GPU - slično (u Nehalemu gotovo cijeli sjeverni most, koji je, podsjetimo, bio drugi CPU kristal tamo, napaja se zajedničkom sabirnicom);
  • agent sustava za koji je frekvencija fiksna, a napon konstantan 0,8, 0,9 ili 0,925 V (prve dvije opcije su za mobilne modele), ili dinamički podesiv 0,879–0,971 V;
  • - konstantni 1,8 V ili podesivi 1,71-1,89 V;
  • vozač memorijske sabirnice - 1,5 V ili 1,425-1,575 V;
  • PCIe drajver - 1,05V.

Regulirane verzije sabirnice napajanja koriste se u otključanim prikazima SB sa slovom K. U desktop modelima, frekvencija mirovanja x86 jezgri povećana je s 1,3 GHz na 1,6 GHz, očito bez žrtvovanja uštede. Istodobno, 4-jezgreni CPU u punom stanju mirovanja troši 3,5-4 vata. Mobilne verzije ne rade na 800 MHz i traže još manje. Modeli i čipsetovi

Izvođenje

Što ovo poglavlje čini u teorijskom pregledu mikroarhitekture? I činjenica da postoji jedan općepriznat test koji se koristi već 20 godina (u različitim verzijama) za procjenu ne teorijske, već programski dostižne brzine računala - SPEC CPU. Može sveobuhvatno procijeniti performanse procesora, a u najboljem slučaju za njega - kada se izvorni kod testova prevede i optimizira za sustav koji se testira (tj. usputno se provjerava i kompajler s knjižnicama). Tako, koristan programi će se pokazati bržima samo s rukopisnim umetanjima u asembleru, što su danas rijetki drski programeri s velikom marginom vremena. SPEC se može svrstati u polusintetičke testove, budući da ne izračunava ništa korisno, i ne daje nikakve specifične brojke (IPC, flops, tajming, itd.) - "papige" jednog CPU-a su potrebne samo za usporedbu s drugima.

Intel obično daje rezultate za svoje CPU gotovo istovremeno s njihovim izdavanjem. No, SB je doživio neshvatljivo kašnjenje od 3 mjeseca, a brojke dobivene u ožujku su još uvijek preliminarne. Nejasno je što ih točno koči, ali je ipak bolje od situacije s AMD-om koji nije objavio službeni rezultati njihov najnoviji procesor. Sljedeće brojke za Opteron daju proizvođači poslužitelja koji koriste Intelov prevodilac, tako da ovi rezultati mogu biti nedovoljno optimizirani: što Intelov softverski alat može raditi s izvršavanjem koda na "stranom" CPU-u. ;)


Usporedba sustava u SPEC CPU2006 testovima. Tablicu koju je sastavio David Kanter iz ožujka 2011.

U usporedbi s prethodnim CPU-ima, SB pokazuje izvrsne (u doslovnom smislu) rezultate u apsolutnim i potpuno rekordnim za svaku jezgru i gigahertz. Uključivanje HT-a i dodavanje 2 MB na L3 daje + 3% na stvarnu brzinu i + 15% na cijeli broj. No, 2-jezgreni model ima najveću specifičnu brzinu, a to je poučno zapažanje: očito je Intel koristio AVX, ali budući da je cjelobrojni dobitak još uvijek nemoguće dobiti, može se očekivati ​​naglo ubrzanje samo stvarnih pokazatelja. Ali čak ni za njih nema skoka, što pokazuje usporedba 4-jezgrenih modela - a rezultati za i3-2120 otkrivaju razlog: imajući ista 2 IKP kanala, svaka jezgra prima dvostruko veću propusnost, što se odražava na povećanje specifične stvarne brzine za 34%. Očigledno je L3 cache od 6-8 MB premalen, a skaliranje vlastite propusnosti na račun prstenaste sabirnice ne pomaže. Sada je jasno zašto Intel planira opremiti poslužiteljske Xeone s 3 ili čak 4-kanalne ICP-ove. Samo što sada 8 jezgri već nije dovoljno da se u potpunosti razmjesti...

Ažuriranje: Pojavili su se konačni rezultati SB - brojke (očekivano) su blago porasle, ali su kvalitativni zaključci isti. Izgledi i rezultati

Već je dobro poznat 22nm nasljednik Sandy Bridgea, Ivy Bridge, koji će biti objavljen u proljeće 2012. godine. Jezgre Opća namjena podržavat će malo ažurirani podskup AES-NI; sasvim je moguće i "besplatno" kopiranje registara u fazi preimenovanja. Poboljšanja u Turbo Boostu se ne očekuju, ali će GPU (koji će, usput rečeno, raditi na svim verzijama čipseta) povećati maksimalni broj FU-ova na 16, podržavat će povezivanje ne dva, već tri ekrana, i konačno će dobiti normalnu podršku za OpenCL 1.1 (zajedno s DirectX 11 i OpenGL 3.1) i poboljšat će hardverske mogućnosti obrade videa. Najvjerojatnije već na desktopu i mobilni modeli IKP će podržavati 1600 MHz, a PCIe kontroler podržavat će verziju sabirnice 3.0. Glavna tehnološka inovacija je da će L3 predmemorija koristiti (prvi put u masovnoj mikroelektroničkoj proizvodnji!) tranzistori s okomito raspoređenim višestranim gate-finom (FinFET) s radikalno poboljšanim električnim karakteristikama (detalji - u jednom od nadolazećih članci). Priča se da će GPU verzije ponovno postati multi-GPU, samo što će ovaj put jedan ili više kristala brze video memorije biti dodan procesoru.

Ivy Bridge će se povezati s novijim skupovima čipova (tj. južni mostovi) Serija 70: Z77, Z75 i H77 za dom (zamjenjuje Z68 / P67 / H67) i Q77, Q75 i B75 za ured (umjesto Q67 / Q65 / B65). Ona(odnosno fizički čip pod različitim nazivima) i dalje će imati najviše dva SATA 3.0 porta, a podrška za USB 3.0 će se konačno pojaviti, ali godinu dana kasnije od konkurenta. Ugrađena PCI podrška će nestati (nakon 19 godina, autobus je vrijeme za odmor), ali kontroler diskovni podsustav Z77 i Q77 će dobiti tehnologiju Smart Response za povećanje performansi cachiranjem pogona pomoću SSD-a. Međutim, najuzbudljivija vijest je da unatoč dobri stari Tradicionalno, desktop verzije Ivy Bridgea ne samo da će biti smještene u istu LGA1155 utičnicu kao i SB, već će također biti kompatibilne s njima unatrag - to jest, moderne ploče će također odgovarati novom CPU-u.

Pa, za entuzijaste, puno moćniji X79 čipset bit će spreman već u 4. tromjesečju ove godine (za 4-8-jezgreni SB-E za "ekstremno poslužiteljsko" LGA2011 socket). Još neće imati USB 3.0, ali će postojati 10 od 14 SATA 3.0 portova (plus podrška za 4 vrste RAID-a), a 4 od 8 PCIe traka mogu se spojiti na CPU paralelno s DMI-om, udvostručavajući " CPU-chipset" komunikacijska propusnost. Nažalost, X79 neće odgovarati 8-jezgrenom Ivy Bridgeu.

Kao iznimka (a možda i novo pravilo), nećemo dati popis onoga što bismo željeli poboljšati i popraviti u Sandy Bridgeu. Već je očito da je svaka promjena složen kompromis - strogo prema zakonu održanja materije (u formulaciji Lomonosova): ako nešto negdje stigne, negdje će se isti iznos smanjiti. Ako bi Intel požurio ispravljati pogreške stare u svakoj novoj arhitekturi, tada bi broj slomljenog drva i leteće sječke mogao premašiti dobivenu korist. Stoga je umjesto krajnosti i nedostižnog ideala ekonomski isplativije tražiti ravnotežu između stalno promjenjivih i ponekad suprotnih zahtjeva.

Unatoč nekim nedostacima, nova arhitektura ne samo da bi trebala zasjati (što, sudeći po testovima, i jest), nego i zasjeniti sve prethodne – i vlastite i suparničke. Najavljeni ciljevi u pogledu performansi i ekonomičnosti su ostvareni, s izuzetkom optimizacije za AVX paket koji će se uskoro pojaviti u novim verzijama popularnih programa. A onda će se Gordon Moore još jednom iznenaditi svojom oštroumnošću. Intel je očito potpuno naoružan za Epic Battle između arhitektura, što ćemo vidjeti ove godine.

Priznanja se izražavaju:

  • Maxim Loktyukhin, sam "predstavnik Intela", zaposlenik odjela za optimizaciju softvera i hardvera - za odgovore na brojna pojašnjavajuća pitanja.
  • Marku Buxtonu, glavnom softverskom inženjeru i voditelju optimizacije, na njegovim odgovorima i na samoj prilici da dobijem nekakav službeni odgovor.
  • Agner Fogh, programer i istraživač procesora - za neovisno testiranje niske razine SB-a, koje je otkrilo puno novog i tajanstvenog.
  • Pažljivom čitatelju - za pažljivost, ustrajnost i glasno hrkanje.
  • Bijesni navijači Suprotnog kampa - na hrpu.

Konačno Intel službeno najavio nove procesore koji rade na novoj mikroarhitekturi Pješčani most... Za većinu ljudi, "najava Sandy Bridgea" su samo riječi, ali općenito, Intel Core II generacije su, ako ne nova era, onda barem ažuriranje gotovo cijelog tržišta procesora.


U početku se izvještavalo o lansiranju samo sedam procesora, ali na najkorisnijoj stranici ark.intel.com informacije o svim novim proizvodima već su se pojavile. Bilo je još nekoliko procesora, odnosno njihovih modifikacija (u zagradama sam naveo približnu cijenu - koliko će koštati svaki procesor u seriji od 1000):

Mobilni:

Intel Core i5-2510E (~ 266 USD)
Intel Core i5-2520M
Intel Core i5-2537M
Intel Core i5-2540M

Usporedna detaljna usporedba mobilnih uređaja Intel procesori Druga generacija Core i5.

Intel Core i7-2617M
Intel Core i7-2620M
Intel Core i7-2629M
Intel Core i7-2649M
Intel Core i7-2657M
Intel Core i7-2710QE (~ 378 USD)
Intel Core i7-2720QM
Intel Core i7-2820QM
Intel Core i7-2920XM Extreme Edition

Usporedna, detaljna usporedba druge generacije mobilnih procesora Intel Core i7.

stolno računalo:

Intel Core i3-2100 (~ 117 USD)
Intel Core i3-2100T
Intel Core i3-2120 (138 USD)

Usporedna detaljna usporedba druge generacije Intel Core i3 procesora za stolna računala.

Intel Core i5-2300 (~ 177 USD)
Intel Core i5-2390T
Intel Core i5-2400S
Intel Core i5-2400 (~ 184 USD)
Intel Core i5-2500K (~ 216 USD)
Intel Core i5-2500T
Intel Core i5-2500S
Intel Core i5-2500 (~ 205 USD)

Usporedna, detaljna usporedba druge generacije Intel Core i5 procesora za stolna računala.

Intel Core i7-2600K (~ 317 USD)
Intel Core i7-2600S
Intel Core i7-2600 (~ 294 USD)

Usporedna detaljna usporedba druge generacije Intel Core i7 procesora za stolna računala.

Kao što možete vidjeti, nazivi modela sada imaju četiri znamenke u nazivu - to je učinjeno kako bi se izbjegla zabuna s procesorima prethodne generacije. Ponuda se pokazala prilično cjelovitom i logičnom - najzanimljivije serije i7 jasno su odvojene od i5 prisutnošću tehnologije Hyper threading i povećana veličina predmemorije. A procesori obitelji i3 razlikuju se od i5 ne samo po manjem broju jezgri, već i po nedostatku tehnologije Turbo ubrzanje.

Vjerojatno ste primijetili i slova u nazivima procesora, bez kojih se postava jako prorijedila. Dakle, slova S i T govoriti o manjoj potrošnji energije, i DO Je besplatni množitelj.

Vizualna struktura novih procesora:

Kao što vidite, osim grafičke i računske jezgre, cache memorije i memorijskog kontrolera, postoji i tzv. Agent sustava- tu je bačeno puno stvari, primjerice, DDR3 memorija i PCI-Express 2.0 kontroleri, model upravljanja napajanjem i blokovi koji su na hardverskoj razini odgovorni za rad integriranog GPU-a i za prikaz slike ako se koristi .

Sve "jezgrene" komponente (uključujući grafički procesor) međusobno su povezane brzom prstenastom sabirnicom s punim pristupom L3 predmemoriji, što povećava ukupnu brzinu razmjene podataka u samom procesoru; zanimljivo je da vam ovaj pristup omogućuje povećanje performansi u budućnosti, jednostavno povećanjem broja jezgri dodanih sabirnici. Iako čak i sada sve obećava da će biti najbolje - u usporedbi s procesorima prethodne generacije, performanse nove su prilagodljivije i, prema proizvođaču, u mnogim zadacima mogu pokazati povećanje od 30-50% u brzina izvršavanja zadatka!

Ako postoji želja da saznate više o novoj arhitekturi, onda na ruskom mogu savjetovati ova tri članka -,,.

Novi procesori su u cijelosti i potpuno proizvedeni prema 32nm procesnoj tehnologiji i po prvi put imaju "vizualno pametnu" mikroarhitekturu koja kombinira najbolju računsku snagu u klasi i tehnologiju obrade 3D grafike na jednom čipu. Doista postoje mnoge inovacije u grafici Sandy Bridge, usmjerene uglavnom na povećanje produktivnosti pri radu s 3D. O "nametanju" integriranog videosustava može se dugo raspravljati, ali drugog rješenja kao takvog još uvijek nema. Ali postoji takav slajd iz službene prezentacije, koji tvrdi da je uvjerljiv, uključujući mobilne proizvode (prijenosna računala):

Već sam govorio o novim tehnologijama druge generacije Intel Core procesora, pa se neću ponavljati. Zadržat ću se samo na razvoju Intel Insider, čijim izgledom su se mnogi iznenadili. Koliko ja razumijem, ovo će biti svojevrsna trgovina koja će vlasnicima računala omogućiti pristup filmovima visoke razlučivosti izravno od tvoraca ovih filmova - nešto što se ranije pojavilo tek neko vrijeme nakon objave i pojavljivanja DVD diskovi ili Blu-ray. Kako bi demonstrirao ovu značajku, Intel VP Mouli Eden(Mooly Eden) pozvan na pozornicu Kevin Tsujiharu(Kevin Tsujihara), predsjednik Warner Home Entertainment Group. citiram:

« Warner Bros. smatra da su osobni sustavi najsvestranija i najraširenija platforma za isporuku visokokvalitetnog zabavnog sadržaja, a Intel sada čini platformu još pouzdanijom i sigurnijom. Od sada ćemo uz pomoć WBShop trgovine, kao i naših partnera kao što je CinemaNow, moći korisnicima osobnih računala pružiti nova izdanja i filmove iz našeg kataloga u pravoj HD kvaliteti."- Muli Eden je demonstrirao rad ove tehnologije na primjeru filma" Početak ". U suradnji s vodećim studijima i medijskim divovima u industriji (kao što su Best Buy CinemaNow, Hungama Digital Media Entertainment, Image Entertainment, Sonic Solutions, Warner Bros. Digital Distribution i drugi), Intel gradi siguran i bez piratstva (hardver- temeljen) ekosustav za distribuciju, pohranu i reprodukciju video zapisa visoke kvalitete.

Rad gore navedene tehnologije bit će kompatibilan s dva jednako zanimljiva razvoja, koja su također prisutna u svim modelima procesora nove generacije. govorim o ( Intel WiDi 2.0) i Intel InTru 3-D... Prvi je dizajniran za bežični prijenos HD-videa (s podrškom za razlučivost do 1080p), drugi je namijenjen za prikaz stereo sadržaja na monitorima ili televizorima visoke razlučivosti putem veze HDMI 1.4.

Još dvije funkcije za koje nisam našao bolje mjesto u članku - Intelova napredna vektorska proširenja(AVX). Podrška procesora za ove naredbe poboljšava brzinu podatkovno intenzivnih aplikacija kao što su audio uređivači i softver za profesionalno uređivanje fotografije.

… i Intel Quick Sync Video- zahvaljujući raditi zajedno sa softverskim tvrtkama kao što su CyberLink, Corel i ArcSoft, procesorski div uspio je poboljšati performanse na ovom zadatku (transkodiranje između H.264 i MPEG-2 formata) 17 puta u odnosu na prethodnu generaciju integrirane grafike.

Recimo da postoje procesori - kako ih koristiti? Tako je – uz njih su najavljeni i novi čipsetovi (logički setovi) koji su predstavnici serije “šezdesete”. Očigledno, postoje samo dva seta za žedne potrošače, ovo jest Intel H67 i Intel P67 na kojem će biti izgrađena većina novih matičnih ploča. H67 može raditi s video jezgrom integriranom u procesor, dok je P67 opremljen funkcijom Performance Tuning za overclocking procesora. Svi procesori će raditi u novom socketu, 1155 .


Drago mi je što se čini da su novi procesori uključili kompatibilnost s socketima Intelovih procesora s arhitekturom sljedeće generacije. Ovaj plus je koristan i za obične korisnike i za proizvođače koji ne moraju redizajnirati i stvarati nove uređaje.

Intel je ukupno predstavio preko 20 čipova, čipsetova i bežični adapteri uključujući nove Intel Core i7, i5 i i3 procesore, Intel čipsetovi Serija 6 i Intel Centrino Wi-Fi i WiMAX adapteri. Osim gore navedenih, na tržištu se mogu pojaviti sljedeće "značke":

Očekuje se da će ove godine biti objavljeno više od 500 modela na novim procesorima stolna računala i bilježnice vodećih svjetskih brendova.

I konačno, još jednom strašan video, odjednom netko nije vidio:

Razlika između "potpuno" i "djelomično" otključanih procesora

Što je rezultat? Nakon što je isprobao Turbo Boost na prethodnim generacijama procesora, Intel je odlučio učiniti ga alatom za stvarno cjenovno pozicioniranje svojih proizvoda u odnosu na druge. Prije su entuzijasti često kupovali mlađe procesore u seriji, često ih lako overclockajući na razinu starijih modela, ali sada razlika od 400 MHz između i3-2100 i i3-2120 košta 21 dolar, a vi nećete učiniti ništa po tom pitanju .

Oba otključana procesora koštat će nešto više od običnih modela. Ova razlika bit će manja nego u slučaju prethodnih generacija - 11 dolara za model 2500 i 23 dolara za 2600. Intel još uvijek ne želi previše plašiti overklokere. Međutim, sada je 216 dolara prag za ulazak u klub. Overclocking je zabavan i morate ga platiti. Jasno je da bi takva pozicija neke korisnike mogla odvući u AMD tabor, gdje su proračunski procesori jako dobro overclockani.

Sam overclocking općenito je postao lakši - smanjeni su zahtjevi za matičnu ploču i RAM, manje je gnjavaža s vremenskim rasporedima i raznim koeficijentima. No, ekstremni entuzijasti imaju se gdje okrenuti - o prilagodbi BCLK-a vjerojatno će biti napisane cijele rasprave.

Grafička jezgra i brza sinkronizacija

Intel je najavom Clarkdalea i Arrandalea počeo poboljšavati performanse svoje integrirane grafičke jezgre, ali ovaj put nije uspio prestići konkurente. Dalje, letvicu je postavio AMD, koji će uskoro uništiti tržište diskretne grafike ulazne razine. Intelovo rješenje pojavilo se ranije, ali može li se nositi sa zadatkom?

Počnimo s činjenicom da postoje dva rješenja. Zovu se HD 2000 i HD 3000, a razlika između njih leži u različitom broju izvršnih jedinica (EU). U prvom slučaju ih je 6, a u drugom - 12. 12 ih je također bilo u GMA HD-u, no povećanje produktivnosti zbog integracije i redizajnirane arhitekture pokazalo se vrlo značajnim. U liniji Intelovih stolnih procesora samo je nekoliko procesora s otključanim množiteljem nagrađeno naprednom grafikom. Ovo su modeli u kojima je najmanje vjerojatno da će se koristiti ugrađena grafika. Ova nam se odluka čini vrlo čudnom. Nadamo se da će u budućnosti Intel također objaviti modifikacije nižih procesora s potpuno otključanom grafičkom jezgrom.

Nasreću, svi novi mobilni procesori tvrtke opremljeni su HD 3000. Intel je odlučan u namjeri da se snažno suprotstavi konkurentima u ovom segmentu kako bi mu olakšao postizanje početnih razina performansi.

Izvedba integrirane grafike ne ovisi samo o broju EU-a. Svi desktop Sandy imaju istu osnovnu frekvenciju (850 MHz), ali stariji (2600 i 2600K) imaju višu maksimalnu Turbo Boost frekvenciju - 1350 MHz naspram 1100 za ostale. Na rezultat će također u određenoj mjeri utjecati snaga računalnih jezgri CPU-a, ali mnogo više od količine njegove cache memorije. Uostalom, jedna od glavnih značajki nova grafika je zajednička upotreba L3 predmemorije s računskim jezgrama, implementirana zahvaljujući LLC prstenastoj sabirnici.

Kao iu Clarkdale procesorima, novi proizvodi koriste hardversko ubrzanje za dekodiranje MPEG, VC-1 i AVC. Međutim, ovaj se proces sada odvija mnogo brže. kao u "odraslim" diskretna grafika, Sandy Bridge procesori imaju zasebnu jedinicu za video kodiranje / dekodiranje. Za razliku od procesora prethodne generacije, ovaj zadatak preuzima u potpunosti. Korištenje hardverskog ubrzanja puno je korisnije u smislu energetske učinkovitosti, a performanse u slučaju SNB-a su vrlo visoke. Intel obećava mogućnost dekodiranja više od dva 1080p streama u isto vrijeme. Takva izvedba može biti potrebna za brzo transkodiranje postojećeg videa u format prikladan za mobilni uređaj. Plus bogati multimedijske mogućnostičine SNB najboljim izborom pri izgradnji HTPC sustava.

Grafička rješenja za Intelove procesore razvija poseban odjel tvrtke. Novi razvoj ovog odjela također je vrlo relevantan za mobilne procesore tvrtke. Dok projekt Larrabee u ovom ili onom obliku ne dobije odgovarajući razvoj, Intel će morati podnijeti "ne-x86" komponente u svojim CPU-ima.

Intel Core i5-2400 i Core i5-2500K

Dobili smo 2 procesora bazirana na Sandy Bridge arhitekturi. Prije svega, interesantan je model 2500K, budući da ima otključan množitelj. U budućnosti je moguće da će benchmarkovi dvojezgrenih modela i procesora serije i7 biti objavljeni zasebno.

Je li superiornost prvog Core i (Nehalem i, 2009., Westmere) nad suparničkim CPU finalom? Situacija je pomalo kao u prvoj godini nakon izlaska Pentiuma II: počivajući na lovorikama i rekordnom zaradom, bilo bi dobro nastaviti uspješnu arhitekturu bez puno mijenjanja imena, dodajući nove, čija će upotreba značajno poboljšati performanse, ne zaboravljajući na druge inovacije koje ubrzavaju današnje verzije programa. Istina, za razliku od situacije od prije 10 godina, treba obratiti pažnju i na sada modernu temu energetske učinkovitosti, poigranu dvosmislenim pridjevom Cool - "kul" i "hladno" - i ništa manje pomodnom željom za ugradnjom u procesor sve što još postoji kao odvojeno. Ovo je umak pod kojim se servira novitet.

"Prekjučer", "jučer" i "danas" Intelovih procesora.


Prednja strana transportera. Boje pokazuju različiti tipovi informacija i blokova za obradu ili pohranjivanje.

Predviđanje

Krenimo s Intelovom najavom potpuno prerađenog (BPU). Kao u Nehalemu, svaki ciklus takta (i prije stvarnog izvršenja) predviđa adresu sljedećeg 32-bajtnog dijela koda, ovisno o očekivanom ponašanju instrukcija za skok u upravo predviđenom dijelu - i, očito, bez obzira na broj i vrste prijelaza. Točnije, ako postoji navodno aktiviran prijelaz u trenutnom dijelu, izdaje se vlastita i ciljna adresa, u suprotnom - prijelaz na sljedeći dio u nizu. Sama predviđanja postala su još točnija zbog udvostručavanja (BTB), produljenja (GBHR) i optimizacije pristupne hash funkcije (BHT). Istina, stvarni testovi su pokazali da je u nekim slučajevima učinkovitost predviđanja još uvijek nešto lošija nego u Nehalemu. Možda povećanje performansi sa smanjenjem potrošnje nije kompatibilno s dobrim predviđanjem grana? Pokušajmo to shvatiti.

U Nehalemu (kao i u drugim modernim arhitekturama) BTB je prisutan u obliku hijerarhije na dvije razine - mali - "brzi" L1 i veliki - "spori" L2. To se događa iz istog razloga zašto postoji nekoliko razina: rješenje na jednoj razini će se pokazati previše kompromisnim u svim parametrima (veličina, brzina odziva, potrošnja itd.). No, u SB-u arhitekti su odlučili staviti jednu razinu, a veličina je duplo veća od L2 BTB-a iz Nehalema, odnosno vjerojatno najmanje 4096 ćelija - toliko ih je u Atomu. (Valja napomenuti da veličina najčešće izvršavanog koda polako raste i sve manje staje u predmemoriju čija je veličina ista za sve Intelove procesore iz prvog Pentiuma M.) U teoriji, to će se povećati područje koje zauzima BTB, budući da se ukupna površina neće mijenjati ne preporučuje se (ovo je jedan od početnih načela arhitekture) - morate uzeti nešto iz neke druge strukture. Ali postoji i brzina. S obzirom na to da bi SB trebao biti dizajniran za nešto veću brzinu s istom tehnologijom procesa, možete očekivati ​​da će ova velika konstrukcija biti usko grlo cijelog transportera - osim ako ga ne provučete cijevi (dva su već dovoljna). Istina, ukupan broj tranzistora koji rade po ciklusu u BTB-u će se udvostručiti, što uopće ne doprinosi uštedi energije. Opet slijepa ulica? Intel na to odgovara da novi BTB pohranjuje adrese u određenom komprimiranom stanju, što vam omogućuje da imate dvostruko više ćelija s istom površinom i potrošnjom. Ali to još nije moguće provjeriti.

Gledamo s druge strane. SB nije dobio nove algoritme za predviđanje, već optimizirane stare: općenite, za neizravne grane, petlje i povratne tragove. Nehalem ima 18-bitni GBHR i BHT nepoznate veličine. Međutim, možete jamčiti da je broj ćelija u tablici manji od 2 18, inače bi zauzela većinu kernela. Stoga postoji posebna hash funkcija koja savija 18 bitova povijesti svih prijelaza i bitova adrese instrukcija u kraći indeks. Štoviše, najvjerojatnije postoje najmanje dva hasha - za sve GBHR bitove i za one koji odražavaju pokretanje najtežih prijelaza. A sada učinkovitost kaotične raspodjele indeksa različitih obrazaca ponašanja prema broju BHT stanica određuje uspjeh općeg prediktora. Iako to nije eksplicitno navedeno, Intel je svakako poboljšao hasheve, što je omogućilo korištenje dužih GBHR-ova s ​​ništa manje učinkovitosti popunjavanja. Ali još uvijek možete nagađati o veličini BHT-a - kao io tome kako se potrošnja energije prediktora zapravo promijenila u cjelini... Što se tiče (RSB), on je još uvijek sa 16 adresa, ali je uvedeno novo ograničenje na sami poziva - ne više četiri puta 16 bajtova koda.

Dok nismo otišli dalje, recimo o malom raskoraku između deklarirane teorije i promatrane prakse - a pokazalo se da je prediktor ciklusa u SB uklonjen, uslijed čega je predviđanje konačnog prijelaza na početak ciklusa napravljen općim algoritmom, tj. gore. Glasnogovornik Intela uvjeravao nas je da ništa ne bi trebalo biti "gore", međutim...

Dekodiranje i IDQ

Adrese izvršnih naredbi koje su unaprijed predviđene (naizmjenično za svaku nit - s omogućenom tehnologijom) izdaju se kako bi se provjerila njihova prisutnost u predmemoriji instrukcija (L1I) i (L0m), no o potonjem ćemo prešutjeti - opisat ćemo ostatak ruba za sada. Začudo, Intel je zadržao veličinu dijela instrukcija pročitanog iz L1I na 16 bajtova (ovdje se riječ "dio" razumije prema našem). Do sada je to bila prepreka kodu čija je prosječna veličina instrukcije prelazila 4 bajta, pa stoga 4 instrukcije koje su poželjne za izvršenje po ciklusu više neće stati u 16 bajtova. AMD je riješio ovaj problem u arhitekturi K10 proširivši dio instrukcija na 32 bajta - iako njegovi CPU-i do sada nemaju više od 3 cjevovoda. U SB-u, nejednakost veličina dovodi do nuspojave: prediktor izdaje sljedeću adresu bloka od 32 bajta, a ako se (vjerojatno) aktivirani prijelaz pronađe u njegovoj prvoj polovici, tada nije potrebno čitati i dekodirati drugi - međutim, bit će učinjeno.

Od L1I, dio ide u preddekoder, a odatle - na samu duljinu (), koja obrađuje do 7 ili 6 naredbi/ciklus (sa i bez; Nehalem može imati najviše 6), ovisno o njihovoj ukupna duljina i složenost. Odmah nakon prijelaza počinje obrada naredbom na ciljnoj adresi, inače - od bajta pred kojim se preddekoder zaustavio jedan sat ranije. Isto tako sa završnom točkom: ili je ovo (vjerojatno) pokrenuti prijelaz, čija je adresa zadnjeg bajta došla iz BTB-a, ili zadnji bajt samog dijela - osim ako se ne dosegne granica od 7 instrukcija / sat, ili nailazi na "nezgodna" naredba. Najvjerojatnije, međuspremnik mjerača duljine ima samo 2-4 dijela, ali mjerač duljine može primiti bilo kojih 16 uzastopno bajt. Na primjer, ako se na početku dijela prepozna 7 dvobajtnih instrukcija, tada u sljedećem ciklusu možete obraditi još 16 bajtova, počevši od 15.

Mjerač duljine, između ostalog, bavi se detekcijom parova makro spojenih naredbi. O samim parovima ćemo govoriti nešto kasnije, ali za sada imajte na umu da se, kao u Nehalemu, svaki sat ne može detektirati više od jednog takvog para, iako se najviše njih može označiti s 3 (i još jedan pojedinačni). naredba). Međutim, mjerenje duljina instrukcija je djelomično sekvencijalan proces, tako da ne bi bilo moguće odrediti nekoliko makro-spojenih parova tijekom ciklusa.

Označene naredbe spadaju u jednu od dvije naredbe (IQ: red instrukcija) - jednu po niti, po 20 naredbi (što je 2 više od Nehalemove). naizmjenično čita naredbe iz redova čekanja i prenosi ih na mops. Ima 3 jednostavna (prevedi 1 naredbu u 1 mop, a s makro-spajanjem - 2 naredbe u 1 mop), složeni prevoditelj (1 naredba u 1–4 mop ili 2 naredbe u 1 mop) i mikrosekvencer za najsloženije naredbe koje zahtijevaju 5 i više brisanja. Štoviše, pohranjuje samo "repove" svake sekvence, počevši od 5. mopa, jer prva 4 proizvodi složeni prevoditelj. Štoviše, ako broj mopa u mikroprogramu nije djeljiv s 4, tada će njihova posljednja četiri biti nepotpuna, ali neće raditi ubaciti još 1-3 mopa od prevoditelja u istom ciklusu. Rezultat dekodiranja dolazi i izlazi dva (jedan po streamu). Potonji (službeno nazvan IDQ - red za dekodiranje instrukcija) još uvijek ima 28 uop-ova i mogućnost blokiranja petlje ako njezin izvršni dio stane tamo.

Sve je to (osim spremišta za brisanje) već bilo u Nehalemu. Koje su razlike? Prije svega, očito je da je dekoder naučen rukovati novim naredbama podskupa. Podrška za sveznamenkaste SSE skupove više ne iznenađuje, a Westmereu (32nm verzija Nehalema) dodano je ubrzanje naredbi (uključujući PCLMULQDQ). Postavili smo zamku: ova funkcija ne radi za naredbe koje imaju i konstantno i RIP-relativno adresiranje (RIP-relativno, adresa je relativna u odnosu na pokazivač naredbe - uobičajeni način pristup podacima u 64-bitnom kodu). Takve naredbe zahtijevaju 2 mopa (odvojeno punjenje i rad), što znači da će ih dekoder obraditi najviše jedan po ciklusu, koristeći samo složeni prevoditelj. Intel tvrdi da se te žrtve poduzimaju radi uštede energije, ali nije jasno na čemu: dvostruko postavljanje, izvođenje i brisanje očito će zauzeti više resursa, što znači da će trošiti energiju od jednog.

Makro-spajanje je optimizirano - prije se samo aritmetička ili logička usporedba (CMP ili TEST) mogla koristiti kao prva naredba za spajanje, sada jednostavne aritmetičke upute za zbrajanje i oduzimanje (ADD, SUB, INC, DEC) i logičke " AND" (AND) su dopušteni, kao i zamjena za prijelaz (druga momčad para). To omogućuje smanjenje zadnje 2 naredbe na 1 mop u gotovo svakom ciklusu. Naravno, ograničenja na spojene naredbe ostaju, ali nisu kritična, budući da se navedene situacije za par naredbi gotovo uvijek izvršavaju:

  • prva od prve naredbe mora biti registar;
  • ako je drugi operand prve naredbe u memoriji, RIP-relativno adresiranje je nevažeće;
  • druga naredba ne može biti na početnoj ili poprečnoj granici linije.

Pravila za sam prijelaz su sljedeća:

  • samo TEST i AND su kompatibilni s bilo kojim stanjem;
  • usporedbe s (ne)jednakim i sve potpisane su kompatibilne s bilo kojom dopuštenom prvom naredbom;
  • usporedbe za (ne)hifenaciju i bilo koje nepotpisane usporedbe nisu kompatibilne s INC i DEC;
  • ostale usporedbe (znak, preljev, parnost i njihove negativne vrijednosti) vrijede samo za TEST i AND.

Glavna promjena u redovima za brisanje su spojeni mopovi tipa, u kojem pristup memoriji zahtijeva čitanje indeksnog registra, (i još nekoliko rijetkih tipova) podijeljeni su u parove prilikom pisanja u IDQ. Čak i ako postoje 4 takva mopa, tada će svih 8 ukupno biti zabilježeno u IDQ-u. To je učinjeno jer se u redovima za brisanje (IDQ), dispečeru (ROB) i rezervaciji sada koristi skraćeni format mop bez 6-bitnog indeksnog polja (naravno, radi uštede pri premještanju krpa). Pretpostavlja se da će takvi slučajevi biti rijetki, te stoga neće bitno utjecati na brzinu.

U nastavku ćemo vam ispričati povijest načina blokiranja petlje ovog međuspremnika, ali ovdje ćemo istaknuti samo jednu sitnicu: prijelaz na početak petlje prethodno je trajao 1 dodatni ciklus, formirajući "mjehur" između očitanja kraj i početak petlje, ali sada ne postoji. Ipak, četiri mopa očitana po ciklusu ne mogu sadržavati posljednju iz tekuće iteracije i prvu iz sljedeće, stoga bi u idealnom slučaju broj mopa u petlji trebao biti potpuno djeljiv s 4. Ali kriteriji za blokiranje imaju jedva promijenjeno:

  • loop mops ne smiju biti generirani od najviše 8 32-bajtnih dijelova izvornog koda;
  • ovi dijelovi moraju biti keširani u L0m (u Nehalemu, naravno, u L1I);
  • dopušteno je do 8 bezuvjetnih skokova, za koje se predviđa da će se pokrenuti (uključujući i posljednji);
  • pozivi i povrati nisu dopušteni;
  • neupareni pozivi na stog su neprihvatljivi (najčešće s nejednakim brojem PUSH i POP naredbi) - više o tome u nastavku.

Stack motor

Postoji još jedan mehanizam, čiji rad nismo razmatrali u prethodnim člancima - praćenje pokazivača na stog koji se nalazi ispred IDQ-a. Pojavio se u Pentiumu M i još uvijek se nije promijenio. Njegova je suština da se modifikacija pokazivača steka (ESP / RSP registar za 32/64-bitni način rada) s naredbama za rad s njim (PUSH, POP, CALL i RET) vrši u zasebnom zbrajaču, a rezultat se pohranjuje u poseban registar i vraćen u MOP kao konstantan - umjesto da se mijenja pokazivač u nakon svake naredbe, prema potrebi i kao što je bio u Intelovom CPU-u prije Pentiuma M.

To se događa sve dok neka naredba ne pristupi pokazivaču izravno (iu nekim drugim rijetkim slučajevima) - mehanizam steka uspoređuje pokazivač sjene s nulom i, ako je vrijednost različita od nule, umeće sinkronizaciju uop u tok mopova prije naredbe koja poziva pokazivač , upisujući u pokazivač stvarnu vrijednost iz posebnog registra (a sam registar se resetuje). Budući da je to rijetko potrebno, većina poziva na stog koji samo implicitno modificiraju pokazivač koristi njegovu kopiju u sjeni, koja se mijenja istovremeno s drugim operacijama. To jest, s gledišta blokova cjevovoda, takve su upute kodirane jednim spojenim mopom i ne razlikuju se od običnih pristupa memoriji, bez potrebe za obradom u ALU-u.

Pažljivi čitatelj (dobar dan!) primijetit će vezu: kada petlja u redu čekanja za brisanje, neupareni pozivi u stog su neprihvatljivi upravo zato što je mehanizam za stack u pripremi. prije IDQ - ako se nakon sljedeće iteracije vrijednost pokazivača sjene pokaže da nije nula, morat ćete umetnuti sinkromop u novi, ali to je nemoguće u cikličkom načinu rada (mops se čitaju samo iz IDQ-a). Štoviše, motor stack-a je potpuno isključen radi uštede energije, kao i svi ostali dijelovi prednje strane.

Tajni život nop

Još jedna promjena utjecala je na mjerač dužine, ali ovaj slučaj se donekle ističe. Prvo, sjetimo se što su i zašto su potrebni. Nekada davno u arhitekturi x86, nop je bio samo 1-bajt. Kada je bilo potrebno pomaknuti kod za više od 1 bajta ili zamijeniti naredbe dulje od 1 bajta, ali su ga samo umetnuli nekoliko puta. No, unatoč činjenici da ova naredba ne radi ništa, vrijeme se i dalje troši na njeno dekodiranje, i to proporcionalno broju nopsa. Kako bi spriječili propadanje izvođenja "pokrpanog" programa, gumb se može produljiti. Međutim, u CPU-u 90-ih, stopa dekodiranja instrukcija s brojem prefiksa iznad određene vrijednosti (koja je mnogo manja od najveće dopuštene duljine x86 instrukcije od 15 bajtova) naglo je pala. Osim toga, posebno za nopa, prefiks se u pravilu koristi jedne vrste, ali se ponavlja mnogo puta, što je dopušteno samo kao nepoželjna iznimka, što komplicira mjerač duljine.

Za rješavanje ovih problema počevši od Pentium Pro i Athlon procesori razumjeti "long nop" s bajtom modR / M kako biste "službeno" produljili naredbu koristeći registre i pomak adrese. Naravno, nema operacija s memorijom i registrima, ali pri određivanju duljine koriste se blokovi mjerača iste dužine kao i za obične višebajtne instrukcije. Korištenje dugih čvorova službeno preporučaju i Intel i AMD vodiči za optimizaciju softvera niske razine. Inače, SB preddekoder je prepolovio (sa 6 na 3 sata) kaznu za prefikse 66 i 67, koji mijenjaju duljinu konstante i pomaka adrese - ali, kao u Nehalemu, kazna se ne izriče na naredbe gdje ti prefiksi zapravo ne mijenjaju duljinu (na primjer, ako se prefiks 66 primjenjuje na naredbu bez neposrednog operanda) ili su dio popisa prekidača (koji se često koristi u vektorskom kodu).

Maksimalna duljina dobro oblikovanog dugog nop-a ne prelazi 9 bajtova za Intel i 11 za AMD. Stoga, za poravnanje za 16 ili 32 bajta, još uvijek može postojati nekoliko nop-ova. Međutim, budući da je ova naredba jednostavna, njeno dekodiranje i "izvršenje" ni na koji način neće zauzeti resurse. više obrade najjednostavnije operativne naredbe. Stoga se dugi niz godina provodi testiranje s dugim čvorovima standardna metoda određivanje parametara prednjeg dijela transportera, posebno mjerača dužine i dekodera. I ovdje je Sandy Bridge donio vrlo čudno iznenađenje: testiranje performansi običnih programa nije otkrilo nikakva kašnjenja ili usporavanja, ali je sintetička provjera parametara dekodera na dužnosti neočekivano pokazala da je njegova izvedba jednaka jednoj naredbi po taktu! Istodobno, Intel nije dao nikakve službene najave o tako radikalnim promjenama u dekoderu.

Procedura mjerenja je odlično funkcionirala na Nehalemu i pokazala je ispravan 4. Možete kriviti novi i “previše” aktivan Turbo Boost 2.0 koji kvari izmjerene taktove, no za testove je onemogućen. Također je isključeno pregrijavanje s usporavanjem učestalosti prigušivanja. A kada je, konačno, razlog otkriven, postalo je još čudnije: ispada da duge nops na SB obrađuje samo prvi jednostavni prevoditelj, iako 1-bajtne nops s bilo kojim brojem prefiksa i sličnih naredbi "neaktivnošću" ( na primjer, kopiranje registra u sebe) lako se prihvaćaju sva četiri. Zašto je to učinjeno nije jasno, ali postoji barem jedan nedostatak ovoga tehničko rješenje već se jasno pokazao: našem istraživačkom timu trebalo je deset dana da otkrije razloge tajanstvene sporosti dekodera... U znak odmazde tražimo od bijesnih obožavatelja Opposite Campa da smisle neku teoriju zavjere o podmuklim planovima izvjesne tvrtke I. zbuniti naivne hrabre istraživače procesora. :)

Inače, kako se pokazalo, prevoditelj broj 1 već je bio "ravnopravniji" među ostalima. U Nehalemu su naredbe cikličkog pomicanja (ROL i ROR) s eksplicitnim konstantnim operandom također dekodirane samo u prvom translatoru, au istom ciklusu isključen je i četvrti, tako da je IPC vrijednost pala na 3. Čini se - zašto ovdje navoditi tako rijedak primjer? No, upravo zbog ovog trika, kako bi se postigla maksimalna brzina na algoritmima za raspršivanje poput SHA-1, bili su potrebni vrlo precizni rasporedi naredbi, s kojima se prevoditelji nisu mogli nositi. U SB-u, međutim, takve su naredbe jednostavno postale 2-Mops, tako da se, zauzimajući složeni prevoditelj (koji je već jedan), ponašaju gotovo nerazlučivo za CPU, ali predvidljivije za osobu i prevoditelja. S čvorovima se dogodilo suprotno. Krpe za gotovinu

Ciljevi i prethodnici

Namjerno smo odvojili ovo poglavlje od ostatka opisa prednje strane - dodavanje predmemorije mop jasno pokazuje koji je put Intel odabrao za sve svoje procesore, počevši od Core 2. U potonjem, prvi put (za Intel ), dodan je blok koji je istovremeno postigao dva, čini se suprotstavljena cilja: povećanje brzine i uštedu energije. Riječ je o redu naredbi (IQ) između preddekodera i dekodera, koji zatim pohranjuje do 18 naredbi do 64 bajta ukupno. Kad bi samo izgladio razliku u brzinama pripreme i dekodiranja naredbi (poput normalnog međuspremnika), bilo bi malo koristi. No Intel se dosjetio pričvrstiti mali LSD blok na IQ (malo je vjerojatno da su dečki nešto "prihvatili", jednostavno imaju takav humor) - Loop Stream Detector, "detektor cikličkog protoka". Kada se otkrije petlja koja se uklapa u 18 instrukcija, LSD onemogućuje sve prethodne faze (prediktor, L1I predmemorija i preddekoder) i stavlja u red instrukcije petlje u dekoder dok se ne dovrši ili dok se prijelaz ne izvrši izvan njegovih granica (poziva a povrat nije prihvatljiv). Tako se štedi energija onemogućavanjem privremeno neaktivnih blokova, a performanse se povećavaju zbog zajamčenog protoka od 4 instrukcije/sat za dekoder, čak i ako su bili "isporučeni" s najnezgodnijim prefiksima.

Intelu se ova ideja očito svidjela, pa je za Nehalem krug optimiziran: IQ je dupliciran (za dva toka), a dva IDQ reda stavljena su između dekodera i dispečera (to jest, točno na granici prednje i stražnje strane), svaki sa 28 mps, a LSD blok je premješten na njih. Sada, kada je petlja blokirana, dekoder se također isključuje, a performanse su povećane, uključujući i zbog zajamčenog priljeva ne 4 naredbe, već 4 mopsa po ciklusu, čak i ako su generirane s minimumom (za Core 2 / i) tempo od 2 brisanja / ciklus. Bijesni obožavatelji Opposite Campa, na sekundu skrećući pogled sa svoje omiljene aktivnosti, odmah će ubaciti ukosnicu: ako je LSD tako dobra stvar, zašto nije ugrađen u Atom? I ukosnica je poštena - imajući u redu čekanje od 32 megapiksela nakon dekodera, Atom ne zna blokirati petlju u njemu, što bi bilo vrlo korisno za uštedu dragocjenih milivata. Ipak, Intel nije namjeravao odustati od ideje i pripremio je ažuriranje za nove CPU, i to kakvo ažuriranje!

Službeni interni naziv za međuspremnik toka dekodiranja je DSB (međuspremnik toka dekodiranja), iako nije tako točan kao preporučeni termin dekodirana predmemorija instrukcija (DIC). Čudno, ne zamjenjuje, već nadopunjuje IDQ redove, koji su sada povezani s dekoderom ili s cache mops. Prilikom sljedećeg predviđanja grananja, ciljna adresa se istovremeno provjerava u predmemoriji instrukcija i brisanja. Ako se potonji pokrene, onda se dalje očita od njega, a ostatak ruba isključuje. Zbog toga je predmemorija mop cache nulte razine, tj. L0m.

Zanimljivo je da se ova ideja može nastaviti pozivanjem predmemorije IDQ razine “minus 1”. :) Ali nije li tako složena hijerarhija u okvirima čak cijele jezgre, nego samo jedne fronte, pretjerana? Čak i ako Intel, kao iznimka, nije poštedio područje, hoće li IDQ par donijeti značajne dodatne uštede, s obzirom na to da je tijekom njihovog rada sada isključena samo predmemorija mopova, budući da je ostatak prednje strane (osim prediktora) već spava? A također nećete dobiti posebno povećanje brzine, budući da je predmemorija mopsa također konfigurirana za generiranje 4 mopsa / ciklus. Očito su Intelovi inženjeri odlučili da igra na 3 razine vrijedi milivatnih svijeća.

Osim uštede, predmemorija mopa ubrzava performanse, uključujući smanjenje kazne za lažno predviđanje prijelaza: u Nehalemu, kada je ispravan kod pronađen u L1I, kazna je bila 17 ciklusa takta, u SB - 19, ali ako kod je pronađen u L0m, tada samo 14. Štoviše, ovo su maksimalni brojevi: u slučaju lažno predviđenog prijelaza, planer i dalje treba započeti i završiti prethodne mopse programskim redoslijedom, a za to vrijeme L0m može imati vremena za napumpati ispravne mopove tako da ih planer ima vremena pokrenuti odmah nakon što se naredbe povuku prije prijelaza. U Nehalemu je ova tehnika radila s IDQ-om i prednjom stranom, ali u prvom slučaju je vjerojatnost da će ispravna ciljna adresa također biti unutar ciklusa od 28 Mop vrlo mala, au drugom slučaju sporost fronta u većina slučajeva nije dopuštala smanjenje latencije na nulu. Veću šansu ima SB.

Uređaj

Topološki, L0m se sastoji od 32 puta 8 redaka (8-). Svaki redak sadrži 6 mopova (u cijeloj predmemoriji - 1536, odnosno "jedan i pol kilo-megapiksela"), a predmemorija može pisati i čitati jedan redak po ciklusu. Prediktor daje adrese blokova od 32 bajta, a ta veličina radi za L0m, stoga ispod pojma "komad" mislimo na poravnat i predviđen kao izvršavajući blok koda od 32 bajta (a ne 16-bajtni, što se tiče dekodera). Prilikom dekodiranja, L0m kontroler čeka da se dio obradi do kraja ili do prvog prijelaza koji se u njemu aktivira (naravno, vjerojatno - u nastavku pretpostavljamo da su predviđanja uvijek točna), skupljajući mopove istovremeno s njihovim slanjem na straga. Zatim fiksira ulazne i izlazne točke dijela, u skladu s ponašanjem prijelaza. Obično je ulazna točka ciljna adresa prijelaza koji je pokrenut u prethodnom dijelu (točnije, nižih 5 bitova adrese), a izlazna točka je vlastita adresa aktiviranog prijelaza u ovom dijelu. U ekstremnom slučaju, ako ni prethodni ni trenutni dijelovi nisu pokrenuli jedan prijelaz (to jest, dijelovi se ne samo izvršavaju, već se i pohranjuju u nizu), tada će se oba izvršiti u cijelosti - ulazak u njih bit će uključen nulti mop i prvi bajt prve potpuno uklapaju u ovaj dio naredbe, a izlaz je na zadnjem mop-u zadnje potpuno uklopljene naredbe i njezinom početnom bajtu.

Ako u jednom dijelu ima više od 18 mopova, on se ne sprema u predmemoriju. Ovo postavlja minimalnu prosječnu (unutar dijela) veličinu naredbe na 1,8 bajtova, što neće biti ozbiljno ograničenje u većini programa. Možete se prisjetiti druge točke IDQ ograničenja - ako ciklus stane u dio, ali traje od 19 do 28 mopsa, ni L0m predmemorija ni IDQ red neće to popraviti, iako bi stao svugdje po veličini. Međutim, u ovom slučaju prosječna duljina naredbi trebala bi biti 1,1–1,7 bajtova, što je krajnje malo vjerojatno za dva desetaka timova za redom.

Najvjerojatnije se dijelovi mopova istovremeno upisuju u predmemoriju, koji zauzimaju 1-3 retka jednog skupa, tako da je za L0m jedno od glavnih načela set-asocijativnog cachea narušeno: kada se obično aktivira jedan redak skupa. Upravo tamo, oznake do tri retka mogu primiti adresu istog dijela, razlikuju se samo po rednim brojevima. Kada predviđena adresa uđe u L0m, očitavanje se nastavlja na isti način - aktiviraju se 1, 2 ili 3 puta traženog skupa. Istina, takva shema je prepuna nedostataka.

Ako izvršni program u svim dijelovima se dekodira u 13-18 mopova, koji će za sve dijelove uzeti 3 retka L0m, naći će se sljedeće: ako trenutni skup je već zauzeta s dva dijela od 3 retka, a treći mu pokušava pisati (što neće biti dovoljno za jedan redak), morat ćete pomaknuti jedan od starih, a uzimajući u obzir njegovu koherentnost - sva 3 stari. Dakle, više od dva dijela koda "small-command" u skupu ne bi trebalo stati. Prilikom testiranja ove pretpostavke u praksi, pokazalo se sljedeće: dijelovi s velikim timovima koji zahtijevaju manje od 7 mopsa bili su pakirani u L0m broj od 255 (iz nekog razloga nije išlo uzeti još jedan), uklapajući gotovo 8 KB koda . Srednji dijelovi (7-12 mopsa) zauzeli su svih 128 mogućih pozicija (svaka po 2 reda), keširajući točno 4 KB. Pa, male naredbe staju u 66 dijelova, što je dva više od očekivane vrijednosti (2112 bajtova naspram 2048), što je očito posljedica graničnih učinaka našeg testnog koda. Nedostatak je očit – kada bi se 256 linija od 6 megapiksela popunilo u potpunosti, bilo bi dovoljno za 85 punih tripleta ukupne veličine koda od 2720 bajtova.

Možda Intel ne očekuje da će neki kod sadržavati toliko kratkih i jednostavnih naredbi da će više od 2/3 toga pasti na komade od 3 reda, koji će jedni druge izbaciti iz L0m ranije nego što je potrebno. Pa čak i ako se takav kod pronađe - s obzirom na jednostavnost njegovog dekodiranja, ostatak prednjih blokova lako će se nositi sa zadatkom opskrbe 4 mopsa / ciklus potrebnih za stražnji dio (iako bez obećane uštede vata i kaznenih ciklusa u slučaj lažnog predviđanja). Zanimljivo je da da imamo L0m 6 staza, problem ne bi nastao. Intel je odlučio da je veličina predmemorije za jednu trećinu veća upravo zbog asocijativnosti važnija ...

Dimenzije (uredi)

Podsjetimo da ideja keširanja velikog broja uop-ova umjesto x86 naredbi nije nova. Prvi put se pojavio u Pentiumu 4 kao predmemorija tragova mopa - sekvenci mopova nakon odmotavanja petlji. Štoviše, predmemorija praćenja nije dopunila, već je zamijenila nedostajući L1I - naredbe za dekoder su odmah pročitane. Unatoč zaboravu NetBurst arhitekture, razumno je pretpostaviti da su Intelovi inženjeri koristili prošlo iskustvo, iako bez odmotavanja petlji i namjenskog prediktora za predmemoriju. Usporedimo stara i nova rješenja (novi CPU-ovi su ovdje nazvani Core i 2, jer brojevi gotovo svih modela sa SB arhitekturom počinju s dvojkom):

* - vjerojatno

Ovdje je potrebno objašnjenje. Prvo, propusnost za L0m temelji se na ukupnom ograničenju širine transportera od 4 mopa. Gore smo pretpostavili da L0m može čitati i pisati 18 mopsa po satu. Međutim, prilikom čitanja, svih 18 (ako ih ima točno toliko pri dekodiranju izvornog dijela) ne može se poslati po taktu, a slanje se događa u nekoliko ciklusa takta.

Nadalje, veličina mopa u bitovima općenito se odnosi na vrlo delikatne informacije koje proizvođači ili uopće ne daju, ili samo kada se pričvrste na zid (kažu, sve ste već shvatili, neka bude - potvrdit ćemo) . Za Intelove procesore posljednja poznata brojka je 118 bita za Pentium Pro. Jasno je da se veličina od tada povećala, ali tu počinje nagađanje. 118 bita za 32-bitni x86-CPU može se dobiti ako mop ima polja za adresu instrukcije koja ga je generirala (32 bita), neposredni operand (32 bita), pomak adrese (32 bita), operande registra ( 3 x 3 bita + 2 bita po skali za indeksni registar) i opcode (11 bita, u kojem je kodirana određena verzija naredbe x86, uzimajući u obzir prefikse). Nakon zbrajanja i SSE2, polje opcodea se vjerojatno povećalo za 1 bit, odakle se dobiva broj 119.

Nakon prelaska na (Prescott i dalje), u teoriji, sva 32-bitna polja trebala bi se povećati na 64-bitna. Ali ovdje postoje suptilnosti: 64-bitne konstante u x86-64 dopuštene su samo jedna po jedna (to jest, obje konstante u naredbi definitivno neće zauzimati više od 8 bajtova), a i tada i sada košta 48 bita. Dakle, za povećanje veličine mopa potrebno je samo 16 bitova adrese i 3 dodatna bita registarskih brojeva (od kojih je 16) - dobivamo (otprilike) 138 bita. Pa, u SB-u je mop, očito, narastao za još 1 bit zbog dodavanja sljedećih nekoliko stotina naredbi od posljednjeg P4, a za još 8 zbog povećanja maksimalan broj eksplicitno specificirani registri u naredbi do 5 (kada se koristi AVX). Potonje je, međutim, upitno: od dana, zamislite, čak ni i386 nije dodan arhitekturi x86 novi naredba koja zahtijeva najmanje 4 bajta konstante (s jedinom nedavnom i iznimno suptilnom iznimkom u SSE4.a od AMD-a za koju čak ni većina programera ne zna). Budući da su Intel AVX i AMD ažurirali kodiranje samo vektorskih instrukcija, bitovi dodatnih brojeva registra stat će u gornju polovicu djelomično neiskorištenog (za ove upute) 32-bitnog polja neposrednog operanda. Štoviše, u samoj naredbi x86, 4. ili 5. registar je kodiran sa samo četiri konstantna bita.

Očito, za pohranu i slanje takvih "čudovišta" u bilo kojem veliki broj- vrlo skupo. Stoga je čak i za P4 Intel smislio skraćenu verziju mopa, u kojoj postoji samo jedno polje za obje konstante, a ako tu ne stanu, bitovi koji nedostaju stavljaju se u isto polje susjednog mopa. . Međutim, ako već tamo pohranjuje svoje konstante, tada je kao susjeda potrebno umetnuti np kao donorski nosač dodatnih bitova. Kontinuitet ove sheme također se promatra u SB: dodatni nops se ne umeću, ali naredbe s konstantama od 8 bajtova (ili sa zbrojem veličina konstante i pomaka adrese od 5-8 bajtova) imaju dvostruku veličinu u L0m. Međutim, s obzirom na duljinu takvih naredbi, više od 4 od njih neće stati u jedan dio, tako da je ograničenje zauzetih krpa očito nekritično. Ipak, konstatujemo: SB, za razliku od prethodnih CPU-a, ima čak 3 mop formata - dekodirani (najpotpuniji), pohranjen u predmemoriju mop (sa smanjenim konstantama) i glavni (bez polja indeksnog registra), koji je koristi se dalje u pripremi. Većina krpa, međutim, prolazi netaknuta od dekodiranja do umirovljenja.

Ograničenja

"Pravila za korištenje predmemorije" na posebnom formatu mopa tu ne završava. Očito, takav prikladan blok kao što je L0m ne bi mogao biti potpuno bez ograničenja ovog ili onog stupnja, o čemu nam u promotivnim materijalima nije rečeno. :) Počnimo s činjenicom da svi mopovi prevedene naredbe moraju stati u jedan red, inače se prenose u sljedeći. To se objašnjava činjenicom da se adrese linija mopova pohranjuju zasebno (da bi se spremilo 48 bita u svaki mop), a svi mopovi generirani naredbom moraju odgovarati adresi prvog bajta pohranjenog u oznaci samo jednog crta. Za vraćanje izvornih adresa, duljine naredbi koje su generirale mops pohranjuju se u oznake. "Netolerancija" mopova donekle kvari učinkovitost korištenja L0m, budući da povremene naredbe koje generiraju nekoliko mopova imaju značajnu šansu da se ne mogu uklopiti u sljedeći redak.

Štoviše, mopsi najsloženijih naredbi i dalje su pohranjeni u ROM s mikrokodom, a samo prva 4 mopa sekvence, plus poveznica na nastavak, ulaze u L0m, tako da sve zajedno zauzima cijeli red. Iz ovoga proizlazi da se u jednom dijelu ne mogu naći više od tri mikrokodne upute, a s obzirom na prosječnu veličinu tima, dvije su vjerojatnije ograničenje. U stvarnosti se, međutim, susreću mnogo rjeđe.

Druga važna točka je da L0m nema svoju. Čini se da bi to trebalo ubrzati provjeru adresa (koje su ovdje samo virtualne) i smanjiti potrošnju energije. Ali sve je puno zanimljivije - nije uzalud što svi moderni predmemorije imaju. Virtualni adresni prostori programa koji se izvode u OS-u mogu se preklapati, stoga, prilikom promjene konteksta zadatka, tako da se stari podaci ili kod ne čitaju na istim adresama, virtualna adresabilna predmemorija mora biti isprana (to je upravo ono što se dogodilo s predmemorija praćenja P4). Naravno, njegova učinkovitost će biti niska. Neke arhitekture koriste tzv. ASID (identifikator adresnog prostora) jedinstveni su brojevi koje OS dodjeljuje svakom streamu. Međutim, x86 ne podržava ASID-ove kao nepotrebne - s obzirom na prisutnost fizičkih oznaka za sve predmemorije. Ali onda je došao L0m i razbio sliku. Štoviše, zapamtite da se predmemorija brisanja, kao i većina resursa kernela, dijeli između dvije niti, tako da će u njoj biti mopova. različiti programi... A ako dodate prebacivanje između virtualnih operacijskih sustava u odgovarajućem načinu rada, onda se mopovi dvaju programa mogu podudarati u adresama. Što uraditi?

Problem s streamovima je lako riješiti - L0m se jednostavno prepolovi skupovima, tako da broj toka daje najznačajniji bit broja skupa. Osim toga, L1I ima politiku zadržavanja u odnosu na L0m. Stoga, kada je kod preuzet iz L1I, njegovi se mopovi uklanjaju iz L0m, što zahtijeva provjeru dva susjedna dijela (veličina reda svih predmemorija modernih CPU-a, isključujući sam L0m, je 64 bajta). Dakle, virtualna adresa iz predmemoriranih uop-ova uvijek se može provjeriti u L1I tagovima pomoću TLB-a. Ispada da iako L0m ima virtualno adresiranje, posuđuje fizičke oznake za kod od L1I. Ipak, postoji situacija u kojoj je L0m potpuno resetiran - i zamjena u L1I TLB-u, kao i njegov potpuno resetiranje(uključujući i pri prebacivanju načina rada CPU-a). Osim toga, L0m je potpuno onemogućen ako osnovna adresa birača koda (CS) nije je nula(što je vrlo malo vjerojatno u modernim operativnim sustavima).

Raditi

Glavna tajna predmemorije mop-a je algoritam koji zamjenjuje očitanja iz L0m za rad fronta na obradi naredbi u mopove. Počinje s činjenicom da pri sljedećem skoku, za odabir L0m skupa, koristi bitove 5-9 adrese cilja skoka (ili bitove 5-8 plus broj toka u slučaju 2-threadinga). Postavljene oznake označavaju točku ulaska u porciju, čiji su mopovi ispisani u retku koji odgovara oznaci, te redni broj ovog retka unutar porcije. Mogu se podudarati 1-3 retka, koji se (najvjerojatnije) istovremeno čitaju u međuspremnik od 18 megapiksela. Odatle se krpe po četiri šalju u IDQ dok se ne dođe do izlazne točke - i sve se ponavlja od početka. Štoviše, kada 1–3 posljednja mopsa ostanu neposlana u porciji, oni se šalju s prvih 3–1 mopsa nove porcije, što ukupno čini uobičajena četiri. To jest, sa stajališta IDQ reda koji prima mop, svi prijelazi se izglađuju u jednoličan tok koda - kao u P4, ali bez predmemorije tragova.

A sada zanimljiva točka - u retku nisu dopuštena više od dva prijelaza, a ako je jedan od njih bezuvjetan, tada će biti posljednji za liniju. Naš će pažljivi čitatelj razumjeti da je dopušteno da cijeli dio ima do 6 uvjetnih skokova (od kojih se svaki može pokrenuti bez izlazne točke), ili 5 uvjetnih i 1 bezuvjetni, što će biti posljednja naredba dijela . Prediktor grananja u Intelovom CPU-u je dizajniran na način da ne primjećuje uvjetnu granu sve dok se ne aktivira barem jednom, a tek nakon toga će se predvidjeti njegovo ponašanje. Ali čak i "vječni" prijelazi također podliježu ograničenju. Zapravo, to znači da je dopušteno dovršiti izvođenje porcijskih krpa i prije točka njenog izlaza.

Ali sličan trik s višestrukim unosom neće funkcionirati - ako postoji prijelaz na već predmemorirani dio, ali s drugim pomakom u njemu (na primjer, kada postoji više od jednog bezuvjetnog skoka), tada L0m popravlja promašaj, okreće se na prednjoj strani i zapisuje primljene krpe na novi dio. Odnosno, u predmemoriji su dopuštene kopije za dijelove s različitim ulazima i istim, točno poznatim izlazom (uz još nekoliko mogućih). A kada se kod pomakne iz L1I u L0m, brišu se svi redovi, čije ulazne točke spadaju u bilo koji od 64 bajta dvaju dijelova. Inače, kopije su bile moguće i u predmemoriji praćenja P4, a značajno su smanjile učinkovitost pohranjivanja koda ...

Takva ograničenja smanjuju dostupnost prostora L0m. Pokušajmo izračunati koliko je toga ostalo za stvarnu upotrebu. Prosječna veličina naredbe x86-64 je 4 bajta. Prosječan broj mopsa po timu je 1,1. Odnosno, vjerojatno će se potrošiti 8-10 krpa po obroku, što je 2 reda. Kako je prethodno izračunato, L0m će moći pohraniti 128 ovih parova, što je dovoljno za 4 KB koda. Međutim, uzimajući u obzir nesavršenu upotrebu nizova, stvarni će broj vjerojatno biti 3–3,5 KB. Pitam se kako se to uklapa u ukupnu ravnotežu volumena podsustava predmemorije?

  • 1 (zapravo dio L3, u prosjeku po jezgri) - 2 MB;
  • L2 - 256 KB, 8 puta manje;
  • oba L1 - po 32 KB, 8 puta manje;
  • cachirani volumen u L0m je oko 10 puta manji.

Zanimljivo je da ako pronađete drugu strukturu u kernelu koja pohranjuje mnoge naredbe ili mopove, onda će se ispostaviti da je to dispečerski ROB red, u koji može stati 168 mopova, generiranih od oko 650-700 bajtova koda, što je 5 puta manje od efektivnog ekvivalentnog volumena L0m (3–3,5 KB) i 9 puta manje od punog (6 KB). Na taj način, predmemorija brisanja nadopunjuje urednu hijerarhiju različitih pohranjivanja kodova s ​​različitim, ali dobro izbalansiranim parametrima. Intel tvrdi da je u prosjeku 80% pogodaka u L0m. To je znatno niže od brojke od 98–99% za 32 KB L1I predmemorije, ali ipak - u četiri slučaja od pet cache mopova opravdava svoju prisutnost.

Vrhunski povezani članci