Si të konfiguroni telefonat inteligjentë dhe PC. Portali informativ
  • në shtëpi
  • Windows 10
  • Procesorët Intel Sandy Bridge - të gjitha sekretet. Pesë gjenerata të Core i7: nga Sandy Bridge në Skylake

Procesorët Intel Sandy Bridge - të gjitha sekretet. Pesë gjenerata të Core i7: nga Sandy Bridge në Skylake

“, e publikuar rreth një vit më parë, folëm për mikroarkitekturën Nehalem, e cila zëvendësoi Core në fund të vitit 2008. Në këtë përmbledhje do të flasim për arkitekturën Sandy Bridge, e cila duhet të zëvendësojë plotësisht Nehalem në një të ardhme shumë të afërt.

Sot, çipat e bazuar në Sandy Bridge janë paraqitur në të gjitha linjat e procesorëve Intel, duke përfshirë serverin Xeon, desktop dhe celular Core i3/35/i7, Pentium dhe Celeron dhe Core i7 Extreme "ekstrem". Pak para publikimit të këtij artikulli, më 22 maj 2011, u prezantuan shtatë procesorë të tjerë të rinj të bazuar në Sandy Bridge.

Cilat janë ndryshimet themelore midis Sandy Bridge dhe Nehalem dhe cilat janë veçoritë dhe avantazhet e mikroarkitekturës së re Intel? Shkurtimisht, këto dallime janë si më poshtë: bërthama grafike e përditësuar si pjesë e "agjentit të sistemit" ndodhet në të njëjtin çip me atë informatik, ka një tampon të ri mikroinstruksioni L0, memorien e përbashkët L3, teknologjinë e përmirësuar Turbo Boost, një të zgjeruar. grup udhëzimesh SIMD AVX dhe një kontrollues RAM me dy kanale të ridizajnuar DDR3 1333 MHz. Së bashku me arkitekturën e re, u shfaq një fole e re e procesorit LGA 1155.

Një nga ndryshimet kryesore të dizajnit midis Sandy Bridge dhe Nehalem është vendosja e bërthamave kompjuterike dhe urës veriore (agjenti i sistemit) në një çip. Le të kujtojmë se në Nehalem vetë CPU dhe ura e veriut ishin të vendosura nën një mbulesë të përbashkët, por në fakt ishin vendosur në çipa të pavarur, të cilët, për më tepër, ishin bërë sipas standardeve të ndryshme teknologjike: CPU ishte 32 nm, dhe ura e veriut ishte 45 nm. Në Sandy Bridge, ky është një çip i vetëm, i bërë duke përdorur një teknologji procesi 32 nm, në të cilin ka bërthama llogaritëse, një bërthamë grafike, kontrollues RAM, PCI Express, furnizim me energji elektrike (Njësia e kontrollit të energjisë, PCU) dhe një njësi dalëse video. .

Seti i ri i udhëzimeve SIMD në çipat Sandy Bridge quhet AVX - Zgjerime të përparuara të vektorit, domethënë "udhëzime të avancuara vektoriale". Në fakt, kjo është gjenerata e ardhshme e udhëzimeve SIMD (Udhëzim i vetëm, të dhëna të shumëfishta - "rrjedhë e vetme komande, rrjedhë e shumëfishtë e të dhënave" SSE5, alternativë ndaj grupit x86 të zhvilluar nga AMD. Gjerësia e regjistrave XMM në udhëzimet AVX është dyfishuar nga 128 deri në 256 bit, 12 të reja janë shfaqur udhëzime me mbështetje për udhëzime me katër operatorë. Mbështet teknologjinë e enkriptimit të harduerit standard të avancuar të enkriptimit (AES) dhe sistemin e virtualizimit të Zgjerimeve të Makinerisë Virtuale (VMX).

Pavarësisht dizajnit të ngjashëm, çipat Sandy Bridge kanë më shumë njësi ekzekutimi se Nehalem: 15 kundrejt 12 (shih diagramin e bllokut). Çdo njësi ekzekutimi është e lidhur me planifikuesin e instruksioneve nëpërmjet një kanali 128-bit. Dy njësi ekzekutimi përdoren njëkohësisht për të ekzekutuar instruksionet e reja AVX që përmbajnë të dhëna 256-bit.

Çipat Sandy Bridge janë në gjendje të përpunojnë deri në katër instruksione për orë falë katër dekoderave të integruar në njësitë e marrjes së instruksioneve. Këta dekoderë konvertojnë instruksionet x86 në mikroinstruksione të thjeshta të ngjashme me RISC.

Risia më e rëndësishme në procesorët Sandy Bridge është i ashtuquajturi "cache i nivelit zero" L0, i cili në thelb mungonte në procesorët e gjeneratës së mëparshme. Ky cache është i aftë të ruajë deri në 1536 mikroinstruksione të deshifruara: qëllimi i tij është që kur një program ekzekutues hyn në një qark rrethor, domethënë duke ekzekutuar në mënyrë të përsëritur të njëjtat instruksione, nuk ka nevojë të dekodojë përsëri të njëjtat udhëzime. Kjo skemë mund të përmirësojë ndjeshëm performancën: sipas ekspertëve të Intel, L0 përdoret në 80% të kohës së kompjuterit, domethënë në shumicën dërrmuese të rasteve. Përveç kësaj, përdorimi i L0 çaktivizon dekoderat dhe cache L1, dhe çipi konsumon më pak energji dhe gjeneron më pak nxehtësi.

Në lidhje me shfaqjen e një "cache të nivelit zero" në çipat Sandy Bridge, njerëzit shpesh kujtojnë cache-in e gjurmëve të "veteranëve të racës gigahertz" - procesorë Pentium 4 bazuar në arkitekturën NetBurst. Megjithatë, këta buferë funksionojnë ndryshe: në cache-in e gjurmës, udhëzimet shkruhen saktësisht sipas rendit në të cilin janë ekzekutuar, kështu që të njëjtat udhëzime mund të përsëriten disa herë. L0 ruan udhëzime të vetme, të cilat, natyrisht, janë më racionale.

Blloku i parashikimit të degëve ka pësuar ndryshime të dukshme, duke marrë një tampon të synuar të degës dy herë më të madhe. Për më tepër, buferi tani përdor një algoritëm të veçantë të kompresimit të të dhënave, falë të cilit blloku është në gjendje të përgatisë vëllime të mëdha udhëzimesh, duke rritur kështu performancën e llogaritjes.

Nënsistemi i kujtesës në Sandy Brigde është optimizuar gjithashtu për të punuar me udhëzimet AVX 256-bit. Si kujtesë, Nehalem përdori porte të dedikuara të ngarkimit, adresës dhe ruajtjes së të dhënave të lidhura me porte të veçanta dispeçer, që do të thotë se mund të ngarkonte 128 bit të dhëna nga cache L1 për cikël orësh. Në Sandy Brigde, portat e ngarkesës dhe të ruajtjes mund të ripërdoren sipas nevojës dhe të veprojnë si një palë porta ngarkese ose ruajtëse në të njëjtën kohë, duke lejuar 256 bit të dhënash për cikël orësh.

Sandy Bridge përdor një ndërlidhje unazore për të lidhur komponentët e çipit, domethënë bërthamat e llogaritjes, cache L3, bërthama grafike dhe agjenti i sistemit (memoria, PCI Express, kontrollorët e energjisë dhe ekranit). Baza ishte autobusi me shpejtësi të lartë QPI (Quick Path Interconnect, gjerësi brezi deri në 6,4 GB/s në 3,2 GHz), i implementuar për herë të parë në çipat Nehalem Lynnfield (Core i7 9xxx për Socket LGA1366), drejtuar entuziastëve.

Në thelb, autobusi i unazave në Sandy Bridge përbëhet nga katër unaza 32-byte: autobusët e të dhënave, autobusët e kërkesave, autobusët e njohjes dhe autobusët e monitorimit. Kërkesat përpunohen në frekuencën e funksionimit të bërthamave informatike, ndërsa në frekuencën e orës 3 GHz xhiroja e autobusit arrin 96 GB për sekondë. Në këtë rast, sistemi automatikisht përcakton rrugën më të shkurtër të transmetimit të të dhënave, duke siguruar vonesë minimale.

Përdorimi i një autobusi unazor bëri të mundur zbatimin e cache të nivelit të tretë L3 në një mënyrë tjetër, e cila në Sandy Bridge quhej LLC (Last Level Cache, domethënë "cache e nivelit të fundit"). Ndryshe nga Nehalem, LLC nuk ndahet në të gjitha bërthamat, por mund të ndahet midis të gjitha bërthamave, si dhe grafika dhe agjenti i sistemit, sipas nevojës. Është e rëndësishme të theksohet se megjithëse çdo bërthamë kompjuterike ka segmentin e vet LLC, ky segment nuk është i lidhur rreptësisht me bërthamën "e tij" dhe vëllimi i tij mund të shpërndahet midis komponentëve të tjerë nëpërmjet një autobusi unazor.

Kur kaloi në Sandy Bridge, Intel u caktoi të gjithë komponentëve të procesorit qendror që nuk i përkasin vetë bërthamave kompjuterike emrin e përgjithshëm System Agent, domethënë "agjent sistemi". Në fakt, të gjithë këta janë përbërës të të ashtuquajturës "ura e veriut" të grupit logjik të sistemit, por ky emër është akoma më i përshtatshëm për një çip të veçantë. Kur u aplikua për Nehalem, u përdor emri i çuditshëm dhe qartësisht i pafat "Uncore", kështu që "agjenti i sistemit" tingëllon shumë më i përshtatshëm.

Elementet kryesore të "agjentit të sistemit" përfshijnë një kontrollues të përmirësuar RAM DDR3 me dy kanale deri në 1333 MHz, një kontrollues PCI Express 2.0 me mbështetje për një autobus x16, dy autobusë x8 ose një autobusë x8 dhe dy x4. Çipi ka një njësi të veçantë të menaxhimit të energjisë, mbi bazën e së cilës zbatohet teknologjia e mbingarkesës automatike të gjeneratës së re Turbo Boost. Falë kësaj teknologjie, e cila merr parasysh gjendjen e bërthamave kompjuterike dhe grafike, çipi, nëse është e nevojshme, mund të tejkalojë ndjeshëm paketën e tij termike deri në 25 sekonda pa dëmtuar procesorin ose pa kompromentuar performancën.

Sandy Bridge përdor procesorët grafikë të gjeneratës së re Intel HD Graphics 2000 dhe HD Graphics 3000, të cilët mund të përbëhen nga gjashtë ose dymbëdhjetë njësi ekzekutimi (EU), në varësi të modelit të procesorit. Shpejtësia nominale e orës grafike është 650 ose 850 MHz dhe mund të rritet në 1100, 1250 ose 1350 MHz në modalitetin Turbo Boost, i cili tani vlen edhe për përshpejtuesin e videos. Grafikat mbështesin ndërfaqen e programimit Direct X 10.1 - zhvilluesit e konsideruan mbështetjen për Direct X 11 të panevojshme, duke pasur parasysh me të drejtë se tifozët e lojërave kompjuterike ku ky API është me të vërtetë i kërkuar, në çdo rast do të preferonin grafika diskrete dukshëm më të fuqishme.

Shënimi i procesorëve Sandy Bridge është mjaft i thjeshtë dhe logjik. Si më parë, ai përbëhet nga indekse dixhitale, të cilat në disa raste shoqërohen me shkronja. Ju mund të dalloni Sandy Bridge nga Nehalem me emër: indeksi i çipave të rinj është katërshifror dhe fillon me dy ("gjenerata e dytë"), dhe të vjetrat janë treshifrorë. Për shembull, ne kemi një procesor Intel Core i5-2500K. Këtu, "Intel Core" do të thotë markë, "i5" do të thotë seri, "2" do të thotë gjenerimi, "500" do të thotë numri i modelit dhe "K" do të thotë numri i shkronjës.

Sa i përket indekseve të shkronjave, njëri prej tyre njihet nga çipat me mikroarkitekturën Nehalem - "S" (procesorët i5-750S dhe i7-860S). I është caktuar çipave që synojnë makinat multimediale shtëpiake. Procesorët me të njëjtin indeks numerik ndryshojnë në atë që modelet me indeksin e shkronjës "S" funksionojnë me një frekuencë nominale pak më të ulët, por "frekuenca turbo" e arritur me mbiclocking automatik Turbo Boost është e njëjtë. Me fjalë të tjera, në modalitetin normal ato janë më ekonomike dhe sistemi i tyre i ftohjes është më i qetë se ai i modeleve "standarde". Të gjithë desktopët e rinj Core të gjeneratës së dytë pa indekse konsumojnë 95 W, dhe me indeksin "S" - 65 W.

Modifikimet me indeksin “T” funksionojnë me një frekuencë orari edhe më të ulët se ato “bazike”, ndërkohë që edhe “turbofrekuenca” e tyre është më e ulët. Paketa termike e procesorëve të tillë është vetëm 35 ose 45 W, e cila është mjaft e krahasueshme me TDP-në e çipave celularë modernë.

Dhe së fundi, indeksi "K" nënkupton një shumëzues të zhbllokuar, i cili ju lejon të mbingarkoni me lehtësi procesorin, duke rritur frekuencën e orës së tij.

U njohëm me zgjidhjet e përgjithshme teknike të implementuara në procesorët “desktop” me arkitekturë Sandy Bridge. Më tej, ne do të flasim për veçoritë e serive të ndryshme, do të studiojmë gamën aktuale të modeleve dhe do të japim rekomandime se cilat modele specifike mund të konsiderohen si blerjet më të mira në klasën e tyre.

Po hapim një seri artikujsh rreth mikroarkitekturës së re të procesorit Intel Sandy Bridge. Në materialin e parë do të prekim teorinë - do të flasim për ndryshime dhe inovacione. Në të ardhmen e afërt, rezultatet e testimit të platformës së re dhe shumë gjëra interesante do të shfaqen në faqet e blogut.

Koncepti Tick-Tock, i shpikur brenda Intel, vazhdon të funksionojë - çdo vit prodhuesi prezanton një mikroarkitekturë të modifikuar të procesorit. Faza "Tick" përfshin përmirësimin e zhvillimeve të mëparshme (zvogëlimin e procesit teknik, futjen e teknologjive të reja jo shumë revolucionare, e kështu me radhë). Rreth një vit pas "Tick", ndodh "Tock" - lëshimi i procesorëve të bazuar në një mikroarkitekturë krejtësisht të re.

Në fillim të vitit 2010, Intel prezantoi një linjë çipash të koduar Westmere/Clarkdale - një përmirësim teknologjik i modeleve të para Core i3/i5/i7 (Nehalem). Është radha e Tokut. Njihuni me mikroarkitekturën revolucionare Sandy Bridge, mbi të cilën janë ndërtuar procesorë nën emrin e përgjithshëm Core 2011 - modele krejtësisht të reja Core i3, Core i5, Core i7, si dhe modele buxhetore Pentium dhe Celeron.

Këtë herë prodhuesi vendosi të mos humbasë kohë për gjëra të vogla dhe menjëherë njoftoi shumë modele për kompjuterë celularë dhe desktop në të gjitha vargjet e çmimeve. Vërtetë, vetëm disa versione, larg nga më të përballueshmet, dolën në shitje, por më shumë për këtë më vonë.

Shtypi e quan Sandy Bridge një nga mikroarkitekturat më të rëndësishme të Intel në vitet e fundit - prodhuesi ka bërë gjithçka që është e mundur për të sjellë procesorët e tij në një nivel të ri të performancës, ka sjellë në jetë teknologjitë e paraqitura më parë dhe ka ofruar një integrim të jashtëzakonshëm të njësive kompjuterike dhe kontrollorëve. Krahasuar me Sandy Bridge, modelet e paraqitura më parë duken si biseda për fëmijë. Le të shohim ndryshimet në Core 2011 në më shumë detaje.

Karakteristikat e mikroarkitekturës së re

Një bllok diagram që përshkruan mikroarkitekturën e Sandy Bridge nuk ka gjasa të tregojë shumë për teknologjitë e prezantuara dhe ndryshimet e përgjithshme. Sidoqoftë, ia vlen të dihet se të gjithë përbërësit e procesorëve të rinj janë dukshëm të ndryshëm nga përbërësit e të njëjtit Westmere/Clarkdale. Gjëja kryesore që duhet të kuptoni përpara se të studioni veçoritë e Sandy Bridge është se përmirësimet arkitekturore lejojnë që procesorët e rinj të funksionojnë 10-50% më shpejt në krahasim me gjeneratën Core 2010.

Inxhinierët e Intel ripërpunuan njësinë e parashikimit të degës, ndryshuan paraprocesorin, prezantuan një memorie të avancuar të dekoduar, një autobus me unazë me shpejtësi të lartë, një njësi të avancuar të zgjerimeve vektoriale AVX, ridizajnuan kontrolluesin e integruar të RAM-it dhe lidhjet e autobusit PCI Express, ndryshuan çipin e integruar grafik përtej njohjes , dhe prezantoi një bllok fiks për transkodimin e videove të përshpejtimit të harduerit, teknologjinë e përmirësuar të përshpejtimit automatik Turbo Boost etj. Tani ndoshta besoni se ka vërtet shumë ndryshime? Ne do të përpiqemi të kalojmë shkurtimisht secilën prej tyre në mënyrë që të marrim një pamje të caktuar përpara se të shfaqet testimi i plotë në bloget tona.

Si fillim, modelet Sandy Bridge me 4 bërthama përbëhen nga 995 milionë transistorë të prodhuar duke përdorur një teknologji të provuar të procesit 32 nanometër. Rreth 114 milionë janë ndarë për nevojat e çipit grafik, secila bërthamë merr 55 milionë transistorë, pjesa tjetër shkon në kontrollues shtesë. Për krahasim, një procesor AMD Phenom II X4 me 4 bërthama të plota përmban 758 milion transistorë, dhe Nehalem me 4 bërthama përdori 731 milion transistorë. Me gjithë këtë, një mbulesë e plotë e procesorit Sandy Bridge zë një sipërfaqe prej 216 milimetra katrorë - diametri i një prej procesorëve të parë me 4 bërthama Intel (Core 2 Quad) zinte një zonë të ngjashme me një numër shumë më të vogël tranzistorë. dhe, në përputhje me rrethanat, ofroi performancë në mënyrë disproporcionale më të ulët.

Tani, më lejoni të flas për risitë kryesore të mikroarkitekturës në rregull.

Memoria e memories së deshifruar e instruksioneve (cache e mikro-op) - Mekanizmi i cache-it të mikro-operacionit i prezantuar në Sandy Bridge ruan udhëzimet ndërsa ato deshifrohen. Gjatë kryerjes së llogaritjeve, procesori përcakton nëse instruksioni tjetër ka hyrë në cache. Nëse po, atëherë paraprocesori dhe tubacioni llogaritës janë të çaktivizuar, gjë që kursen energji. Në të njëjtën kohë, 1,5 KB memorie cache e deshifruar është plotësisht e integruar me cache-in e nivelit të parë (L1).

Njësia e ridizajnuar e parashikimit të degëve krenohet me saktësi të shtuar. E gjithë kjo u bë e mundur falë disa risive të rëndësishme të dizajnit.

Ring bus - për të kombinuar blloqe të shumta arkitekturore, përpunuesit Sandy Bridge përdorin një autobus me unazë të avancuar dhe me shpejtësi shumë të lartë. Ndërfaqja i detyrohet pamjes së saj bërthamës grafike të integruar dhe transkoderit të videos - nevoja për të komunikuar me cache të nivelit të tretë e bëri skemën e mëparshme të lidhjes (rreth 1000 kontakte për secilën bërthamë) joefektive. Të gjithë komponentët e rëndësishëm të procesorit janë të lidhur me autobusin e ridizajnuar - grafika, bërthamat e pajtueshme me x86, transkoderi, agjenti i sistemit, cache L3.

Nën emrin "System Agent" ekziston një bllok i njohur më parë si un-core - kontrollorët që ishin vendosur më parë në urën veriore në motherboard kombinohen këtu. Agjenti përfshin 16 lidhje për t'u lidhur me autobusin PCI Express 2.0, një kontrollues RAM DDR3 me dy kanale, një ndërfaqe për t'u lidhur me autobusin e përbashkët të sistemit DMI, një njësi të menaxhimit të energjisë dhe një njësi grafike përgjegjëse për shfaqjen e imazheve.

Një nga risitë më të rëndësishme të Sandy Bridge konsiderohet të jetë një çip grafik i ridizajnuar nga e para. Le të fillojmë me faktin se tani grafika janë integruar me blloqe të tjera në një çip të vetëm (më parë, dy çipa të veçantë ishin fshehur nën mbulesën metalike të procesorëve Clarkdale). Inxhinierët e Intel mburren me dyfishimin e xhiros së komponentëve të çipit grafik në krahasim me gjeneratën e mëparshme të Intel HD Graphics falë ndryshimeve në arkitekturën e procesorëve të unifikuar shader, aksesit në memorien e memories L3 dhe përmirësimeve të tjera. Në të njëjtën kohë, në procesorët e rinj do të jetë e mundur të gjenden dy modele thelbësore grafike dukshëm të ndryshme - HD Graphics 2000 dhe HD Graphics 3000. I pari ofron gjashtë procesorë të unifikuar shader, i dyti - dymbëdhjetë. Sipas Intel dhe shtypit të specializuar, grafika e re i bën të tepërta kartat video diskrete më të lira, por ne ende nuk jemi bindur për këtë në një rishikim të veçantë. Pothuajse harruam të themi se modelet e reja HD Graphics mbështesin DirectX 10; kalimi në teknologjitë më moderne grafike do të ndodhë në gjeneratat e ardhshme të procesorëve.

Përveç kësaj, çipi i ri grafik ka një njësi të veçantë Media Engine, e përbërë nga dy pjesë për transkodimin dhe dekodimin e videos. Inxhinierët e Intel vendosën të mos tundonin fatin - më parë, procesorët e unifikuar shader dhe, pjesërisht, njësitë fikse me fuqi të ulët ishin të përfshirë në dekodimin dhe kodimin e videos. Sipas dëshmitarëve okularë, Media Engine fiks përballon detyrën e tij më shpejt dhe më mirë se edhe kartat video monstruoze në gamën më të lartë të çmimeve.

Algoritmet e ndryshuara të mbingarkesës së Turbo Boost tani lejojnë që procesori të tejkalojë pak standardet e përcaktuara të konsumit të energjisë për një kohë të shkurtër - në praktikë, kjo do të thotë që procesori do të jetë në gjendje të kryejë vrapime me shpejtësi të lartë në distanca të shkurtra. Sigurisht, automatizimi nuk do t'ju lejojë të kaloni vijën e besueshmërisë. Le të kujtojmë se Turbo Boost rrit automatikisht frekuencën e një, dy, tre ose katër bërthamave nëse është e nevojshme. Kështu, modeli më i fuqishëm Intel Core i7 2600 mund të rrisë frekuencën e një bërthame në 3.8 GHz kur punon me aplikacione që nuk janë të optimizuara për arkitekturë me shumë bërthama.
Overclocking u bllokua

Që nga Pentium II, Intel filloi të shesë procesorë me shumëzues të kyçur në mënyrë që përdoruesit të mos mund të luanin me frekuencën, dhe vetë kompania ishte gjithmonë në gjendje të shiste të njëjtat modele në vargje të ndryshme çmimesh. Por overclockers kanë pasur gjithmonë aftësinë për të rregulluar frekuencën FSB. Fatkeqësisht, me ardhjen e Sandy Bridge, gjithçka ndryshon përsëri - shumëzuesi në shumicën e modeleve është i mbyllur fort, dhe gjeneratori i frekuencës së autobusit është i integruar në urën e vetme të çipave të serive 6 dhe është i kyçur në 100 MHz.

Priza e vetme e mbingarkesës mbeten modifikimet me shumëzues të zhbllokuar - ka pak modele të tilla në linjën e re, por ato ekzistojnë dhe kushtojnë para mjaft të arsyeshme.

Sundimtar

Është koha për të folur për procesorët që u prezantuan së pari - për të kuptuar emrat e rinj dhe për të kuptuar se cilin procesor duhet të zgjidhni për qëllimet tuaja.
Gjatë publikimit të Sandy Bridge, Intel prezantoi 29 (njëzet e nëntë!) modele të reja Core iX - katërmbëdhjetë për desktop dhe pesëmbëdhjetë për kompjuterë celularë.

Prodhuesi ka kaluar në një skemë të re, edhe më të paqartë të përcaktimit të procesorit, në të cilën duhet të thellohemi.
Pra, emri i çdo linje të re të procesorit desktop përbëhet nga një emërtim i markës (Intel Core), emri i një linje specifike (i3, i5, i7), një indeks (2600) dhe një prapashtesë (K). Ekzistojnë vetëm tre prapashtesa për linjën e desktopit - K (shumëzues i zhbllokuar), S (konsumi i energjisë 65 W) dhe T (konsumi i energjisë 34-45 W). Tani, gjëja më e çuditshme është se çipi grafik i fuqishëm HD Graphics 3000 përfshihet vetëm në modelet me një shumëzues të zhbllokuar (K); procesorët e tjerë janë të kënaqur me HD Graphics 2000 dukshëm më të dobët.

Linja origjinale Core 2011 për kompjuterët desktop është zbërthyer mjaft bukur sipas emrit të linjës. Pra, procesorët Core i7 janë çipa me katër bërthama me mbështetje për Hyper Threading (4 bërthama, 8 threads), Core i3 janë çipa të thjeshtë me dy bërthama pa mbështetje Turbo Boost, por me mbështetje për Hyper Threading (2 bërthama, 4 fije), Core i5 janë kryesisht modele me katër bërthama në radhë me mbështetje Turbo Boost, por pa Hyper Threading. Fatkeqësisht, në të ardhmen, modelet me dy bërthama do të shfaqen si pjesë e linjës Core i5, por ato do të jenë të disponueshme kryesisht për montuesit e sistemeve të gatshme.

Një arsye tjetër për diferencimin e mëtejshëm të linjës është mbingarkimi automatik i bërthamës grafike të integruar. Të dy modelet grafike fillimisht funksionojnë në 850 MHz, por procesorët Core i5 dhe Core i3 mund ta mbingarkojnë atë në 1100 MHz. Core i7 më i vjetër - deri në 1350 MHz. Mendoni vetë se si kjo do të ndikojë në performancën përfundimtare.

Me modifikimet celulare të Sandy Bridge, gjërat janë pak më të komplikuara. Për të filluar, absolutisht të gjithë procesorët celularë në linjën e re përdorin çipin e fuqishëm grafik HD Graphics 3000 (madje edhe modelet më ekonomike). Për arsye të panjohura, Intel vendosi të thyejë ligjin e pashprehur të marketingut dhe të shkojë i egër me indekset - ne ende nuk kemi vendosur se si do t'i kuptojmë modelet me indekset 2657, 2537, 2410 dhe 2720. Për sa i përket indekseve, ka përcaktime XM, QM, M, që tregojnë laptopë për detyra të ndryshme. Prandaj, XM janë modele ekstreme për sistemet e lojërave, M janë procesorë me dy bërthama për laptopë ekonomikë, QM janë procesorë me katër bërthama për laptopë të zakonshëm.

Sigurisht, këto nuk janë të gjitha modelet për vitin e ardhshëm - Intel do të vazhdojë të eksperimentojë dhe herë pas here do të kënaqë fansat me modifikime të reja. Gjëja kryesore është të mos shkelni logjikën e sundimtarëve të shpikur vetë.

Platforma

Së bashku me Sandy Bridge, u prezantuan çipa të serive 6 me prizën e kërkuar të procesorit LGA1155 - shenjat e para ishin Intel P67 dhe Intel H67. Kuptimi i dy modifikimeve është i lehtë. Intel P67 është i përshtatshëm për konfigurime ku do të përdoret një kartë grafike diskrete dhe platforma mbështet mjetet e mbingarkesës. Plus, bordet e bazuara në P67 ofrojnë korsi 2x8 PCI Express 2.0 për konfigurime me shumë GPU në modalitetet AMD CrossFire ose NVIDIA SLI. Intel H67, përkundrazi, ka pak përdorim për mbingarkesë; ai mbështet vetëm një portë PCI Express x16, por mund të nxjerrë një sinjal video.

Të gjithë ata që duan të marrin të gjitha veçoritë në një bord do të duhet të presin pak - diku në tremujorin e dytë të 2011, zhvilluesit do të prezantojnë chipset Intel Z68. Pllakat amë të bazuara në këtë chipset do të mbështesin bërthamën grafike të integruar në procesor, si dhe të gjitha veçoritë e Intel P67.

Disa fjalë për prizën e re të procesorit - Intel ka ridizajnuar qarkun dhe strukturën e prizës, kështu që modelet e vjetra Core 2010 për LGA 1156 nuk mund të përdoren më. Për fat të mirë, madhësia e prizës mbetet e njëjtë; këtu mund të instaloni ftohës të shumtë për LGA 1156 dhe nuk duhet të shqetësoheni për gjetjen e modeleve më të fundit.

Çipset ende nuk kanë mbështetje vendase për ndërfaqen USB 3.0, megjithëse tregu duket se është mjaft i gatshëm për "risi" të tilla. Tifozët e më të mirëve do të duhet të përqendrohen në pllakat amë të avancuara, ku prodhuesit integrojnë kontrollues USB 3.0 të palëve të treta.

Për fat të mirë, Intel nuk ka harruar versionin e ri të ndërfaqes SATA - platformat e reja mbështesin SATA3 me një gjerësi bande deri në 6 Gbit/s. Është e qartë se hard disqet klasike me gisht nuk kanë nevojë për të gjitha këto rritje të shpejtësisë, por disqet e bazuara në memorie flash do të vlerësojnë dritaren e shpejtësisë. Për shembull, një nga disqet e ngurtë flash të paraqitur në CES do të zbulojë aftësitë e tij të shpejtësisë vetëm kur çiftohet me SATA3 - ai është i ngushtë brenda SATA2 (po flasim për Crucial RealSSD C300). Ajo që është e rëndësishme është që portat SATA3 në pllakat e reja amë janë ngjitur me SATA2, megjithëse ndërfaqja e re ofron pajtueshmëri të plotë me gjeneratën e mëparshme - jini më të kujdesshëm kur lidhni SSD-në tuaj super të shtrenjtë.

Në çipat e rinj, prodhuesit më në fund kanë filluar të heqin qafe arkaizmin kryesor - ndërfaqen BIOS. UEFI po zëvendëson ekranin e ngathët blu të së kaluarës - guaska e re mbështet kontrollin e miut (ose tastierës prekëse) dhe ofron një ndërfaqe dukshëm më moderne dhe më të përshtatshme. Karakteristika të tjera të UEFI përfshijnë mbështetjen e lindur për disqet e ngurtë më të mëdhenj se 2.2 TB.

Me çfarë përfundojmë?

Ekziston një mendim i përhapur midis ekspertëve se Sandy Bridge është vetëm një evolucion i mikroarkitekturave të mëparshme dhe kompania nuk ka prezantuar asgjë rrënjësisht të re. Jemi dakord me pjesën tjetër të analistëve. Përkundër faktit se linja e re nuk ofron aftësi vërtet revolucionare, puna e bërë nga Intel është e denjë për çdo lavdërim. Prodhuesi i ka sjellë të gjitha ndërmarrjet e tij në ideal - ka integruar plotësisht të gjithë komponentët, ka përmirësuar çipin grafik në një nivel të pranueshëm, ka përfunduar autobusin e unazës, ka ridizajnuar funksionet e paraprocesorit, ka rishikuar aftësitë e mbingarkesës automatike Turbo Boost, ka prezantuar një njësi fikse për video përpunimi, e kështu me radhë. Si rezultat, ne kemi procesorë krejtësisht të rinj që janë kokë e shpatulla mbi gjeneratat e mëparshme për sa i përket karakteristikave teknike.

Në të ardhmen e afërt, blogjet DNS do të paraqesin testimin e procesorit të ri në lojëra dhe programe të njohura, një rishikim të aftësive të mbingarkesës duke përdorur ftohjen e ajrit dhe një test të çipit grafik kundër kartave video diskrete buxhetore. Mos humbasë.

A është përfundimtare epërsia e Core i-së së parë (Nehalem dhe, në 2009, Westmere) ndaj CPU-ve rivale? Situata të kujton paksa vitin e parë pas daljes në treg të Pentium II: duke u mbështetur në dafinat e saj dhe duke marrë fitime rekord, do të ishte mirë të bënim një vazhdimësi të arkitekturës së suksesshme, pa ndryshuar shumë emrin e saj, duke shtuar të reja. përdorimi i të cilave do të përmirësojë ndjeshëm performancën, duke mos harruar risitë e tjera që përshpejtojnë programet e versioneve të sotme. Vërtetë, ndryshe nga situata 10 vjet më parë, duhet t'i kushtojmë vëmendje temës aktualisht në modë të efikasitetit të energjisë, të luajtur nga mbiemri i paqartë Cool - "cool" dhe "ftohtë" - dhe dëshirës jo më pak në modë për t'u integruar në procesor gjithçka që ekziston ende si e veçantë. Kjo është salca me të cilën shërbehet produkti i ri.

"Pardje", "dje" dhe "sot" të procesorëve Intel.


Përpara transportieri. Ngjyrat tregojnë lloje të ndryshme informacioni dhe blloqet që e përpunojnë ose ruajnë atë.

Parashikim

Le të fillojmë me njoftimin e Intel për një njësi plotësisht të ridizajnuar (BPU). Ashtu si në Nehalem, çdo cikël orësh (dhe përpara ekzekutimit aktual) ai parashikon adresën e pjesës së ardhshme prej 32 bajtësh të kodit në varësi të sjelljes së pritur të udhëzimeve të kërcimit në pjesën e sapo parashikuar - dhe, me sa duket, pavarësisht nga numri dhe lloji i tranzicioneve. Më saktësisht, nëse pjesa aktuale përmban një tranzicion të supozuar të shkaktuar, adresat e tij dhe të synuara lëshohen, përndryshe jepet një kalim në pjesën tjetër me radhë. Vetë parashikimet janë bërë edhe më të sakta për shkak të dyfishimit (BTB), zgjatjes (GBHR) dhe optimizimit të funksionit hash të aksesit (BHT). Vërtetë, testet aktuale kanë treguar se në disa raste efikasiteti i parashikimit është ende pak më i keq se në Nehalem. Ndoshta rritja e produktivitetit me uljen e konsumit nuk është në përputhje me parashikimin e tranzicionit me cilësi të lartë? Le të përpiqemi ta kuptojmë.

Në Nehalem (si dhe arkitektura të tjera moderne), BTB është i pranishëm në formën e një hierarkie me dy nivele - L1 i vogël-“i shpejtë” dhe L2 i madh-“i ngadalshëm”. Kjo ndodh për të njëjtën arsye pse ka disa nivele: një zgjidhje me një nivel do të jetë shumë kompromisi në të gjitha aspektet (madhësia, shpejtësia e përgjigjes, konsumi, etj.). Por në SB, arkitektët vendosën të vendosnin një nivel, dhe madhësia ishte dy herë më e madhe se L2 BTB e Nehalem, d.m.th., ndoshta të paktën 4096 qeliza - kjo është saktësisht sa ka në Atom. (Duhet të merret parasysh se madhësia e kodit të ekzekutuar më shpesh po rritet ngadalë dhe gjithnjë e më rrallë futet në cache, madhësia e së cilës është e njëjtë për të gjithë CPU-të Intel që nga Pentium M i parë.) Në teori, kjo do të rrisni zonën e zënë nga BTB, dhe meqenëse sipërfaqja totale do të ndryshojë nuk rekomandohet (ky është një nga postulatet fillestare të arkitekturës) - diçka do të duhet të hiqet nga një strukturë tjetër. Por ka edhe shpejtësi. Duke marrë parasysh që SB duhet të projektohet për një shpejtësi pak më të lartë me të njëjtin proces teknik, mund të pritet që kjo strukturë e madhe të jetë pengesa e të gjithë transportuesit - përveç nëse përçohet gjithashtu (dy janë tashmë të mjaftueshme). Vërtetë, numri i përgjithshëm i transistorëve që funksionojnë për cikël orësh në BTB do të dyfishohet, gjë që nuk kontribuon aspak në kursimin e energjisë. Përsëri rrugë pa krye? Për këtë, Intel i përgjigjet se BTB-ja e re ruan adresat në një lloj gjendje të ngjeshur, e cila ju lejon të keni dy herë më shumë qeliza me sipërfaqe dhe konsum të ngjashëm. Por ende nuk është e mundur të verifikohet kjo.

Le të shohim nga ana tjetër. SB mori jo algoritme të reja parashikimi, por optimizoi ato të vjetra: të përgjithshme, për tranzicione indirekte, sythe dhe kthime. Nehalem ka një GBHR 18-bit dhe një BHT me madhësi të panjohur. Megjithatë, mund të garantojmë që numri i qelizave në tabelë është më pak se 2 18, përndryshe do të zinte pjesën më të madhe të bërthamës. Prandaj, ekziston një funksion i veçantë hash që kolapson 18 bitet e historisë së të gjitha tranzicioneve dhe bitet e adresave të udhëzimeve në një indeks me një gjatësi më të shkurtër. Për më tepër, ka shumë të ngjarë, ka të paktën dy hash - për të gjitha bitet GBHR dhe për ato që pasqyrojnë ndezjen e tranzicioneve më të vështira. Dhe kështu efektiviteti i shpërndarjes kaotike të modeleve të ndryshme të sjelljes sipas indekseve mbi numrin e qelizave BHT përcakton suksesin e një parashikuesi të një lloji të përgjithshëm. Megjithëse nuk është thënë në mënyrë eksplicite, Intel sigurisht ka përmirësuar hash-et, duke lejuar që gjatësitë më të gjata GBHR të përdoren me efikasitet të barabartë mbushjeje. Por ju ende mund të merrni me mend për madhësinë e BHT - si dhe se si ka ndryshuar në të vërtetë konsumi i energjisë i parashikuesit në tërësi... Sa i përket (RSB), ai është ende me 16 adresa, por një kufizim i ri ka qenë prezantuar në vetë thirrjet - jo më shumë katër për 16 bajt kodi.

Para se të shkojmë më tej, le të flasim për një mospërputhje të lehtë midis teorisë së deklaruar dhe praktikës së vëzhguar - dhe tregoi se parashikuesi i ciklit në SB u hoq, si rezultat i të cilit bëhet parashikimi i kalimit përfundimtar në fillimin e ciklit. me një algoritëm të përgjithshëm, pra më keq. Një përfaqësues i Intel na siguroi se asgjë "më keq" nuk duhet të ndodhë, megjithatë...

Dekodimi dhe IDQ

Adresat e komandave të ekzekutuara të parashikuara paraprakisht (në mënyrë alternative për çdo thread - me teknologjinë e aktivizuar) lëshohen për të kontrolluar praninë e tyre në memoriet e komandës (L1I) dhe (L0m), por ne do të heshtim për këtë të fundit - do të përshkruajmë pjesën tjetër të pjesa e përparme tani për tani. Mjaft e çuditshme, Intel mbajti madhësinë e pjesës së komandave të lexuara nga L1I në 16 bajt (këtu fjala "pjesë" kuptohet sipas sonë). Deri më tani, kjo ka qenë një pengesë për kodin, madhësia mesatare e instruksionit të të cilit është rritur përtej 4 bajt, dhe për këtë arsye 4 instruksionet e dëshiruara për t'u ekzekutuar për cikël të orës nuk do të përshtaten më në 16 bajt. AMD e zgjidhi këtë problem në arkitekturën K10 duke zgjeruar pjesën e udhëzimeve në 32 bajt - megjithëse CPU-të e saj aktualisht nuk kanë më shumë se një tubacion me 3. Në SB, pabarazia e madhësisë çon në një efekt anësor: parashikuesi prodhon adresën tjetër të një blloku 32 bajt dhe nëse zbulon një tranzicion (me sa duket) shkrepjeje në gjysmën e tij të parë, atëherë nuk ka nevojë të lexohet dhe deshifrohet i dyti. - megjithatë, do të bëhet.

Nga L1I, pjesa shkon te paradekoderi dhe prej andej te vetë matësi i gjatësisë (), i cili përpunon deri në 7 ose 6 instruksione/cikël (me dhe pa; Nehalem mund të trajtonte maksimumi 6) në varësi të gjatësisë totale të tyre dhe kompleksiteti. Menjëherë pas tranzicionit, përpunimi fillon me komandën në adresën e synuar, përndryshe - me bajtin në të cilin paradekoderi ndaloi një cikël më parë. Në mënyrë të ngjashme me pikën përfundimtare: ose është (ndoshta) një tranzicion i shkaktuar, adresa e bajtit të fundit të të cilit erdhi nga BTB, ose bajtit të fundit të vetë pjesës - përveç nëse arrihet kufiri i 7 komandave/ciklit, ose nuk haset një komandë "i papërshtatshëm". Me shumë mundësi, buferi i matësit të gjatësisë ka vetëm 2-4 pjesë, por matësi i gjatësisë mund të marrë çdo 16 prej tij të njëpasnjëshme bajt. Për shembull, nëse në fillim të një pjese njihen 7 komanda me dy bajt, atëherë në ciklin tjetër të orës mund të përpunohen 16 bajtë të tjerë, duke filluar nga data 15.

Matësi i gjatësisë, ndër të tjera, zbulon çifte komandash të bashkuara makro. Do të flasim për vetë çiftet pak më vonë, por tani për tani le të vërejmë se, si në Nehalem, jo ​​më shumë se një çift i tillë mund të zbulohet çdo cikël orësh, megjithëse mund të shënohen maksimumi 3 prej tyre (dhe një tjetër komandë e vetme). Megjithatë, matja e gjatësisë së instruksioneve është një proces pjesërisht sekuencial, kështu që nuk do të ishte e mundur të përcaktohen disa çifte makrobashkimi gjatë një cikli ore.

Komandat e etiketuara përfundojnë në një nga dy komandat (IQ: radhë instruksionesh) - një për thread, 20 komanda secila (që është 2 më shumë se Nehalem). lexon në mënyrë të alternuar komandat nga radhët dhe i transferon ato në mops. Ai ka 3 të thjeshta (përkthen 1 komandë në 1 leckë, dhe me bashkim makro - 2 komanda në 1 leckë), një përkthyes kompleks (1 komandë në 1–4 uops ose 2 komanda në 1 leckë) dhe një mikrosekuencer për më kompleksin. komandat që kërkojnë 5 e më shumë leckë nga . Për më tepër, ruan vetëm "bishtat" e secilës sekuencë, duke filluar nga uop-ja e 5-të, sepse 4 të parat prodhohen nga një përkthyes kompleks. Për më tepër, nëse numri i uop-ve në mikroprogram nuk është i pjesëtueshëm me 4, atëherë katër të fundit të tyre do të jenë jo të plota, por nuk do të jetë e mundur të futen 1-3 uop të tjera nga përkthyesit në të njëjtin cikël. Rezultati i dekodimit shkon në dhe dy (një për rrjedhë). Këto të fundit (të quajtura zyrtarisht IDQ - radhë dekodimi instruksionesh, radhë komandash të deshifruara) kanë ende 28 uops dhe aftësinë për të bllokuar një lak nëse pjesa e tij e ekzekutueshme përshtatet atje.

E gjithë kjo (përveç cache-it të pastrimit) ishte tashmë në Nehalem. Cilat janë dallimet? Para së gjithash, gjë që është e qartë, dekoderi u mësua të përpunojë komanda të reja nëngrupe. Mbështetja për grupet SSE me të gjitha shifrat nuk është më befasuese dhe përshpejtimi i enkriptimit me anë të komandave (përfshirë PCLMULQDQ) u shtua në Westmere (versioni 32 nm i Nehalem). Ekziston një grackë: ky funksion nuk funksionon për komandat që kanë një adresim konstant dhe RIP-relativ (RIP-relative, një adresë në lidhje me treguesin e komandës - një mënyrë e zakonshme për të hyrë në të dhënat në kodin 64-bit). Komanda të tilla kërkojnë 2 module (ngarkim dhe funksionim të veçantë), që do të thotë se dekoderi nuk do të përpunojë më shumë se një prej tyre për cikël orësh, duke përdorur vetëm një përkthyes kompleks. Intel pretendon se këto sakrifica janë bërë për të kursyer energji, por nuk është e qartë se çfarë: vendosja e dyfishtë, ekzekutimi dhe uops do të marrin qartë më shumë burime, dhe për rrjedhojë do të konsumojnë më shumë energji se një.

Bashkimi makro është optimizuar - më parë, komanda e parë e bashkuar mund të ishte vetëm një krahasim aritmetik ose logjik (CMP ose TEST), por tani komandat e thjeshta aritmetike të mbledhjes dhe zbritjes (ADD, SUB, INC, DEC) dhe logjike "AND" janë lejohet, duke ndryshuar edhe për tranzicion (skuadra e dytë e çiftit). Kjo ju lejon të reduktoni 2 komandat e fundit në 1 leckë në pothuajse çdo cikël. Sigurisht, kufizimet në komandat e bashkuara mbeten, por ato nuk janë kritike, pasi situatat e listuara për një palë komandash ekzekutohen pothuajse gjithmonë:

  • i pari i udhëzimit të parë duhet të jetë një regjistër;
  • nëse operandi i dytë i instruksionit të parë është në memorie, adresimi relativ RIP nuk lejohet;
  • komanda e dytë nuk mund të jetë në fillim ose të kalojë një kufi të linjës.

Rregullat për vetë tranzicionin janë:

  • vetëm TEST dhe AND janë në përputhje me çdo kusht;
  • krahasimet me (jo) të barabarta dhe çdo shenjë janë të pajtueshme me çdo komandë të parë të lejuar;
  • Krahasimet me (jo) bartur dhe të panënshkruarit nuk janë në përputhje me INC dhe DEC;
  • Krahasimet e tjera (shenja, tejmbushja, barazia dhe mohimet e tyre) janë të vlefshme vetëm për TEST dhe DHE.

Ndryshimi kryesor në radhët uop është se uop-të e bashkuara të tipit , në të cilat qasja në memorie kërkon leximin e regjistrit të indeksit, (dhe disa lloje të tjera të rralla) ndahen në çifte kur shkruhen në IDQ. Edhe nëse ka 4 uop të tilla, të 8 gjithsej do të regjistrohen në IDQ. Kjo bëhet sepse radhët uop (IDQ), dispeçeri (ROB) dhe rezervimi përdorin tani një format të shkurtuar uop pa një fushë indeksi 6-bit (natyrisht, për të kursyer në lëvizjet e uops). Supozohet se raste të tilla do të jenë të rralla, dhe për këtë arsye shpejtësia nuk do të ndikohet shumë.

Ne do t'ju tregojmë më poshtë historinë e shfaqjes së modalitetit të bllokimit të lakut në këtë tampon, por këtu do të theksojmë vetëm një detaj të vogël: kalimi në fillim të ciklit zgjati më parë 1 cikël orësh shtesë, duke formuar një "flluskë". mes leximit të fundit dhe fillimit të ciklit, por tani ai është zhdukur. Megjithatë, katër uop-të e lexuara për cikël orësh nuk mund të përfshijnë ato të fundit nga përsëritja aktuale dhe të parat nga tjetra, kështu që në mënyrë ideale numri i uop-ve në një lak duhet të jetë saktësisht i pjesëtueshëm me 4. Pra, kriteret për ta bllokuar atë pothuajse nuk kanë ndryshuar:

  • Uop-et e ciklit duhet të gjenerohen nga jo më shumë se 8 pjesë 32-byte të kodit burimor;
  • këto pjesë duhet të ruhen në L0m (në Nehalem, natyrisht, në L1I);
  • Lejohen deri në 8 kalime të pakushtëzuara të parashikuara si të shkaktuara (përfshirë atë përfundimtar);
  • thirrjet dhe kthimet nuk lejohen;
  • Qasjet e paçiftuara në pirg nuk lejohen (më shpesh kur ka një numër të pabarabartë komandash PUSH dhe POP) - më shumë për këtë më poshtë.

Motori i pirgut

Ekziston edhe një mekanizëm tjetër, funksionimin e të cilit nuk e kemi marrë parasysh në artikujt e mëparshëm - gjurmuesi i treguesit të stivës, i vendosur përpara IDQ. Ajo u shfaq në Pentium M dhe nuk ka ndryshuar ende. Thelbi i tij është që modifikimi i treguesit të stivës (regjistri ESP/RSP për modalitetin 32/64-bit) me komanda për të punuar me të (PUSH, POP, CALL dhe RET) bëhet nga një grumbullues i veçantë, rezultati ruhet në një regjistër special dhe u kthye në uop si konstante - në vend që të modifikohet treguesi pas çdo komande, siç kërkohet dhe siç ishte rasti në CPU-të Intel përpara Pentium M.

Kjo ndodh derisa një komandë të hyjë drejtpërdrejt te treguesi (dhe në disa raste të tjera të rralla) - motori i stivit krahason treguesin hije me zero dhe, nëse vlera është jo zero, fut një uop sinkronizues në rrjedhën e uops përpara se komanda të thërrasë. treguesin, duke i shkruar treguesit vlerën aktuale nga regjistri special (dhe vetë regjistri është rivendosur). Për shkak se kjo është e nevojshme rrallë, shumica e thirrjeve të stivës që modifikojnë vetëm në mënyrë implicite treguesin përdorin një kopje hije të tij që modifikohet në të njëjtën kohë me operacionet e tjera. Kjo do të thotë, nga pikëpamja e blloqeve të tubacionit, udhëzime të tilla kodohen nga një uop i vetëm i bashkuar dhe nuk ndryshojnë nga akseset e zakonshme të memories, pa kërkuar përpunim në ALU.

Lexuesi i vëmendshëm (mirëmëngjes!) do të vërejë lidhjen: kur lidhni radhën e uop, thirrjet e paçiftuara në pirg janë të papranueshme pikërisht sepse motori i stivës ndodhet në tubacion përpara IDQ - nëse pas përsëritjes tjetër vlera e treguesit të hijes është jo zero, do t'ju duhet të futni një sinkromop në atë të ri, por kjo është e pamundur në modalitetin ciklik (shiftet lexohen vetëm nga IDQ). Për më tepër, motori i pirgut në përgjithësi fiket për të kursyer energji, si të gjitha pjesët e tjera të pjesës së përparme.

Jeta sekrete e nopsave

Një tjetër ndryshim është bërë në matësin e gjatësisë, por ky rast bie disi në sy. Së pari, le të kujtojmë se çfarë janë dhe pse janë të nevojshme. Njëherë e një kohë në arkitekturën x86 kishte vetëm një memorie 1 bajt. Kur ishte e nevojshme të zhvendosej kodi me më shumë se 1 bajt ose të zëvendësoheshin komanda më të gjata se 1 bajt, nop thjesht futej disa herë. Por pavarësisht faktit se kjo komandë nuk bën asgjë, koha ende shpenzohet për ta deshifruar atë, dhe në proporcion me numrin e hapave. Për t'u siguruar që performanca e programit "të arnuar" nuk vuan, nop mund të zgjatet. Sidoqoftë, në CPU-të e viteve '90, shkalla e deshifrimit të udhëzimeve me numrin e prefikseve mbi një vlerë të caktuar (e cila është shumë më e vogël se gjatësia maksimale e lejueshme e udhëzimeve x86 prej 15 bajt) ra ndjeshëm. Për më tepër, posaçërisht për nopa, prefiksi përdoret, si rregull, i të njëjtit lloj, por i përsëritur shumë herë, gjë që lejohet vetëm si një përjashtim i padëshirueshëm, duke ndërlikuar gjatësinë.

Për të zgjidhur këto probleme, duke filluar nga procesorët Pentium Pro dhe Athlon kuptojnë "nop-in e gjatë" me bajtin modR/M për të zgjatur "zyrtarisht" udhëzimin duke përdorur regjistra dhe zhvendosje adresash. Natyrisht, nuk ndodhin asnjë operacion me memorie dhe regjistra, por kur përcaktohet gjatësia, përdoren blloqet e njehsorit të gjatësisë së njëjtë si për udhëzimet e zakonshme shumëbajtëshe. Përdorimi i nyjeve të gjata tani rekomandohet zyrtarisht nga mësimet e nivelit të ulët të optimizimit të softuerit nga Intel dhe AMD. Meqë ra fjala, paradekoderi SB ka përgjysmuar (nga 6 në 3 cikle orësh) dënimin për prefikset 66 dhe 67, të cilat ndryshojnë gjatësinë e konstantës dhe kompensimin e adresës - por, si në Nehalem, dënimi nuk vendoset sipas udhëzimeve ku këto parashtesa në fakt nuk e ndryshojnë gjatësinë (për shembull, nëse prefiksi 66 aplikohet në një instruksion pa një operand të menjëhershëm) ose janë pjesë e një liste ndërprerësash (që shpesh përdoret në kodin vektorial).

Gjatësia maksimale e një nyje të gjatë të formatuar saktë nuk i kalon 9 bajt për Intel dhe 11 për AMD. Prandaj, për t'u lidhur me 16 ose 32 bajt, mund të ketë ende disa nyje. Megjithatë, duke qenë se kjo komandë është e thjeshtë, dekodimi dhe "ekzekutimi" i saj nuk do të marrë më shumë burime sesa përpunimi i komandave më të thjeshta të funksionimit. Prandaj, për shumë vite, testimi me këmbë të gjata ka qenë një metodë standarde për përcaktimin e parametrave të pjesës së përparme të një transportuesi, në veçanti, matësit të gjatësisë dhe dekoderit. Dhe këtu Sandy Bridge prezantoi një surprizë shumë të çuditshme: testimi i performancës së programeve të zakonshme nuk zbuloi ndonjë vonesë ose ngadalësim, por një kontroll rutinë sintetik i parametrave të dekoderit tregoi papritur se performanca e tij është e barabartë me një komandë për cikël orësh! Në të njëjtën kohë, Intel nuk dha asnjë njoftim zyrtar për ndryshime të tilla rrënjësore në dekoder.

Procedura e matjes funksionoi në mënyrë perfekte edhe në Nehalem dhe tregoi 4 të sakta. Ju mund të fajësoni Turbo Boost 2.0 të ri dhe "tepër" aktiv, i cili prish leximet e matura të orës, por për teste u çaktivizua. Mbinxehja me mbytje të ngadalësimit të frekuencës është gjithashtu e përjashtuar. Dhe kur arsyeja u zbulua më në fund, u bë edhe më e çuditshme: rezulton se nyjet e gjata në SB përpunohen vetëm nga përkthyesi i parë i thjeshtë, megjithëse nyjet 1-bajtë me çdo numër parashtesash dhe komanda të ngjashme "mosveprimi" (për shembull, kopjimi i një regjistri në vetvete) pranohen lehtësisht të katër. Pse u bë kjo nuk është e qartë, por të paktën një pengesë e një zgjidhjeje të tillë teknike tashmë është treguar qartë: ekipit tonë kërkimor iu deshën dhjetë ditë për të zbuluar arsyet e ngadalësisë misterioze të dekoderit... Si hakmarrje, ne kërkojuni tifozëve të flaktë të Kampit Përballë të nxjerrin një lloj teorie konspirative për planet tinzare të një kompanie të caktuar I. për të ngatërruar studiuesit trima naivë të procesorëve. :)

Nga rruga, siç doli, transmetuesi nr. 1 ishte tashmë "më i barabartë" ndër të tjerët. Në Nehalem, komandat e lëvizjes ciklike (ROL dhe ROR) me një operand konstant të qartë u dekoduan gjithashtu vetëm në përkthyesin e parë, dhe në të njëjtin cikël orësh i katërti u çaktivizua, kështu që vlera e IPC ra në 3. Duket - pse sillni një shembull kaq të rrallë këtu? Por pikërisht për këtë kapje, për të arritur shpejtësinë maksimale me algoritme hashing si SHA-1, nevojitej një plan urbanistik shumë i saktë instruksioni, të cilin përpiluesit nuk mund ta përballonin. Në SB, udhëzime të tilla thjesht u bënë 2-mode, kështu që, duke marrë një përkthyes kompleks (i cili tashmë është një), ata sillen pothuajse të padallueshëm për CPU-në, por më të parashikueshëm për njerëzit dhe përpiluesin. Me zhurmat ndodhi e kundërta. Up cache

Qëllimet dhe paraardhësit

Jo më kot e ndamë këtë kapitull nga pjesa tjetër e përshkrimit të pjesës së përparme - shtimi i cache uop tregon qartë rrugën që Intel ka zgjedhur për të gjithë procesorët e saj, duke filluar me Core 2. Ky i fundit, për herë të parë ( për Intel), shtoi një bllok që në të njëjtën kohë arriti në dy, me sa duket, qëllime kontradiktore: rritja e shpejtësisë dhe kursimi i energjisë. Bëhet fjalë për radhën e komandës (IQ) ndërmjet paradekoderit dhe dekoderit, i cili më pas ruante deri në 18 komanda me një gjatësi deri në 64 bajt në total. Nëse do të zbutej vetëm diferenca në shkallët e përgatitjes dhe dekodimit të komandave (si një tampon i rregullt), përfitimi do të ishte i vogël. Por Intel mendoi të bashkëngjitte një njësi të vogël LSD në IQ (nuk ka gjasa që djemtë të "pranonin" ndonjë gjë, ata thjesht kanë atë lloj humori) - Detektor i Rrjedhës Loop, "detektor i rrjedhës ciklike". Kur zbulohet një cikël që përshtatet në 18 instruksione, LSD çaktivizon të gjitha fazat e mëparshme (parashikuesin, cache L1I dhe paradekoder) dhe vendos në radhë udhëzimet për ciklin tek dekoderi derisa të përfundojë ose derisa të bëhet një kalim përtej kufijve të tij (thirrje dhe kthime nuk janë të pranueshme). Kjo kursen energji duke çaktivizuar blloqet boshe përkohësisht dhe rrit performancën për shkak të një fluksi të garantuar prej 4 komandash/cikli për dekoderin, edhe nëse ata ishin "të pajisur" me prefikset më të papërshtatshme.

Intel padyshim që i pëlqeu kjo ide, kështu që qarku u optimizua për Nehalem: IQ u kopjua (për dy fije), dhe midis dekoderit dhe dispeçerit (d.m.th., saktësisht në kufirin e pjesës së përparme dhe të pasme) dy radhë IDQ prej 28 uops secila u vendosën dhe njësia LSD u zhvendos tek ata. Tani, kur cikli është i bllokuar, dekoderi është gjithashtu i fikur dhe performanca është rritur, përfshirë për shkak të fluksit të garantuar të jo 4 komandave, por 4 uops për cikël orësh, edhe nëse gjenerimi i tyre është kryer me një minimum (për Bërthama 2/i) me një ritëm prej 2 mops/rrahje. Tifozët e tërbuar të Kampit Përballë, duke kërkuar për një sekondë nga argëtimi i tyre i preferuar, do të fusin menjëherë një kapëse flokësh: nëse LSD është një gjë kaq e mirë, pse nuk u ndërtua në Atom? Dhe truku është i drejtë - duke pasur një radhë me 32 mënyra pas dekoderit, Atom nuk di se si të bllokojë një cikël në të, gjë që do të ishte shumë e dobishme për të kursyer milivat të çmuar. Sidoqoftë, Intel nuk do të hiqte dorë nga ideja dhe përgatiti një përditësim për CPU-të e reja, dhe sa e mrekullueshme!

Emri zyrtar i brendshëm për cache uop është DSB (dekodimi i transmetimit buffer), megjithëse nuk është aq përshkrues sa termi i rekomanduar DIC (cache instruksioni i deshifruar). Mjaft e çuditshme, ai nuk zëvendëson, por plotëson radhët IDQ, të cilat tani janë të lidhura me dekoderin ose me një cache të ups. Gjatë parashikimit të degës tjetër, adresa e synuar kontrollohet njëkohësisht në memorien e instruksioneve dhe uop. Nëse e fundit funksionon, atëherë leximi i mëtejshëm vjen prej tij, dhe pjesa tjetër e përparme është e fikur. Kjo është arsyeja pse cache uop është cache e nivelit 0 për uops, d.m.th. L0m.

Është interesante se kjo ide mund të vazhdohet duke i quajtur memoriet e IDQ "minus nivelin e parë". :) Por a nuk është e tepërt një hierarki kaq komplekse në kuadrin e as të gjithë bërthamës, por vetëm në pjesën e përparme? Edhe nëse Intel, si përjashtim, nuk e ka kursyer hapësirën, por a do të sjellë një palë IDQ kursime shtesë të konsiderueshme, duke pasur parasysh se kur funksionojnë, vetëm cache UOP tani është i çaktivizuar, pasi pjesa tjetër e përparme (përveç parashikuesit ) është tashmë në gjumë? Dhe nuk do të keni as shumë rritje të shpejtësisë, pasi memoria e fshehtë uop është gjithashtu e konfiguruar për të gjeneruar 4 uops/cikël. Me sa duket, inxhinierët e Intel vendosën që një lojë me 3 nivele ia vlente qiri milivat.

Përveç kursimit, cache uop përshpejton performancën, duke përfshirë uljen e dënimit për parashikimin e rremë të degës: në Nehalem, kur u gjet kodi i saktë në L1I, dënimi ishte 17 cikle, në SB - 19, por nëse kodi ishte gjendet në L0m, atëherë vetëm 14. Për më tepër, këta janë numrat maksimalë: nëse një tranzicion parashikohet gabimisht, planifikuesi ende duhet të nisë dhe të përfundojë uop-et e mëparshme sipas rendit të programit, dhe gjatë kësaj kohe L0m mund të arrijë të pompojë uop-et e sakta në mënyrë që planifikuesi të ketë kohë për t'i nisur ato menjëherë pasi komandat të jenë lëshuar para tranzicionit. Në Nehalem, kjo teknikë funksionoi me IDQ dhe edge, por në rastin e parë probabiliteti që adresa e saktë e synuar do të jetë gjithashtu brenda një cikli 28-mop është shumë i vogël, dhe në rastin e dytë ngadalësia e skajit në shumicën e rasteve ndodhi. nuk lejon zvogëlimin e vonesës në zero. SB ka një shans më të mirë.

Pajisja

Topologjikisht, L0m përbëhet nga 32 8 rreshta (8- ). Çdo linjë ruan 6 uops (në të gjithë cache - 1536, d.m.th. "një kilomop e gjysmë"), dhe cache mund të shkruajë dhe lexojë një rresht për cikël orësh. Parashikuesi prodhon adresa të blloqeve 32-bajtë, dhe është kjo madhësi që funksionon për L0m, kështu që nën termin "pjesë" do të nënkuptojë një bllok kodi 32-bajtë të rreshtuar dhe të parashikuar si të ekzekutueshëm (dhe jo një 16-bajtë , sa i përket dekoderit). Gjatë dekodimit, kontrolluesi L0m pret që pjesa të përpunohet deri në fund ose derisa të aktivizohet tranzicioni i parë në të (natyrisht, me sa duket - këtu dhe më poshtë supozojmë se parashikimet janë gjithmonë të sakta), duke grumbulluar uops në të njëjtën kohë me dërgimin ato në pjesën e pasme. Pastaj rregullon pikat hyrëse dhe dalëse të porcionit, sipas sjelljes së tranzicioneve. Në mënyrë tipike, pika e hyrjes është adresa e synuar e tranzicionit të aktivizuar në pjesën e mëparshme (më saktë, 5 bitet e poshtme të adresës), dhe pika e daljes është adresa e vetë tranzicionit të aktivizuar në këtë pjesë. Si mjet i fundit, nëse nuk aktivizohet një tranzicion i vetëm në pjesën e mëparshme ose në atë aktual (d.m.th., pjesët jo vetëm që ekzekutohen, por ruhen edhe në një rresht), atëherë të dyja do të ekzekutohen në tërësinë e tyre - hyrja në ato do të jenë në modalitetin zero dhe bajt i parë i të parës përshtatet plotësisht në këtë pjesë të komandës, dhe dalja është në fshirjen e fundit të komandës së fundit plotësisht të përshtatur dhe bajtin e saj fillestar.

Nëse një pjesë përmban më shumë se 18 uops, ajo nuk ruhet në memorie të fshehtë. Kjo vendos madhësinë minimale mesatare të instruksionit (brenda një pjese) në 1.8 bajt, gjë që nuk do të jetë një kufizim serioz në shumicën e programeve. Ju mund të mbani mend pikën e dytë të kufizimeve IDQ - nëse një cikël përshtatet në një pjesë, por merr nga 19 në 28 uops, as cache L0m dhe as radha IDQ nuk do ta rregullojnë atë, megjithëse në madhësi do të përshtatej kudo. Sidoqoftë, në këtë rast, gjatësia mesatare e komandave duhet të jetë 1.1-1.7 bajt, gjë që është jashtëzakonisht e pamundur për dy duzina komandash me radhë.

Me shumë mundësi, uop-et e pjesëve shkruhen njëkohësisht në cache, duke zënë 1-3 rreshta të një grupi, kështu që për L0m shkelet një nga parimet kryesore të funksionimit të cache-it të grupit asociativ: zakonisht aktivizohet një rresht i grupit. Etiketat deri në tre rreshta mund të marrin menjëherë adresën e së njëjtës pjesë, që ndryshojnë vetëm në numra serialë. Kur adresa e parashikuar godet L0m, leximi ndodh në të njëjtën mënyrë - aktivizohen 1, 2 ose 3 shtigje të grupit të dëshiruar. Vërtetë, një skemë e tillë është e mbushur me të meta.

Nëse programi i ekzekutueshëm në të gjitha pjesët deshifrohet në 13-18 uops, të cilat do të marrin 3 rreshta L0m për të gjitha pjesët, do të zbulohet sa vijon: nëse grupi aktual është tashmë i zënë nga dy pjesë me 3 rreshta dhe një i tretë po përpiqet t'i shkruajë (që nuk do të mjaftojë për një rresht), do të duhet të zhvendosni një nga të vjetrat dhe duke marrë parasysh lidhjen e tij - të 3 të vjetrat. Kështu, më shumë se dy pjesë të kodit "të imët" nuk duhet të futen në grup. Gjatë testimit të këtij supozimi në praktikë, kjo është ajo që ndodhi: pjesë me ekipe të mëdha, që kërkonin më pak se 7 uops, u paketuan në L0m me numër 255 (për disa arsye nuk ishte e mundur të merrej një tjetër), duke përshtatur pothuajse 8 KB kod. Pjesët e mesme (7–12 uops) zinin të gjitha 128 pozicionet e mundshme (2 rreshta secila), duke ruajtur saktësisht 4 KB. Epo, komandat e vogla përshtaten në 66 pjesë, që është dy më shumë se vlera e pritur (2112 bajt kundrejt 2048), e cila me sa duket shpjegohet nga efektet kufitare të kodit tonë të testimit. Mungesa është e dukshme - nëse 256 linja 6-op mund të plotësohen plotësisht, ato do të mjaftonin për 85 treshe të plota me një madhësi totale të kodit prej 2720 bajt.

Ndoshta Intel nuk pret që në disa kode të ketë kaq shumë komanda të shkurtra dhe të thjeshta sa më shumë se 2/3 e tyre do të jenë në pjesë me 3 rreshta, të cilat do ta detyrojnë njëri-tjetrin të dalin nga L0m më herët se ç'duhet. Dhe edhe nëse haset një kod i tillë, duke pasur parasysh thjeshtësinë e dekodimit të tij, blloqet e mbetura të pjesës së përparme mund të përballojnë lehtësisht detyrën e furnizimit të 4 uops/ciklit të nevojshëm për pjesën e pasme (megjithëse pa kursimet e premtuara në vat dhe ciklet e penalltisë për parashikim të rremë). Është kurioze që nëse L0m do të kishte 6 shtigje, problemi nuk do të lindte. Intel vendosi që të kesh një madhësi cache një të tretën më të madhe pikërisht për shkak të asociativitetit është më e rëndësishme...

Dimensionet

Le të kujtojmë se ideja për të ruajtur një numër të madh uops në vend të komandave x86 nuk është e re. Ai u shfaq për herë të parë në Pentium 4 në formën e një cache të gjurmëve uop - sekuenca të uops pas zbërthimit të lakut. Për më tepër, cache-i i gjurmës nuk plotësoi, por zëvendësoi L1I që mungonin - komandat për dekoderin u lexuan menjëherë nga . Pavarësisht harresës së arkitekturës NetBurst, është e arsyeshme të supozohet se inxhinierët e Intel-it kanë përdorur përvojën e kaluar, ndonëse pa hapje të ciklit dhe një parashikues të dedikuar për cache. Le të krahasojmë zgjidhjet e vjetra dhe të reja (CPU-të e reja quhen këtu Core i 2, sepse numrat e pothuajse të gjitha modeleve me arkitekturë SB fillojnë me dy):

* - me sa duket

Këtu duhen disa sqarime. Së pari, xhiroja për L0m specifikohet duke marrë parasysh kufizimin e përgjithshëm të gjerësisë së transportuesit prej 4 uopas. Më lart supozuam se L0m mund të lexojë dhe të shkruajë 18 uops për cikël orësh. Sidoqoftë, kur lexoni, të 18-të (nëse kishte saktësisht kaq shumë prej tyre gjatë deshifrimit të pjesës origjinale) nuk mund të dërgohen në një cikël orësh, dhe dërgimi ndodh në disa cikle ore.

Më tej, madhësia e leckës në copa në përgjithësi i referohet informacionit shumë të ndjeshëm që prodhuesit ose nuk i japin fare, ose vetëm kur shtypen pas murit (thonë se ju tashmë keni llogaritur gjithçka, kështu qoftë - ne do ta konfirmojmë) . Për CPU-të Intel, shifra e fundit e njohur me besueshmëri është 118 bit për Pentium Pro. Është e qartë se madhësia është rritur që atëherë, por këtu fillon hamendja. 118 bit për një CPU 32-bit x86 mund të merren nëse lecka ka fusha për adresën e instruksionit që e ka gjeneruar atë (32 bit), operandin e menjëhershëm (32 bit), kompensimin e adresës (32 bit), operandët e regjistrit (3 x 3 bit + 2 bit për shkallë për regjistrin e indeksit) dhe opcode (11 bit në të cilët kodohet një version specifik i komandës x86, duke marrë parasysh prefikset). Pas shtimit të , dhe SSE2, fusha e kodit optik ndoshta u rrit me 1 bit, pra numri 119.

Pas kalimit në (Prescott dhe më gjerë), në teori, të gjitha fushat 32-bit duhet të rriten në 64 bit. Por ka disa hollësi këtu: konstantet 64-bit në x86-64 lejohen vetëm një nga një (d.m.th., të dyja konstantat në komandë definitivisht nuk do të marrin më shumë se 8 bajt), dhe atëherë dhe tani ato ende bëjnë me 48 bit. Pra, për të rritur madhësinë e uop kërkohet vetëm 16 bit adresash dhe 3 bit shtesë të numrave të regjistrit (nga të cilët janë 16) - marrim (afërsisht) 138 bit. Epo, në SB UOP me sa duket është rritur me 1 bit tjetër për shkak të shtimit të disa qindra komandave të tjera që nga P4 e fundit, dhe me 8 të tjera - për shkak të rritjes së numrit maksimal të regjistrave të specifikuar në mënyrë eksplicite në një komandë në 5 ( kur përdorni AVX). Kjo e fundit, megjithatë, është e dyshimtë: që nga koha, imagjinoni, asnjë i386 i vetëm nuk është shtuar në arkitekturën x86 i ri një komandë që kërkon të paktën 4 bajt konstante (me të vetmin përjashtim të fundit dhe jashtëzakonisht delikat në SSE4.a të AMD, të cilin edhe shumica e programuesve nuk e dinë). Dhe meqenëse Intel AVX dhe AMD kanë përditësuar kodimin vetëm të udhëzimeve vektoriale, pjesët e numrave të regjistrave shtesë do të përshtaten në gjysmën e lartë të fushës së operandit të menjëhershëm 32-bit pjesërisht të papërdorur (për këto udhëzime). Për më tepër, në vetë instruksionin x86, regjistri i 4-të ose i 5-të është i koduar me vetëm katër bit konstante.

Natyrisht, ruajtja dhe transportimi i "përbindëshave" të tillë në çdo sasi të madhe është shumë i shtrenjtë. Prandaj, edhe për P4, Intel doli me një version të shkurtuar të uop, në të cilin ka vetëm një fushë për të dy konstantat, dhe nëse ato nuk përshtaten atje, atëherë bitet që mungojnë vendosen në të njëjtën fushë të uop-së ngjitur. . Megjithatë, nëse tashmë ruan konstantet e tij atje, atëherë duhet të fusë nop-in si fqinj si dhurues-bartës i biteve shtesë. Vazhdimësia e kësaj skeme vërehet edhe në SB: nyjet shtesë nuk futen, por komandat me konstante 8 bajt (ose me shumën e madhësive të një konstante dhe një zhvendosje adrese prej 5-8 bajt) kanë një madhësi të dyfishtë në L0m. Megjithatë, duke pasur parasysh gjatësinë e komandave të tilla, më shumë se 4 prej tyre nuk do të përshtaten në një pjesë, kështu që kufizimi në uops të zëna nuk është qartësisht kritik. Sidoqoftë, ne theksojmë: SB, ndryshe nga CPU-të e mëparshme, ka deri në 3 formate uop - të dekodueshëm (më i kompletuari), i ruajtur në cache uop (me reduktim të vazhdueshëm) dhe ai kryesor (pa një fushë të regjistrit të indeksit), i përdorur më tej. në tubacion. Megjithatë, shumica e leckës kalojnë të paprekura nga dekodimi në pension.

Kufizimet

"Rregullat për përdorimin e cache" nuk përfundojnë me formatin e veçantë të leckës. Natyrisht, një bllok i tillë i përshtatshëm si L0m nuk mund të ishte plotësisht pa kufizime të një shkalle ose një tjetër, për të cilën nuk na u tha në materialet promovuese. :) Le të fillojmë me faktin se të gjitha uop-të e komandës së përkthyer duhet të përshtaten në një rresht, përndryshe ato transferohen në tjetrën. Kjo mund të shpjegohet me faktin se adresat e uops të linjës ruhen veçmas (për të ruajtur 48 bit në secilën uop), dhe të gjitha uop-të e gjeneruara nga një komandë duhet të korrespondojnë me adresën e bajtit të saj të parë, të ruajtur në etiketën e vetëm njërit. linjë. Për të rivendosur adresat origjinale, gjatësitë e komandave që gjeneruan uops ruhen në etiketa. "Intoleranca" e uops prish disi efektivitetin e përdorimit të L0m, pasi komandat e hasura herë pas here që gjenerojnë disa uops kanë një shans të konsiderueshëm për të mos futur në rreshtin tjetër.

Për më tepër, leckat e komandave më komplekse ruhen ende në ROM me mikrokod, dhe vetëm 4 uop-të e para të sekuencës, plus një lidhje me vazhdimin, përfshihen në L0m, në mënyrë që gjithçka së bashku të zërë një rresht të tërë. Nga kjo rrjedh se jo më shumë se tre komanda mikrokodi mund të ndodhin në një pjesë, dhe duke pasur parasysh madhësinë mesatare të komandës, kufiri më i mundshëm do të ishte dy. Në realitet, megjithatë, ato hasen shumë më rrallë.

Një pikë tjetër e rëndësishme - L0m nuk ka të vetin. Duket se kjo duhet të përshpejtojë verifikimin e adresave (të cilat janë vetëm virtuale) dhe të reduktojë konsumin e energjisë. Por gjithçka është shumë më interesante - nuk është më kot që kanë të gjitha memoriet moderne. Hapësirat e adresave virtuale të programeve të ekzekutuara në OS mund të mbivendosen, kështu që kur ndërroni kontekstin e detyrës, në mënyrë që të mos lexoni të dhëna të vjetra ose kode në të njëjtat adresa, cache praktikisht e adresueshme duhet të rivendoset (kjo është pikërisht ajo që ndodhi me P4 gjurmë cache). Sigurisht, efektiviteti i tij do të jetë i ulët. Disa arkitektura përdorin të ashtuquajturat. ASID (identifikuesi i hapësirës së adresës) janë numra unikë të caktuar nga sistemi operativ për çdo thread. Sidoqoftë, x86 nuk e mbështet ASID si të panevojshëm - duke pasur parasysh praninë e etiketave fizike për të gjitha cache. Por më pas erdhi L0m dhe prishi pamjen. Për më tepër, mbani mend se cache uop, si shumica e burimeve të kernelit, ndahet midis dy thread-ve, kështu që do të përmbajë uops nga programe të ndryshme. Dhe nëse shtoni kalimin midis OS-ve virtuale në modalitetin e duhur, atëherë modalitetet e dy programeve mund të përputhen në adresë. Çfarë duhet bërë?

Problemi me fijet zgjidhet thjesht - L0m thjesht ndahet përgjysmë nëpër grupe, në mënyrë që numri i fillit të japë pjesën më të rëndësishme të numrit të grupit. Përveç kësaj, L1I ka një politikë ruajtjeje në lidhje me L0m. Prandaj, kur kodi hiqet nga L1I, uop-et e tij hiqen gjithashtu nga L0m, gjë që kërkon kontrollimin e dy pjesëve ngjitur (madhësia e linjës së të gjitha cache-ve të CPU-ve moderne, pa llogaritur vetë L0m, është 64 bajt). Kështu, adresa virtuale nga uop-et e ruajtura mund të kontrollohet gjithmonë në etiketat L1I duke përdorur TLB-në e saj. Rezulton se megjithëse L0m ka adresim virtual, ai huazon etiketat fizike për kodin nga L1I. Sidoqoftë, ekziston një situatë në të cilën L0m është rivendosur plotësisht - dhe zëvendësimi në L1I TLB, si dhe rivendosja e plotë e tij (përfshirë kur ndërroni mënyrat e funksionimit të CPU). Për më tepër, L0m është plotësisht i çaktivizuar nëse adresa bazë e përzgjedhësit të kodit (CS) nuk është zero (gjë që është jashtëzakonisht e pamundur në OS-të moderne).

Punë

Sekreti kryesor i cache uop është një algoritëm që zëvendëson punën e pjesës së përparme në përpunimin e komandave në uops me lexime nga L0m. Fillon me faktin se gjatë tranzicionit të ardhshëm, L0m përdor bitet 5–9 të adresës së objektivit të tranzicionit për të zgjedhur një grup (ose bit 5–8 plus numrin e fillit - me 2 fije). Etiketat e grupit tregojnë pikën e hyrjes në porcion, modalitetet e së cilës shkruhen në rreshtin që korrespondon me etiketën dhe numrin serial të kësaj rreshti brenda pjesës. Mund të përputhen 1–3 rreshta, të cilat (ka shumë të ngjarë) lexohen njëkohësisht në një tampon 18 fshirëse. Prej aty, leckat dërgohen në katër në IDQ derisa të arrihet pika e daljes - dhe gjithçka përsëritet përsëri. Për më tepër, kur 1–3 uop-të e fundit në një pjesë mbeten të padërguara, ato dërgohen me 3–1 uop-t e para të pjesës së re, duke bërë një total prej katër të zakonshme. Kjo do të thotë, nga pikëpamja e radhës marrëse IDQ, të gjitha tranzicionet zbuten në një rrjedhë uniforme të kodit - si në P4, por pa një cache gjurmë.

Dhe tani një pikë interesante - jo më shumë se dy kalime lejohen në një rresht, dhe nëse njëri prej tyre është i pakushtëzuar, atëherë do të jetë i fundit për rreshtin. Lexuesi ynë i vëmendshëm do të kuptojë se për të gjithë porcionin lejohet të ketë deri në 6 kalime të kushtëzuara (secila prej të cilave mund të funksionojë pa qenë pikë daljeje), ose 5 të kushtëzuara dhe 1 të pakushtëzuar, që do të jetë komanda e fundit e pjesës. Parashikuesi i degës në CPU Intel është projektuar në mënyrë që të mos vërejë një degë të kushtëzuar derisa të ndizet të paktën një herë, dhe vetëm atëherë do të parashikohet sjellja e tij. Por edhe tranzicionet "të përjetshme" janë gjithashtu subjekt i kufizimeve. Në fakt, kjo do të thotë se lejohet të përfundojë ekzekutimi i pjesës uops dhe përpara pikat e saj të daljes.

Por një mashtrim i ngjashëm me hyrje të shumta nuk do të funksionojë - nëse ndodh një tranzicion në një pjesë të ruajtur tashmë, por me një zhvendosje të ndryshme në të (për shembull, kur ka më shumë se një tranzicion të pakushtëzuar), atëherë L0m regjistron gabimin, ndizet pjesën e përparme dhe i shkruan uop-et e marra në një pjesë të re. Kjo do të thotë, kopjet lejohen në cache për pjesët me hyrje të ndryshme dhe të njëjtat, dalje të njohura saktësisht (përveç disa të tjerave të mundshme). Dhe kur kodi zhvendoset nga L1I në L0m, të gjitha linjat pikat e hyrjes së të cilave bien në cilindo nga 64 bajt të dy pjesëve fshihen. Nga rruga, kopjet ishin gjithashtu të mundshme në cache-in e gjurmëve P4, dhe ato ulën ndjeshëm efikasitetin e ruajtjes së kodit ...

Kufizime të tilla reduktojnë disponueshmërinë e hapësirës L0m. Le të përpiqemi të llogarisim se sa prej saj mbetet për përdorim aktual. Madhësia mesatare e instruksionit x86-64 është 4 bajt. Numri mesatar i leckës për ekip është 1.1. Kjo do të thotë, ka shumë të ngjarë të ketë 8-10 leckë për porcion, që është 2 rreshta. Siç është llogaritur më parë, L0m do të jetë në gjendje të ruajë 128 çifte të tilla, e cila është e mjaftueshme për 4 KB kod. Megjithatë, duke pasur parasysh përdorimin jo ideal të vargjeve, numri real ndoshta do të jetë 3–3,5 KB. Pyes veten se si përshtatet kjo në bilancin e përgjithshëm të vëllimeve të nënsistemit të cache?

  • 1 (në fakt pjesë e L3, mesatarisht për bërthamë) - 2 MB;
  • L2 - 256 KB, 8 herë më pak;
  • të dyja L1 - 32 KB secila, 8 herë më pak;
  • Vëllimi i memorizuar në L0m është afërsisht 10 herë më pak.

Është kurioze që nëse gjeni një strukturë tjetër në kernel që ruan shumë komanda ose uops, atëherë do të rezultojë të jetë radha e dispeçerit ROB, e cila mund të strehojë 168 uops, të krijuara nga afërsisht 650-700 bajt kod, që është 5. herë më pak se vëllimi efektiv ekuivalent L0m (3– 3,5 KB) dhe 9 herë më pak se ai i plotë (6 KB). Kështu, cache uop plotëson hierarkinë e rregullt të depove të ndryshme të kodeve me parametra të ndryshëm, por të balancuar mirë. Intel pretendon se mesatarisht 80% e goditjeve bien në L0m. Kjo është dukshëm më e ulët se shifra 98–99% për një cache 32 KB L1I, por megjithatë, në katër nga pesë raste, cache uop justifikon praninë e saj.

Rishikimi i detajuar i tij është në faqen tonë të internetit (megjithatë, mbështetja për gjendjen e gjumit të thellë C6 dhe memorien LV-DDR3 me tension të ulët u shfaq vetëm në Westmere). Çfarë u shfaq në SB?

Së pari, lloji i dytë i sensorëve të temperaturës. Një diodë termike konvencionale, leximet e së cilës "shihen" nga BIOS-i dhe shërbimet, mat temperaturën për të rregulluar shpejtësinë e ventilatorit dhe për të mbrojtur nga mbinxehja (nga mbytja e frekuencës dhe, nëse kjo nuk ndihmon, një mbyllje emergjente e CPU-së) . Sidoqoftë, zona e saj është shumë e madhe, sepse ka vetëm një prej tyre në secilën bërthamë (përfshirë GPU) dhe në agjentin e sistemit. Këtyre, në çdo bllok të madh, u shtohen disa qarqe kompakte analoge me transistorë termikë. Ato kanë një gamë më të vogël matëse funksionimi (80–100 °C), por nevojiten për të sqaruar të dhënat e diodës termike dhe për të ndërtuar një hartë të saktë të ngrohjes kristalore, pa të cilën nuk mund të zbatohen funksionet e reja të TB 2.0. Për më tepër, kontrolluesi i energjisë mund të përdorë edhe një sensor të jashtëm nëse prodhuesi i motherboard vendos dhe lidh një të tillë - megjithëse nuk është plotësisht e qartë se si do të ndihmonte kjo.

Është shtuar një funksion për rinumërimin e gjendjeve C, për të cilin historia e tranzicioneve ndërmjet tyre gjurmohet për çdo bërthamë. Tranzicioni zgjat më shumë, aq më i madh është "numri i gjumit" në të cilin hyn ose del bërthama. Kontrolluesi përcakton nëse ka kuptim të vihet thelbi në gjumë, duke marrë parasysh mundësinë e "zgjimit" të tij. Nëse një pritet së shpejti, atëherë në vend të atij të kërkuar nga OS, bërthama do të transferohet në C3 ose C1, përkatësisht, d.m.th., në një gjendje më aktive që do të bëhet shpejt funksionale. Mjaft e çuditshme, pavarësisht nga konsumi më i lartë i energjisë në një gjumë të tillë, kursimet e përgjithshme mund të mos pësojnë, pasi të dyja periudhat e tranzicionit gjatë të cilave procesori nuk fle fare janë shkurtuar.

Për modelet celulare, transferimi i të gjitha bërthamave në C6 bën që cache L3 të rivendoset dhe çaktivizohet duke përdorur çelësat e energjisë të zakonshme për bankat. Kjo do të zvogëlojë më tej konsumin gjatë kohës së papunë, por është e mbushur me vonesë shtesë pas zgjimit, pasi bërthamat do të duhet të humbasin L3 disa qindra ose mijëra herë ndërsa të dhënat dhe kodi i nevojshëm pompohen atje. Natyrisht, në kombinim me funksionin e mëparshëm, kjo do të ndodhë vetëm nëse kontrolluesi është absolutisht i sigurt që CPU bie në gjumë për një kohë të gjatë (sipas standardeve të kohës së procesorit).

Core i3/i5 i gjeneratës së mëparshme ishin një lloj mbajtës rekord për sa i përket kërkesave të kompleksitetit të sistemit energjetik të CPU në motherboard, duke kërkuar deri në 6 tensione - më saktë, të 6 ishin atje më parë, por jo të gjitha. shkoi te procesori. Në SB ata ndryshuan jo nga numri, por nga përdorimi:

  • bërthamat x86 dhe L3 - 0,65–1,05 V (në Nehalem L3 është i ndarë);
  • GPU - në mënyrë të ngjashme (në Nehalem pothuajse e gjithë ura veriore, e cila, le të kujtojmë, ishte çipi i dytë i CPU-së atje, mundësohet nga një autobus i zakonshëm);
  • një agjent sistemi në të cilin frekuenca është fikse dhe voltazhi është konstant 0,8, 0,9 ose 0,925 V (dy opsionet e para janë për modelet e lëvizshme), ose i rregullueshëm në mënyrë dinamike 0,879-0,971 V;
  • - konstante 1,8 V ose e rregullueshme 1,71–1,89 V;
  • shoferi i autobusit të kujtesës - 1,5 V ose 1,425–1,575 V;
  • Drejtues PCIe - 1,05 V.

Versionet e rregulluara të shinave të fuqisë përdoren në versionet SB të shkyçura me shkronjën K. Në modelet e desktopit, frekuenca e papunësisë së bërthamave x86 rritet nga 1.3 në 1.6 GHz, me sa duket pa sakrifikuar kursimet. Në të njëjtën kohë, një CPU me 4 bërthama konsumon 3,5–4 W kur është plotësisht i papunë. Versionet celulare janë të papunë në 800 MHz dhe kërkojnë edhe më pak. Modele dhe çipa

Performanca

Çfarë bën ky kapitull si një pasqyrë teorike e mikroarkitekturës? Dhe fakti është se ekziston një test i pranuar përgjithësisht që është përdorur për 20 vjet (në versione të ndryshme) për të vlerësuar jo teorinë, por shpejtësinë e arritshme të softuerit të kompjuterëve - SPEC CPU. Ai mund të vlerësojë në mënyrë gjithëpërfshirëse performancën e procesorit, dhe në rastin më të mirë për të - kur kodi burimor i testeve përpilohet dhe optimizohet për sistemin nën testim (d.m.th., përpiluesi me biblioteka gjithashtu kontrollohet kalimthi). Kështu, e dobishme programet do të jenë më të shpejta vetëm me inserte të shkruara me dorë në gjuhën e asamblesë, gjë që është diçka që vetëm disa programues të guximshëm e bëjnë sot me shumë kohë për të lënë. SPEC mund të klasifikohet si teste gjysmë sintetike, pasi nuk llogarit asgjë të dobishme dhe nuk jep ndonjë numër specifik (IPC, flops, kohëzgjatje, etj.) - "papagajtë" e një CPU nevojiten vetëm për krahasim me të tjerët.

Intel zakonisht lëshon rezultatet për CPU-të e tij pothuajse sapo ato lëshohen. Por ka pasur një vonesë të pakuptueshme 3-mujore me SB, dhe shifrat e marra në mars janë ende paraprake. Çfarë saktësisht i pengon ata është e paqartë, por kjo është akoma më e mirë se situata me AMD, e cila nuk publikoi fare rezultatet zyrtare të CPU-ve të saj të fundit. Shifrat e mëposhtme për Opteron janë nga prodhuesit e serverëve që përdorin përpiluesin Intel, kështu që këto rezultate mund të jenë nën optimizuar: Çfarë Mjetet e softuerit Intel mund të bëjnë me kodin që funksionon në një CPU "të huaj", . ;)


Krahasimi i sistemeve në testet SPEC CPU2006. Tabela e përpiluar nga David Kanter bazuar në të dhënat e Marsit 2011.

Në krahasim me CPU-të e mëparshme, SB tregon rezultate të shkëlqyera (fjalë për fjalë) në ato absolute dhe madje edhe rekorde për çdo bërthamë dhe gigahertz. Aktivizimi i HT dhe shtimi i 2MB në L3 jep +3% shpejtësi reale dhe +15% shpejtësi numër i plotë. Sidoqoftë, modeli me 2 bërthama ka shpejtësinë më të lartë specifike, dhe ky është një vëzhgim udhëzues: padyshim, Intel përdori AVX, por meqenëse fitimet e numrave të plotë nuk mund të arrihen ende, mund të presim një përshpejtim të mprehtë vetëm të treguesve realë. Por as për ta nuk ka kërcim, siç tregon krahasimi i modeleve me 4 bërthama - dhe rezultatet për i3-2120 zbulojnë arsyen: duke pasur të njëjtat 2 kanale ICP, secila bërthamë merr dyfishin e brezit të memories, gjë që reflektohet në një rritje prej 34 për qind në shpejtësinë reale specifike. Me sa duket, cache 6–8 MB L3 është shumë e vogël dhe shkallëzimi i PS-së së vet duke përdorur autobusin e ziles nuk ndihmon më. Tani është e qartë pse Intel planifikon të pajisë serverët Xeon me ICP me 3 dhe madje 4 kanale. Vetëm 8 bërthamat atje nuk janë të mjaftueshme për të zhvilluar plotësisht ...

Shtim: Rezultatet përfundimtare të SB janë shfaqur - numrat (siç pritej) janë rritur pak, por përfundimet cilësore janë të njëjta. Perspektivat dhe rezultatet

Dihet shumë për pasardhësin 22 nanometër të Sandy Bridge, i quajtur Ivy Bridge, i cili do të dalë në pranverën e vitit 2012. Bërthamat për qëllime të përgjithshme do të mbështesin një nëngrup paksa të përditësuar të AES-NI; Është mjaft e mundur të kopjoni regjistrat "falas" në fazën e riemërtimit. Nuk priten përmirësime në Turbo Boost, por GPU (i cili, nga rruga, do të funksionojë në të gjitha versionet e çipit) do të rrisë numrin maksimal të FU-ve në 16, do të mbështesë lidhjen jo të dy, por tre ekraneve dhe më në fund do të fitoni mbështetje normale për OpenCL 1.1 (së bashku me DirectX 11 dhe OpenGL 3.1) dhe do të përmirësojë aftësitë e përpunimit të videos në harduer. Me shumë mundësi, në modelet desktop dhe celular, IKP do të mbështesë një frekuencë prej 1600 MHz, dhe kontrolluesi PCIe do të mbështesë versionin 3.0 të autobusit. Risia kryesore teknologjike është se cache L3 do të përdorë (për herë të parë në prodhimin masiv mikroelektronik!) tranzistorë me një portë porta me shumë anë të vendosura vertikalisht (FinFET), të cilët kanë përmirësuar rrënjësisht karakteristikat elektrike (detajet në një nga versionet e ardhshme artikuj). Ka zëra se versionet GPU do të bëhen përsëri me shumë çipa, vetëm këtë herë ata do të shtojnë një ose më shumë kristale të shpejtë të memories video në procesor.

Ivy Bridge do të lidhet me çipa të rinj (d.m.th. urat e jugut) të serisë 70: Z77, Z75 dhe H77 për shtëpinë (duke zëvendësuar Z68/P67/H67) dhe Q77, Q75 dhe B75 për zyrë (në vend të Q67/Q65/B65). Ajo(d.m.th. çipi fizik me emra të ndryshëm) do të ketë ende jo më shumë se dy porte SATA 3.0 dhe mbështetja USB 3.0 më në fund do të shfaqet, por një vit më vonë se konkurrenti. Mbështetja e integruar PCI do të zhduket (pas 19 vitesh autobusi është koha për të dalë në pension), por kontrolluesi i nënsistemit të diskut në Z77 dhe Q77 do të marrë teknologjinë Smart Response për të rritur performancën duke ruajtur disqet në memorie duke përdorur SSD. Megjithatë, lajmi më emocionues është se pavarësisht e vjetër e mirë tradicionale, versionet desktop të Ivy Bridge jo vetëm që do të vendosen në të njëjtën fole LGA1155 si SB, por gjithashtu do të jenë të pajtueshme me to - d.m.th., bordet moderne do të përshtaten gjithashtu me CPU-në e re.

Epo, për entuziastët, tashmë në tremujorin e 4-të të këtij viti, do të jetë gati një çip shumë më i fuqishëm X79 (për SB-E 4–8 bërthama për prizën "server-ekstreme" LGA2011). Nuk do të ketë ende USB 3.0, por tashmë do të ketë 10 nga 14 porte SATA 3.0 (plus mbështetje për 4 lloje RAID), dhe 4 nga 8 korsi PCIe mund të lidhen me CPU-në paralelisht me DMI, duke dyfishuar CPU-në lidhje chipset. Fatkeqësisht, X79 nuk do të përshtatet Ivy Bridge me 8 bërthama.

Si një përjashtim (dhe ndoshta një rregull i ri), ne nuk do të ofrojmë një listë të asaj që do të dëshironim të përmirësonim dhe rregullojmë në Sandy Bridge. Tashmë është e qartë se çdo ndryshim është një kompromis kompleks - rreptësisht sipas ligjit të ruajtjes së materies (siç është formuluar nga Lomonosov): nëse diçka ka mbërritur diku, atëherë diku e njëjta sasi do të humbasë. Nëse Intel nxitonte të korrigjonte gabimet e të vjetrës me çdo arkitekturë të re, atëherë numri i drurit të thyer dhe patate të skuqura fluturuese mund të tejkalojë përfitimet e marra. Prandaj, në vend të ekstremeve dhe një ideali të paarritshëm, është më fitimprurëse ekonomikisht të kërkosh një ekuilibër midis kërkesave që ndryshojnë vazhdimisht dhe ndonjëherë edhe të kundërta.

Pavarësisht disa pikave, arkitektura e re jo vetëm që duhet të shkëlqejë shkëlqyeshëm (gjë që, duke gjykuar nga testet, e bën), por edhe të shkëlqejë më shumë se të gjitha të mëparshmet - si të sajën ashtu edhe të rivalit të saj. Qëllimet e shpallura të performancës dhe ekonomisë janë arritur, me përjashtim të optimizimit për grupin AVX, i cili do të shfaqet në versionet e reja të programeve të njohura. Dhe atëherë Gordon Moore do të befasohet edhe një herë nga largpamësia e tij. Me sa duket, Intel është plotësisht i përgatitur për betejën epike mes arkitekturave që do të shohim këtë vit.

Mirënjohja shprehet për:

  • Maxim Loktyukhin, i njëjti "përfaqësues i Intel", punonjës i departamentit të optimizimit të softuerit dhe harduerit - për përgjigjet e pyetjeve të shumta sqaruese.
  • Mark Buxton, Inxhinier kryesor i Softuerit dhe Shef i Optimizimit, për përgjigjet e tij, si dhe mundësinë për të marrë një lloj përgjigjeje zyrtare.
  • Agner Fog, programues dhe studiues i procesorit - për testimin e pavarur të nivelit të ulët të SB, i cili zbuloi shumë gjëra të reja dhe misterioze.
  • Për lexuesin e vëmendshëm - për vëmendje, këmbëngulje dhe gërhitje me zë të lartë.
  • Për tifozët e zjarrtë të Kampit Përballë, është një shpërthim.

Më në fund, Intel ka njoftuar zyrtarisht procesorë të rinj që funksionojnë në një mikroarkitekturë të re Ura e rërës. Për shumicën e njerëzve, "Njoftimi Sandy Bridge" është vetëm fjalë, por në përgjithësi, gjenerata Intel Core ll është, nëse jo një epokë e re, atëherë të paktën një përditësim i pothuajse të gjithë tregut të procesorëve.


Fillimisht u raportua se do të lansoheshin vetëm shtatë procesorë, por në faqen më të dobishme ark.intel.com Informacioni për të gjitha produktet e reja tashmë është shfaqur. Kishte disa procesorë të tjerë, ose më saktë modifikimet e tyre (në kllapa tregova çmimin e përafërt - sa do të kushtonte secili procesor në një grup prej 1000 copë):

Celular:

Intel Core i5-2510E (~ 266 dollarë)
Intel Core i5-2520M
Intel Core i5-2537M
Intel Core i5-2540M

Krahasimi vizual i detajuar i procesorëve celularë të gjeneratës së dytë Intel Core i5.

Intel Core i7-2617M
Intel Core i7-2620M
Intel Core i7-2629M
Intel Core i7-2649M
Intel Core i7-2657M
Intel Core i7-2710QE (~ 378 dollarë)
Intel Core i7-2720QM
Intel Core i7-2820QM
Intel Core i7-2920XM Extreme Edition

Krahasimi vizual i detajuar i procesorëve celularë të gjeneratës së dytë Intel Core i7.

Tabela:

Intel Core i3-2100 (~ 117 dollarë)
Intel Core i3-2100T
Intel Core i3-2120 (138 dollarë)

Një krahasim vizual dhe i detajuar i procesorëve desktop Intel Core i3 të gjeneratës së dytë.

Intel Core i5-2300 (~ 177 dollarë)
Intel Core i5-2390T
Intel Core i5-2400S
Intel Core i5-2400 (~ 184 dollarë)
Intel Core i5-2500K (~ 216 dollarë)
Intel Core i5-2500T
Intel Core i5-2500S
Intel Core i5-2500 (~ 205$)

Një krahasim vizual dhe i detajuar i procesorëve desktop Intel Core i5 të gjeneratës së dytë.

Intel Core i7-2600K (~ 317 dollarë)
Intel Core i7-2600S
Intel Core i7-2600 (~ 294 dollarë)

Një krahasim vizual dhe i detajuar i procesorëve desktop Intel Core i7 të gjeneratës së dytë.

Siç mund ta shihni, emrat e modeleve tani kanë katër shifra në emër - kjo është bërë për të shmangur konfuzionin me procesorët e gjeneratës së mëparshme. Formacioni doli të ishte mjaft i plotë dhe logjik - seritë më interesante i7 ndahen qartë nga i5 nga prania e teknologjisë Hyper Threading dhe rritja e madhësisë së cache-it. Dhe procesorët e familjes i3 ndryshojnë nga i5 jo vetëm në numrin më të vogël të bërthamave, por edhe në mungesën e teknologjisë Turbo Boost.

Ju ndoshta keni vënë re edhe shkronjat në emrat e përpunuesve, pa të cilët formacioni është zvogëluar shumë. Pra, këtu janë letrat S Dhe T flasin për konsumin e reduktuar të energjisë, dhe TE- shumëzues falas.

Struktura vizuale e procesorëve të rinj:

Siç mund ta shihni, përveç bërthamave grafike dhe kompjuterike, memories cache dhe kontrolluesit të memories, ekziston një i ashtuquajtur. Agjenti i sistemit- shumë gjëra janë hedhur atje, për shembull, kontrollorët e memories DDR3 dhe PCI-Express 2.0, një model i menaxhimit të energjisë dhe blloqe që janë përgjegjës në nivelin e harduerit për funksionimin e GPU-së së integruar dhe për daljen e imazhit kur është të përdorura.

Të gjithë komponentët "bërthamë" (përfshirë procesorin grafik) janë të ndërlidhur nga një autobus me unazë me shpejtësi të lartë me akses të plotë në cache L3, për shkak të së cilës shpejtësia e përgjithshme e shkëmbimit të të dhënave në vetë procesorin është rritur; Ajo që është interesante është se kjo qasje ju lejon të rritni performancën në të ardhmen, thjesht duke rritur numrin e bërthamave të shtuara në autobus. Megjithëse edhe tani gjithçka premton të jetë në maksimumin e saj - në krahasim me procesorët e gjeneratës së mëparshme, performanca e të rinjve është më adaptive dhe, sipas prodhuesit, në shumë detyra mund të demonstrojë një rritje prej 30-50% në shpejtësinë e ekzekutimit të detyrave. !

Nëse dëshironi të mësoni më shumë rreth arkitekturës së re, atëherë unë mund t'ju rekomandoj këto tre artikuj në Rusisht - , , .

Procesorët e rinj janë prodhuar tërësisht sipas teknologjisë së procesit 32 nm dhe për herë të parë shfaqin një mikroarkitekturë "vizualisht të zgjuar" që kombinon fuqinë kompjuterike më të mirë në klasë dhe teknologjinë e përpunimit të grafikës 3D në një çip të vetëm. Ka me të vërtetë shumë risi në grafikët e Sandy Bridge, që synojnë kryesisht rritjen e performancës kur punoni me 3D. Mund të debatohet për një kohë të gjatë për "imponimin" e një sistemi video të integruar, por zgjidhje tjetër si e tillë nuk ka. Por ka një rrëshqitje nga prezantimi zyrtar, i cili pretendon të jetë i besueshëm, përfshirë në produktet celulare (laptopët):

Unë kam folur tashmë pjesërisht për teknologjitë e reja të gjeneratës së dytë të procesorëve Intel Core, kështu që nuk do ta përsëris veten. Unë do të fokusohem vetëm te zhvillimi Intel Insider, pamja e të cilit u habit shumë. Siç e kuptoj, ky do të jetë një lloj dyqani që do t'u japë pronarëve të kompjuterëve akses në filma me definicion të lartë, drejtpërdrejt nga krijuesit e këtyre filmave - diçka që më parë u shfaq vetëm pak kohë pas shpalljes dhe shfaqjes së DVD-së ose Blu-ray-it. disqe. Për të demonstruar këtë veçori, Zëvendës Presidenti i Intel Muli Eden(Mooly Eden) i ftuar në skenë Kevin Tsujiharu(Kevin Tsujihara), President i Warner Home Entertainment Group. Unë citoj:

« Warner Bros. Gjen sistemet personale platformën më të gjithanshme dhe më të përhapur për ofrimin e përmbajtjes argëtuese me cilësi të lartë, dhe tani Intel po e bën platformën edhe më të besueshme dhe më të sigurt. Tani e tutje, me ndihmën e dyqanit WBShop, si dhe me partnerët tanë si CinemaNow, ne do të jemi në gjendje t'u ofrojmë përdoruesve të PC-ve publikime dhe filma të rinj nga katalogu ynë në cilësi të vërtetë HD"- Muli Eden demonstroi punën e kësaj teknologjie duke përdorur shembullin e filmit "Inception". Në bashkëpunim me studiot kryesore të industrisë dhe gjigantët e medias (të tilla si Best Buy CinemaNow, Hungama Digital Media Entertainment, Image Entertainment, Sonic Solutions, Warner Bros. Digital Distribution dhe të tjerë), Intel po krijon një ekosistem (hardware) të sigurt dhe të mbrojtur nga pirateria për shpërndarja, ruajtja dhe riprodhimi i videove me cilësi të lartë.

Funksionimi i teknologjisë së përmendur më sipër do të jetë në përputhje me dy zhvillime jo më pak interesante, të cilat janë gjithashtu të pranishme në të gjitha modelet e procesorëve të gjeneratës së re. Unë jam duke folur për (Intel WiDi 2.0) dhe Intel InTru 3-D. E para është projektuar për transmetimin pa tel të videove HD (duke mbështetur rezolucione deri në 1080p), e dyta është projektuar për shfaqjen e përmbajtjes stereo në monitorë ose televizorë me definicion të lartë nëpërmjet një lidhjeje HDMI 1.4.

Dy funksione të tjera për të cilat nuk gjeta një vend më të përshtatshëm në artikull - Zgjerime të avancuara të vektorit të Intel(AVX). Mbështetja e procesorit për këto komanda përmirëson shpejtësinë e aplikacioneve me të dhëna intensive si redaktuesit audio dhe softuerët profesional të redaktimit të fotografive.

… Dhe Video e sinkronizimit të shpejtë të Intel- Falë bashkëpunimit me kompanitë softuerike si CyberLink, Corel dhe ArcSoft, gjigandi i procesorëve arriti të rrisë performancën e kësaj detyre (transkodimi midis formateve H.264 dhe MPEG-2) me 17 herë në krahasim me performancën e gjeneratës së mëparshme të grafika e integruar.

Le të themi se ka procesorë - si t'i përdorim ato? Kjo është e drejtë - së bashku me ta, u njoftuan edhe çipa të rinj (grupe logjike), të cilat janë përfaqësues të serisë "të gjashtëdhjetë". Me sa duket, vetëm dy komplete janë të rezervuara për konsumatorët e etur për produkte të reja, këto janë Intel H67 Dhe Intel P67, mbi të cilat do të ndërtohen shumica e pllakave të reja amë. H67 është në gjendje të punojë me një bërthamë video të integruar në procesor, ndërsa P67 është i pajisur me funksionin Performance Tuning për mbingarkesë të procesorit. Të gjithë procesorët do të punojnë në prizën e re, 1155 .


Më vjen mirë që procesorët e rinj duken se janë të pajtueshëm me prizat e procesorit Intel me arkitekturën e gjeneratës së ardhshme. Ky plus do të jetë i dobishëm si për përdoruesit e zakonshëm ashtu edhe për prodhuesit, të cilët nuk do të duhet të ridizajnojnë dhe krijojnë pajisje të reja.

Në total, Intel prezantoi më shumë se 20 çipa, çipa dhe adaptorë me valë, duke përfshirë procesorë të rinj Intel Core i7, i5 dhe i3, çipa të Serive Intel 6 dhe adaptorë Intel Centrino Wi-Fi dhe WiMAX. Përveç atyre të përmendura më lart, "distinktivët" e mëposhtëm mund të shfaqen në treg:

Këtë vit, më shumë se 500 modele kompjuterësh desktop dhe laptopësh nga markat kryesore botërore pritet të dalin në procesorë të rinj.

Dhe së fundi, edhe një herë një video fantastike, në rast se dikush nuk e ka parë:

Artikujt më të mirë mbi këtë temë