نحوه راه اندازی گوشی های هوشمند و رایانه های شخصی پرتال اطلاعاتی

پل شنی چیست؟ کدگذاری صدا در فرمت های مختلف

مقایسه با پردازنده های موبایل و دسکتاپ

در اواسط ژانویه، ما اولین مطالعه سیستم را بر روی پلت فرم جدید انجام دادیم اینتل سندیپل. در آن آزمایش، نمونه اولیه لپ تاپ توشیبا A665-3D با آداپتور ویدئویی جدید NVIDIA و فناوری NVIDIA Optimus. با این حال، همانطور که می گویند، آنها بیش از حد باهوش بودند: گرافیک خارجی در لپ تاپ گنجانده نشده بود. بنابراین، برنامه‌هایی که از گرافیک استفاده می‌کنند (اول از همه، بازی‌ها) به سادگی قابل آزمایش نیستند. و به طور کلی، برخی از چیزها را نمی توان به اندازه کافی روی یک نمونه اولیه و با عملکرد ضعیف آزمایش کرد.

از این رو تصمیم بر آن شد تا سیستم دیگری را مجددا آزمایش کنیم و این پرونده طولی نکشید. ما لپ تاپ دیگری به نام Hewlett-Packard DV7 را بر روی پلتفرم جدید و با نسل جدیدی از گرافیک های AMD آزمایش کردیم. درست است، زمانی که آزمایش ها از قبل تکمیل شده بود، اطلاعاتی در مورد خطای بدنام در پل جنوبی ظاهر شد که به دلیل آن دستگاه های فروخته شده (از جمله دستگاه های تلفن همراه) در معرض فراخوان هستند. بنابراین در اینجا نیز نتایج به معنای دقیق کلمه کاملاً رسمی نیستند (بر اساس حداقل، Hewlett-Packard درخواست کرد لپ تاپ را برگرداند)، اما ما می دانیم که این خطا (و حتی "تئوری") نمی تواند بر نتایج آزمایش تأثیر بگذارد.

با این وجود، صرفاً برای تکرار مجدد اندازه‌گیری‌ها و نامگذاری نهایی آنها، ارزش انتشار یک ماده جداگانه را نداشت. بنابراین، در این بررسی، چندین وظیفه را برای خود تعیین کرده ایم:

  • نتایج سیستم جدید را در روش "موبایل" بررسی کنید.
  • بررسی عملکرد سیستم اورکلاک اینتل Turbo Boost در یک سیستم متفاوت با خنک کننده متفاوت.
  • مقایسه نسخه موبایل و دسکتاپ پردازنده پل ماسه ایدر روش دسکتاپ برای آزمایش سیستم های کامپیوتری.

خب بریم سراغ تست.

پیکربندی شرکت کنندگان در آزمون با توجه به روش برای سیستم های تلفن همراه

همانطور که قبلا ذکر شد، مقایسه عملکرد زیر سیستم ها کامپیوترهای موبایلبسیار دشوارتر است، زیرا آنها برای آزمایش در قالب محصولات نهایی ارائه می شوند. نتیجه گیری دشوار است، زیرا بیش از یک جزء می تواند بر تفاوت عملکرد تأثیر بگذارد.

بیایید به رقبا نگاه کنیم، به طور دقیق تر، به تغییر ترکیب آنها نسبت به آزمایش قبلی. ابتدا تصمیم گرفتیم مدل Core i5-540M را از مقایسه حذف کنیم. این خودرو متعلق به یک خط دو هسته ای ضعیف تر است و سایر مدل ها در خط سندی بریج با آن مطابقت دارند. اگر نتایج این پردازنده تا این حد مهم است، می توان آنها را از مقاله قبلی گرفت. در عوض، مقایسه شامل Hewlett-Packard Elitebook 8740w، همچنین بر روی پردازنده Core i7-720QM، و سیستم تست اصلی برای امروز اضافه شده است - Hewlett-Packard Pavillon DV7 روی پردازنده Sandy Bridge 2630QM.

بنابراین، دو مدل بر روی پردازنده Core i7-720QM و دو مدل از پردازنده Core i7 2630QM در تست شرکت می کنند. این نه تنها به شما امکان می دهد عملکرد سیستم ها را در یک پردازنده قدیمی و جدیدتر مقایسه کنید، بلکه مطمئن شوید که سطح عملکرد برای دو سیستم روی یک پردازنده یکسان است.

خوب، ما به تجزیه و تحلیل تنظیمات لپ تاپ های شرکت کننده در تست می پردازیم.

نام نوت بوکHP 8740wایسوس N53Jqتوشیبا A665-3DHP DV7
CPUCore i7-720QMCore i7-720QMCore i7-2630QMCore i7-2630QM
تعداد هسته ها4 (8 جریان)4 (8 جریان)4 (8 جریان)4 (8 جریان)
فرکانس رتبه بندی شده1.6 گیگاهرتز1.6 گیگاهرتز2 گیگاهرتز2 گیگاهرتز
حداکثر فرکانس تقویت توربو2.6* گیگاهرتز2.6* گیگاهرتز2.9* گیگاهرتز2.9* گیگاهرتز
اندازه کش LLC6 مگابایت6 مگابایت6 مگابایت6 مگابایت
رم10 گیگابایت10 گیگابایت4 گیگابایت4 گیگابایت
زیرسیستم ویدئوNVIDIA QUADROFX 2800MNVIDIA GT 425Mیکپارچه سازی اینتلATI 6570

* فرکانس اورکلاک خودکار در صورتی نشان داده می شود که پردازنده هر چهار هسته را تحت بار داشته باشد. اگر دو هسته تحت بار وجود داشته باشد، فرکانس همچنان می تواند افزایش یابد (از 2.6 گیگاهرتز به 2.8 گیگاهرتز)، و اگر یکی - سپس به حداکثر علامت (از 2.6 گیگاهرتز به 2.9 گیگاهرتز) افزایش یابد.

ما داده های پردازنده های لازم برای مقایسه را تجزیه و تحلیل می کنیم. اولاً، سازنده ادعا می کند که معماری داخلی پردازنده در خط سندی بریج بهینه شده است، این باید عملکرد کلی را افزایش دهد.

تعداد هسته ها و رشته های هایپرتردینگ برای همه شرکت کنندگان یکسان است. با این حال، سرعت ساعت متفاوت است: 720QM تنها 1.6 گیگاهرتز دارد، در حالی که پردازنده های جدید با فرکانس 2 گیگاهرتز کار می کنند. حداکثر فرکانس ساعت، با این حال، تفاوت چندانی ندارد. واقعیت این است که برای 720QM فرکانس زمانی نشان داده می شود که چهار هسته درگیر باشد، و برای 2630QM - زمانی که یکی درگیر است. اگر چهار هسته بارگذاری شده باشد، پس حداکثر فرکانسهمان 2.6 گیگاهرتز است. به عبارت دیگر، در حالت اورکلاک، پردازنده ها باید روی آن کار کنند همان فرکانس(تا زمانی که کنترل دما فعال شود). اما سندی بریج دارای فناوری اورکلاک توربو بوست پیشرفته تری است که می تواند فرکانس افزایش یافته را برای مدت طولانی تری حفظ کند، بنابراین ممکن است مزیتی داشته باشد. اما نمی توان دقیقاً نحوه عملکرد اورکلاک را پیش بینی کرد، زیرا وابستگی های زیادی به عوامل خارجی وجود دارد.

مستقیم بریم سراغ تست ها.

عملکرد خط پردازنده Sandy Bridge را با نسل قبلی در مجموعه برنامه کاربردی روش تحقیق عملکرد موبایل مقایسه کنید. تعیین تکرارپذیری نتایج

برای تست‌ها، از روش تست لپ‌تاپ استفاده کردیم برنامه های کاربردی واقعینمونه 2010 در مقایسه با دسکتاپ، مجموعه برنامه های کاربردی کمتری دارد، اما بقیه با همان تنظیمات راه اندازی می شوند (به جز بازی ها، تنظیمات این گروه به طور جدی تغییر کرده است و پارامترهای وظیفه تست برای برنامه های فتوشاپ). بنابراین، نتایج آزمایش های فردی را می توان با نتایج پردازنده های دسکتاپ مقایسه کرد.

نتایج رتبه بندی گروه های فردیبرنامه های کاربردی از این مواد را نمی توان مستقیما با داده های رتبه بندی دسکتاپ مقایسه کرد. هنگام آزمایش عملکرد لپ تاپ ها، همه برنامه های کاربردی روش راه اندازی نمی شوند، به ترتیب، امتیاز متفاوت در نظر گرفته می شود. نتایج رتبه بندی سیستم های دسکتاپ شرکت کننده در آزمایش مجدداً محاسبه شده است.

من فوراً رزرو می کنم که برای هر سیستم آزمایشات دو بار انجام شد و در بین اجراها سیستم دوباره نصب و پیکربندی شد. به عبارت دیگر، اگر نتایج آزمایش عجیب به نظر می‌رسند، حداقل قابل تکرار هستند: در دو سیستم مختلف تازه نصب شده با مجموعه‌ای از درایورهای به‌روز.

بیایید با برنامه های حرفه ای شروع کنیم.

تجسم سه بعدی

این گروه شامل برنامه‌هایی است که هم از نظر عملکرد پردازنده و هم از نظر گرافیکی نیازمندند.

HP 8740w
Core i7-720QM
ایسوس N53Jq
Core i7-720QM
توشیبا A665-3D
Core i7-2630QM
HP DV7
Core i7-2630QM
Lightwave - کار20,53 22,97 24,87 16,17
Solidworks - کار52,5 58,83 133,12 60,45
Lightwave - امتیاز122 109 101 155
Solidworks - امتیاز129 115 51 112
گروه - امتیاز126 112 76 134

جالب توجه است که هر دو سیستم "موج دوم" به طور قابل توجهی از سیستم های آزمایش شده یک ماه و نیم پیش بهتر عمل می کنند. من تعجب می کنم که آن چیست - تأثیر رانندگان؟ گرافیک دیگر، به طور قابل توجهی قوی تر در هر دو مورد؟ حتی به غیر از نمرات قدیمی سندی بریج، هنگام مقایسه دو Core i7 همبستگی مشابهی مشاهده می شود.

اکنون به جرات می توان گفت که نسل جدید سریعتر است. به غیر از نتایج عجیب سالیدورکس، اما در بحث نتایج تکنیک دسکتاپ به آنها باز خواهیم گشت.

رندر سه بعدی

بیایید ببینیم اوضاع در رندر صحنه پایانی چگونه است. چنین رندری توسط CPU انجام می شود.

HP 8740w
Core i7-720QM
ایسوس N53Jq
Core i7-720QM
توشیبا A665-3D
Core i7-2630QM
HP DV7
Core i7-2630QM
موج نور138,58 131,56 269,89 90,22
3Ds Max0:10:04 0:10:06 00:21:56 0:07:45
Lightwave - امتیاز95 101 49 146
امتیاز 3Ds Max113 112 52 147
گروه - امتیاز104 107 51 147

یادآوری می کنم که نمونه توشیبا در این آزمایش نتایج بسیار ضعیفی را نشان داد. اما در یک سیستم کاملاً کاربردی، پردازنده Sandy Bridge به شما این امکان را می دهد که در هر دو بسته گرافیکی به برتری قابل توجهی برسید. در Lightwave همانطور که می بینید بین دو Core i7-720QM تفاوت وجود دارد اما در 3Ds MAX تقریباً هیچ تفاوتی وجود ندارد.

اما در هر دو آزمایش مشخص است که پردازنده Core i7-2630QM به طور قابل توجهی سریعتر است و عملکرد قابل توجهی از نمایندگان نسل قبلی دارد.

محاسبه

بیایید به عملکرد پردازنده ها در برنامه های مربوط به محاسبات ریاضی نگاه کنیم.

HP 8740w
Core i7-720QM
ایسوس N53Jq
Core i7-720QM
توشیبا A665-3D
Core i7-2630QM
HP DV7
Core i7-2630QM
آثار جامد46,36 45,88 44,02 38,42
متلب0,0494 0,0494 0,0352 0,0365
Solidworks - امتیاز111 112 117 134
متلب - رتبه بندی113 113 159 153
گروه - امتیاز112 113 138 144

خب، تست های ریاضی تفاوتی بین دو Core i7-720QM احساس نمی کنند. از این رو می‌توانیم یک نتیجه اولیه بگیریم که این برنامه‌ها حداقل به سایر اجزای سیستم و بخش نرم‌افزار پاسخگو هستند.

پردازنده نسل جدید سریعتر است، اما شکاف در اینجا چندان زیاد نیست، این به ویژه از اعداد رتبه بندی مشهود است. به نوعی عملکرد DV7 در تست MATLAB کمی کمتر از A660 است.

ببینیم آیا در تست های دیگر فاصله بین نسل جدید و قدیمی تقریباً یکسان خواهد بود یا خیر.

تلفیقی

تست سرعت کامپایل برنامه با استفاده از کامپایلر مایکروسافت ویژوال استودیو 2008. این تست به سرعت پردازنده و حافظه نهان به خوبی پاسخ می دهد و می تواند از چند هسته ای نیز استفاده کند.

HP 8740w
Core i7-720QM
ایسوس N53Jq
Core i7-720QM
توشیبا A665-3D
Core i7-2630QM
HP DV7
Core i7-2630QM
گردآوری0:06:29 0:06:24 0:04:56 0:04:54
کامپایل - رتبه بندی123 125 162 163

تفاوت در نتایج کم است، فکر می کنم می توان آن را به خطا نسبت داد. تفاوت عملکرد بین دو نسل قابل توجه است.

عملکرد برنامه جاوا

این معیار سرعت اجرای مجموعه ای از برنامه های جاوا را نشان می دهد. این تست برای سرعت پردازنده بسیار مهم است و به هسته های اضافی واکنش بسیار مثبتی نشان می دهد.

HP 8740w
Core i7-720QM
ایسوس N53Jq
Core i7-720QM
توشیبا A665-3D
Core i7-2630QM
HP DV7
Core i7-2630QM
جاوا79,32 83,64 111,8 105,45
جاوا - رتبه بندی90 94 126 119

و در اینجا نتایج برای لپ‌تاپ‌های جدیدتر آزمایش‌شده اندکی اما به‌طور قابل‌توجهی پایین‌تر است. ما حدس نمی زنیم که چرا این اتفاق افتاد، اما تاکید می کنم که نتایج دو بار تکرار شد. تفاوت بین پردازنده های نسل های مختلف تقریباً مشابه آزمایش قبلی است.

بیایید به کارهای سازنده خانگی برویم: کار با فیلم، صدا و عکس.

گرافیک دو بعدی

یادآوری می کنم که در این گروه فقط دو آزمون کاملاً متنوع باقی مانده است. ACDSee مجموعه ای از عکس ها را تبدیل می کند فرمت RAWدر JPEG، و فتوشاپ یک سری عملیات پردازش تصویر را انجام می دهد - پوشش فیلتر و غیره.

HP 8740w
Core i7-720QM
ایسوس N53Jq
Core i7-720QM
توشیبا A665-3D
Core i7-2630QM
HP DV7
Core i7-2630QM
ACDS ببینید0:07:01 0:06:55 0:05:11 0:04:52
فتوشاپ0:01:17 0:01:17 0:00:49 0:00:51
ACDSee - امتیاز108 110 146 156
فتوشاپ - امتیاز426 426 669 643
گروه - امتیاز267 268 408 400

ACDSee ناپایداری نتایج را نشان می دهد، اما به طور کلی، تفاوت بین نسل ها مطابق با روند است، حتی کمی بزرگتر است.

رتبه‌بندی‌های فتوشاپ به دلیل تغییر کار تست ارزش توجه به آن را ندارند. همین رتبه ها خراب و مجموع امتیازگروه ها. اما اگر به زمان اجرا نگاه کنید، می بینید که مزیت تقریباً یکسان است.

کدگذاری صدا در فرمت های مختلف

رمزگذاری صدا به فرمت های صوتی مختلف یک کار نسبتاً ساده برای پردازنده های مدرن است. لفاف dBPowerAmp برای رمزگذاری استفاده می شود. او می داند که چگونه از چند هسته ای استفاده کند (جریان های رمزگذاری اضافی راه اندازی می شوند). نتیجه آزمایش امتیازات خودش است، آنها برعکس زمان صرف شده برای کدنویسی هستند، یعنی هر چه بیشتر باشد، نتیجه بهتر است.

HP 8740w
Core i7-720QM
ایسوس N53Jq
Core i7-720QM
توشیبا A665-3D
Core i7-2630QM
HP DV7
Core i7-2630QM
سیب148 159 241 238
flac199 214 340 343
میمون143 155 239 235
mp389 96 150 152
نرو85 91 135 142
ogg60 65 92 90
سیب - امتیاز90 97 147 145
رتبه بندی ضعیف99 106 169 171
رتبه بندی میمون97 105 163 160
امتیاز mp3103 112 174 177
رتبه بندی عصبی104 111 165 173
رتبه بندی ogg103 112 159 155
گروه - امتیاز99 107 163 164

تست بسیار ساده اما در عین حال بصری است. کاملاً غیر منتظره، تفاوت بین دو پردازنده Core i7-720QM در اینجا ظاهر شد و به نفع سیستم اخیراً آزمایش شده نیست. پردازنده های سندی بریج تقریباً همان عملکرد را نشان دادند. همانطور که می بینید، مزیت پردازنده های جدید بسیار قابل توجه است، بیشتر از گروه های آزمایشی قبلی.

رمزگذاری ویدیو

سه تست از هر چهار تست، یک کلیپ ویدئویی را به یک فرمت ویدئویی خاص رمزگذاری می‌کنند. تست پریمیر جداست، در این برنامه اسکریپت ایجاد یک ویدیو، از جمله تحمیل افکت‌ها، و نه فقط کدنویسی را فراهم می‌کند. متأسفانه سونی وگاس روی برخی از سیستم ها کار نمی کند، بنابراین نتایج آن را برای این مقاله حذف کردیم.

HP 8740w
Core i7-720QM
ایسوس N53Jq
Core i7-720QM
توشیبا A665-3D
Core i7-2630QM
HP DV7
Core i7-2630QM
DivX0:05:02 0:05:23 0:04:26 0:04:18
برتر0:05:04 0:04:47 0:03:38 0:03:35
x2640:10:29 0:10:01 0:07:45 0:07:35
Xvid0:03:31 0:03:34 0:02:34 0:02:30
رتبه DivX86 80 98 101
اولین نمایش - امتیاز101 107 140 142
x264 - امتیاز100 105 135 138
XviD - رتبه بندی87 86 119 123
گروه - امتیاز94 95 123 126

نتایج رمزگذاری در DivX متفاوت است. به دلایلی در این تست تفاوت بسیار زیادی در سیستم های با 720QM و تفاوت بسیار کمی بین نسل قدیم و جدید وجود دارد.

در تست های دیگر، تفاوت قابل توجه است و تفاوت بین نسل ها تقریباً با روند کلی مطابقت دارد. جالب اینجاست که در Premiere تفاوت تقریباً مشابه رمزگذاری ساده است. ضمناً در این تست تفاوت زیاد دو سیستم مبتنی بر 720QM نیز جلب توجه می کند.

و در آخر چندین نوع کار خانگی.

آرشیو کردن

آرشیو کردن یک مسئله ریاضی نسبتاً ساده است که در آن همه اجزای پردازنده به طور فعال کار می کنند. 7z پیشرفته تر است، زیرا می تواند از هر تعداد هسته استفاده کند و به طور کلی با پردازنده کارآمدتر کار می کند. Winrar از دو هسته استفاده می کند.

HP 8740w
Core i7-720QM
ایسوس N53Jq
Core i7-720QM
توشیبا A665-3D
Core i7-2630QM
HP DV7
Core i7-2630QM
7zip0:01:57 0:01:55 0:01:30 0:01:27
WinRAR0:01:50 0:01:48 0:01:25 0:01:25
باز کردن بسته بندی (RAR)0:00:50 0:00:49 0:00:42 0:00:41
7-زیپ - امتیاز115 117 149 154
WinRAR - امتیاز135 138 175 175
باز کردن (RAR) - رتبه بندی140 143 167 171
گروه - امتیاز130 133 164 167

تفاوت بین پردازنده های یکسان بسیار کم است. باز هم می بینیم که در مقایسه دو سیستم مبتنی بر 720QM، 8740 زیاد نیست، اما به طور مداوم سریعتر است. پردازنده های نسل جدید به طور قابل توجهی سریعتر هستند، تفاوت بین دو نسل به طور کلی مانند اکثر گروه های دیگر است.

عملکرد در تست های مرورگر

تست های خیلی ساده هم هر دو عملکرد را در جاوا اسکریپت اندازه گیری می کنند، که شاید پرکارایی ترین بخش موتور مرورگر باشد. ترفند این است که تست V8 نتیجه در امتیاز دارد، در حالی که Sunspider نتیجه در میلی ثانیه دارد. بر این اساس، در مورد اول، هر چه عدد بالاتر باشد، بهتر است، در مورد دوم - بالعکس.

HP 8740w
Core i7-720QM
ایسوس N53Jq
Core i7-720QM
توشیبا A665-3D
Core i7-2630QM
HP DV7
Core i7-2630QM
Googlev8-chrome6216 6262 7414 7366
googlev8-firefox556 555 662 654
Googlev8-ie122 123 152 147
Googlev8-opera3753 3729 4680 4552
Googlev8-safari2608 2580 3129 3103
سان اسپایدر-فایرفاکس760 747 627 646
سان اسپایدر-یعنی4989 5237 4167 4087
اپرا سان اسپایدر321 322 275 275
سافاری سان اسپایدر422 421 353 354
Googlev8 - رتبه بندی134 134 162 160
Sunspider - امتیاز144 143 172 172
گروه - امتیاز139 139 167 166

مقایسه در HD Play

این تست از جدول رده بندی سیستم های دسکتاپ حذف شده است، اما همچنان برای موبایل مرتبط است. حتی اگر سیستم با رمزگشایی یک ویدیوی پیچیده کنار بیاید، در یک لپ تاپ هنوز هم بسیار مهم است که چه مقدار منابع برای تکمیل این کار مورد نیاز است، زیرا هم گرمایش سیستم و هم عمر باتری به آن بستگی دارد ...

HP 8740w
Core i7-720QM
ایسوس N53Jq
Core i7-720QM
توشیبا A665-3D
Core i7-2630QM
HP DV7
Core i7-2630QM
سخت افزار H.2642,6 2,5 2,3 1,2
نرم افزار H.26419,7 18,9 13,4 14
رتبه سخت افزار H.264631 656 713 1367
رتبه نرم افزار H.264173 180 254 243

به طور مطلق، تفاوت بین دو 720QM خیلی زیاد نیست، اگرچه در رتبه بندی ها ممکن است قابل توجه به نظر برسد. جالب است که به تفاوت بین دو پردازنده Core i7-2630QM در حالت استفاده نگاه کنید شتاب سخت افزاری. سیستم با گرافیک AMD بار کمتری را نشان می دهد، اما نتایج با آداپتور اینتل بسیار خوب بود. که در حالت برنامههر دو سیستم کار رمزگشایی را به خوبی انجام می دهند، استفاده از CPU کم است. برای پردازنده های Sandy Bridge، بار سیستم به طور قابل پیش بینی کمتری است.

بیایید به میانگین امتیاز سیستم های شرکت کننده در آزمون ها نگاه کنیم.

HP 8740w
Core i7-720QM
ایسوس N53Jq
Core i7-720QM
توشیبا A665-3D
Core i7-2630QM
HP DV7
Core i7-2630QM
رتبه بندی کلی سیستم128 129 158 173

اگرچه در برخی آزمایشات تفاوت بین این دو سیستم با پردازنده ها وجود دارد اینتل Core i7-720QM قابل توجه بود، به طور کلی نتایج تقریباً یکسانی را نشان دادند.

عملکرد یک سیستم کاملاً کاربردی و کاربردی با پردازنده Core i7-2630QM بسیار بالاتر از نمونه ای است که قبلاً آزمایش کردیم. بر اساس این نتایج، از هم اکنون می توان در مورد عملکرد پلت فرم نتیجه گیری کرد.

و این نتیجه گیری ها این است که عملکرد پلت فرم جدیدسندی بریج حدود 35 درصد (بسته به کاربردهای مورد استفاده) بالاتر از پلتفرم نسل قبلی استفاده شده است. البته هنوز نتیجه گیری نهایی نشده است. حداقل، تراشه ها فرکانس های متفاوتی دارند. و به طور کلی ، در رابطه با پردازنده های جدید اینتل ، مفهومی مانند "فرکانس ساعت" کاملاً توهم آمیز شده است ، زیرا ما فناوری Intel Turbo Boost را داریم.

بررسی عملکرد سیستم Intel Turbo Boost

پردازنده های سری Sandy Bridge پیاده سازی شده است یک نسخه جدیدفناوری Intel Turbo Boost که کنترل بسیار بیشتری بر سرعت ساعت پردازنده دارد. سیستم کنترل و مدیریت بسیار پیچیده تر و هوشمندتر شده است. اکنون می تواند پارامترهای زیادی را در نظر بگیرد: کدام هسته ها و میزان بارگیری، دمای پردازنده و اجزای فردی(یعنی سیستم می تواند از گرمای بیش از حد موضعی نظارت کرده و از آن جلوگیری کند).

از آنجایی که کنترل دما و بار کارآمدتر شده است، پردازنده به حاشیه ایمنی کمتری نیاز دارد تا تحت هر شرایط خارجی (در درجه اول دما) به طور پایدار و کارآمد کار کند. این به شما امکان می دهد تا از قابلیت های آن به نحو احسن استفاده کنید. در واقع، این سیستم یک اورکلاک کنترل شده است: فرکانس کار افزایش می‌یابد و کنترل اجازه نمی‌دهد پردازنده از شرایط عملیاتی ایمن فراتر رفته و ثبات خود را از دست بدهد یا خراب شود. اگر پردازنده ای که با فرکانس افزایش یافته کار می کند بیش از حد داغ شود، سیستم نظارت به طور خودکار فرکانس و ولتاژ تغذیه را تا حد مطمئن کاهش می دهد.

علاوه بر این، سیستم جدیدکنترل شتاب قادر است "اثر اینرسی" را در نظر بگیرد. هنگامی که پردازنده سرد است، فرکانس می تواند برای مدت کوتاهی بسیار زیاد شود، حتی ممکن است پردازنده از حد اتلاف حرارت مشخص شده توسط سازنده فراتر رود. اگر بارگذاری کوتاه مدت باشد، پردازنده زمانی برای گرم شدن نخواهد داشت دمای شدیدو اگر بار بیشتر طول بکشد، پردازنده گرم می شود و سیستم دما را تا حد مطمئن کاهش می دهد.

بنابراین، پردازنده Sandy Bridge دارای سه موقعیت عملیاتی است:

مکانیسم های صرفه جویی در انرژی فعال می شوند، پردازنده با فرکانس پایین و ولتاژ تغذیه کاهش می یابد.سیستم Intel Turbo Boost فعال می شود، پردازنده تا حداکثر فرکانس اورکلاک مجاز شتاب می گیرد (از جمله به تعداد هسته ها و میزان بارگیری بستگی دارد)، ولتاژ تغذیه افزایش می یابد. تا زمانی که دمای هسته اجازه می دهد، پردازنده با این سرعت ساعت کار می کند.پردازنده، زمانی که آستانه بارگذاری یا گرمایش فراتر رفت، به فرکانس ساعتی باز می گردد که در آن تضمین شده است که پایدار کار کند. به عنوان مثال، برای 2630QM این فرکانس به عنوان 2 گیگاهرتز مشخص شده است، این فرکانس در مشخصات مشخص شده است و سازنده تضمین می کند که پردازنده قادر خواهد بود این فرکانس را به طور نامحدود با توجه به شرایط خارجی مشخص شده حفظ کند. Intel Turbo Boost به شما امکان می دهد فرکانس کار را افزایش دهید، اما پارامترهای عملکرد و فرکانس عملکرد آن به شرایط خارجی بستگی دارد، بنابراین سازنده نمی تواند تضمین کند که این سیستم همیشه به همان روش کار می کند.

با این حال، این اطلاعات را می توان از اولین بررسی به دست آورد. یادآوری می کنم که در آزمایش اول، پردازنده در زمان بیکاری با پارامترهای زیر کار می کرد:

  • دور آرام: 800 مگاهرتز، ولتاژ تغذیه 0.771 ولت.
  • بار (تمام هسته ها، حداکثر): فرکانس 2594 مگاهرتز (ضرب ضریب 26)، ولتاژ تغذیه 1.231 ولت.
  • بار (پس از حدود 5 دقیقه کار) - 2594 مگاهرتز (ضرب 26) یا 2494 مگاهرتز (ضرب 25).
  • بار (پس از حدود 7-8 دقیقه کار) - 1995 مگاهرتز (ضرب 20). ولتاژ 1.071 ولت است. سیستم به پارامترهای عملیاتی پایدار تعیین شده توسط سازنده بازگشت.

بیایید ببینیم HP اورکلاک شده Hewlett-Packard DV7 چقدر دوام خواهد آورد.

ما برنامه هایی را برای نظارت بر وضعیت پردازنده راه اندازی می کنیم.

فرکانس کاری و ولتاژ مانند آزمایش قبلی است. بیایید به خوانش دما نگاه کنیم.

همه چیز ساکت است، دما نسبتاً پایین است - 49 درجه. برای یک پردازنده با عملکرد بالا، این مقدار زیادی نیست. به تفاوت دما بین هسته اول و چهارم توجه کنید.

راه اندازی می کنیم تست بار. اجازه دهید یادآوری کنم که همه هسته ها را به یکباره بارگذاری می کند، بنابراین ما حداکثر اعداد (2.9 گیگاهرتز) را در اینتل توربو بوست نخواهیم دید.

همانطور که می بینید ولتاژ به 1.211 ولت افزایش یافته است ، فرکانس به دلیل تغییر ضریب 2594 مگاهرتز شده است ، اکنون 26 شده است. پردازنده به سرعت شروع به افزایش دما می کند ، فن سیستم خنک کننده شروع به صدای بلندتر و بلندتر می کند.

خوب، بیایید ببینیم وقتی پردازنده به فرکانس استوک سوئیچ می کند چقدر دوام می آورد.

یک دقیقه گذشت، مشخص است که دما در حال تثبیت شدن است.

پنج دقیقه گذشت و دما تثبیت شد. به دلایلی دمای هسته اول و چهارم 10 درجه متفاوت است. تفاوت دما در تمام تست ها وجود دارد، حتی در حالت بیکار نیز قابل توجه است. من نمی خواهم بگویم چرا این اتفاق می افتد.

15 دقیقه از شروع آزمون می گذرد. دما پایدار است، سیستم خنک کننده با آن مقابله می کند. فرکانس ساعت در 2.6 گیگاهرتز باقی می ماند.

48 دقیقه گذشت. لپ تاپ تحت بار به کار خود ادامه می دهد، دما پایدار است (خوب، یک درجه افزایش یافت). فرکانس ساعت یکسان است:

خوب، حداقل در زمستان و در یک اتاق نه چندان گرم، DV7 می تواند در حداکثر فرکانس موجود به طور نامحدود کار کند. قدرت سیستم خنک کننده برای اینتل توربو بوست کافی است تا حداکثر فرکانس "اورکلاک" موجود را بدون هیچ مشکلی حفظ کند. از نظر تئوری، می توان پردازنده را کمی بیشتر اورکلاک کرد.

این نتیجه گیری با نتایج قبلی متفاوت است. حالا می دانید چه چیزی بخرید لپ تاپ با کیفیت: اگر طراحان در ایجاد یک سیستم خنک کننده به خوبی عمل کرده باشند، نه تنها در قالب یک کیس باکیفیت و قوی، بلکه در عملکرد نیز سود دریافت خواهید کرد!

خوب، اجازه دهید به دومین بخش بسیار جالب مقاله برویم: مقایسه پردازنده موبایل Core i7-2630QM با پردازنده های دسکتاپ سری Sandy Bridge در روش تست دسکتاپ.

مقایسه عملکرد پردازنده موبایل Core i7-2630QM با پردازنده های رومیزی سری Sandy Bridge

برای مقایسه، ما از نتایج مطالعه خود در مورد پردازنده های دسکتاپ Core i7 و Core i5 بر اساس سندی بریج استفاده می کنیم.

بیایید پیکربندی شرکت کنندگان را با گنجاندن اطلاعات مربوط به Core i7-2630QM در جدول مقایسه کنیم.

CPUCore i5-2300Core i5-2400Core i5-2500/2500KCore i7-2600/2600KCore i7-2630QM
نام هستهپل ماسه ایپل ماسه ایپل ماسه ایپل ماسه ایپل ماسه ای
فن آوری تولید32 نانومتر32 نانومتر32 نانومتر32 نانومتر32 نانومتر
فرکانس هسته (std/max)، گیگاهرتز2,8/3,1 3,1/3,4 3,3/3,7 3,4/3,8 2,0/2,9
شروع ضریب ضرب28 31 33 34 20
نحوه عملکرد توربو بوست3-2-2-1 3-2-2-1 4-3-2-1 4-3-2-1 n/a
تعداد هسته ها/رشته های محاسباتی4/4 4/4 4/4 4/8 4/8
حافظه نهان L1، I/D، KB32/32 32/32 32/32 32/32 n/a
حافظه نهان L2، KB4×2564×2564×2564×256n/a
حافظه نهان L3، MiB6 6 6 8 6
رم2×DDR3-1333
هسته گرافیکی GMA HD2000 2000 2000/3000 2000/3000 3000
فرکانس هسته گرافیکی (حداکثر)، مگاهرتز1100 1100 1100 1350 1100
سوکتLGA1155LGA1155LGA1155LGA1155n/a
TDP95 وات95 وات95 وات95 وات45 وات

فرکانس کلاک پردازنده موبایل کمتر است که واضح است. در حالت حداکثر Turbo Boost، Core i5 دسکتاپ جوان را کمی اورکلاک می کند، که بدون Turbo Boost کار می کند، اما نه بیشتر. اما بسته حرارتی بسیار پایین تر است - بیش از دو برابر. علاوه بر این، حافظه نهان سطح آخر کوچکتر، تنها 6 مگابایت است. از نکات مثبت، شایان ذکر است که پردازنده موبایل دارای چهار هسته و هشت رشته محاسباتی است، زیرا این Core i7 است. حداقل مزیت نسبت به دسکتاپ جوان Core i5. بیایید ببینیم که چگونه در عمل معلوم می شود.

متأسفانه، مقایسه کامل هنوز جواب نداد. برخی از بسته ها از روش دسکتاپ شروع نشدند (به عنوان مثال، Pro/Engineer به طور پایدار در سیستم آزمایشی ما آویزان شد)، در نتیجه، نتایج آنها باید از رتبه بندی خارج می شد، به این معنی که خود رتبه بندی در مقایسه با رتبه بندی ها تغییر کرد. از مواد اصلی

بریم سراغ تست ها. عبارت "آزمون شروع نشد" به این معنی است که آزمون در لپ تاپ ما شروع نشده است، بنابراین نتایج همه شرکت کنندگان در آزمون حذف شد. رتبه بندی در این مورد دوباره محاسبه می شود.

با توجه به نتایج، بلافاصله مشخص می شود که پردازنده موبایل به طور جدی نسبت به دسکتاپ ضرر می کند - نمی تواند به سطح عملکرد حتی پردازنده جوان خط دسکتاپ جدید برسد. نتایج پردازنده دسکتاپ Core i7، به نظر من، نسبتاً ضعیف است، اما باید بسیار قدرتمندتر از خط Core i5 باشد، طبق نتایج، به نظر می رسد وابستگی خطی باشد. نتایج Solidworks به طور کلی برای همه سیستم های دسکتاپ تقریباً یکسان است. آیا این تست اهمیتی دارد که پردازنده چه سرعتی دارد؟

بیایید به سرعت رندر صحنه های سه بعدی نگاه کنیم.

Core i5-2300Core i5-2400Core i5-2500/2500KCore i7-2600/2600KCore i7-2630QM
حداکثر 3ds181 195 207 233 157
موج نور153 168 180 234 161
مایا142 170 181 240 165
تفسیر159 178 189 236 161

در اینجا وضعیت کمی سرگرم کننده تر است - سیستم تلفن همراه هنوز به سطح دسکتاپ جوان تر رسیده است. با این حال، Core i7 دسکتاپ در تمام تست ها بسیار جلوتر است. برای مقایسه، در اینجا نتایج مطلق یکی از آزمایش ها، مایا، آمده است. نتیجه این آزمون زمان صرف شده برای پروژه است که نسبت به نمرات سایر آزمون ها بیشتر قابل مشاهده است.

Core i5-2300Core i5-2400Core i5-2500/2500KCore i7-2600/2600KCore i7-2630QM
مایا00:08:47 00:07:20 00:06:52 00:05:11 00:07:34

همانطور که می بینید، حتی با یک زمان نه چندان طولانی محاسبه پروژه، تفاوت قابل توجه است. در مورد پروژه های پیچیده تر، باید حتی بیشتر باشد.

بریم سراغ تست بعدی.

تقریباً همه برنامه‌ها از محاسبات پیچیده ریاضی استفاده می‌کنند، بنابراین خط‌کش دسک‌تاپ با بیشتر است فرکانس بالابه وضوح در پیش است در عین حال، من از تفاوت بسیار کم بین دسکتاپ Core i5-2500 و Core i7-2600 بسیار گیج شده ام، در برخی از برنامه ها حتی پردازنده قدرتمندتر از دست می رود. آیا Hyper-Dreading واقعاً در این برنامه ها آنقدر ناکارآمد است که حتی تفاوت در سرعت ساعت نیز نمی تواند کاهش سرعت ناشی از آن را جبران کند؟ این جالب‌تر است، زیرا پیکربندی هسته در پردازنده‌های موبایل مانند سری 2600 است و به طور کلی با توجه به تفاوت فرکانس‌های کاری بین آنها، از پردازنده‌های دسکتاپ جوان‌تر فاصله زیادی ندارد.

و به سراغ تست های کمتر حرفه ای و رایج تر می رویم. و بیایید با شروع کنیم گرافیک شطرنجی. متاسفانه یکی از تست ها شروع نشد که دوباره روی تصویر تست ها تاثیر گذاشت.

و دوباره، سیستم تلفن همراه به طور مداوم در سطحی درست پایین تر از جوان ترین راه حل دسکتاپ قرار دارد. و سپس به طور غیر منتظره امتیاز بالادر Photoimpact، در غیر این صورت تصویر حتی غم انگیزتر خواهد بود. برای وضوح، من نتایج را برای دو بسته به اعداد مطلق ارائه خواهم کرد.

Core i5-2300Core i5-2400Core i5-2500/2500KCore i7-2600/2600KCore i7-2630QM
ACDS ببینید00:04:20 00:03:59 00:03:46 00:03:34 00:04:57
فتوشاپ00:03:36 00:03:15 00:03:07 00:02:58 00:04:00

به این ترتیب می توانید تفاوت خاص در زمان اجرای کار را تخمین بزنید.

بریم سراغ تست های آرشیو. اینها محاسبات ساده ای هستند که هم در مورد سرعت و هم وجود هسته های اضافی پردازنده احساس خوبی دارند (اگرچه در این مورد سؤالاتی وجود دارد).

Core i5-2300Core i5-2400Core i5-2500/2500KCore i7-2600/2600KCore i7-2630QM
7zip140 151 156 213 137
RAR191 207 216 229 173
باز کردن بسته بندی (RAR)179 194 206 219 167
بایگانی ها170 184 193 220 159

و دوباره و دوباره... اگر به نتایج 7-zip نگاه کنید، می بینید که چند هسته ای (حتی به صورت هایپر نخ) سود قابل توجهی می دهد. اما، ظاهرا، سرعت ساعت نیز سود قابل توجهی را به همراه دارد، زیرا Core i7 موبایل با هشت هسته دوباره حتی از پردازنده دسکتاپ جوان‌تر نیز کوتاهی می‌کند. و همین وضعیت در تست های Winrar نیز ادامه داشت. اما Core i7-2600 دسکتاپ در تست 7-zip بسیار جلوتر است.

تست کامپایل، دوباره با استفاده از قابلیت های ریاضی پردازنده ...

در تست عملکرد برنامه جاوا، روند اساسا تایید می شود. اما عقب ماندگی پردازنده موبایل حتی بیشتر است.

بیایید نگاهی به عملکرد جاوا اسکریپت در مرورگرهای مدرن بیندازیم.

Core i5-2300Core i5-2400Core i5-2500/2500KCore i7-2600/2600KCore i7-2630QM
Google V8161 176 190 191 148
عنکبوت خورشیدی156 162 167 170 198
مرورگر159 169 179 181 173

اگر نتایج آزمایش گوگل تقریباً با آنچه قبلاً دیده‌ایم مطابقت دارد، واضح است که مشکلی در Sunspider وجود دارد. اگرچه، در اصل، در همه مرورگرها، این تست روی یک پردازنده موبایل سریعتر از تمام دسکتاپ ها، از جمله دسکتاپ Core i7 کار می کند (که البته طبق نتایج، بسیار کمی متفاوت از Core i5 قدیمی است).

به طور کلی، یک نتیجه بسیار غیر منتظره از آزمون دوم، که من نمی توانم توضیح دهم. شاید چیزی در نرم افزار متفاوت عمل کرده است؟

بیایید اپلیکیشن های اینترنتی را رها کنیم و به سراغ کار با ویدئو و صدا برویم. همچنین یک نوع فعالیت نسبتاً محبوب است، از جمله برای رایانه های همراه.

Core i5-2300Core i5-2400Core i5-2500/2500KCore i7-2600/2600KCore i7-2630QM
ضرر اپل135 149 154 206 126
FLAC145 159 171 233 144
صدای میمون150 165 174 230 139
MP3 (LAME)162 179 191 258 152
Nero AAC154 171 179 250 148
اوگ وربیس164 179 191 252 147
سمعی152 167 177 238 143

رمزگذاری صوتی ما را با هیچ شگفتی مواجه نمی کند. Core i7-2630QM موبایل کمی ضعیف تر از تمام پردازنده های دسکتاپ آزمایش شده است، Core i7 دسکتاپ بسیار عقب است. در مورد کدنویسی ویدیو چطور؟

Core i5-2300Core i5-2400Core i5-2500/2500KCore i7-2600/2600KCore i7-2630QM
DivX146 160 170 157 96
مفهوم اصلی (VC-1)153 167 175 187 133
برتر155 169 178 222 132
وگاس164 177 185 204 131
x264152 165 174 225 136
Xvid166 180 190 196 133
ویدئو156 170 179 199 127

عقب ماندگی پردازنده موبایل افزایش یافته است، Core i7 دسکتاپ هنوز هم از همه پردازنده های دیگر جلوتر است، اگرچه فاصله کمتر شده است.

خوب، یکی از "واقعی" ترین تست ها: بازی ها!

Core i5-2300Core i5-2400Core i5-2500/2500KCore i7-2600/2600KCore i7-2630QM
بتمن131 134 135 134 40
سرزمین های مرزی142 149 157 160 234
DiRT 2109 110 110 110 36
Far Cry 2200 218 232 237 84
فریتز شطرنج142 156 166 215 149
GTA IV162 164 167 167 144
بازی Resident Evil125 125 125 125 119
S.T.A.L.K.E.R.104 104 104 104 28
UT3150 152 157 156 48
Crysis: سر جنگی127 128 128 128 40
جهان در تضاد163 166 168 170 0
بازی ها141 146 150 155 84

این باعث می شود که بخواهم "آه" بگویم. همه بازی ها به وضوح به دو دسته وابسته به پردازنده و گرافیک وابسته تقسیم می شوند. با نصب پردازنده قدرتمندتر می توانید سرعت بازی های Borderlands، Far Cry 2 و Fritz Chess را تا حد زیادی افزایش دهید. برخی از بازی ها نسبت به پردازنده های قدرتمندتر واکنش بسیار کمی دارند، برخی دیگر اصلاً واکنش نشان نمی دهند. اگر از بررسی World in Confict حذف کنیم، جایی که Core i7 تلفن همراه 0 را دریافت کرد، رتبه بندی کلی به این شکل به نظر می رسد.

نتایج ناامید کننده بود سیستم موبایلو در بیشتر موارد، پردازنده در این مورد مقصر نیست. قبل از نتیجه گیری، بیایید به ارقام عملکرد مطلق در بازی ها نگاه کنیم.

Core i5-2300Core i5-2400Core i5-2500/2500KCore i7-2600/2600KCore i7-2630QM
بتمن205 209 210 209 63
سرزمین های مرزی75 79 83 85 124
DiRT 276 77 77 77 25
Far Cry 276 83 88 90 32
فریتز شطرنج8524 9368 9982 12956 8936
GTA IV63 64 65 65 56
بازی Resident Evil128 128 128 128 121,6
S.T.A.L.K.E.R.62,9 62,9 63 62,9 17,2
UT3166 169 174 173 53
Crysis: سر جنگی57,4 57,6 57,7 57,7 18,1
جهان در تضاد62,6 63,5 64,3 65

همانطور که می بینید، اگر پردازنده های دسکتاپ تقریبا همیشه نتایج بسیار خوبی از خود نشان می دهند، سیستم تلفن همراه در بسیاری از مکان ها در آستانه پخش یا پایین تر از آن قرار دارد.

تقریباً برای همه بازی ها، پردازنده ها خیلی سریع هستند، نتیجه نهایی عمدتاً به عملکرد کارت گرافیک بستگی دارد. در عین حال، سطح عملکرد سیستم تلفن همراه به طور قابل توجهی پایین تر است، که به ما اجازه می دهد تا در مورد تفاوت بسیار زیاد بین راه حل های ویدئویی دسکتاپ و موبایل نتیجه گیری کنیم. تفاوت در نمونه آزمون های ما به طور متوسط ​​سه برابر است. GTA IV و Resident Evil از هم جدا هستند که نتایج مشابهی را در همه سیستم‌ها از جمله موبایل نشان می‌دهند.

در یک برنامه شطرنج فشرده CPU، Core i7 موبایل بین مدل‌های رومیزی ارزان قیمت عملکرد خوبی دارد.

خوب، بیایید آن را خلاصه کنیم.

Core i5-2300Core i5-2400Core i5-2500/2500KCore i7-2600/2600KCore i7-2630QM
مجموع امتیاز157 170 180 203 141

نتیجه کلی روند را تأیید می کند: یکی از قدرتمندترین ها پردازنده های موبایل Core i7-2360QM نمی تواند با عملکرد پردازنده دسکتاپ جوان در خط ضعیف Core i5 برابری کند. پردازنده دسکتاپ Core i7 از نظر عملکرد، حتی از پردازنده‌های دسکتاپ نسبت به نسل جوان‌تر، بسیار عقب‌تر است، البته در مورد نسخه موبایل چیزی نگوییم.

خروجی

بنابراین، زمان نتیجه گیری سریع است. اجازه دهید چند نتیجه از مطالب قبلی را به شما یادآوری کنم.

در نگاه اول، سندی بریج در واقع یک پردازنده بسیار موفق است. اولاً، تا حد زیادی بهبود یافته است، راه حل های غیر منطقی حذف شده اند (همان دو کریستال جداگانه ساخته شده با توجه به فرآیندهای فنی مختلف)، ساختار تراشه منطقی و به خوبی بهینه شده است. اجزای گذرگاه ارتباطی بهبود یافته در داخل پردازنده (که اکنون شامل هسته ویدیویی است!). ثانیاً ساختار هسته های پردازنده بهینه شده است که باید تأثیر بگذارد سمت بهتردر مورد عملکرد تمرین این تئوری را تأیید می کند: پردازنده ای که در آزمایش داشتیم در مقایسه با پلت فرم فعلی از نظر عملکرد بسیار جلوتر است.

در واقع، در عمل تست اصلی i7-2630QM، که قرار است جوان‌ترین پردازنده در سری جدید Core i7 باشد، به طور جدی از Core i7-720QM، رایج‌ترین پردازنده با عملکرد بالا (یا با بالاترین عملکرد معمول) در نسل اول موبایل‌های Core اینتل بهتر عمل می‌کند. . ظاهراً 2630QM باید جای آن را بگیرد، یعنی به جریان اصلی تبدیل شود پردازنده مولددر نسل دوم Core.

به طور کلی می توان نتیجه گرفت که نسل دوم پردازنده های Core موبایل از نظر عملکرد گام خوبی به جلو است. در مورد سایر مزایای خط، من فکر می کنم ارزش دارد که منتظر انتشار خطوط جوان تر و فقط تعداد زیادی مدل در پردازنده های جدید باشیم و حتی پس از آن کیفیت های خط جدید مانند گرمایش، بهره وری انرژی و غیره را ارزیابی کنیم.

با این حال، در مقایسه با پردازنده‌های دسکتاپ Sandy Bridge Core i5 و i7، Core i7-2630QM موبایل جدید همچنان ضرر می‌کند. علاوه بر این، پلت فرم تلفن همراه در تمام گروه های آزمایشی ضعیف تر و پایدارتر است. این یک وضعیت عادی است، زیرا هنگام ایجاد خط کش های سیارنه تنها عملکرد در اولویت است، بلکه مصرف انرژی کم (برای اطمینان از عمر باتری طولانی تر) و مصرف انرژی کم (به دلیل سیستم های خنک کننده کوچکتر و ضعیف تر) است. حداقل به پکیج حرارتی پردازنده جدید موبایل که بیش از دو برابر (!) کمتر از نسخه های دسکتاپ است، می ارزد. شما باید برای این هزینه بپردازید، از جمله فرکانس اسمی کمتر و عملکرد به طور کلی.

به هر حال، اگر در مورد فرکانس ها صحبت کنیم. Hewlett-Packard DV7 یک سورپرایز خوشایند در این زمینه ارائه کرد (اگرچه ممکن است در تابستان گرم اوضاع چندان خوشایند نباشد). این پردازنده با یک سیستم خنک کننده خوب، می تواند به طور نامحدود با حداکثر فرکانس Turbo Boost 2.6 گیگاهرتز کار کند، بنابراین کاملاً قادر است عملکرد بالاتری نسبت به مشخصات استاندارد نشان دهد. البته، هیچ تضمینی وجود ندارد که سیستم خنک کننده در تابستان با آن مقابله کند، و اگر نه، پس از آن سطح عملکرد واقعینسبت به سیستم های دسکتاپ، می تواند به طور قابل توجهی کمتر از آزمایش های ما باشد. بنابراین، وجود یک سیستم خنک کننده مناسب در یک لپ تاپ با پردازنده موبایل Core i7 جدید به چشم می خورد.

می توانید بررسی دقیق آن را در وب سایت ما بیابید (با این حال، پشتیبانی از حالت خواب عمیق C6 و حافظه ولتاژ پایین LV-DDR3 فقط در Westmere ظاهر شد). و چه چیزی در SB ظاهر شد؟

اول - نوع دوم سنسورهای دما. یک دیود حرارتی آشنا که خوانش آن توسط بایوس و ابزارهای برقی "دیده می شود"، دما را برای تنظیم سرعت فن و محافظت در برابر گرمای بیش از حد اندازه گیری می کند (گسست فرکانس و اگر کمکی نکرد، خاموش شدن اضطراری CPU) . با این حال، منطقه آن بسیار بزرگ است، زیرا تنها یکی از آنها در هر هسته (از جمله GPU) و در عامل سیستم وجود دارد. به آنها، در هر بلوک بزرگ، چندین مدار آنالوگ فشرده با ترانزیستورهای حرارتی اضافه شد. آنها محدوده عملیاتی کوچکتری از اندازه گیری ها دارند (80 تا 100 درجه سانتیگراد)، اما برای پالایش داده های دیود حرارتی و ساختن یک نقشه گرمایش کریستالی دقیق مورد نیاز هستند، که بدون آن عملکردهای جدید TB 2.0 غیرقابل تحقق است. علاوه بر این، کنترل کننده قدرت حتی می تواند از یک سنسور خارجی استفاده کند اگر سازنده مادربرد یک سنسور را قرار داده و به آن متصل کند - اگرچه کاملاً مشخص نیست که چگونه کمک می کند.

عملکرد شماره گذاری مجدد C-states اضافه شده است که برای هر هسته، تاریخچه انتقال بین آنها ردیابی می شود. انتقال به زمان بیشتری نیاز دارد، "عدد خواب" بزرگتر است که هسته وارد یا خارج می شود. کنترل کننده با در نظر گرفتن احتمال "بیدار شدن" آن، تعیین می کند که آیا خواباندن هسته منطقی است یا خیر. اگر به زودی انتظار می رود، به جای سیستم عامل درخواستی، هسته به ترتیب به C3 یا C1 منتقل می شود، یعنی به حالت فعال تر، که به سرعت کار می کند. به اندازه کافی عجیب، با وجود مصرف انرژی بیشتر در چنین رویایی، کل پس اندازممکن است رنج نبرند، زیرا هر دو کاهش می یابد دوره انتقال، که در طی آن پردازنده اصلاً نمی خوابد.

برای مدل‌های موبایل، انتقال تمام هسته‌ها به C6 باعث بازنشانی و غیرفعال کردن حافظه نهان L3 رایج برای بانک‌ها می‌شود. کلیدهای پاور. این باعث کاهش مصرف بیشتر در هنگام بیکاری می شود، اما مملو از تاخیر اضافی در هنگام بیدار شدن است، زیرا هسته ها باید چندین صد یا هزار بار L3 را از دست بدهند تا زمانی که داده ها و کدهای لازم به آنجا پمپ شوند. بدیهی است که در ارتباط با عملکرد قبلی، این تنها در صورتی اتفاق می افتد که کنترلر مطمئن باشد که CPU برای مدت طولانی (با استانداردهای زمان پردازنده) به خواب می رود.

Core i3/i5 نسل قبل از نظر پیچیدگی سیستم قدرت CPU روی مادربرد به نوعی قهرمان بود و به 6 ولتاژ نیاز داشت - به طور دقیق تر، هر 6 ولتاژ قبلا بودند، اما همه به پردازنده منتهی نمی شدند. در SB، آنها نه با تعداد، بلکه با استفاده تغییر کردند:

  • x86-cores و L3 - 0.65–1.05 V (در نهالم L3 جدا شده است).
  • GPU - مشابه (در نهالم تقریباً کل پل شمالی که به یاد می آوریم دومین تراشه CPU آنجا بود، توسط یک اتوبوس مشترک تغذیه می شود).
  • یک عامل سیستم با فرکانس ثابت و ولتاژ ثابت 0.8، 0.9 یا 0.925 V (دو گزینه اول برای مدل های موبایل هستند)، یا 0.879-0.971 V قابل تنظیم پویا؛
  • - ثابت 1.8 V یا قابل تنظیم 1.71-1.89 V.
  • راننده اتوبوس حافظه - 1.5 ولت یا 1.425-1.575 ولت؛
  • درایور PCIe - 1.05 ولت.

نسخه‌های تنظیم‌شده ریل‌های برق در انواع SB قفل‌دار با حرف K استفاده می‌شوند. مدل‌های رومیزی ساعت بی‌کاری هسته‌های x86 را از 1.3 به 1.6 گیگاهرتز افزایش داده‌اند، ظاهراً بدون کاهش مصرف. در عین حال، یک CPU 4 هسته ای در حالت بیکار کامل 3.5-4 وات مصرف می کند. نسخه های موبایل در فرکانس 800 مگاهرتز بیکار هستند و حتی کمتر درخواست می کنند. مدل ها و چیپست ها

کارایی

این فصل در یک مرور کلی ریزمعماری نظری چه می کند؟ و این واقعیت که یک تست به طور کلی شناخته شده وجود دارد که به مدت 20 سال (در نسخه های مختلف) برای ارزیابی نه تئوری، بلکه سرعت برنامه ریزی شده رایانه ها - SPEC CPU استفاده شده است. می تواند عملکرد پردازنده را به طور جامع ارزیابی کند، و در بهترین حالت برای آن، زمانی که کد منبع آزمایشی برای سیستم تحت آزمایش کامپایل و بهینه شده است (یعنی کامپایلر با کتابخانه ها نیز به طور گذرا بررسی می شود). به این ترتیب، مفیدبرنامه‌ها فقط با درج‌های دست‌نویس در اسمبلر سریع‌تر خواهند بود، که امروزه برنامه‌نویسان جسور نادری هستند که زمان زیادی دارند. SPEC را می توان به تست های نیمه مصنوعی نسبت داد، زیرا هیچ چیز مفیدی را محاسبه نمی کند، و هیچ عدد خاصی (IPC، فلاپ، زمان بندی، و غیره) را ارائه نمی دهد - "طوطی ها" یک CPU فقط برای مقایسه با سایرین مورد نیاز هستند. .

به طور معمول، اینتل نتایج را برای CPU های خود تقریباً همزمان با انتشار آنها ارائه می دهد. اما یک تاخیر 3 ماهه غیرقابل درک با SB وجود داشت و اعداد دریافتی در ماه مارس هنوز اولیه هستند. دقیقاً چه چیزی آنها را به تأخیر می اندازد مشخص نیست، اما هنوز هم بهتر از وضعیت AMD است که هیچ چیزی را منتشر نکرد. نتایج رسمیآخرین CPU های آنها ارقام زیر برای Opteron توسط سازندگان سرور با استفاده از کامپایلر اینتل ارائه شده است، بنابراین ممکن است این نتایج کمتر بهینه شوند: چیمجموعه ابزار نرم افزار اینتل می تواند با کدهای در حال اجرا بر روی یک CPU "خارجی" کار کند. ;)


مقایسه سیستم ها در تست های SPEC CPU2006. جدول گردآوری شده توسط دیوید کانتر در مارس 2011.

در مقایسه با CPU های قبلی، SB نتایج عالی (به معنای واقعی کلمه) را به صورت مطلق و حتی نتایج رکوردشکنی را برای هر هسته و گیگاهرتز نشان می دهد. فعال کردن HT و افزودن 2 مگابایت به L3 +3٪ سرعت واقعی و +15٪ سرعت عدد صحیح می دهد. با این حال، مدل 2 هسته ای بالاترین سرعت خاص را دارد، و این یک مشاهده آموزنده است: بدیهی است که اینتل از AVX استفاده کرده است، اما از آنجایی که هنوز نمی توان یک سود صحیح به دست آورد، می توان انتظار شتاب شدید فقط شاخص های واقعی را داشت. اما هیچ جهشی برای آنها وجود ندارد، که با مقایسه مدل های 4 هسته ای نشان داده شده است - و نتایج برای i3-2120 دلیل آن را نشان می دهد: با داشتن همان 2 کانال ICP، هر هسته دو برابر پهنای باند حافظه را دریافت می کند، که برابر است با با افزایش 34 درصدی در سرعت واقعی خاص منعکس شده است. ظاهراً حافظه نهان L3 6-8 مگابایتی خیلی کوچک است و مقیاس کردن PS خودش با استفاده از گذرگاه حلقه دیگر کمکی نمی کند. اکنون مشخص شده است که چرا اینتل قصد دارد سرور Xeons را به ICPهای 3 و حتی 4 کاناله مجهز کند. فقط در حال حاضر 8 هسته وجود دارد و آنها برای چرخش کامل کافی نیستند ...

علاوه بر این: نتایج نهایی SB ظاهر شد - اعداد (که انتظار می رفت) کمی رشد کردند، اما نتایج کیفی یکسان است. چشم اندازها و نتایج

در حال حاضر چیزهای زیادی در مورد جانشین 22 نانومتری سندی بریج، پل آیوی، که در بهار 2012 عرضه می شود، شناخته شده است. هسته ها همه منظورهاز یک زیر مجموعه کمی به روز شده از AES-NI پشتیبانی می کند. کپی برداری "رایگان" از رجیسترها در مرحله تغییر نام کاملاً امکان پذیر است. بهبودی در Turbo Boost انتظار نمی رود، اما GPU (که اتفاقاً روی همه نسخه های چیپست کار می کند) حداکثر تعداد FU را به 16 افزایش می دهد، از اتصال نه دو، بلکه سه صفحه پشتیبانی می کند و در نهایت پشتیبانی عادی از OpenCL 1.1 (همراه با DirectX 11 و OpenGL 3.1) را به دست آورید و قابلیت های سخت افزاری پردازش ویدیو را بهبود بخشید. به احتمال زیاد، در حال حاضر در دسکتاپ و مدل های موبایل ICP از فرکانس 1600 مگاهرتز پشتیبانی می کند و کنترلر PCIe از گذرگاه نسخه 3.0 پشتیبانی می کند. نوآوری اصلی فناوری این است که کش L3 از ترانزیستورهای (برای اولین بار در تولید انبوه میکروالکترونیک!) با یک گیت باله چند جانبه (FinFET) به صورت عمودی استفاده می کند که ویژگی های الکتریکی را به شدت بهبود بخشیده است (جزئیات - در یکی از مقالات آینده). ). شایعاتی وجود دارد مبنی بر اینکه نسخه های GPU دوباره چند تراشه خواهند شد، فقط این بار یک یا چند تراشه حافظه ویدئویی سریع به پردازنده اضافه می شود.

Ivy Bridge به چیپست های جدید متصل می شود (به عنوان مثال. پل های جنوبی) سری 70: Z77، Z75 و H77 برای خانه (جایگزین Z68/P67/H67) و Q77، Q75 و B75 برای دفتر (به جای Q67/Q65/B65). او(یعنی تراشه فیزیکی با نام های مختلف) همچنان بیش از دو پورت SATA 3.0 نخواهد داشت و سرانجام پشتیبانی از USB 3.0 ظاهر می شود، اما یک سال دیرتر از رقیب. پشتیبانی داخلی PCI ناپدید می شود (پس از 19 سال، زمان استراحت اتوبوس است)، اما کنترلر زیر سیستم دیسک Z77 و Q77 فناوری Smart Response را برای افزایش عملکرد از طریق کش کردن دیسک ها با استفاده از SSD دریافت خواهند کرد. با این حال، هیجان انگیزترین خبر این است که با وجود خوب قدیمیبه طور سنتی، نسخه‌های دسکتاپ Ivy Bridge نه تنها در همان سوکت LGA1155 به عنوان SB قرار می‌گیرند، بلکه با آن‌ها همخوانی دارند - یعنی بردهای مدرن با CPU جدید مطابقت دارند.

خوب، برای علاقه مندان، در حال حاضر در سه ماهه چهارم سال جاری، یک چیپست بسیار قدرتمندتر X79 آماده خواهد شد (برای SB-E 4-8 هسته ای برای اتصال "سرور شدید" LGA2011). هنوز USB 3.0 نخواهد داشت، اما 10 پورت از 14 پورت SATA 3.0 (به علاوه پشتیبانی از 4 نوع RAID) وجود خواهد داشت و 4 از 8 خط PCIe می توانند به طور موازی با DMI به CPU متصل شوند و چیپست CPU را دو برابر می کند. لینک PS. متاسفانه X79 با Ivy Bridge 8 هسته ای کار نخواهد کرد.

به عنوان یک استثنا (و شاید یک قانون جدید)، ما فهرستی از مواردی که می‌خواهیم در سندی بریج بهبود و اصلاح کنیم، ارائه نمی‌کنیم. از قبل بدیهی است که هر تغییری یک مصالحه پیچیده است - دقیقاً طبق قانون بقای ماده (در فرمول لومونوسوف): اگر چیزی به جایی رسیده باشد ، در جایی همان مقدار کاهش می یابد. اگر اینتل برای رفع اشتباهات قدیمی در هر معماری جدید عجله کند، تعداد هیزم های شکسته و تراشه های پرنده می تواند از مزایای دریافتی بیشتر شود. بنابراین، به جای افراط و ایده آل دست نیافتنی، از نظر اقتصادی سودآورتر است که به دنبال تعادل بین الزامات دائماً در حال تغییر و گاه متضاد باشیم.

با وجود برخی نقاط، معماری جدید نه تنها باید به خوبی بدرخشد (که با قضاوت بر اساس آزمایشات انجام شده است)، بلکه باید از تمام معماری های قبلی - هم خود و هم از رقیب خود - پیشی بگیرد. اهداف اعلام شده برای عملکرد و صرفه جویی محقق شده است، به استثنای بهینه سازی برای مجموعه AVX که در نسخه های جدید برنامه های محبوب ظاهر می شود. و سپس گوردون مور یک بار دیگر از بینش خود شگفت زده خواهد شد. ظاهرا اینتل برای نبرد Epic Battle بین معماری هایی که امسال شاهد آن خواهیم بود کاملا آماده است.

تشکر بیان می شود:

  • ماکسیم لوکتیوخین، همان «نماینده اینتل»، کارمند بخش بهینه‌سازی نرم‌افزار و سخت‌افزار، برای پاسخ به سؤالات روشن‌کننده متعدد.
  • به مارک باکستون، مهندس ارشد نرم‌افزار و رئیس بخش بهینه‌سازی، به خاطر پاسخ‌هایش و همچنین فرصتی برای دریافت نوعی پاسخ رسمی.
  • Agner Fog، برنامه نویس و محقق پردازنده، برای آزمایش مستقل سطح پایین SB، که چیزهای جدید و مرموز زیادی را فاش کرد.
  • خواننده توجه - برای توجه، استواری و خروپف با صدای بلند.
  • طرفداران خشمگین کمپ مقابل - تا پشته.

سرانجام اینتلبه طور رسمی پردازنده های جدیدی را معرفی کرد که بر روی یک ریزمعماری جدید اجرا می شوند پل ماسه ای. برای اکثر مردم، "اعلام سندی بریج" فقط کلمات است، اما در کل، نسل‌های Core ll اینتل، اگر نه یک دوره جدید، حداقل یک به‌روزرسانی برای تقریباً کل بازار پردازنده‌ها هستند.


در ابتدا، گزارش شد که تنها هفت پردازنده راه اندازی شده است، اما در مفیدترین صفحه arc.intel.comدر حال حاضر اطلاعاتی در مورد تمام محصولات جدید وجود دارد. چند پردازنده دیگر وجود داشت، یا بهتر است بگوییم اصلاحات آنها (در پرانتز، قیمت تخمینی را نشان دادم - هزینه هر پردازنده در یک دسته 1000 قطعه چقدر است):

سیار:

Intel Core i5-2510E (~ 266 دلار)
اینتل Core i5-2520M
اینتل Core i5-2537M
اینتل Core i5-2540M

مقایسه دقیق بصری موبایل پردازنده های اینتل Core i5 نسل دوم.

اینتل Core i7-2617M
اینتل Core i7-2620M
اینتل Core i7-2629M
اینتل Core i7-2649M
اینتل Core i7-2657M
Intel Core i7-2710QE (~ 378 دلار)
اینتل Core i7-2720QM
اینتل Core i7-2820QM
Intel Core i7-2920XM Extreme Edition

مقایسه دقیق بصری نسل دوم پردازنده های موبایل Intel Core i7.

دسکتاپ:

Intel Core i3-2100 (~ 117 دلار)
اینتل Core i3-2100T
Intel Core i3-2120 (138 دلار)

مقایسه بصری و دقیق پردازنده های دسکتاپ نسل دوم اینتل Core i3.

Intel Core i5-2300 (~ 177 دلار)
اینتل Core i5-2390T
اینتل Core i5-2400S
Intel Core i5-2400 (~ 184 دلار)
Intel Core i5-2500K (~ 216 دلار)
اینتل Core i5-2500T
اینتل Core i5-2500S
Intel Core i5-2500 (~ 205 دلار)

مقایسه بصری و دقیق نسل دوم پردازنده های دسکتاپ Core i5 اینتل.

Intel Core i7-2600K (~ 317 دلار)
اینتل Core i7-2600S
Intel Core i7-2600 (~ 294 دلار)

مقایسه دقیق بصری پردازنده های دسکتاپ نسل دوم Intel Core i7.

همانطور که می بینید، نام مدل ها در حال حاضر دارای چهار رقم در نام هستند - این کار به گونه ای انجام می شود که با پردازنده های نسل قبلی اشتباه نشود. ترکیب کاملاً کامل و منطقی بود - جالب ترین سری i7 با وجود فناوری به وضوح از i5 جدا می شود. Hyper Threading و افزایش اندازه کش و پردازنده‌های خانواده i3 نه تنها در تعداد هسته‌های کمتر، بلکه در فقدان فناوری با i5 تفاوت دارند. افزایش توربو.

احتمالا به حروف نام پردازنده ها هم دقت کرده اید که بدون آن محدوده مدل بسیار نازک شده است. بنابراین، حروف اسو تیصحبت در مورد کاهش مصرف برق، و بهیک ضریب رایگان است.

ساختار بصری پردازنده های جدید:

همانطور که می بینید، علاوه بر هسته های گرافیکی و محاسباتی، حافظه نهان و کنترلر حافظه، به اصطلاح عامل سیستم- چیزهای زیادی در آنجا ریخته می شود، به عنوان مثال، کنترلرهای حافظه DDR3 و PCI-Express 2.0، یک مدل مدیریت انرژی و بلوک هایی که در سطح سخت افزار مسئول عملکرد GPU داخلی و نمایش تصویر در صورت وجود آن هستند. استفاده می شود.

تمام اجزای "هسته" (از جمله پردازنده گرافیکی) توسط یک گذرگاه حلقه پرسرعت با دسترسی کامل به حافظه نهان L3 به هم متصل می شوند که باعث افزایش سرعت کلی تبادل داده در خود پردازنده می شود. جالب اینجاست که این رویکرد به شما امکان می دهد تا عملکرد را در آینده افزایش دهید، فقط با افزایش تعداد هسته های اضافه شده به اتوبوس. اگرچه حتی در حال حاضر همه چیز وعده داده است که در اوج باشد - در مقایسه با پردازنده های نسل قبلی، عملکرد پردازنده های جدید تطبیق پذیرتر است و به گفته سازنده، در بسیاری از کارها می تواند 30-50٪ افزایش سرعت اجرای کار را نشان دهد!

اگر می خواهید در مورد معماری جدید بیشتر بدانید، می توانم به زبان روسی این سه مقاله -،، را توصیه کنم.

پردازنده‌های جدید کاملاً بر روی فرآیند 32 نانومتری ساخته شده‌اند و برای اولین بار دارای یک ریزمعماری "بصری هوشمند" هستند که بهترین قدرت پردازشی در کلاس خود و فناوری پردازش گرافیکی سه بعدی را روی یک تراشه واحد ترکیب می‌کند. در واقع نوآوری های زیادی در گرافیک Sandy Bridge وجود دارد که عمدتاً با هدف افزایش عملکرد هنگام کار با سه بعدی انجام می شود. شما می توانید برای مدت طولانی در مورد "تحمیل" یک سیستم ویدئویی یکپارچه بحث کنید، اما هیچ راه حل دیگری به عنوان چنین وجود ندارد. اما چنین اسلایدی از ارائه رسمی وجود دارد که ادعا می کند قابل قبول است، از جمله در محصولات تلفن همراه (لپ تاپ):

من قبلاً در مورد فن آوری های جدید نسل دوم پردازنده های Intel Core صحبت کرده ام، بنابراین من خودم را تکرار نمی کنم. من فقط روی توسعه تمرکز خواهم کرد. اینسایدر اینتل، که ظاهر آن بسیاری را شگفت زده کرد. همانطور که متوجه شدم، این یک نوع فروشگاه خواهد بود که به صاحبان رایانه امکان دسترسی مستقیم به فیلم‌های با کیفیت بالا را از سوی سازندگان این فیلم‌ها می‌دهد - چیزی که تنها مدتی پس از اعلام و نمایش ظاهر می‌شد. دیسک های DVDیا بلوری برای نشان دادن این ویژگی، Intel VP مولی ادن(مولی ادن) به صحنه دعوت شد کوین تسوجیهارو(کوین تسوجیهارا)، رئیس گروه سرگرمی خانگی وارنر. نقل می کنم:

« برادران وارنر سیستم‌های شخصی را همه‌کاره‌ترین و گسترده‌ترین پلت‌فرم برای ارائه محتوای سرگرمی با کیفیت بالا می‌بیند و اکنون اینتل این پلتفرم را حتی مطمئن‌تر و ایمن‌تر می‌کند. از این پس، از طریق WBSshop و همچنین شرکای ما مانند CinemaNow، می‌توانیم نسخه‌ها و فیلم‌های جدید کاتالوگ خود را با کیفیت HD واقعی در اختیار کاربران رایانه‌های شخصی قرار دهیم."- Muli Eden با استفاده از مثال فیلم "Inception" کار این فناوری را نشان داد. اینتل با همکاری با استودیوهای پیشرو در صنعت و غول های رسانه ای (مانند Best Buy CinemaNow، Hungama Digital Media Entertainment، Image Entertainment، Sonic Solutions، Warner Bros. Digital Distribution، و غیره)، در حال ساخت یک سخت افزار ایمن و ضد دزدی دریایی است. اکوسیستمی برای توزیع، ذخیره سازی و پخش ویدیوهای با کیفیت بالا.

عملکرد فناوری ذکر شده در بالا با دو پیشرفت به همان اندازه جالب که در تمامی مدل های پردازنده های نسل جدید نیز وجود دارد، سازگار خواهد بود. من در مورد ( وای فای اینتل 2.0) و Intel InTru 3-D. اولی برای انتقال بی سیم ویدیوی HD (پشتیبانی از رزولوشن تا 1080p)، دومی برای نمایش محتوای استریو بر روی مانیتور یا تلویزیون های HD از طریق اتصال است. HDMI 1.4.

دو عملکرد دیگر که من مکان مناسب تری در مقاله پیدا نکردم - برنامه های افزودنی وکتور پیشرفته اینتل(AVX). پشتیبانی پردازنده‌ها از این دستورالعمل‌ها، عملکرد برنامه‌های کاربردی پر داده مانند ویرایشگرهای صوتی و نرم‌افزار ویرایش صدا را بهبود می‌بخشد. ویرایش حرفه ایعکس ها

… و ویدیوی همگام سازی سریع اینتل- با تشکر از کار مشترکبا شرکت‌های نرم‌افزاری مانند CyberLink، Corel و ArcSoft، این غول پردازشگر توانسته است عملکرد این وظیفه (ترانکد بین فرمت‌های H.264 و MPEG-2) را در مقایسه با گرافیک‌های یکپارچه نسل قبلی 17 برابر بهبود بخشد.

فرض کنید پردازنده هایی وجود دارد - چگونه از آنها استفاده کنیم؟ درست است - در کنار آنها، چیپست های جدید (مجموعه های منطقی) نیز معرفی شدند که نمایندگان سری "شصتمین" هستند. ظاهراً فقط دو مجموعه برای مصرف کنندگان تشنه در نظر گرفته شده است، اینها هستند اینتل H67و اینتل P67، که اکثر مادربردهای جدید روی آن ساخته خواهند شد. H67 قادر به کار با هسته ویدئویی یکپارچه است، در حالی که P67 به Performance Tuning برای اورکلاک پردازنده مجهز شده است. همه پردازنده ها در سوکت جدید کار خواهند کرد، 1155 .


خوشحالم که به نظر می رسد پردازنده های جدید با سوکت های پردازنده اینتل با معماری نسل بعدی سازگار هستند. این پلاس هم برای کاربران عادی و هم برای تولیدکنندگانی که مجبور به طراحی مجدد و ایجاد دستگاه های جدید نیستند مفید است.

اینتل در مجموع بیش از 20 تراشه، چیپست و آداپتورهای بی سیماز جمله پردازنده های جدید Core i7، i5 و i3 اینتل، چیپست های اینتلسری 6 و آداپتورهای Wi-Fi و WiMAX Centrino اینتل. علاوه بر موارد ذکر شده در بالا، "نشان ها" زیر نیز ممکن است در بازار ظاهر شوند:

انتظار می رود بیش از 500 مدل در سال جاری بر روی پردازنده های جدید عرضه شود کامپیوترهای رومیزیو لپ تاپ های برندهای مطرح دنیا.

و در نهایت، یک بار دیگر، یک ویدیوی عالی، اگر کسی آن را ندیده باشد:

تفاوت بین پردازنده های آنلاک "کاملا" و "جزئی"

نتیجه چیست؟ اینتل پس از آزمایش Turbo Boost بر روی نسل‌های گذشته پردازنده‌ها، تصمیم گرفت آن را به ابزاری برای تعیین موقعیت قیمت واقعی محصولات خود نسبت به یکدیگر تبدیل کند. اگر علاقه مندان قبلی اغلب پردازنده های جوان این سری را خریداری می کردند و اغلب آنها را به راحتی تا سطح مدل های قدیمی اورکلاک می کردند، اکنون اختلاف 400 مگاهرتز بین i3-2100 و i3-2120 21 دلار قیمت دارد و شما نمی توانید کاری در مورد آن انجام دهید.

هر دو پردازنده آنلاک شده اندکی بیشتر از مدل های معمولی قیمت خواهند داشت. این تفاوت نسبت به نسل های قبلی کمتر خواهد بود - 11 دلار برای مدل 2500 و 23 دلار برای 2600. اینتل هنوز نمی خواهد اورکلاکرها را بیش از حد بترساند. با این حال، اکنون 216 دلار آستانه پیوستن به باشگاه است. اورکلاک سرگرمی است که باید برای آن هزینه پرداخت کنید. واضح است که چنین موقعیتی می تواند برخی از کاربران را به اردوگاه AMD بکشاند که پردازنده های بودجه آن به خوبی اورکلاک می شوند.

اورکلاک به طور کلی ساده تر شده است - نیازهای مادربرد و رم کاهش یافته است ، با زمان بندی و ضرایب مختلف دردسر کمتری وجود دارد. اما افراد افراطی جایی برای چرخش دارند - مطمئناً، رساله های کامل در مورد تنظیم BCLK نوشته خواهد شد.

هسته گرافیکی و Quick Sync

اینتل حتی با معرفی Clarkdale و Arrandale شروع به تقویت عملکرد هسته گرافیکی یکپارچه خود کرد، اما در آن زمان امکان پیشی گرفتن از رقبا وجود نداشت. نوار دیگری توسط AMD تعیین شده است که در شرف نابودی بازار گرافیک گسسته سطح ابتدایی است. راه حل اینتل زود آمد، اما آیا آن را به وظیفه؟

بیایید با دو راه حل شروع کنیم. آنها HD 2000 و HD 3000 نامیده می شوند و تفاوت آنها در تعداد متفاوت واحدهای اجرایی (EU) است. در مورد اول، 6 مورد وجود دارد، و در مورد دوم - 12. GMA HD نیز 12 مورد از آنها داشت، اما افزایش عملکرد به دلیل یکپارچگی و معماری بازطراحی شده بسیار قابل توجه بود. در ردیف پردازنده های دسکتاپ اینتل، تنها چند پردازنده با ضریب قفل باز شده، گرافیک پیشرفته دریافت کردند. اینها دقیقاً همان مدلهایی هستند که در آنها از گرافیک یکپارچه با کمترین احتمال استفاده خواهد شد. این تصمیم برای ما بسیار عجیب به نظر می رسد. باید امیدوار بود که اینتل در آینده نیز تغییراتی در پردازنده‌های پایین‌تر با هسته گرافیکی کاملاً آنلاک منتشر کند.

خوشبختانه، تمامی پردازنده‌های موبایل جدید این شرکت به HD 3000 مجهز شده‌اند. اینتل مصمم است تا جایی که می‌تواند به رقبای این بخش فشار بیاورد، زیرا رسیدن به سطح عملکرد راه‌حل‌های ابتدایی در اینجا باید آسان‌تر باشد. .

عملکرد گرافیک های یکپارچه به چیزی بیش از تعداد EU بستگی دارد. همه Sandy های رومیزی فرکانس پایه یکسانی دارند (850 مگاهرتز)، اما قدیمی ترها (2600 و 2600K) حداکثر فرکانس Turbo Boost بالاتری دارند - 1350 مگاهرتز در مقابل 1100 برای بقیه. نتیجه نیز تا حدی تحت تأثیر قدرت هسته‌های CPU قرار می‌گیرد، اما به شدت تحت تأثیر مقدار حافظه پنهان آن است. پس از همه، یکی از ویژگی های اصلی گرافیک جدیداستفاده از حافظه نهان سطح سوم با هسته های محاسباتی است که به لطف گذرگاه حلقه LLC پیاده سازی شده است.

همانند پردازنده های Clarkdale، محصولات جدید از شتاب سخت افزاری برای رمزگشایی MPEG، VC-1 و AVC استفاده می کنند. با این حال، این روند در حال حاضر بسیار سریعتر است. مانند "بزرگسال" گرافیک گسسته، پردازنده های Sandy Bridge دارای یک بلوک جداگانه هستند که به رمزگذاری / رمزگشایی ویدیو می پردازد. برخلاف پردازنده های نسل قبل، این وظیفه را به طور کامل بر عهده می گیرد. استفاده از شتاب سخت افزاری از نظر بهره وری انرژی بسیار سودمندتر است و عملکرد در مورد SNB بسیار بالاست. اینتل توانایی رمزگشایی همزمان بیش از دو جریان 1080p را وعده داده است. چنین عملکردی ممکن است برای تبدیل سریع ویدیوی موجود به فرمت مناسب برای یک دستگاه تلفن همراه مورد نیاز باشد. علاوه بر این، ثروتمندان قابلیت های چند رسانه ایهنگام ساختن یک سیستم HTPC، SNB را بهترین انتخاب کنید.

توسعه راه حل های گرافیکی برای پردازنده های اینتل توسط یک بخش جداگانه از این شرکت انجام می شود. پیشرفت های جدید این بخش برای پردازنده های موبایل این شرکت نیز بسیار مرتبط است. تا زمانی که پروژه Larrabee به یک شکل یا آن شکل توسعه مناسبی پیدا نکند، اینتل باید اجزای "غیر x86" را در CPU خود قرار دهد.

اینتل Core i5-2400 و Core i5-2500K

ما 2 پردازنده بر اساس معماری Sandy Bridge دریافت کردیم. اول از همه، مدل 2500K مورد توجه است، زیرا دارای یک ضرب کننده آنلاک است. در آینده ممکن است بنچمارک های مدل های دو هسته ای و پردازنده های سری i7 به صورت جداگانه منتشر شود.

آیا برتری Core i اول (نهالم و در سال 2009 وستمر) نسبت به CPU حریف نهایی است؟ وضعیت کمی شبیه به سال اول پس از انتشار Pentium II است: با تکیه بر موفقیت‌هایمان و کسب سود رکورد، خوب است که یک معماری موفق را بدون تغییر نام زیاد ادامه دهیم و معماری‌های جدیدی اضافه کنیم که استفاده از آنها باعث می‌شود به طور قابل توجهی عملکرد را بهبود می بخشد، بدون فراموش کردن سایر نوآوری ها که برنامه های نسخه های امروزی را سرعت می بخشد. درست است، برخلاف وضعیت 10 سال پیش، باید به موضوع مد روز فعلی بهره وری انرژی که با صفت مبهم Cool - "سرد" و "سرد" بازی می شود، توجه کرد - و میل نه چندان شیک برای ساخت پردازنده هر چیزی که هنوز به صورت جداگانه وجود دارد . در اینجا، زیر چنین سس، تازگی سرو می شود.

«روز پیش دیروز»، «دیروز» و «امروز» پردازنده های اینتل.


جلوی نوار نقاله. رنگ ها نشان می دهد انواع متفاوتاطلاعات و پردازش یا ذخیره آن را مسدود می کند.

پیش بینی

بیایید با اعلام اینتل مبنی بر طراحی مجدد (BPU) شروع کنیم. همانطور که در Nehalem، آدرس قسمت 32 بایتی بعدی کد را در هر چرخه (و قبل از اجرای واقعی) بسته به رفتار مورد انتظار دستورالعمل‌های پرش در قسمتی که پیش‌بینی شده است پیش‌بینی می‌کند - و ظاهرا، بدون توجه به تعداد و نوع پرش ها به طور دقیق‌تر، اگر قطعه فعلی حاوی یک انتقال ظاهراً راه‌اندازی شده باشد، آدرس‌های خود و هدف آن ارائه می‌شود؛ در غیر این صورت، به قطعه بعدی پشت سر هم می‌پرد. پیش‌بینی‌ها به دلیل دو برابر شدن (BTB)، افزایش طول (GBHR) و بهینه‌سازی تابع هش دسترسی (BHT) دقیق‌تر شده‌اند. درست است، آزمایش‌های واقعی نشان داده‌اند که در برخی موارد کارایی پیش‌بینی هنوز کمی بدتر از نهالم است. شاید افزایش عملکرد با کاهش مصرف با پیش بینی انشعاب با کیفیت بالا سازگار نباشد؟ بیایید سعی کنیم آن را بفهمیم.

در نهالم (و همچنین سایر معماری های مدرن) BTB به شکل سلسله مراتب دو سطحی - کوچک - L1 "سریع" و بزرگ - "آهسته" L2 وجود دارد. این به همان دلیلی اتفاق می‌افتد که چندین سطح وجود دارد: یک راه‌حل تک سطحی در همه پارامترها (اندازه، سرعت پاسخ‌دهی، مصرف و غیره) بیش از حد به خطر می‌افتد. اما در SB، معماران تصمیم گرفتند یک سطح، و دو برابر اندازه L2 BTB نهالم، یعنی احتمالا حداقل 4096 سلول قرار دهند - این دقیقاً همان تعداد سلول در Atom است. (لازم به ذکر است که اندازه کدهایی که اغلب اجرا می شوند به آرامی در حال رشد است و کمتر و کمتر در حافظه نهان جا می شود که اندازه آن برای تمام پردازنده های اینتل از اولین پنتیوم ام یکسان است.) در تئوری، این باعث افزایش مساحت اشغال شده توسط BTB می شود و به دلیل اینکه کل مساحت برای تغییر توصیه نمی شود (این یکی از اصول اولیه معماری است) - چیزی باید از ساختار دیگری حذف شود. اما هنوز سرعت وجود دارد. با توجه به اینکه SB باید برای سرعت کمی بالاتر برای همان فرآیند طراحی شود، می توان انتظار داشت که این ساختار بزرگ گلوگاه کل نوار نقاله باشد - مگر اینکه آن را نیز خط لوله کرده باشد (دو مورد از قبل کافی است). درست است، تعداد کل ترانزیستورهایی که در هر چرخه در BTB کار می کنند در این مورد دو برابر می شود، که به هیچ وجه به صرفه جویی در انرژی کمک نمی کند. دوباره بن بست؟ به این، اینتل پاسخ می دهد که BTB جدید آدرس ها را در نوعی حالت فشرده ذخیره می کند، که به شما امکان می دهد دو برابر تعداد سلول هایی با مساحت و مصرف مشابه داشته باشید. اما هنوز امکان تایید این موضوع وجود ندارد.

از آن طرف نگاه می کنیم. SB الگوریتم‌های پیش‌بینی جدیدی را دریافت نکرد، بلکه الگوریتم‌های قدیمی را بهینه‌سازی کرد: عمومی، برای پرش‌های غیرمستقیم، حلقه‌ها و بازده. Nehalem دارای 18 بیت GBHR و BHT با اندازه نامشخص است. با این حال، می توانید تضمین کنید که تعداد سلول های جدول کمتر از 2 18 باشد، در غیر این صورت بیشتر هسته را اشغال می کند. بنابراین، یک تابع هش ویژه وجود دارد که 18 بیت از تاریخچه همه انتقال ها و بیت های آدرس دستورالعمل را در یک شاخص با طول کمتر جمع می کند. و، به احتمال زیاد، حداقل دو هش وجود دارد - برای همه بیت‌های GBHR و برای آنهایی که عملکرد سخت‌ترین انتقال‌ها را منعکس می‌کنند. و در اینجا کارایی توزیع تصادفی با شاخص‌های الگوهای رفتاری مختلف توسط تعداد سلول‌های BHT موفقیت پیش‌بینی‌کننده کلی را تعیین می‌کند. در حالی که به صراحت بیان نشده است، اینتل مطمئناً هش‌ها را بهبود بخشیده است تا GBHRهای طولانی‌تر را با padding به همان اندازه کارآمد فراهم کند. اما هنوز می توان در مورد اندازه BHT حدس زد - و همچنین در مورد اینکه چگونه مصرف انرژی پیش بینی کننده به طور کلی تغییر کرده است ... در مورد (RSB)، هنوز آدرس 16 است، اما یک محدودیت جدید در خود تماس ها معرفی شده اند - نه بیشتر از چهار در 16 بایت کد.

قبل از اینکه جلوتر برویم، اجازه دهید در مورد یک اختلاف جزئی بین نظریه اعلام شده و عمل مشاهده شده بگوییم - و نشان داد که پیش بینی چرخه در SB حذف شده است، در نتیجه پیش بینی انتقال نهایی به ابتدای چرخه است. ساخته شده توسط یک الگوریتم کلی، یعنی بدتر. یکی از نمایندگان اینتل به ما اطمینان داد که نمی تواند "بدتر" شود، اما...

رمزگشایی و IDQ

آدرس‌های دستورات اجرایی که از قبل پیش‌بینی شده‌اند (به طور متناوب برای هر رشته - با فناوری فعال) برای بررسی وجود آنها در حافظه پنهان دستورالعمل (L1I) و (L0m) صادر می‌شوند، اما ما در مورد دومی سکوت خواهیم کرد - ما توضیح خواهیم داد بقیه قسمت های جلو فعلا به اندازه کافی عجیب، اینتل اندازه بخش دستورالعمل خوانده شده از L1I را در 16 بایت نگه داشت (در اینجا کلمه "بخش" مطابق با ما درک می شود). تا به حال، این یک مانع برای کدهایی بوده است که اندازه دستور متوسط ​​آنها به 4 بایت افزایش یافته است و بنابراین 4 دستورالعملی که برای اجرای هر چرخه مطلوب هستند، دیگر در 16 بایت نمی گنجند. AMD این مشکل را در معماری K10 با گسترش بخش دستورالعمل به 32 بایت حل کرد - اگرچه CPU های آن تاکنون بیش از 3 خط لوله ندارند. در SB، نابرابری اندازه منجر به یک عارضه جانبی می‌شود: پیش‌بینی‌کننده آدرس بعدی بلوک 32 بایتی را خروجی می‌دهد، و اگر یک انتقال (احتمالاً) راه‌اندازی شده در نیمه اول آن یافت شود، لازم نیست که آن را خوانده و رمزگشایی کنید. دوم - با این حال، انجام خواهد شد.

از L1I، بخش به پیش رمزگشا می رود، و از آنجا - به خود متر طول ()، پردازش حداکثر 7 یا 6 دستور / ساعت (با و بدون ؛ Nehalem می تواند حداکثر 6 را انجام دهد)، بسته به طول کل آنها. و پیچیدگی بلافاصله پس از انتقال، پردازش با دستوری در آدرس مقصد آغاز می شود، در غیر این صورت، از بایتی که پیش رمزگشا قبل از آن چرخه ای را زودتر متوقف کرده است. به طور مشابه با نکته پایانی: یا (احتمالاً) یک شاخه شلیک شده است که آدرس آخرین بایت آن از BTB آمده است یا آخرین بایت خود بخش - مگر اینکه به محدودیت 7 فرمان / چرخه رسیده باشد، یا یک فرمان "ناراحتی" مواجه می شود. به احتمال زیاد، بافر طول سنج تنها 2-4 وعده دارد، با این حال، طول سنج می تواند هر 16 را از آن دریافت کند. پی در پیبایت به عنوان مثال، اگر 7 دستور دو بایتی در ابتدای یک بخش شناسایی شود، در چرخه بعدی، 16 بایت دیگر می تواند پردازش شود، که از پانزدهم شروع می شود.

سنج طول، در میان چیزهای دیگر، در تشخیص جفت دستورات ادغام ماکرو درگیر است. ما کمی بعد در مورد خود جفت ها صحبت خواهیم کرد، اما در حال حاضر، توجه داشته باشید که مانند Nehalem، بیش از یک جفت از این قبیل را نمی توان در هر چرخه شناسایی کرد، اگرچه حداکثر 3 (و یک فرمان دیگر) را می توان علامت گذاری کرد. . با این حال، اندازه‌گیری طول دستورالعمل یک فرآیند جزئی سریال است، بنابراین تعیین چندین جفت ادغام کلان در طول یک چرخه ممکن نیست.

دستورات برچسب دار در یکی از دو دستور (IQ: صف دستورالعمل) قرار می گیرند - یکی در هر رشته، هر کدام 20 دستور (که 2 دستور بیشتر از نهالم است). به طور متناوب دستورات را از صف ها می خواند و آنها را به uops ترجمه می کند. دارای 3 دستور ساده (ترجمه 1 دستورالعمل به 1 uop، و با ادغام ماکرو - 2 دستورالعمل به 1 uop)، یک مترجم پیچیده (1 دستور به 1-4 uop یا 2 دستور به 1 uop) و یک میکروسکوئنسر برای پیچیده ترین دستوراتی که به 5 یا بیشتر موپ نیاز دارند از . علاوه بر این، فقط "دم"های هر دنباله را ذخیره می کند، که از پنجمین موپ شروع می شود، زیرا 4 مورد اول توسط یک مترجم پیچیده صادر می شود. در عین حال، اگر تعداد uop‌های موجود در میان‌افزار بر 4 بخش‌پذیر نباشد، چهار تای آخر آن‌ها ناقص خواهند بود، اما قرار دادن 1 تا 3 uop دیگر از مترجم‌ها به همان اندازه کارساز نخواهد بود. نتیجه رمزگشایی می آید و دو (یکی در هر جریان). دومی (که به طور رسمی IDQ نامیده می شود - صف رمزگشایی دستورالعمل، صف دستورات رمزگشایی) هنوز دارای 28 uops و توانایی مسدود کردن حلقه در صورت قرار گرفتن قسمت اجرایی آن است.

همه اینها (به جز حافظه پنهان) قبلاً در نهالم بود. و چه تفاوت هایی دارند؟ اول از همه، بدیهی است که رمزگشا آموزش داده شده است که دستورات زیر مجموعه جدید را مدیریت کند. پشتیبانی از مجموعه‌های SSE با تمام ارقام دیگر تعجب‌آور نیست و شتاب رمزگذاری فرمان (از جمله PCLMULQDQ) به Westmere (نسخه 32 نانومتری Nehalem) اضافه شده است. یک دام اضافه شده است: این تابع برای دستوراتی که هم آدرس دهی ثابت و هم RIP مرتبط دارند کار نمی کند (نسبت به RIP، آدرس نسبت به اشاره گر فرمان است - به روش معمولدسترسی به داده ها در کد 64 بیتی). چنین دستوراتی به 2 uop (بارگیری و عملیات جداگانه) نیاز دارند، به این معنی که رمزگشا آنها را بیش از یک بار در هر چرخه پردازش نمی‌کند، تنها با استفاده از یک مترجم پیچیده. اینتل ادعا می کند که این فداکاری ها برای صرفه جویی در انرژی انجام شده است، اما مشخص نیست که چه چیزی: دو بار قرار دادن، اجرا و uops به وضوح بیش از یک منبع مصرف می کند و بنابراین انرژی مصرف می کند.

ادغام ماکرو بهینه شده است - قبلا فقط مقایسه حسابی یا منطقی (CMP یا TEST) می توانست اولین دستور ادغام باشد، اما اکنون دستورات ساده حسابی جمع و تفریق (ADD، SUB، INC، DEC) و منطقی "AND" (AND) هستند. مجاز است، همچنین تعویض کننده ها برای انتقال (تیم دوم این جفت). این به شما امکان می دهد 2 فرمان آخر را تقریباً در هر حلقه ای به 1 uop کاهش دهید. البته، محدودیت‌های مربوط به ادغام دستورات همچنان وجود دارد، اما آنها حیاتی نیستند، زیرا موقعیت‌های فهرست شده برای یک جفت دستور تقریباً همیشه اجرا می‌شوند:

  • اولین دستور اول باید یک ثبات باشد.
  • اگر عملوند دوم دستور اول در حافظه باشد، آدرس دهی نسبی RIP نامعتبر است.
  • فرمان دوم نمی تواند در ابتدا باشد یا از یک مرز خط عبور کند.

قوانین خود انتقال عبارتند از:

  • فقط TEST و AND با هر شرایطی سازگار هستند.
  • مقایسه بر روی (نه) مساوی و هر علامت امضا شده با هر دستور اول مجاز سازگار است.
  • مقایسه‌های موجود در (غیر) حمل و هر گونه بدون امضا با INC و DEC سازگار نیست.
  • سایر مقایسه ها (علامت، سرریز، برابری و نفی آنها) فقط برای TEST و AND مجاز هستند.

تغییر اصلی در صف‌های uops این است که uop‌های ادغام‌شده از نوع، که دسترسی به حافظه آنها مستلزم خواندن رجیستر فهرست است (و چند نوع نادر دیگر) هنگام نوشتن در IDQ به جفت تقسیم می‌شوند. حتی اگر 4 عدد از این دست پاک کن ها وجود داشته باشد، هر 8 مورد نهایی در IDQ ثبت می شود. این کار به این دلیل انجام می شود که ماپ (IDQ)، توزیع کننده (ROB) و صف های رزرو اکنون از فرمت ماپ کوتاه شده بدون فیلد نمایه 6 بیتی استفاده می کنند (البته برای صرفه جویی در هزینه هنگام جابجایی موپ). فرض بر این است که چنین مواردی نادر خواهد بود و بنابراین سرعت تأثیر زیادی نخواهد داشت.

ما تاریخچه وقوع حالت مسدود کردن چرخه را در این بافر در زیر شرح خواهیم داد، اما در اینجا فقط یک نکته کوچک را نشان می دهیم: انتقال به ابتدای چرخه قبلاً 1 چرخه اضافی طول می کشد، و یک "حباب" بین خوانش ها تشکیل می دهد. پایان و آغاز چرخه، اما اکنون از بین رفته است. با این حال، آخرین uop از تکرار فعلی و اولین uop از تکرار بعدی نمی‌تواند در چهار uop خوانده شده در هر چرخه باشد، بنابراین در حالت ایده‌آل تعداد uops در چرخه باید بر 4 تقسیم شود. خوب، معیارهای مسدود کردن آن وجود ندارد. خیلی تغییر کرد:

  • لوپ موپ ها نباید بیش از 8 قسمت 32 بایتی کد منبع تولید شوند.
  • این بخش ها باید در L0m کش شوند (البته در نهالم در L1I).
  • حداکثر 8 پرش بدون قید و شرط مجاز است که برای شلیک پیش بینی شده است (از جمله پرش نهایی).
  • تماس و بازگشت مجاز نیست.
  • دسترسی‌های جفت‌نشده به پشته مجاز نیستند (اغلب با تعداد نامساوی دستورات PUSH و POP) - در ادامه به آن‌ها می‌پردازیم.

موتور پشته ای

یک مکانیسم دیگر وجود دارد که کار آن را در مقالات قبلی در نظر نگرفتیم - موتور پشته (ردیاب اشاره گر پشته، "ردیاب برای اشاره گر (به بالای) پشته")، واقع قبل از IDQ. در پنتیوم ام ظاهر شد و تا به امروز تغییری نکرده است. ماهیت آن این است که اصلاح نشانگر پشته (ثبت نام ESP/RSP برای حالت 32/64 بیتی) توسط دستورات برای کار با آن (PUSH، POP، CALL و RET) توسط یک جمع کننده جداگانه انجام می شود، نتیجه در ذخیره می شود. یک رجیستر ویژه و به عنوان ثابت به ماپ بازگردانده شد - به جای اینکه نشانگر را بعد از هر دستور تغییر دهید، همانطور که در CPUهای اینتل قبل از Pentium M وجود داشت.

این اتفاق می‌افتد تا زمانی که برخی از دستورالعمل‌ها مستقیماً به اشاره‌گر دسترسی پیدا کنند (و در برخی موارد نادر دیگر) - موتور پشته نشانگر سایه را با صفر مقایسه می‌کند و اگر مقدار غیر صفر باشد، uops را قبل از اینکه دستورالعملی که نشانگر را فراخوانی می‌کند uop را همگام‌سازی کند، در جریان قرار می‌دهد. که مقدار واقعی را از ثبات ویژه به اشاره گر می نویسد (و خود ثبات مجدداً تنظیم می شود). از آنجایی که این به ندرت مورد نیاز است، اکثر دسترسی‌های پشته‌ای که فقط به طور ضمنی نشانگر را تغییر می‌دهند، از یک کپی سایه‌ای از آن استفاده می‌کنند که همزمان با سایر عملیات‌ها اصلاح می‌شود. یعنی از نقطه نظر بلوک های خط لوله، چنین دستوراتی توسط یک ماپ ادغام شده رمزگذاری می شوند و هیچ تفاوتی با دسترسی های حافظه معمولی ندارند، بدون نیاز به پردازش در ALU.

یک خواننده با دقت (بعدازظهر بخیر!) متوجه یک اتصال می شود: وقتی صف uops در حال حلقه زدن است، دسترسی های جفت نشده به پشته غیرقابل قبول است، دقیقاً به این دلیل که موتور پشته در خط لوله است. قبل از IDQ - اگر بعد از تکرار بعدی مقدار نشانگر سایه غیر صفر باشد، لازم است یک synchromop را در تکرار جدید وارد کنید، و در حالت چرخه ای این غیرممکن است (uops فقط از IDQ خوانده می شود). علاوه بر این، موتور پشته به طور کلی برای صرفه جویی در انرژی خاموش می شود، مانند سایر قسمت های جلو.

زندگی مخفی نوپس

تغییر دیگری در طول سنج ایجاد شد، اما این مورد کمی خودنمایی می کند. ابتدا بیایید به یاد بیاوریم که آنها چیست و چرا به آنها نیاز است. در معماری x86، nop تنها 1 بایت بود. هنگامی که لازم بود کد را بیش از 1 بایت جابجا کنید یا دستورات بیش از 1 بایت را جایگزین کنید، آنها به سادگی آنها را چندین بار درج می کردند. اما علیرغم اینکه این دستور هیچ کاری نمی کند، باز هم رمزگشایی آن زمان می برد و متناسب با تعداد گره ها است. برای اینکه عملکرد برنامه "Patched" کاهش نیابد، می توان نوپ را طولانی کرد. با این حال، در CPU دهه 90، نرخ دستورات رمزگشایی با تعداد پیشوندهای بالاتر از یک مقدار مشخص (که بسیار کمتر از حداکثر طول فرمان مجاز x86 15 بایت است) به شدت کاهش یافت. علاوه بر این، به طور خاص برای nopa، پیشوند، به عنوان یک قاعده، از یک نوع استفاده می شود، اما بارها تکرار می شود، که فقط به عنوان یک استثنای نامطلوب مجاز است، و طول سنج را پیچیده می کند.

برای حل این مشکلات، با پنتیوم پرو و پردازنده های آتلون"Long nop" را با بایت modR/M برای طولانی کردن فرمان "رسمی" با استفاده از ثبات ها و آفست آدرس درک کنید. به طور طبیعی، هیچ عملیاتی با حافظه و رجیسترها انجام نمی‌شود، اما بلوک‌های طولی مشابه برای تعیین طول مانند دستورات چند بایتی معمولی استفاده می‌شوند. استفاده از نوپ های طولانی اکنون به طور رسمی توسط آموزش های بهینه سازی نرم افزار سطح پایین اینتل و AMD توصیه می شود. به هر حال، پیش رمزگشای SB، جریمه پیشوندهای 66 و 67 را که طول ثابت و آفست آدرس را تغییر می دهند، نصف کرد (از 6 به 3 چرخه) - اما، مانند Nehalem، این جریمه برای دستورهایی که این پیشوندها انجام می دهند اعمال نمی شود. در واقع طول را تغییر نمی دهند (به عنوان مثال، اگر پیشوند 66 به یک دستورالعمل بدون عملوند فوری اعمال شود) یا بخشی از لیست سوئیچ ها (که اغلب در کد برداری استفاده می شود) هستند.

حداکثر طول یک nop طولانی با فرمت مناسب برای اینتل از 9 بایت و برای AMD از 11 بایت تجاوز نمی کند. و بنابراین، برای تراز به 16 یا 32 بایت، هنوز می تواند چندین نوپ وجود داشته باشد. با این حال، از آنجایی که این دستور ساده است، رمزگشایی و "اجرای" آن به هیچ وجه منابعی را نخواهد گرفت. پردازش بیشترساده ترین دستورات بنابراین، برای سال های زیادی، آزمایش بینی بلند انجام شده است روش استانداردتعیین پارامترهای جلوی نوار نقاله، به ویژه، طول سنج و رمزگشا. و در اینجا سندی بریج شگفتی بسیار عجیبی را ارائه کرد: آزمایش عملکرد برنامه های معمولی هیچ تاخیر و کندی را نشان نداد، اما بررسی مصنوعی پارامترهای رمزگشا به طور غیر منتظره نشان داد که عملکرد آن برابر با یک دستورالعمل در هر ساعت است! در همان زمان، اینتل هیچ اطلاعیه رسمی در مورد چنین تغییرات اساسی در رمزگشا ارائه نکرد.

روش اندازه‌گیری روی Nehalem خوب کار کرد و 4 درست را نشان داد. می‌توانید تقصیر را گردن Turbo Boost 2.0 فعال جدید و «بیش از حد» بیاندازید که نرخ ساعت اندازه‌گیری شده را خراب می‌کند، اما برای آزمایش‌ها غیرفعال شد. گرمای بیش از حد با دریچه گاز کندکننده فرکانس نیز مستثنی است. و هنگامی که در نهایت دلیل کشف شد، حتی عجیب تر شد: معلوم شد که نوپ های طولانی در SB فقط توسط اولین مترجم ساده پردازش می شود، اگرچه نوپ های 1 بایتی با هر تعداد پیشوند و دستورات "عدم عمل" مشابه (برای به عنوان مثال، کپی کردن یک ثبات در خود) به راحتی هر چهار مورد پذیرفته می شوند. اینکه چرا این کار به این صورت انجام شد، مشخص نیست، با این حال، حداقل یک اشکال از آن وجود دارد راه حل فنیقبلاً به وضوح خود را نشان داده است: تیم تحقیقاتی ما ده روز وقت صرف کردند تا دلایل کندی مرموز رمزگشا را پیدا کنند ... برای انتقام از طرفداران خشن کمپ مقابل می خواهیم که نوعی تئوری توطئه در مورد آن ارائه دهند. نقشه های موذیانه یک شرکت خاص برای سردرگمی محققان شجاع ساده لوح پردازنده. :)

به هر حال، همانطور که معلوم شد، مترجم شماره 1 قبلاً در میان دیگران "برابرتر" بود. در نهالم، دستورالعمل‌های اسکرول چرخه‌ای (ROL و ROR) با یک عملوند ثابت صریح نیز تنها در مترجم اول رمزگشایی شدند و چهارمین در همان چرخه خاموش شد، به طوری که مقدار IPC به 3 کاهش یافت. به نظر می رسد - چرا چنین مثال نادری در اینجا ارائه می شود؟ اما دقیقاً به دلیل این catch، برای دستیابی به حداکثر سرعت در الگوریتم‌های هش مانند SHA-1، زمان‌بندی دستورالعمل بسیار دقیقی مورد نیاز بود که کامپایلرها نمی‌توانستند با آن کنار بیایند. با این حال، در SB، چنین دستورالعمل هایی به سادگی دو طرفه شدند، به طوری که، با اشغال یک مترجم پیچیده (که قبلاً یکی است)، برای CPU تقریباً غیرقابل تشخیص رفتار می کنند، اما برای یک شخص و یک کامپایلر قابل پیش بینی تر است. با نوپا، برعکس بود. حافظه پنهان

اهداف و پیشینیان

بیهوده نیست که ما این فصل را از بقیه توضیحات قسمت جلویی جدا کردیم - اضافه کردن حافظه پنهان به وضوح نشان می دهد که اینتل چه مسیری را برای همه پردازنده های خود انتخاب کرده است، از Core 2 شروع می شود. برای اولین بار (برای اینتل) ، بلوکی اضافه شد که به طور همزمان به دو هدف متضاد رسید: افزایش سرعت و صرفه جویی در انرژی. ما در مورد صف فرمان (IQ) بین پیش رمزگشا و رمزگشا صحبت می کنیم، که سپس تا 18 دستور تا 64 بایت در کل ذخیره می شود. اگر فقط تفاوت در نرخ آماده سازی و رمزگشایی دستورات را هموار می کرد (مانند یک بافر معمولی)، سود آن ناچیز بود. اما اینتل حدس زد که یک بلوک LSD کوچک را به IQ متصل کند (بعید است که بچه ها چیزی را "پذیرفته باشند"، آنها فقط چنین شوخی دارند) - آشکارساز جریان حلقه، "ردیاب جریان چرخه ای". با شناسایی چرخه‌ای که در 18 دستورالعمل قرار می‌گیرد، LSD تمام مراحل قبلی (پیش‌بینی‌کننده، حافظه پنهان L1I و پیش‌کدکننده) را غیرفعال می‌کند و دستورالعمل‌های چرخه را تا زمانی که کامل شود یا تا زمانی که انتقالی فراتر از آن انجام شود، به رمزگشا منتقل می‌کند (تماس‌ها و بازگشت‌ها عبارتند از مجاز نیست). بنابراین، با غیرفعال کردن بلوک‌های موقتاً غیرفعال، انرژی صرفه‌جویی می‌شود و عملکرد به دلیل جریان تضمینی 4 فرمان / چرخه برای رمزگشا افزایش می‌یابد، حتی اگر آنها با نامناسب‌ترین پیشوندها "ارائه شده باشند".

بدیهی است که اینتل از این ایده خوشش آمد، بنابراین طرح برای Nehalem بهینه شد: IQ تکرار شد (برای دو جریان)، و بین رمزگشا و توزیع کننده (یعنی دقیقاً در مرز جلو و عقب)، دو صف IDQ 28 uops هر کدام قرار گرفتند و بلوک LSD به آنها منتقل شد. اکنون، هنگامی که چرخه مسدود می شود، رمزگشا نیز خاموش می شود، و عملکرد افزایش یافته است، از جمله به دلیل ورود تضمینی نه 4 فرمان، بلکه 4 uops در هر ساعت، حتی اگر با حداقل تولید شده باشند (برای Core 2 / i) با سرعت 2 uop/bar. طرفداران خشمگین کمپ مخالف، که برای یک ثانیه از فعالیت مورد علاقه خود دور می شوند، بلافاصله یک سنجاق سر را وارد می کنند: اگر LSD چیز خوبی است، چرا در Atom ساخته نشده است؟ و سنجاق سر درست است - با داشتن یک صف 32-uP بعد از رمزگشا، Atom قادر به مسدود کردن چرخه در آن نیست، که برای صرفه جویی در میلی وات گرانبها بسیار مفید است. با این وجود، اینتل قصد نداشت از این ایده دست بکشد و یک آپدیت برای CPU های جدید آماده کند و چه به روز رسانی!

نام داخلی رسمی کش uop DSB (بافر جریان رمزگشایی) است، اگرچه به اندازه اصطلاح توصیه شده DIC (کش دستورالعمل رمزگشایی) دقیق نیست. به طرز عجیبی جایگزین نمی شود، بلکه صف های IDQ را تکمیل می کند که اکنون به رمزگشا متصل شده اند. یابا یک کش پاک کن در پیش‌بینی شاخه بعدی، آدرس هدف به طور همزمان در کش دستورالعمل و uop بررسی می‌شود. اگر آخرین مورد کار کند، خواندن بیشتر از آن حاصل می شود و بقیه قسمت جلو خاموش می شود. به همین دلیل است که کش uop همان کش سطح 0 برای uop است، یعنی L0m.

جالب اینجاست که این ایده را می توان با فراخوانی حافظه پنهان IDQ «منهای اول» ادامه داد. :) اما آیا چنین سلسله مراتب پیچیده ای در چارچوب نه حتی کل هسته، بلکه فقط یک جبهه، اضافی نیست؟ اجازه دهید اینتل، به عنوان یک استثنا، از هیچ فضایی دریغ نکند، اما آیا یک جفت IDQ صرفه جویی قابل توجهی را به همراه خواهد داشت، با توجه به اینکه اکنون فقط حافظه پنهان uops در حین کار آنها غیرفعال است، زیرا بقیه قسمت های جلو (به جز پیش بینی) قبلاً وجود دارد. خواب؟ و پس از همه، شما افزایش خاصی در سرعت دریافت نخواهید کرد، زیرا کش uop نیز برای تولید 4 uop / چرخه تنظیم شده است. ظاهراً مهندسان اینتل تصمیم گرفتند که یک بازی 3 سطحی ارزش شمع های میلی واتی را دارد.

علاوه بر صرفه جویی، حافظه پنهان کار را سرعت می بخشد، از جمله با کاهش جریمه برای پیش بینی شاخه اشتباه: در Nehalem، زمانی که کد صحیح در L1I پیدا شد، جریمه 17 چرخه بود، در SB - 19، اما اگر کد در L0m یافت شد - سپس فقط 14. علاوه بر این، اینها حداکثر اعداد هستند: با یک انتقال اشتباه پیش‌بینی‌شده، زمان‌بند همچنان باید uop‌های قبلی را به ترتیب برنامه شروع و تکمیل کند، و در طول این مدت L0m می‌تواند برای پمپاژ صحیح زمان داشته باشد. uops به طوری که زمانبندی می تواند آنها را بلافاصله پس از کنار گذاشتن دستورات قبل از انتقال شروع کند. در نهالم، این تکنیک با IDQ و جلو کار می کرد، اما در حالت اول، احتمال اینکه آدرس هدف صحیح نیز داخل چرخه 28 موپ باشد، بسیار کم است و در حالت دوم، کندی جلو در اکثر موارد. موارد اجازه کاهش تاخیر به صفر را نمی دادند. SB چنین شانس بیشتری دارد.

دستگاه

از نظر توپولوژیکی، L0m از 32 × 8 ردیف (8- ) تشکیل شده است. هر خط 6 uop (در کل کش - 1536، یعنی "یک و نیم کیلووپ") ذخیره می کند و کش می تواند هر بار یک خط بنویسد و بخواند. پیش‌بینی‌کننده آدرس‌های بلوک‌های 32 بایتی را ارائه می‌دهد، و این اندازه است که برای L0m کار می‌کند، بنابراین، در ادامه، منظور ما از عبارت «تکه» یک بلوک 32 بایتی از کد است که به عنوان یک بلوک 32 بایتی در حال اجرا پیش‌بینی شده است. از کد (و نه 16 بایت، مانند رمزگشا). هنگام رمزگشایی، کنترل‌کننده L0m منتظر می‌ماند تا قسمت تا پایان پردازش شود یا تا زمانی که اولین انتقال در آن ایجاد شود (البته احتمالاً - از این پس فرض می‌کنیم پیش‌بینی‌ها همیشه درست هستند)، همزمان با ارسال آن‌ها به عقب، uops را جمع می‌کند. سپس نقاط ورودی و خروجی قطعه را با توجه به رفتار انتقال ها اصلاح می کند. معمولاً، نقطه ورود، آدرس هدف انتقالی است که در قطعه قبلی (به طور دقیق تر، 5 بیت پایین آدرس) شلیک شده است، و نقطه خروج، آدرس خود انتقال شلیک شده در این قطعه است. در حالت شدید، اگر نه بخش قبلی و نه قسمت فعلی یک انتقال واحد را راه‌اندازی نمی‌کنند (یعنی بخش‌ها نه تنها اجرا می‌شوند، بلکه در یک ردیف نیز ذخیره می‌شوند)، هر دو به طور کامل اجرا می‌شوند - ورودی آنها در zero mop و اولین بایت اولین کاملاً فیت در این قسمت از فرمان است و خروجی در آخرین ماپ آخرین دستور کاملاً مناسب و بایت اولیه آن است.

اگر بیش از 18 uop در یک بخش وجود داشته باشد، آن را در حافظه پنهان نمی کند. این حداقل میانگین اندازه دستورالعمل (در یک تکه) را به 1.8 بایت تنظیم می کند که در اکثر برنامه ها محدودیت جدی وجود نخواهد داشت. می‌توانیم نکته دوم محدودیت‌های IDQ را به خاطر بیاوریم - اگر چرخه در یک قسمت قرار می‌گیرد، اما از 19 تا 28 uops طول می‌کشد، نه حافظه نهان L0m و نه صف IDQ آن را برطرف نمی‌کنند، اگرچه اندازه آن در همه جا مناسب است. با این حال، در این مورد، طول متوسط ​​دستورات باید 1.1-1.7 بایت باشد، که برای دوجین فرمان پشت سر هم بسیار بعید است.

به احتمال زیاد، بخش uops به طور همزمان در حافظه پنهان نوشته می شود و 1-3 خط از یک مجموعه را اشغال می کند، بنابراین برای L0m یکی از اصول اصلی عملکرد یک حافظه پنهان مجموعه ای نقض می شود: معمولاً یک خط از یک مجموعه فعال می شود. . بلافاصله، برچسب ها تا سه خط می توانند آدرس همان قسمت را دریافت کنند که فقط در شماره سریال متفاوت است. وقتی آدرس پیش‌بینی‌شده وارد L0m می‌شود، خواندن به همان روش انجام می‌شود - 1، 2 یا 3 مسیر از مجموعه مورد نظر راه‌اندازی می‌شوند. درست است، چنین طرحی مملو از اشکال است.

اگر برنامه اجراییدر همه تکه ها به 13-18 uops رمزگشایی می شود، که 3 خط L0m برای همه تکه ها می گیرد، موارد زیر پیدا می شود: مجموعه فعلیقبلاً توسط دو بخش 3 خطی اشغال شده است و قسمت سوم سعی می کند روی آن بنویسد (که برای یک خط کافی نیست) باید یکی از قسمت های قدیمی را به زور خارج کنید و با در نظر گرفتن اتصال آن ، همه 3 تا قدیمی بنابراین، بیش از دو قسمت از کد "کوچک فرمان" در یک مجموعه نباید مناسب باشد. هنگام آزمایش این فرض در عمل، این اتفاق افتاد: بخش‌هایی با دستورات بزرگ که به کمتر از 7 uop نیاز داشتند در L0m با تعداد 255 بسته‌بندی شدند (به دلایلی نمی‌توان یک عدد دیگر را برد) که تقریباً 8 کیلوبایت دارد. از کد تکه‌های متوسط ​​(7 تا 12 uops) همه 128 موقعیت ممکن (هر کدام 2 ردیف) را پر کردند، دقیقاً 4 کیلوبایت ذخیره شدند. خوب، دستورات کوچک در 66 قسمت قرار می گیرند، که دو بیشتر از مقدار مورد انتظار است (2112 بایت در مقابل 2048)، که ظاهراً با اثرات مرزی کد تست ما توضیح داده می شود. کمبود روی صورت - اگر بتوان 256 خط 6 موپ را به طور کامل پر کرد، برای 85 تریپل کامل با حجم کد کل 2720 بایت کافی خواهد بود.

شاید اینتل انتظار نداشته باشد که در برخی از کدها آنقدر دستورات کوتاه و ساده وجود داشته باشد که بیش از 2/3 آن به بخش های 3 خطی بیفتد، که باعث می شود یکدیگر را زودتر از L0m خارج کنند. و حتی در صورت مواجه شدن با چنین کدی - با توجه به سادگی رمزگشایی آن، بقیه بلوک های جلویی می توانند به راحتی با وظیفه تامین 4 uops / چرخه لازم برای عقب کنار بیایند (اما، بدون صرفه جویی وعده داده شده در وات و جریمه چرخه ها در صورت پیش بینی نادرست). عجیب است که اگر L0m 6 مسیر داشت، مشکلی وجود نداشت. اینتل تصمیم گرفت که اندازه کش یک سوم بزرگتر به دلیل تداعی بودن مهمتر است ...

ابعاد

به یاد بیاورید که ایده کش کردن تعداد زیادی از uops به جای دستورات x86 جدید نیست. برای اولین بار در پنتیوم 4 به شکل یک حافظه پنهان از ردیابی uop - دنباله ای از uops پس از باز کردن حلقه ظاهر شد. علاوه بر این، حافظه پنهان ردیابی مکمل نبود، بلکه جایگزین L1I گم شده شد - دستورات رمزگشا بلافاصله از . با وجود فراموشی معماری NetBurst، منطقی است که فرض کنیم مهندسان اینتل از تجربیات گذشته استفاده کرده اند، البته بدون باز کردن حلقه و پیش بینی اختصاص داده شده به حافظه نهان. بیایید راه حل های قدیمی و جدید را با هم مقایسه کنیم (CPU های جدید در اینجا Core i 2 نامیده می شوند، زیرا اعداد تقریباً همه مدل های با معماری SB با دو شروع می شود):

* - احتمالا

اینجا نیاز به توضیح داریم اول، توان عملیاتی برای L0m بر اساس محدودیت عرض خط لوله کل 4 uops است. در بالا، ما فرض کردیم که L0m می تواند 18 uops در هر چرخه بخواند و بنویسد. با این حال، هنگام خواندن، همه 18 (اگر تعداد آنها در هنگام رمزگشایی قسمت اصلی تعداد زیادی از آنها وجود داشته باشد) را نمی توان در هر ساعت ارسال کرد، و ارسال در چندین ساعت انجام می شود.

علاوه بر این، اندازه تکه تکه‌ها معمولاً به اطلاعات بسیار ظریفی اشاره دارد که تولیدکنندگان یا اصلاً ارائه نمی‌دهند، یا فقط زمانی که به دیوار فشار داده می‌شوند (آنها می‌گویند، شما قبلاً همه چیز را محاسبه کرده‌اید، همینطور باشد - ما خواهیم کرد. تایید). برای یک CPU اینتل، آخرین رقم قابل اطمینان شناخته شده 118 بیت برای پنتیوم پرو است. واضح است که اندازه از آن زمان افزایش یافته است، اما حدس و گمان از اینجا شروع می شود. 118 بیت برای یک سی پی یو x86 32 بیتی را می توان به دست آورد اگر mop دارای فیلدهایی برای آدرس دستورالعملی باشد که آن را تولید کرده است (32 بیت)، عملوند فوری (32 بیت)، آفست آدرس (32 بیت)، عملوندهای ثبت (3) با 3 بیت + 2 بیت در هر مقیاس برای ثبت شاخص) و کد عملیاتی (11 بیت، که در آن نسخه خاصی از دستور x86 با در نظر گرفتن پیشوندها کدگذاری می شود). پس از افزودن و SSE2، فیلد opcode احتمالاً 1 بیت افزایش یافته است که از آن عدد 119 به دست آمده است.

پس از انتقال به (پرسکات و فراتر از آن)، در تئوری، تمام فیلدهای 32 بیتی باید به 64 بیت افزایش یابد. اما نکات ظریفی در اینجا وجود دارد: ثابت‌های 64 بیتی در x86-64 فقط یک بار مجاز هستند (یعنی هر دو ثابت در دستور قطعاً بیش از 8 بایت اشغال نخواهند کرد)، و سپس، و اکنون، هنوز 48 قیمت دارد. بیت ها بنابراین فقط 16 بیت از آدرس و 3 بیت اضافی از شماره های ثبت (که 16 بیت وجود دارد) طول می کشد تا اندازه ماپ افزایش یابد - ما (تقریبا) 138 بیت دریافت می کنیم. خب، در SB، ظاهراً به دلیل اضافه شدن چند صد دستور دیگر از آخرین P4، 1 بیت دیگر و 8 بیت دیگر - به دلیل افزایش حداکثر تعدادحداکثر 5 رجیستر مشخص شده در هر دستور (هنگام استفاده از AVX). اما مورد دوم مشکوک است: از آنجایی که تصور کنید، به اندازه i386، حتی یک مورد به معماری x86 اضافه نشده است. جدیددستوری که به حداقل 4 بایت ثابت نیاز دارد (با تنها استثنای اخیر و بسیار ظریف در SSE4.a AMD که حتی بیشتر برنامه نویسان از آن اطلاعی ندارند). و از آنجایی که اینتل AVX و AMD کدگذاری فقط دستورالعمل های برداری را به روز کردند، بیت های اعداد ثبت اضافی در نیمه بالایی فیلد 32 بیتی عملوند بلااستفاده (برای این دستورالعمل ها) قرار می گیرند. علاوه بر این، در خود فرمان x86، رجیستر 4 یا 5 تنها با چهار بیت از یک ثابت رمزگذاری شده است.

بدیهی است که ذخیره و ارسال چنین "هیولا" در هر در تعداد زیاد- بسیار پر هزینه. بنابراین، حتی برای P4، اینتل یک نسخه کوتاه شده از ماپ را ارائه کرد که در آن فقط یک فیلد برای هر دو ثابت وجود دارد و اگر آنها در آنجا قرار نگیرند، بیت های از دست رفته در همان زمینه ماپ همسایه قرار می گیرند. . با این حال، اگر قبلاً ثابت‌های خود را در آنجا ذخیره می‌کند، لازم است nop را به‌عنوان حامل-دهنده بیت‌های اضافی به‌عنوان همسایه درج کنید. تداوم چنین طرحی در SB نیز مشاهده می شود: گره های اضافی درج نمی شوند، اما دستورات با ثابت های 8 بایتی (یا با مجموع اندازه های ثابت و جابجایی آدرس 5-8 بایت) دارای اندازه دو برابر هستند. در L0 متر با این حال، با توجه به طولانی بودن چنین دستوراتی، بیش از 4 مورد از آنها در یک قسمت قرار نمی گیرند، بنابراین محدودیت در ماپ اشغال شده به وضوح غیرقابل انتقاد است. با این وجود، ما بیان می کنیم: SB، بر خلاف CPU های قبلی، دارای 3 فرمت uop است - قابل رمزگشایی (کامل ترین)، ذخیره شده در حافظه پنهان uop (با کاهش ثابت) و اصلی (بدون فیلد ثبت شاخص)، که بیشتر در خط لوله استفاده می شود. . با این حال، بیشتر uop ها از رمزگشایی تا بازنشستگی دست نخورده می مانند.

محدودیت های

"قوانین استفاده از کش" به فرمت خاص موپ ختم نمی شود. بدیهی است که چنین بلوک مناسبی مانند L0m نمی تواند کاملاً بدون محدودیت های یک درجه یا دیگری از شدت باشد که در مواد تبلیغاتی به ما گفته نشده است. :) بیایید با این واقعیت شروع کنیم که همه uop های دستور ترجمه شده باید در یک خط قرار بگیرند، در غیر این صورت به خط بعدی منتقل می شوند. این با این واقعیت توضیح داده می شود که آدرس های uops خط به طور جداگانه ذخیره می شوند (برای ذخیره 48 بیت در هر uop) و همه uop های تولید شده توسط دستور باید با آدرس اولین بایت آن که در برچسب ذخیره شده است مطابقت داشته باشد. فقط از یک خط برای بازیابی آدرس‌های اصلی، تگ‌ها طول فرمان‌هایی را که uops را ایجاد کرده‌اند ذخیره می‌کنند. "عدم تحمل" uops تا حدودی کارایی استفاده از L0m را از بین می برد، زیرا گاه به گاه دستوراتی که چندین uop ایجاد می کنند، شانس قابل توجهی دارند که در خط بعدی قرار نگیرند.

علاوه بر این، uop های پیچیده ترین دستورالعمل ها هنوز در ROM با میکروکد ذخیره می شوند، و تنها 4 uops اول دنباله، به اضافه یک لینک برای ادامه، به L0m می روند، بنابراین همه چیز با هم یک خط کامل را اشغال می کند. از این نتیجه می‌شود که بیش از سه دستورالعمل میکروکد نمی‌تواند در یک بخش وجود داشته باشد، و با توجه به اندازه متوسط ​​یک دستورالعمل، دو دستورالعمل محدودیت محتمل‌تری خواهند بود. با این حال، در واقعیت، آنها بسیار کمتر دیده می شوند.

نکته مهم دیگر - L0m خود را ندارد. به نظر می رسد که این امر باید تأیید آدرس ها (که در اینجا فقط مجازی هستند) را سرعت بخشد و مصرف انرژی را کاهش دهد. اما همه چیز بسیار جالب تر است - بیهوده نیست که همه کش های مدرن دارند. فضاهای آدرس مجازی برنامه‌هایی که در سیستم‌عامل اجرا می‌شوند می‌توانند با هم همپوشانی داشته باشند، بنابراین، هنگام تعویض متن کار، برای اینکه داده‌ها یا کدهای قدیمی در همان آدرس‌ها خوانده نشوند، حافظه پنهان تقریباً آدرس‌پذیر باید بازنشانی شود (این دقیقاً در مورد P4 بود. کش ردیابی). البته اثربخشی آن در این صورت کم خواهد بود. در برخی از معماری ها به اصطلاح. ASID (شناسه فضای آدرس، شناسه فضای آدرس) - اعداد منحصر به فردی که توسط سیستم عامل به هر رشته اختصاص داده می شود. با این حال، x86 از ASID پشتیبانی نمی کند زیرا غیرضروری است - با توجه به وجود برچسب های فیزیکی برای همه کش ها. اما بعد L0m آمد و عکس را شکست. علاوه بر این، به یاد داشته باشید که کش uop، مانند بسیاری از منابع هسته، بین دو رشته به اشتراک گذاشته شده است، به طوری که uop ها در آن قرار می گیرند. برنامه های مختلف. و اگر سوئیچینگ بین سیستم عامل های مجازی را در حالت مناسب اضافه کنید، آنگاه موپ های دو برنامه می توانند در آدرس ها مطابقت داشته باشند. چه باید کرد؟

حل مشکل رزوه ها آسان است - L0m به سادگی بر دو نیم تقسیم می شود، بنابراین عدد رزوه مهم ترین بیت از تعداد مجموعه را می دهد. علاوه بر این، L1I یک سیاست حفظ نسبت به L0m دارد. بنابراین، وقتی یک کد از L1I خارج می‌شود، uop‌های آن نیز از L0m حذف می‌شوند، که نیاز به بررسی دو بخش مجاور دارد (اندازه خط تمام حافظه‌های پنهان CPU مدرن، بدون احتساب L0m، 64 بایت است). بنابراین، یک آدرس مجازی از uops های کش شده همیشه می تواند در برچسب های L1I با استفاده از TLB آن بررسی شود. به نظر می رسد که اگرچه L0m دارای آدرس دهی مجازی است، اما برچسب های فیزیکی را برای کد از L1I قرض می گیرد. با این حال، وضعیتی وجود دارد که در آن L0m به طور کامل تنظیم مجدد می شود - و جایگزینی در L1I TLB، و همچنین آن ریست کامل(از جمله هنگام تعویض حالت های عملکرد CPU). علاوه بر این، اگر آدرس پایه انتخابگر کد (CS) نباشد، L0m کاملاً غیرفعال می شود صفر(که در سیستم عامل های مدرن بسیار بعید است).

کار کنید

راز اصلی حافظه پنهان uop الگوریتمی است که با خواندن از L0m، کار قسمت جلویی را برای پردازش دستورات به uop جایگزین می‌کند. با استفاده از بیت‌های 5 تا 9 از آدرس هدف پرش (یا بیت‌های 5 تا 8 به اضافه شماره جریان در صورت 2 رشته‌بندی) برای انتخاب مجموعه L0m شروع می‌شود. تگ های مجموعه حاوی نقطه ورود به قسمت است که uop های آن در خط مربوط به تگ و شماره ترتیبی این خط در قسمت نوشته می شود. 1-3 خط می تواند مطابقت داشته باشد، که (به احتمال زیاد) به طور همزمان در یک بافر 18 ماپ خوانده می شود. از آنجا، چهار uop تا رسیدن به نقطه خروج به IDQ ارسال می شود - و همه چیز از ابتدا تکرار می شود. علاوه بر این، هنگامی که 1-3 آخرین uop در قسمت ارسال نشده باقی می ماند، آنها با 3-1 uop های اول قسمت جدید ارسال می شوند که در مجموع به 4 مورد معمول می رسد. یعنی از نقطه نظر صف دریافت IDQ، همه انتقال ها به یک جریان کد یکنواخت هموار می شوند - مانند P4، اما بدون کش ردیابی.

و اکنون یک لحظه عجیب - بیش از دو انتقال در یک خط مجاز نیست، و اگر یکی از آنها بدون قید و شرط باشد، آخرین مورد برای خط خواهد بود. خواننده توجه ما متوجه خواهد شد که برای کل قسمت مجاز است تا 6 پرش مشروط (که هر کدام می تواند بدون نقطه خروج کار کند) یا 5 پرش مشروط و 1 بدون قید و شرط که آخرین فرمان قسمت خواهد بود. پیش بینی انشعاب در CPU اینتل به گونه ای طراحی شده است که تا حداقل یک بار شلیک نشود متوجه انشعاب شرطی نمی شود و تنها پس از آن رفتار آن پیش بینی می شود. اما حتی انتقال‌های «ابدی» نیز مشمول محدودیت هستند. در واقع این بدان معناست که جایز است اجرای پاره پاپ و قبل ازنقاط خروجی آن

اما یک ترفند مشابه با چندین ورودی کار نخواهد کرد - اگر انتقالی به یک بخش از قبل ذخیره شده در حافظه پنهان وجود داشته باشد، اما با یک افست متفاوت در آن (به عنوان مثال، زمانی که بیش از یک انتقال بدون قید و شرط وجود دارد)، L0m یک اشتباه را برطرف می کند، می چرخد. در قسمت جلویی و uop های دریافتی را در قسمت جدیدی می نویسد. یعنی در حافظه نهان، کپی‌هایی برای تکه‌هایی با ورودی‌های مختلف و خروجی‌های یکسان و دقیقاً مشخص (علاوه بر چند مورد ممکن دیگر) مجاز است. و هنگامی که کد از L1I به L0m خارج می شود، تمام خطوط حذف می شوند که نقاط ورودی آنها در هر یک از 64 بایت دو قسمت قرار می گیرند. به هر حال، کپی ها در حافظه نهان ردیابی P4 نیز امکان پذیر بود و کارایی ذخیره سازی کد را به میزان قابل توجهی کاهش دادند ...

چنین محدودیت هایی در دسترس بودن فضای L0m را کاهش می دهد. بیایید سعی کنیم محاسبه کنیم که چقدر از آن برای استفاده واقعی باقی می ماند. متوسط ​​اندازه دستور x86-64 4 بایت است. میانگین تعداد یووپ در هر تیم 1.1 است. یعنی به احتمال زیاد در هر وعده 8 تا 10 پاپ خواهید داشت که 2 خط است. همانطور که قبلا محاسبه شده بود، L0m می تواند 128 جفت از این قبیل را ذخیره کند که برای 4 کیلوبایت کد کافی است. با این حال، با در نظر گرفتن استفاده غیر ایده آل از رشته ها، تعداد واقعی احتمالاً 3-3.5 کیلوبایت خواهد بود. من تعجب می کنم که چگونه این مورد در تعادل کلی حجم های زیرسیستم حافظه پنهان قرار می گیرد؟

  • 1 (در واقع بخشی از L3، به طور متوسط ​​در هر هسته) - 2 مگابایت؛
  • L2 - 256 کیلوبایت، 8 برابر کمتر؛
  • هر دو L1 - هر کدام 32 کیلوبایت، 8 برابر کمتر.
  • حجم ذخیره شده در L0m حدود 10 برابر کمتر است.

عجیب است، اگر ساختار دیگری را در هسته پیدا کنید که دستورالعمل‌ها یا uop‌های زیادی را ذخیره می‌کند، آنگاه مشخص می‌شود که صف توزیع کننده ROB است که با ۱۶۸ uops تولید شده توسط تقریباً ۶۵۰ تا ۷۰۰ بایت کد متناسب است، که ۵ برابر کمتر از حجم معادل موثر L0m (3-3.5 KB) و 9 برابر کوچکتر از حجم کامل (6 KB). به این ترتیب، حافظه پنهان uop سلسله مراتب منظمی از مخازن کدهای مختلف را با پارامترهای متفاوت اما متعادل تکمیل می کند. اینتل ادعا می کند که به طور متوسط ​​80 درصد بازدیدها در L0m ختم می شود. این مقدار بسیار کمتر از رقم 98-99٪ برای یک کش 32 کیلوبایتی L1I است، اما همچنان - در چهار مورد از پنج مورد، حافظه پنهان uop حضور آن را توجیه می کند.

برترین مقالات مرتبط