کدهای کاراکتر لاتین رمزگذاری ASCII (کد استاندارد آمریکایی برای تبادل اطلاعات) - رمزگذاری متن اصلی برای لاتین

05.09.2019 جالب هست

دسامبر	هگز	نماد	دسامبر	هگز	نماد
000	00	متخصص. نه	128	80	Ђ
001	01	متخصص. SOH	129	81	Ѓ
002	02	متخصص. STX	130	82	‚
003	03	متخصص. ETX	131	83	ѓ
004	04	متخصص. EOT	132	84	„
005	05	متخصص. ENQ	133	85	…
006	06	متخصص. ACK	134	86	†
007	07	متخصص. BEL	135	87	‡
008	08	متخصص. لیسانس	136	88	€
009	09	متخصص. TAB	137	89	‰
010	0A	متخصص. LF	138	8A	Љ
011	0B	متخصص. VT	139	8B	‹ ‹
012	0C	متخصص. FF	140	8C	Њ
013	0D	متخصص. CR	141	8D	Ќ
014	0E	متخصص. بنابراین	142	8E	Ћ
015	0F	متخصص. SI	143	8F	Џ
016	10	متخصص. DLE	144	90	ђ
017	11	متخصص. DC1	145	91	‘
018	12	متخصص. DC2	146	92	’
019	13	متخصص. DC3	147	93	“
020	14	متخصص. DC4	148	94	”
021	15	متخصص. NAK	149	95
022	16	متخصص. SYN	150	96	–
023	17	متخصص. ETB	151	97	—
024	18	متخصص. می توان	152	98
025	19	متخصص. EM	153	99	™
026	1A	متخصص. زیر	154	9A	љ
027	1B	متخصص. خروج	155	9B	›
028	1C	متخصص. FS	156	9 درجه سانتیگراد	њ
029	1D	متخصص. جی اس	157	9D	ќ
030	1E	متخصص. روپیه	158	9E	ћ
031	1F	متخصص. ایالات متحده	159	9F	џ
032	20	کلاچ SP (فضا)	160	A0
033	21	!	161	A1	Ў
034	22	"	162	A2	ў
035	23	#	163	A3	Ћ
036	24	$	164	A4	¤
037	25	%	165	A5	Ґ
038	26	&	166	A6	¦
039	27	"	167	A7	§
040	28	(	168	A8	یو
041	29	)	169	A9	©
042	2A	*	170	AA	Є
043	2B	+	171	AB	«
044	2C	,	172	AC	¬
045	2 بعدی	-	173	آگهی
046	2E	.	174	AE	®
047	2F	/	175	AF	Ї
048	30	0	176	B0	°
049	31	1	177	B1	±
050	32	2	178	B2	І
051	33	3	179	B3	і
052	34	4	180	B4	ґ
053	35	5	181	B5	µ
054	36	6	182	B6	¶
055	37	7	183	B7	·
056	38	8	184	B8	ه
057	39	9	185	B9	№
058	3A	:	186	BA	є
059	3B	;	187	BB	»
060	3C	<	188	قبل از میلاد مسیح	ј
061	سه بعدی	=	189	BD	Ѕ
062	3E	>	190	بودن	ѕ
063	3F	?	191	Bf	ї
064	40	@	192	C0	آ
065	41	آ	193	C1	ب
066	42	ب	194	C2	V
067	43	سی	195	C3	جی
068	44	دی	196	C4	دی
069	45	E	197	C5	E
070	46	اف	198	C6	اف
071	47	جی	199	C7	ز
072	48	اچ	200	C8	و
073	49	من	201	C9	Th
074	4A	جی	202	CA	به
075	4B	ک	203	CB	L
076	4C	L	204	CC	م
077	4 بعدی	م	205	سی دی	ن
078	4E	ن	206	CE	O
079	4F	O	207	CF	پ
080	50	پ	208	D0	آر
081	51	س	209	D1	با
082	52	آر	210	D2	تی
083	53	اس	211	D3	دارند
084	54	تی	212	D4	اف
085	55	U	213	D5	ایکس
086	56	V	214	D6	سی
087	57	دبلیو	215	D7	اچ
088	58	ایکس	216	D8	ش
089	59	Y	217	D9	SCH
090	5A	ز	218	DA	ب
091	5B	[	219	DB	اس
092	5C	\	220	دی سی	ب
093	5 بعدی	]	221	DD	E
094	5E	^	222	DE	YU
095	5F	_	223	DF	من هستم
096	60	`	224	E0	آ
097	61	آ	225	E1	ب
098	62	ب	226	E2	v
099	63	ج	227	E3	جی
100	64	د	228	E4	د
101	65	ه	229	E5	ه
102	66	f	230	E6	f
103	67	g	231	E7	س
104	68	ساعت	232	E8	و
105	69	من	233	E9	هفتم
106	6A	j	234	EA	به
107	6B	ک	235	EB	ل
108	6C	ل	236	EC	متر
109	6 بعدی	متر	237	ED	n
110	6E	n	238	EE	O
111	6F	o	239	EF	پ
112	70	پ	240	F0	آر
113	71	q	241	F1	با
114	72	r	242	F2	تی
115	73	س	243	F3	در
116	74	تی	244	F4	f
117	75	تو	245	F5	ایکس
118	76	v	246	F6	ج
119	77	w	247	F7	ساعت
120	78	ایکس	248	F8	w
121	79	y	249	F9	SCH
122	7A	z	250	FA	ب
123	7B	{	251	FB	س
124	7C	\|	252	اف سی	ب
125	7D	}	253	FD	هه
126	7E	~	254	FE	یو
127	7F	متخصص. DEL	255	FF	من هستم

جدول کد کاراکتر اسکی ویندوز.
شرح کاراکترهای ویژه (کنترلی).

لازم به ذکر است که در ابتدا از کاراکترهای کنترل جدول ASCII برای ارائه تبادل داده از طریق تله تایپ، ورود اطلاعات از نوار پانچ و برای ساده ترین کنترل دستگاه های خارجی استفاده می شد.
در حال حاضر، اکثر کاراکترهای کنترل ASCII در جدول دیگر این بار را بر دوش نمی کشند و می توان از آنها برای مقاصد دیگر استفاده کرد.

کد	شرح
NUL، 00	پوچ، خالی
SOH، 01	شروع سرفصل، شروع سرفصل
STX، 02	شروع TeXt، ابتدای متن.
ETX، 03	پایان متن، پایان متن
EOT، 04	پایان انتقال، پایان انتقال
ENQ، 05	جویا شدن. من درخواست تایید می کنم
ACK، 06	تصدیق. من تایید میکنم
BEL, 07	زنگ، زنگ
BS, 08	Backspace، یک کاراکتر به عقب برگردید
TAB, 09	زبانه، زبانه افقی
LF، 0A	تغذیه خط، خوراک خط. اکنون در اکثر زبان های برنامه نویسی با \ n مشخص می شود
VT، 0B	زبانه عمودی، زبانه عمودی.
FF، 0C	فید فرم، فید صفحه، صفحه جدید
CR، 0D	برگشت محموله اکنون در اکثر زبان های برنامه نویسی با \ r نشان داده می شود
SO، 0E	Shift Out، رنگ نوار جوهر را در دستگاه چاپ تغییر دهید
SI، 0F	Shift In، رنگ نوار جوهر موجود در دستگاه چاپ را به عقب برگردانید
DLE، 10	Data Link Escape، کانال را به انتقال داده تغییر دهید
DC1، 11 DC2، 12 DC3، 13 DC4، 14	کنترل دستگاه، نمادهای کنترل دستگاه
NAK، 15	تصدیق منفی، تصدیق نمی کنم.
SYN، 16	هماهنگ سازی. نماد همگام سازی
ETB، 17	پایان بلوک متن، پایان بلوک متنی
CAN، 18	لغو، لغو یک مورد قبلی
EM، 19	پایان رسانه، پایان حامل داده
SUB، 1A	جایگزین به جای شخصیتی قرار می گیرد که ارزش آن در حین انتقال از بین رفته یا خراب شده است
ESC، 1B	دنباله فرار فرار
FS، 1C	جداکننده فایل، جداکننده فایل
GS، 1D	جداکننده گروه، جداکننده گروه
RS، 1E	جداکننده رکورد، جداکننده رکورد
ایالات متحده، 1F	جداکننده واحد، جداکننده واحد
DEL, 7F	حذف کنید، آخرین کاراکتر را حذف کنید.

یک کامپیوتر فرآیند تبدیل آن به شکلی را درک می کند که امکان سازماندهی انتقال راحت تر، ذخیره سازی یا پردازش خودکار این داده ها را فراهم می کند. برای این منظور از جداول مختلفی استفاده می شود. رمزگذاری ASCII اولین سیستم توسعه یافته در ایالات متحده برای کار با متن انگلیسی زبان است که متعاقباً در سراسر جهان گسترش یافت. مقاله زیر به شرح، ویژگی ها، خواص و کاربرد بیشتر آن اختصاص دارد.

نمایش و ذخیره اطلاعات در کامپیوتر

نمادها در یک مانیتور رایانه یا یک یا یک ابزار دیجیتالی تلفن همراه دیگر بر اساس مجموعه ای از اشکال برداری از انواع علائم و کدی تشکیل می شوند که به شما امکان می دهد نمادی را که باید در جای مناسب درج شود در بین آنها پیدا کنید. یک سری بیت است. بنابراین، هر کاراکتر باید به طور منحصربه‌فرد با مجموعه‌ای از صفرها و یک‌ها مطابقت داشته باشد که در یک ترتیب خاص و منحصربه‌فرد قرار دارند.

چطور شروع شدند

از نظر تاریخی، اولین کامپیوترها به زبان انگلیسی بودند. برای رمزگذاری اطلاعات نمادین در آنها فقط از 7 بیت حافظه استفاده می شد در حالی که برای این منظور 1 بایت شامل 8 بیت اختصاص داده شد. تعداد نویسه‌هایی که کامپیوتر در این مورد می‌فهمد برابر با 128 کاراکتر بود. تعداد این کاراکترها شامل الفبای انگلیسی با علائم نگارشی، اعداد و برخی کاراکترهای خاص آن بود. کدگذاری هفت بیتی انگلیسی زبان با جدول مربوطه (صفحه کد)، که در سال 1963 توسعه یافت، کد استاندارد آمریکایی برای تبادل اطلاعات نام گرفت. معمولاً از مخفف "ASCII encoding" برای نشان دادن آن استفاده می شد و هنوز هم تا به امروز استفاده می شود.

گذار به چندزبانگی

با گذشت زمان، کامپیوترها به طور گسترده در کشورهای غیر انگلیسی زبان نیز مورد استفاده قرار گرفته اند. در این راستا نیاز به رمزگذاری هایی وجود داشت که امکان استفاده از زبان های ملی را فراهم کند. تصمیم گرفته شد که چرخ را دوباره اختراع نکنیم و ASCII را به عنوان پایه در نظر بگیریم. جدول رمزگذاری در نسخه جدید به طور قابل توجهی گسترش یافته است. استفاده از بیت هشتم امکان ترجمه 256 کاراکتر به زبان کامپیوتر را فراهم کرد.

شرح

کدگذاری اسکی دارای جدولی است که به 2 قسمت تقسیم شده است. فقط نیمه اول به عنوان استاندارد بین المللی پذیرفته شده عمومی در نظر گرفته می شود. آن شامل:

کاراکترهایی با اعداد ترتیبی از 0 تا 31، کدگذاری شده توسط دنباله هایی از 00000000 تا 00011111. آنها برای کاراکترهای کنترلی رزرو شده اند که فرآیند نمایش متن روی صفحه یا چاپگر، دادن سیگنال صوتی و غیره را کنترل می کنند.
نویسه های دارای NN در جدول از 32 تا 127، کدگذاری شده توسط دنباله هایی از 00100000 تا 01111111، بخش استاندارد جدول را تشکیل می دهند. اینها عبارتند از یک فاصله (N 32)، حروف الفبای لاتین (کوچک و بزرگ)، اعداد ده رقمی از 0 تا 9، علائم نگارشی، براکت های سبک های مختلف و سایر نمادها.
نویسه هایی با اعداد ترتیبی از 128 تا 255، کدگذاری شده توسط دنباله هایی از 10000000 تا 11111111. این حروف شامل حروف الفبای ملی به غیر از لاتین است. این قسمت جایگزین جدول است که از رمزگذاری ASCII برای تبدیل کاراکترهای روسی به فرم کامپیوتری استفاده می شود.

برخی از خواص

ویژگی های رمزگذاری ASCII شامل تفاوت بین حروف "A" - "Z" حروف کوچک و بزرگ تنها با یک بیت است. این شرایط تبدیل رجیستر و همچنین بررسی آن را برای تعلق به محدوده تعیین شده از مقادیر بسیار ساده می کند. علاوه بر این، تمام حروف در سیستم رمزگذاری ASCII با اعداد ترتیبی خود در حروف الفبا نشان داده می شوند که در 5 رقم با نماد دودویی نوشته می شوند، قبل از آن 011 2 برای حروف کوچک و 010 2 برای حروف بزرگ نوشته می شود.

از جمله ویژگی های رمزگذاری ASCII می توان نمایش 10 رقم - "0" - "9" را در نظر گرفت. در سیستم اعداد دوم با 00112 شروع و به 2 عدد ختم می شود. به عنوان مثال، 0101 2 معادل اعشاری پنج است، بنابراین کاراکتر "5" به صورت 0011 01012 نوشته می شود. بر این اساس، می توانید BCD ها را به راحتی با افزودن 00112 به هر nibble سمت چپ به یک رشته ASCII تبدیل کنید.

"یونیکد"

همانطور که می دانید برای نمایش متون به زبان های گروه آسیای جنوب شرقی به هزاران کاراکتر نیاز است. چنین تعدادی از آنها به هیچ وجه در یک بایت اطلاعات توصیف نمی شوند، بنابراین حتی نسخه های توسعه یافته ASCII دیگر نمی توانند نیازهای افزایش یافته کاربران از کشورهای مختلف را برآورده کنند.

بنابراین، نیاز به ایجاد یک رمزگذاری متن جهانی، که توسط کنسرسیوم یونیکد با همکاری بسیاری از رهبران صنعت جهانی فناوری اطلاعات ایجاد شد، ایجاد شد. متخصصان آن سیستم UTF 32 را ایجاد کردند که در آن 32 بیت برای رمزگذاری 1 کاراکتر اختصاص داده شد که 4 بایت اطلاعات را تشکیل می داد. اشکال اصلی افزایش شدید مقدار حافظه مورد نیاز تا 4 برابر بود که مشکلات زیادی را به همراه داشت.

در عین حال، برای اکثر کشورهای دارای زبان رسمی متعلق به گروه هند و اروپایی، تعداد کاراکترهای برابر با 232 بیش از حد اضافی است.

در نتیجه کار بیشتر متخصصان کنسرسیوم یونیکد، رمزگذاری UTF-16 ظاهر شد. این به گزینه ای برای تبدیل اطلاعات نمادین تبدیل شد که هم از نظر مقدار حافظه مورد نیاز و هم از نظر تعداد کاراکترهای رمزگذاری شده برای همه مناسب است. به همین دلیل است که UTF-16 به طور پیش فرض پذیرفته شد و نیاز به 2 بایت برای رزرو یک کاراکتر دارد.

حتی این نسخه نسبتا پیشرفته و موفق "یونیکد" دارای اشکالاتی بود و پس از انتقال از نسخه توسعه یافته ASCII به UTF-16 وزن سند را دو برابر کرد.

در این راستا تصمیم گرفته شد از رمزگذاری طول متغیر UTF-8 استفاده شود. در این حالت، هر کاراکتر متن مبدأ با دنباله ای به طول 1 تا 6 بایت کدگذاری می شود.

ارتباط با کد استاندارد آمریکایی برای تبادل اطلاعات

تمام کاراکترهای الفبای لاتین در UTF-8 با طول متغیر در 1 بایت کدگذاری می شوند، مانند سیستم رمزگذاری ASCII.

ویژگی UTP-8 این است که در مورد متنی به زبان لاتین بدون استفاده از کاراکترهای دیگر، حتی برنامه هایی که "یونیکد" را درک نمی کنند، همچنان به شما امکان خواندن آن را می دهند. به عبارت دیگر، بخش اساسی کدگذاری متن ASCII به سادگی در UTF با طول متغیر جدید ادغام می شود. کاراکترهای سیریلیک در UTP-8 2 بایت را اشغال می کنند، و به عنوان مثال، نویسه های گرجی - 3 بایت. ایجاد UTF-16 و 8 مشکل اصلی ایجاد یک فضای کد واحد در فونت ها را حل کرد. از آن زمان، تولیدکنندگان فونت فقط می توانند جدول را با فرم های برداری از کاراکترهای متنی بر اساس نیاز خود پر کنند.

کدگذاری های مختلف در سیستم عامل های مختلف ترجیح داده می شود. برای خواندن و ویرایش متون تایپ شده با کدگذاری متفاوت، از برنامه های تبدیل متن روسی استفاده می شود. برخی از ویرایشگرهای متن حاوی رمزگذارهای داخلی هستند و به شما امکان می دهند بدون توجه به رمزگذاری متن را بخوانید.

اکنون می دانید که چند کاراکتر در ASCII وجود دارد و چگونه و چرا آن را توسعه داده است. البته امروزه رایج ترین استاندارد در دنیا «یونیکد» است. با این حال، نباید فراموش کنیم که بر اساس ASCII ایجاد شده است، بنابراین، باید از مشارکت توسعه دهندگان آن در زمینه فناوری اطلاعات قدردانی شود.

همانطور که می دانید، یک کامپیوتر اطلاعات را به صورت باینری ذخیره می کند و آن را به صورت دنباله ای از یک ها و صفرها نشان می دهد. برای ترجمه اطلاعات به شکلی که برای درک انسان مناسب باشد، هر دنباله منحصر به فرد اعداد در هنگام نمایش با نماد مربوطه جایگزین می شود.

یکی از سیستم های ارتباط کدهای باینری با کاراکترهای قابل چاپ و کنترل می باشد

در سطح فعلی توسعه فناوری رایانه، کاربر نیازی به دانستن کد هر نماد خاص ندارد. با این حال، درک کلی از نحوه انجام کدنویسی بسیار مفید است و برای برخی از گروه‌های متخصص حتی ضروری است.

ایجاد ASCII

در شکل اصلی خود، رمزگذاری در سال 1963 توسعه یافت و سپس طی 25 سال دو بار به روز شد.

در نسخه اصلی، جدول کاراکترهای ASCII شامل 128 کاراکتر بود، بعداً یک نسخه توسعه یافته ظاهر شد که در آن 128 کاراکتر اول ذخیره شدند و کاراکترهایی که قبلاً وجود نداشتند به کدهایی با بیت هشتم اختصاص داده شدند.

برای چندین سال، این رمزگذاری محبوب ترین در جهان بوده است. در سال 2006، لاتین 1252 مقام اول را به خود اختصاص داد و از پایان سال 2007 تا به امروز، یونیکد به طور قاطعانه جایگاه پیشرو را در اختیار داشته است.

نمایش کامپیوتر ASCII

هر کاراکتر اسکی دارای کد 8 کاراکتری است که صفر یا یک را نشان می دهد. حداقل عدد در چنین نمایشی صفر است (هشت صفر در سیستم دودویی)، که کد اولین عنصر در جدول است.

دو کد در جدول برای جابجایی بین استاندارد US-ASCII و نسخه ملی آن رزرو شده است.

پس از اینکه ASCII شامل نه 128، بلکه 256 کاراکتر شد، یک نوع رمزگذاری گسترده شد که در آن نسخه اصلی جدول در 128 کد اول با بیت هشتم صفر ذخیره شد. نشانه های نوشته ملی در نیمه بالایی جدول (مواضع 128-255) نگهداری می شد.

کاربر نیازی به دانستن مستقیم کدهای کاراکتر ASCII ندارد. معمولاً برای یک توسعه‌دهنده نرم‌افزار کافی است که تعداد یک عنصر در جدول را بداند تا در صورت لزوم، کد آن را با استفاده از یک سیستم باینری محاسبه کند.

زبان روسی

پس از توسعه رمزگذاری برای زبان های اسکاندیناوی، چینی، کره ای، یونانی و غیره در اوایل دهه 70، اتحاد جماهیر شوروی نیز شروع به ایجاد نسخه خود کرد. به زودی نسخه ای از رمزگذاری 8 بیتی به نام KOI8 ساخته شد که اولین 128 کد کاراکتر ASCII را حفظ می کند و همان تعداد موقعیت را برای حروف الفبای ملی و کاراکترهای اضافی اختصاص می دهد.

قبل از معرفی یونیکد، KOI8 بر بخش روسی اینترنت تسلط داشت. گزینه های رمزگذاری برای هر دو الفبای روسی و اوکراینی وجود داشت.

مشکلات ASCII

از آنجایی که تعداد عناصر حتی در جدول توسعه یافته از 256 تجاوز نمی کرد، امکان قرار دادن چندین اسکریپت مختلف در یک رمزگذاری وجود نداشت. در دهه 90، مشکل "crocozyabr" در Runet ظاهر شد، زمانی که متون تایپ شده با حروف ASCII روسی به اشتباه نمایش داده شدند.

مشکل این بود که کدهای انواع مختلف ASCII با یکدیگر مطابقت نداشتند. به یاد بیاورید که موقعیت‌های 128-255 می‌توانند شامل کاراکترهای مختلفی باشند، و هنگام تغییر یک رمزگذاری سیریلیک به دیگری، تمام حروف متن با حروف دیگری که دارای یک شماره یکسان در نسخه دیگری از رمزگذاری هستند جایگزین می‌شوند.

وضعیت فعلی

با ظهور یونیکد، محبوبیت ASCII به شدت کاهش یافت.

دلیل این امر در این واقعیت نهفته است که رمزگذاری جدید امکان قرار دادن علائم تقریباً همه زبان های نوشتاری را فراهم می کند. در این مورد، 128 کاراکتر ASCII اول با همان کاراکترهای یونیکد مطابقت دارد.

در سال 2000، ASCII محبوب ترین رمزگذاری در اینترنت بود و در 60٪ از صفحات وب فهرست شده توسط گوگل استفاده می شد. تا سال 2012، سهم چنین صفحاتی به 17٪ کاهش یافت و یونیکد (UTF-8) جای محبوب ترین رمزگذاری را گرفت.

بنابراین، ASCII بخش مهمی از تاریخ فناوری اطلاعات است، اما استفاده از آن در آینده بی‌امید به نظر می‌رسد.

بر اساس گزارش اتحادیه بین المللی مخابرات، در سال 2016، سه و نیم میلیارد نفر از اینترنت با نظم متفاوت استفاده می کردند. اکثر آنها حتی به این واقعیت فکر نمی کنند که هر پیامی که از طریق رایانه شخصی یا ابزارهای تلفن همراه ارسال می شود و همچنین متن هایی که در انواع مانیتورها نمایش داده می شوند در واقع ترکیبی از 0 و 1 هستند. این ارائه اطلاعات را رمزگذاری می گویند. . ذخیره سازی، پردازش و انتقال آن را فراهم می کند و تا حد زیادی تسهیل می کند. در سال 1963، رمزگذاری ASCII آمریکایی توسعه یافت که این مقاله به آن اختصاص دارد.

ارائه اطلاعات در کامپیوتر

از دیدگاه هر کامپیوتر الکترونیکی، متن مجموعه ای از شخصیت های فردی است. این نه تنها حروف، از جمله حروف بزرگ، بلکه علائم نگارشی و اعداد را نیز شامل می شود. علاوه بر این، از کاراکترهای ویژه "="، "&"، "(" و فاصله استفاده می شود.

به مجموعه علائمی که متن را تشکیل می دهند الفبا و تعداد آنها را کاردینالیته (که با N نشان می دهند) می گویند. برای تعریف آن از عبارت N = 2 ^ b استفاده می شود که b تعداد بیت ها یا وزن اطلاعاتی یک کاراکتر خاص است.

ثابت شده است که یک الفبای با ظرفیت 256 کاراکتر می تواند همه کاراکترهای لازم را نشان دهد.

از آنجایی که 256 توان هشتم دو است، وزن هر کاراکتر 8 بیت است.

واحد اندازه گیری 8 بیت را 1 بایت می نامند، بنابراین مرسوم است که می گویند هر کاراکتری در متن ذخیره شده در رایانه یک بایت حافظه را اشغال می کند.

کد نویسی چگونه انجام می شود

هر متنی با استفاده از کلیدهای صفحه کلید که روی آن اعداد، حروف، علائم نقطه گذاری و سایر علائم نوشته شده است، وارد حافظه رایانه شخصی می شود. آنها در یک کد باینری به RAM منتقل می شوند، یعنی هر کاراکتر با یک کد اعشاری آشنا برای انسان، از 0 تا 255، که مربوط به یک کد باینری است - از 00000000 تا 11111111 مرتبط است.

رمزگذاری کاراکتر بایت به پردازشگر متن اجازه می دهد تا به هر کاراکتر جداگانه دسترسی داشته باشد. در عین حال، 256 کاراکتر برای نشان دادن هر گونه اطلاعات شخصیت کافی است.

رمزگذاری کاراکتر اسکی

این مخفف در زبان انگلیسی مخفف کد برای تبادل اطلاعات است.

حتی در آغاز کامپیوتری شدن، آشکار شد که می‌توانید راه‌های متنوعی برای رمزگذاری اطلاعات پیدا کنید. با این حال، برای انتقال اطلاعات از یک کامپیوتر به کامپیوتر دیگر، نیاز به توسعه یک استاندارد واحد بود. بنابراین، در سال 1963، یک جدول رمزگذاری ASCII در ایالات متحده ظاهر شد. در آن، هر نمادی از الفبای رایانه با عدد ترتیبی آن در نمایش باینری مرتبط است. در ابتدا ASCII فقط در ایالات متحده مورد استفاده قرار گرفت و بعداً به استاندارد بین المللی رایانه های شخصی تبدیل شد.

کدهای اسکی به 2 قسمت تقسیم می شوند. فقط نیمه اول این جدول استاندارد بین المللی محسوب می شود. این شامل کاراکترهایی با اعداد ترتیبی از 0 (کدگذاری شده با 00000000) تا 127 (کد 01111111) است.

شماره سریال	کدگذاری متن ASCII	نماد
	0000 0000 - 0001 1111	کاراکترهایی با N از 0 تا 31 کاراکترهای کنترل نامیده می شوند. عملکرد آنها "هدایت" فرآیند نمایش متن بر روی مانیتور یا دستگاه چاپ، دادن سیگنال صوتی و غیره است.
	0010 0000 - 0111 1111	نویسه های N از 32 تا 127 (بخش استاندارد جدول) - حروف بزرگ و کوچک الفبای لاتین، اعداد 10 رقمی، علائم نقطه گذاری، و همچنین براکت های مختلف، علامت های تجاری و دیگر. کاراکتر 32 نشان دهنده یک فاصله است.
	1000 0000 - 1111 1111	کاراکترهای با N از 128 تا 255 (بخش جایگزین جدول یا صفحه کد) می توانند انواع مختلفی داشته باشند که هر کدام دارای شماره خاص خود هستند. صفحه کد برای تعیین الفبای ملی متفاوت از لاتین استفاده می شود. به ویژه، با کمک آن است که رمزگذاری ASCII برای شخصیت های روسی انجام می شود.

در جدول رمزگذاری، حروف بزرگ و به ترتیب حروف الفبا یکی پس از دیگری دنبال کنید، و اعداد - به ترتیب صعودی مقادیر. این اصل در مورد الفبای روسی نیز صدق می کند.

شخصیت ها را کنترل کنید

جدول رمزگذاری ASCII در ابتدا برای دریافت و انتقال اطلاعات بر روی چنین دستگاهی که برای مدت طولانی استفاده نشده است، مانند تله تایپ ایجاد شد. در این راستا، کاراکترهای غیر قابل چاپ در مجموعه کاراکترها به عنوان دستورات برای کنترل این دستگاه گنجانده شده است. دستورات مشابهی در روش های پیام رسانی پیش رایانه ای مانند کد مورس و غیره استفاده می شد.

رایج ترین کاراکتر "تله تایپ" NUL (00، "صفر") است. هنوز هم در بیشتر زبان های برنامه نویسی تا به امروز استفاده می شود، که نشان دهنده پایان دهنده خط است.

کدگذاری ASCII کجا استفاده می شود؟

کد استاندارد ایالات متحده برای چیزی بیش از وارد کردن اطلاعات متنی از صفحه کلید مورد نیاز است. در گرافیک نیز کاربرد دارد. به طور خاص، در ASCII Art Maker، تصاویر پسوندهای مختلف طیفی از کاراکترهای ASCII را نشان می‌دهند.

چنین محصولاتی دو نوع هستند: آنها عملکرد ویرایشگرهای گرافیکی را با تبدیل تصاویر به متن و تبدیل "تصاویر" به گرافیک ASCII انجام می دهند. به عنوان مثال، شکلک معروف نمونه اصلی یک کاراکتر رمزگذاری است.

ASCII همچنین می تواند هنگام ایجاد یک سند HTML استفاده شود. در این صورت می توانید مجموعه خاصی از کاراکترها را وارد کنید و هنگام مشاهده صفحه، کاراکتری مطابق با این کد روی صفحه ظاهر می شود.

ASCII همچنین برای ایجاد سایت های چند زبانه ضروری است، زیرا کاراکترهایی که در یک جدول ملی خاص گنجانده نشده اند با کدهای ASCII جایگزین می شوند.

برخی از ویژگی ها

برای رمزگذاری اطلاعات متنی در رمزگذاری ASCII، ابتدا از 7 بیت استفاده می شد (یک بیت خالی بود)، اما امروزه به صورت 8 بیتی کار می کند.

حروف ستون های بالا و پایین تنها یک بیت با یکدیگر تفاوت دارند. این امر پیچیدگی چک را تا حد زیادی کاهش می دهد.

استفاده از اسکی در مایکروسافت آفیس

در صورت لزوم، می توان از این نوع رمزگذاری متن در ویرایشگرهای متنی مایکروسافت مانند Notepad و Office Word استفاده کرد. با این حال، هنگام تایپ در این حالت، استفاده از برخی از توابع امکان پذیر نخواهد بود. به عنوان مثال، شما نمی توانید بولد کنید، زیرا ASCII فقط معنای اطلاعات را حفظ می کند و ظاهر و شکل کلی آن را نادیده می گیرد.

استاندارد سازی

سازمان ISO استانداردهای ISO 8859 را پذیرفته است.این گروه کدگذاری های هشت بیتی را برای گروه های زبانی مختلف تعریف می کند. به طور خاص، ISO 8859-1 Extended ASCII است که جدولی برای ایالات متحده و اروپای غربی است. و ISO 8859-5 جدولی است که برای الفبای سیریلیک از جمله زبان روسی استفاده می شود.

به دلایل تاریخی، استاندارد ISO 8859-5 برای مدت کوتاهی مورد استفاده قرار گرفته است.

برای زبان روسی، در حال حاضر، از رمزگذاری ها استفاده می شود:

CP866 (کد صفحه 866) یا DOS،که اغلب به عنوان رمزگذاری جایگزین GOST شناخته می شود. تا اواسط دهه 90 قرن گذشته به طور فعال مورد استفاده قرار گرفت. در حال حاضر عملاً استفاده نمی شود.
KOI-8.رمزگذاری در دهه 1970-1980 توسعه یافت و در حال حاضر استانداردی عمومی برای پیام‌های پستی در Runet است. این به طور گسترده در سیستم عامل خانواده یونیکس از جمله لینوکس استفاده می شود. نسخه «روسی» KOI-8 KOI-8R نام دارد. علاوه بر این، نسخه هایی برای سایر زبان های سیریلیک مانند اوکراینی وجود دارد.
کد صفحه 1251 (CP 1251، Windows - 1251).توسط مایکروسافت برای ارائه پشتیبانی از زبان روسی در محیط ویندوز توسعه یافته است.

مزیت اصلی اولین استاندارد CP866 حفظ کاراکترهای شبه در موقعیت های مشابه در Extended ASCII بود. این امکان اجرای بدون تغییر برنامه های متنی ساخته شده خارجی مانند نورتون فرمانده را فراهم کرد. در حال حاضر، CP866 برای برنامه های توسعه یافته تحت ویندوز استفاده می شود که در حالت متن تمام صفحه یا در پنجره های متنی از جمله FAR Manager کار می کنند.

متون رایانه ای نوشته شده در رمزگذاری CP866 اخیراً بسیار نادر است، اما دقیقاً این رمزگذاری است که برای نام فایل های روسی در ویندوز استفاده می شود.

"یونیکد"

در حال حاضر، این رمزگذاری است که بیشترین استفاده را داشته است. کدهای یونیکد به مناطق تقسیم می شوند. اولین (U + 0000 تا U + 007F) شامل کاراکترهای ASCII با کد است. پس از آن مناطق نشانه های خط های مختلف ملی و همچنین علائم نگارشی و نمادهای فنی دنبال می شود. علاوه بر این، برخی از کدهای "یونیکد" در صورت نیاز به اضافه کردن کاراکترهای جدید در آینده رزرو می شوند.

اکنون می دانید که در ASCII، هر کاراکتر به صورت ترکیبی از 8 صفر و یک نمایش داده می شود. برای افراد غیر متخصص، این اطلاعات ممکن است غیر ضروری و غیر جالب به نظر برسد، اما آیا نمی خواهید بدانید "در مغز" رایانه شخصی شما چه می گذرد؟

مجموعه کاراکترهایی که متن با آنها نوشته می شود نامیده می شود الفبا.

تعداد حروف الفبای اوست قدرت.

فرمول تعیین میزان اطلاعات: N = 2 b,

که در آن N اصل الفبا (تعداد کاراکترها) است.

ب - تعداد بیت ها (وزن اطلاعاتی کاراکتر).

حروف الفبا با ظرفیت 256 کاراکتر می تواند تقریباً تمام کاراکترهای لازم را در خود جای دهد. این الفبا نامیده می شود کافی

زیرا 256 = 2 8، سپس وزن 1 کاراکتر 8 بیت است.

واحد 8 بیتی نامگذاری شد 1 بایت:

1 بایت = 8 بیت.

کد باینری هر کاراکتر در متن کامپیوتر 1 بایت حافظه اشغال می کند.

اطلاعات متنی چگونه در حافظه کامپیوتر نمایش داده می شود؟

راحتی رمزگذاری بایت کاراکترها واضح است، زیرا یک بایت کوچکترین بخش آدرس پذیر حافظه است و بنابراین، پردازنده می تواند به هر کاراکتر جداگانه دسترسی پیدا کند و پردازش متن را انجام دهد. از سوی دیگر، 256 کاراکتر برای نشان دادن طیف گسترده ای از اطلاعات کاراکترها، عددی کاملاً کافی است.

حال این سوال پیش می آید که چه نوع کد باینری هشت بیتی را به هر کاراکتر مرتبط کنیم.

واضح است که این یک موضوع مشروط است، شما می توانید بسیاری از روش های رمزگذاری را ارائه دهید.

همه کاراکترهای الفبای کامپیوتر از 0 تا 255 شماره گذاری می شوند. هر عدد مربوط به یک کد باینری هشت بیتی از 00000000 تا 11111111 است. این کد به سادگی عدد ترتیبی کاراکتر در سیستم اعداد باینری است.

جدولی که در آن به تمام کاراکترهای الفبای کامپیوتر شماره سریال اختصاص داده می شود، جدول رمزگذاری نامیده می شود.

جداول کدگذاری متفاوتی برای انواع مختلف کامپیوترها استفاده می شود.

استاندارد بین المللی رایانه شخصی به جدول تبدیل شده است ASCII(بخوانید asci) (کد استاندارد آمریکایی برای تبادل اطلاعات).

جدول ASCII به دو بخش تقسیم می شود.

استاندارد بین المللی فقط نیمه اول جدول است، یعنی. نمادها با اعداد از 0 (00000000)، تا 127 (01111111).

ساختار جدول کدگذاری اسکی

شماره سریال	کد	نماد
0 - 31	00000000 - 00011111	نمادهایی با اعداد از 0 تا 31 معمولاً کاراکترهای کنترل نامیده می شوند. عملکرد آنها کنترل فرآیند نمایش متن روی صفحه یا چاپ، دادن سیگنال صوتی، علامت گذاری متن و غیره است.
32 - 127	00100000 - 01111111	قسمت استاندارد جدول (انگلیسی). این شامل حروف کوچک و بزرگ الفبای لاتین، اعداد اعشاری، علائم نگارشی، انواع براکت ها، علامت های تجاری و سایر علائم است. کاراکتر 32 یک فضا است، یعنی. جای خالی در متن همه موارد دیگر در علائم خاصی منعکس می شوند.
128 - 255	10000000 - 11111111	قسمت جایگزین جدول (روسی). نیمه دوم جدول کد ASCII که صفحه کد نامیده می شود (128 کد، از 10000000 شروع می شود و با 11111111 ختم می شود)، می تواند انواع مختلفی داشته باشد، هر گونه شماره خود را دارد. صفحه کد در درجه اول برای قرار دادن الفبای ملی به غیر از لاتین استفاده می شود. در رمزگذاری های ملی روسیه، این قسمت از جدول حاوی نمادهای الفبای روسی است.

نیمه اول جدول ASCII

توجه شما را به این نکته جلب می کنم که در جدول رمزگذاری حروف (بزرگ و کوچک) به ترتیب حروف الفبا و اعداد به ترتیب مقادیر به صورت صعودی مرتب شده اند. به این رعایت نظم واژگانی در چینش حروف، اصل رمزگذاری ترتیبی الفبا می گویند.

برای حروف الفبای روسی، اصل کدگذاری متوالی نیز رعایت می شود.

نیمه دوم جدول ASCII

متأسفانه، در حال حاضر پنج رمزگذاری سیریلیک مختلف (KOI8-R، Windows. MS-DOS، Macintosh و ISO) وجود دارد. به همین دلیل، اغلب با انتقال متن روسی از یک رایانه به رایانه دیگر، از یک سیستم نرم افزاری به سیستم دیگر، مشکلاتی ایجاد می شود.

از نظر زمانی، یکی از اولین استانداردها برای رمزگذاری حروف روسی در رایانه، KOI8 ("کد تبادل اطلاعات، 8 بیت") بود. این رمزگذاری در دهه 70 در رایانه های سری رایانه های ES مورد استفاده قرار گرفت و از اواسط دهه 80 در اولین نسخه های روسی شده سیستم عامل یونیکس استفاده شد.

از ابتدای دهه 90، زمان تسلط سیستم عامل MS DOS، رمزگذاری CP866 باقی می ماند ("CP" مخفف "Code Page" است).

کامپیوترهای اپل که سیستم عامل مک را دارند از کدگذاری مک خود استفاده می کنند.

علاوه بر این، سازمان بین المللی استاندارد (سازمان بین المللی استاندارد، ISO) کدگذاری دیگری به نام ISO 8859-5 را به عنوان استاندارد برای زبان روسی تأیید کرد.

در حال حاضر رایج ترین رمزگذاری مایکروسافت ویندوز است که به اختصار CP1251 نامیده می شود.

از اواخر دهه 90، مشکل استانداردسازی کدنویسی کاراکترها با معرفی یک استاندارد بین المللی جدید به نام حل شد. یونیکد... این یک رمزگذاری 16 بیتی است. برای هر کاراکتر 2 بایت حافظه اختصاص می دهد. البته این میزان حافظه استفاده شده را دو برابر می کند. اما از طرف دیگر، چنین جدول کدی امکان گنجاندن حداکثر 65536 کاراکتر را فراهم می کند. مشخصات کامل استاندارد یونیکد شامل تمام الفبای موجود، منقرض شده و مصنوعی جهان و همچنین بسیاری از نمادهای ریاضی، موسیقی، شیمیایی و غیره است.

بیایید سعی کنیم از جدول ASCII استفاده کنیم تا تصور کنیم کلمات در حافظه کامپیوتر چگونه به نظر می رسند.

نمایش داخلی کلمات در حافظه کامپیوتر

گاهی اوقات اتفاق می افتد که متنی متشکل از حروف الفبای روسی که از رایانه دیگری دریافت شده است قابل خواندن نیست - نوعی "بیهوده" روی صفحه نمایشگر قابل مشاهده است. این به دلیل این واقعیت است که رایانه ها از رمزگذاری متفاوتی از شخصیت های زبان روسی استفاده می کنند.

کدهای کاراکتر لاتین رمزگذاری ASCII (کد استاندارد آمریکایی برای تبادل اطلاعات) - رمزگذاری متن اصلی برای لاتین

جدول کد کاراکتر اسکی ویندوز. شرح کاراکترهای ویژه (کنترلی).

نمایش و ذخیره اطلاعات در کامپیوتر

چطور شروع شدند

گذار به چندزبانگی

شرح

برخی از خواص

"یونیکد"

ارتباط با کد استاندارد آمریکایی برای تبادل اطلاعات

ایجاد ASCII

نمایش کامپیوتر ASCII

زبان روسی

مشکلات ASCII

وضعیت فعلی

ارائه اطلاعات در کامپیوتر

کد نویسی چگونه انجام می شود

رمزگذاری کاراکتر اسکی

شخصیت ها را کنترل کنید

کدگذاری ASCII کجا استفاده می شود؟

برخی از ویژگی ها

استفاده از اسکی در مایکروسافت آفیس

استاندارد سازی

"یونیکد"

اطلاعات متنی چگونه در حافظه کامپیوتر نمایش داده می شود؟

حال این سوال پیش می آید که چه نوع کد باینری هشت بیتی را به هر کاراکتر مرتبط کنیم.

جدولی که در آن به تمام کاراکترهای الفبای کامپیوتر شماره سریال اختصاص داده می شود، جدول رمزگذاری نامیده می شود.

ساختار جدول کدگذاری اسکی

شماره سریال

کد

نماد

0 - 31

00000000 - 00011111

32 - 127

00100000 - 01111111

128 - 255

10000000 - 11111111

نیمه اول جدول ASCII

نیمه دوم جدول ASCII

بیایید سعی کنیم از جدول ASCII استفاده کنیم تا تصور کنیم کلمات در حافظه کامپیوتر چگونه به نظر می رسند.

نمایش داخلی کلمات در حافظه کامپیوتر

مقالات مرتبط برتر

جدول کد کاراکتر اسکی ویندوز.
شرح کاراکترهای ویژه (کنترلی).