کدهای کاراکتر آسکی اعشاری ج. رمزگذاری اطلاعات متنی

06.09.2019 ویندوز 7، XP

دسامبر	هگز	سمبل	دسامبر	هگز	سمبل
000	00	متخصص. نه	128	80	Ђ
001	01	متخصص. SOH	129	81	Ѓ
002	02	متخصص. STX	130	82	‚
003	03	متخصص. ETX	131	83	ѓ
004	04	متخصص. EOT	132	84	„
005	05	متخصص. ENQ	133	85	…
006	06	متخصص. ACK	134	86	†
007	07	متخصص. BEL	135	87	‡
008	08	متخصص. لیسانس.	136	88	€
009	09	متخصص. TAB	137	89	‰
010	0A	متخصص. LF	138	8A	Љ
011	0B	متخصص. VT	139	8B	‹ ‹
012	0C	متخصص. FF	140	8C	Њ
013	0D	متخصص. CR	141	8D	Ќ
014	0E	متخصص. بنابراین	142	8E	Ћ
015	0F	متخصص. S.I.	143	8F	Џ
016	10	متخصص. DLE	144	90	ђ
017	11	متخصص. DC1	145	91	‘
018	12	متخصص. DC2	146	92	’
019	13	متخصص. DC3	147	93	“
020	14	متخصص. DC4	148	94	”
021	15	متخصص. N.A.K.	149	95
022	16	متخصص. SYN	150	96	–
023	17	متخصص. ETB	151	97	—
024	18	متخصص. می توان	152	98
025	19	متخصص. E.M.	153	99	™
026	1A	متخصص. زیر	154	9A	љ
027	1B	متخصص. خروج	155	9B	›
028	1C	متخصص. FS	156	9 درجه سانتیگراد	њ
029	1D	متخصص. G.S.	157	9D	ќ
030	1E	متخصص. R.S.	158	9E	ћ
031	1F	متخصص. ایالات متحده	159	9F	џ
032	20	کلاچ SP (فضا)	160	A0
033	21	!	161	A1	Ў
034	22	"	162	A2	ў
035	23	#	163	A3	Ћ
036	24	$	164	A4	¤
037	25	%	165	A5	Ґ
038	26	&	166	A6	¦
039	27	"	167	A7	§
040	28	(	168	A8	یو
041	29	)	169	A9	©
042	2A	*	170	A.A.	Є
043	2B	+	171	AB	«
044	2C	,	172	A.C.	¬
045	2 بعدی	-	173	آگهی
046	2E	.	174	A.E.	®
047	2F	/	175	A.F.	Ї
048	30	0	176	B0	°
049	31	1	177	B1	±
050	32	2	178	B2	І
051	33	3	179	B3	і
052	34	4	180	B4	ґ
053	35	5	181	B5	µ
054	36	6	182	B6	¶
055	37	7	183	B7	·
056	38	8	184	B8	ه
057	39	9	185	B9	№
058	3A	:	186	بی.ا.	є
059	3B	;	187	BB	»
060	3C	<	188	قبل از میلاد مسیح.	ј
061	سه بعدی	=	189	BD	Ѕ
062	3E	>	190	بودن	ѕ
063	3F	?	191	B.F.	ї
064	40	@	192	C0	آ
065	41	آ	193	C1	ب
066	42	ب	194	C2	که در
067	43	سی	195	C3	جی
068	44	D	196	C4	D
069	45	E	197	C5	E
070	46	اف	198	C6	و
071	47	جی	199	C7	ز
072	48	اچ	200	C8	و
073	49	من	201	C9	Y
074	4A	جی	202	سی.ای.	به
075	4B	ک	203	C.B.	L
076	4C	L	204	CC	م
077	4 بعدی	م	205	سی دی	ن
078	4E	ن	206	C.E.	در باره
079	4F	O	207	CF	پ
080	50	پ	208	D0	آر
081	51	س	209	D1	با
082	52	آر	210	D2	تی
083	53	اس	211	D3	U
084	54	تی	212	D4	اف
085	55	U	213	D5	ایکس
086	56	V	214	D6	سی
087	57	دبلیو	215	D7	اچ
088	58	ایکس	216	D8	ش
089	59	Y	217	D9	SCH
090	5A	ز	218	D.A.	کومرسانت
091	5B	[	219	D.B.	Y
092	5C	\	220	دی سی	ب
093	5 بعدی	]	221	DD	E
094	5E	^	222	DE	YU
095	5F	_	223	DF	من
096	60	`	224	E0	آ
097	61	آ	225	E1	ب
098	62	ب	226	E2	V
099	63	ج	227	E3	جی
100	64	د	228	E4	د
101	65	ه	229	E5	ه
102	66	f	230	E6	و
103	67	g	231	E7	ساعت
104	68	ساعت	232	E8	و
105	69	من	233	E9	هفتم
106	6A	j	234	E.A.	به
107	6B	ک	235	E.B.	ل
108	6C	ل	236	E.C.	متر
109	6D	متر	237	ED	n
110	6E	n	238	E.E.	O
111	6F	o	239	E.F.	پ
112	70	پ	240	F0	آر
113	71	q	241	F1	با
114	72	r	242	F2	تی
115	73	س	243	F3	در
116	74	تی	244	F4	f
117	75	تو	245	F5	ایکس
118	76	v	246	F6	ts
119	77	w	247	F7	ساعت
120	78	ایکس	248	F8	w
121	79	y	249	F9	sch
122	7A	z	250	F.A.	ъ
123	7B	{	251	FB	س
124	7C	\|	252	F.C.	ب
125	7D	}	253	FD	اوه
126	7E	~	254	F.E.	یو
127	7F	متخصص. DEL	255	FF	من

جدول کد کاراکتر ASCII Windows.
شرح کاراکترهای ویژه (کنترلی).

لازم به ذکر است که کاراکترهای کنترل جدول ASCII در ابتدا برای اطمینان از تبادل داده ها از طریق دستگاه تحریر تله، ورود داده ها از نوار پانچ و برای کنترل ساده دستگاه های خارجی استفاده می شد.
در حال حاضر، اکثر کاراکترهای کنترل جدول ASCII دیگر این بار را تحمل نمی کنند و می توان از آنها برای اهداف دیگر استفاده کرد.

کد	شرح
NUL، 00	پوچ، خالی
SOH، 01	شروع سرفصل
STX، 02	شروع TeXt، ابتدای متن.
ETX، 03	پایان متن، پایان متن
EOT، 04	پایان انتقال
ENQ، 05	جویا شدن. لطفا تایید کنید
ACK، 06	تصدیق. من تایید میکنم
BEL, 07	زنگ، زنگ بزن
BS, 08	Backspace، یک کاراکتر به عقب برگردید
TAB, 09	زبانه، زبانه افقی
LF، 0A	تغذیه خط، خوراک خط. امروزه در بیشتر زبان های برنامه نویسی با \n نشان داده می شود
VT، 0B	برگه عمودی، جدول بندی عمودی.
FF، 0C	فید فرم، فید صفحه، صفحه جدید
CR، 0D	کالسکه برگشت، کالسکه برگشت. امروزه در بیشتر زبان های برنامه نویسی با \r نشان داده می شود
SO,0E	Shift Out، رنگ نوار جوهر را در دستگاه چاپ تغییر دهید
SI,0F	Shift In، رنگ نوار جوهر موجود در دستگاه چاپ را به عقب برگردانید
DLE، 10	Data Link Escape، تغییر کانال به انتقال داده
DC1، 11 DC2، 12 DC3، 13 DC4، 14	کنترل دستگاه، نمادهای کنترل دستگاه
NAK، 15	تایید منفی، تایید نمی کنم.
SYN، 16	هماهنگ سازی. نماد همگام سازی
ETB، 17	پایان بلوک متن، پایان بلوک متن
CAN، 18	لغو، لغو انتقال قبلی
EM، 19	پایان متوسط
SUB، 1A	جایگزین، جایگزین. به جای نمادی قرار می گیرد که معنی آن در حین انتقال از بین رفته یا خراب شده است
ESC، 1B	دنباله کنترل فرار
FS، 1C	جداکننده فایل، جداکننده فایل
GS، 1D	جداکننده گروه
RS، 1E	جداکننده رکورد، جداکننده رکورد
ایالات متحده، 1F	جداکننده واحد
DEL, 7F	حذف کنید، آخرین کاراکتر را پاک کنید.

همپوشانی کاراکتر

کاراکتر BS (backspace) به چاپگر اجازه می دهد تا یک کاراکتر را روی دیگری چاپ کند. ASCII برای اضافه کردن دیاکریتیک به حروف به این روش، به عنوان مثال:

a BS "→ á
a BS ` → à
یک BS ^ → â
o BS / → ø
c BS , → ç
n BS ~ → с

توجه داشته باشید: در فونت‌های قدیمی، آپوستروف به سمت چپ مایل کشیده می‌شد، و تار ~ به سمت بالا منتقل می‌شد، بنابراین آنها فقط نقش یک تند و یک تند را در بالا قرار می‌دهند.

اگر همان کاراکتر روی یک کاراکتر سوار شود، نتیجه یک جلوه فونت پررنگ است و اگر یک زیر خط روی یک کاراکتر قرار گیرد، نتیجه متنی است که زیر آن خط کشیده شده است.

a BS a → آ
aBS_→ آ

توجه داشته باشید: برای مثال در سیستم man help استفاده می شود.

انواع ملی ASCII

استاندارد ISO 646 (ECMA-6) امکان قرار دادن نمادهای ملی در محل را فراهم می کند @ [ \ ] ^ ` { | } ~ . علاوه بر این، در سایت # می توان پست کرد £ ، و در جای خود $ - ¤ . این سیستم برای زبان های اروپایی که تنها به چند کاراکتر اضافی نیاز دارند، مناسب است. نسخه ASCII بدون کاراکترهای ملی US-ASCII یا "نسخه مرجع بین المللی" نامیده می شود.

متعاقباً استفاده از رمزگذاری های 8 بیتی (صفحات کد) راحت تر بود، جایی که نیمه پایین جدول کد (0-127) توسط نویسه های US-ASCII و نیمه بالایی (128-255) اشغال شده است. توسط شخصیت های اضافی، از جمله مجموعه ای از شخصیت های ملی. بنابراین، نیمه بالایی جدول ASCII، قبل از پذیرش گسترده یونیکد، به طور فعال برای نشان دادن کاراکترهای محلی، حروف زبان محلی استفاده می شد. فقدان استاندارد یکپارچه برای قرار دادن کاراکترهای سیریلیک در جدول ASCII باعث ایجاد مشکلات زیادی در رمزگذاری (KOI-8، Windows-1251 و دیگران) شد. زبان های دیگر با خط غیر لاتین نیز از داشتن چندین رمزگذاری مختلف رنج می برند.

	.0	.1	.2	.3	.4	.5	.6	.7	.8	.9	.آ	.ب	.C	.D	.E	.F
0.	NUL	SOM	EOA	EOM	EQT	W.R.U.	RU	BELL	BKSP	HT	LF	VT	FF	CR	بنابراین	S.I.
1.	DC 0	DC 1	DC 2	DC 3	DC 4	ERR	همگام سازی	L.E.M.	S 0	S 1	S 2	S 3	S 4	S 5	S 6	S 7
2.
3.
4.	جای خالی	!	"	#	$	%	&	"	(	)	*	+	,	-	.	/
5.	0	1	2	3	4	5	6	7	8	9	:	;	<	=	>	?
6.
7.
8.
9.
آ.	@	آ	ب	سی	D	E	اف	جی	اچ	من	جی	ک	L	م	ن	O
ب.	پ	س	آر	اس	تی	U	V	دبلیو	ایکس	Y	ز	[	\	]		←
سی.
D.
E.		آ	ب	ج	د	ه	f	g	ساعت	من	j	ک	ل	متر	n	o
اف.	پ	q	r	س	تی	تو	v	w	ایکس	y	z				خروج	DEL

در رایانه هایی که حداقل واحد آدرس پذیر حافظه یک کلمه 36 بیتی بود، ابتدا از کاراکترهای 6 بیتی استفاده می شد (1 کلمه = 6 کاراکتر). پس از انتقال به ASCII، چنین کامپیوترهایی شروع به شامل 5 کاراکتر هفت بیتی (1 بیت اضافی باقی مانده) یا 4 کاراکتر نه بیتی در یک کلمه کردند.

همچنین از کدهای اسکی برای تعیین اینکه کدام کلید در طول برنامه نویسی فشار داده می شود استفاده می شود. برای یک صفحه کلید استاندارد QWERTY، جدول کد به صورت زیر است:

یونیکد (یونیکد به زبان انگلیسی) یک استاندارد رمزگذاری کاراکتر است. به عبارت ساده، این جدول مطابقت بین کاراکترهای متن (، حروف، عناصر نقطه گذاری) کدهای باینری کامپیوتر فقط دنباله صفر و یک را می فهمد. برای اینکه بداند دقیقاً چه چیزی را باید روی صفحه نمایش دهد، لازم است به هر کاراکتر شماره منحصر به فرد خود را اختصاص دهید. در دهه هشتاد، کاراکترها در یک بایت، یعنی هشت بیت (هر بیت 0 یا 1) رمزگذاری می شدند. بنابراین، معلوم شد که یک جدول (معروف به رمزگذاری یا مجموعه) فقط می تواند 256 کاراکتر را در خود جای دهد. این ممکن است حتی برای یک زبان نیز کافی نباشد. بنابراین، بسیاری از رمزگذاری های مختلف ظاهر شد، که سردرگمی با آنها اغلب منجر به ظاهر شدن برخی ابهامات عجیب و غریب بر روی صفحه به جای متن قابل خواندن می شد. یک استاندارد واحد مورد نیاز بود که یونیکد به آن تبدیل شد. بیشترین استفاده از رمزگذاری UTF-8 (فرمت تبدیل یونیکد) است که از 1 تا 4 بایت برای نمایش یک کاراکتر استفاده می کند.

نمادها

کاراکترها در جداول یونیکد با اعداد هگزادسیمال شماره گذاری می شوند. به عنوان مثال، حرف بزرگ سیریلیک M با U+041C مشخص شده است. این به این معنی است که در تقاطع ردیف 041 و ستون C قرار دارد. شما به سادگی می توانید آن را کپی کنید و سپس آن را در جایی قرار دهید. برای اینکه لیست چند کیلومتری را زیر و رو نکنید، باید از جستجو استفاده کنید. وقتی به صفحه نماد می روید، شماره یونیکد آن و نحوه نگارش آن با فونت های مختلف را می بینید. می‌توانید خود علامت را در نوار جستجو وارد کنید، حتی اگر به جای آن یک مربع کشیده شده باشد، حداقل برای اینکه بفهمید چه چیزی بوده است. همچنین در این سایت مجموعه‌های ویژه (و تصادفی) از همان نوع آیکون‌ها که از بخش‌های مختلف جمع‌آوری شده‌اند، برای سهولت استفاده وجود دارد.

استاندارد یونیکد بین المللی است. این شامل شخصیت هایی از تقریباً تمام فیلمنامه های جهان است. از جمله آنهایی که دیگر استفاده نمی شوند. هیروگلیف های مصری، رون های ژرمنی، نوشته مایاها، خط میخی و الفبای ایالت های باستانی. تعیین وزن ها و اندازه ها، نت موسیقی و مفاهیم ریاضی نیز ارائه شده است.

کنسرسیوم یونیکد خود شخصیت های جدیدی اختراع نمی کند. آیکون هایی که در جامعه کاربرد پیدا می کنند به جداول اضافه می شوند. به عنوان مثال، علامت روبل به مدت شش سال قبل از اضافه شدن به یونیکد به طور فعال مورد استفاده قرار گرفت. پیکتوگرام های ایموجی (شکلک ها) نیز برای اولین بار در ژاپن به طور گسترده ای قبل از گنجاندن در رمزگذاری مورد استفاده قرار گرفتند. اما علائم تجاری و آرم های شرکت در اصل اضافه نمی شوند. حتی موارد معمولی مانند اپل اپل یا پرچم ویندوز. تا به امروز، حدود 120 هزار کاراکتر در نسخه 8.0 کدگذاری شده است.

یک کامپیوتر فرآیند تبدیل آن به فرمی را درک می کند که امکان انتقال راحت تر، ذخیره سازی یا پردازش خودکار این داده ها را فراهم می کند. برای این منظور از جداول مختلفی استفاده می شود. ASCII اولین سیستم توسعه یافته در ایالات متحده برای کار با متن انگلیسی بود که متعاقباً در سراسر جهان گسترش یافت. مقاله زیر به توضیحات، ویژگی ها، خواص و کاربرد بیشتر آن اختصاص دارد.

نمایش و ذخیره اطلاعات در کامپیوتر

نمادها در یک مانیتور رایانه یا یک ابزار دیجیتالی تلفن همراه بر اساس مجموعه ای از اشکال برداری از کاراکترهای مختلف و کدی شکل می گیرند که به شما امکان می دهد نمادی را که باید در جای مناسب درج شود در بین آنها پیدا کنید. نشان دهنده دنباله ای از بیت ها است. بنابراین، هر کاراکتر باید به طور منحصربه‌فرد با مجموعه‌ای از صفرها و یک‌ها مطابقت داشته باشد که به ترتیب خاص و منحصربه‌فردی ظاهر می‌شوند.

چطور شروع شدند

از نظر تاریخی، اولین کامپیوترها انگلیسی زبان بودند. برای رمزگذاری اطلاعات نمادین در آنها، فقط از 7 بیت حافظه استفاده می شد، در حالی که 1 بایت شامل 8 بیت برای این منظور اختصاص داده شد. تعداد کاراکترهایی که کامپیوتر در این مورد درک می کرد 128 کاراکتر بود. این کاراکترها شامل الفبای انگلیسی با علائم نگارشی، اعداد و برخی از کاراکترهای خاص آن بود. کدگذاری هفت بیتی انگلیسی زبان با جدول مربوطه (صفحه کد)، که در سال 1963 توسعه یافت، کد استاندارد آمریکایی برای تبادل اطلاعات نامیده شد. معمولاً برای نشان دادن آن از علامت اختصاری "ASCII encoding" استفاده می شود و هنوز هم استفاده می شود.

گذار به چندزبانگی

با گذشت زمان، کامپیوترها به طور گسترده در کشورهای غیر انگلیسی زبان مورد استفاده قرار گرفتند. در این راستا نیاز به رمزگذاری هایی وجود داشت که امکان استفاده از زبان های ملی را فراهم کند. تصمیم گرفته شد که چرخ را دوباره اختراع نکنیم و ASCII را به عنوان پایه در نظر بگیریم. جدول رمزگذاری در نسخه جدید به طور قابل توجهی گسترش یافته است. استفاده از بیت هشتم امکان ترجمه 256 کاراکتر را به زبان کامپیوتری فراهم کرد.

شرح

کدگذاری اسکی دارای جدولی است که به 2 قسمت تقسیم شده است. تنها نیمه اول آن به عنوان یک استاندارد بین المللی پذیرفته شده عمومی در نظر گرفته می شود. آن شامل:

کاراکترهایی با شماره سریال از 0 تا 31، کدگذاری شده به ترتیب از 00000000 تا 00011111. آنها برای کاراکترهای کنترلی رزرو شده اند که فرآیند نمایش متن روی صفحه یا چاپگر، به صدا درآوردن سیگنال صوتی و غیره را کنترل می کنند.
نویسه‌های دارای NN در جدول از 32 تا 127 که توسط دنباله‌هایی از 00100000 تا 01111111 کدگذاری شده‌اند، بخش استاندارد جدول را تشکیل می‌دهند. اینها عبارتند از فاصله (N 32)، حروف الفبای لاتین (کوچک و بزرگ)، اعداد ده رقمی از 0 تا 9، علائم نگارشی، براکت های سبک های مختلف و سایر نمادها.
نویسه هایی با شماره سریال از 128 تا 255، کدگذاری شده توسط دنباله هایی از 10000000 تا 11111111. این حروف شامل حروف الفبای ملی به غیر از لاتین است. این قسمت جایگزین جدول ASCII است که برای تبدیل حروف روسی به فرم کامپیوتری استفاده می شود.

برخی از خواص

از ویژگی های رمزگذاری ASCII می توان به تفاوت بین حروف "A" - "Z" حروف کوچک و بزرگ تنها با یک بیت اشاره کرد. این شرایط تبدیل رجیستر را تا حد زیادی ساده می کند و همچنین بررسی می کند که آیا به محدوده ای از مقادیر تعلق دارد یا خیر. علاوه بر این، تمام حروف در سیستم رمزگذاری ASCII با اعداد دنباله خود در الفبا نشان داده می شوند که با 5 رقم در سیستم اعداد باینری نوشته می شوند و قبل از آن 011 2 برای حروف کوچک و 010 2 برای حروف بزرگ نوشته می شود.

یکی از ویژگی های رمزگذاری ASCII نمایش 10 رقم - "0" - "9" است. در سیستم اعداد دوم با 00112 شروع و با 2 مقدار عدد ختم می‌شوند. بنابراین، 0101 2 معادل عدد اعشاری پنج است، بنابراین کاراکتر "5" به صورت 0011 01012 نوشته می شود. با توجه به موارد فوق، می توانید به راحتی اعداد BCD را با اضافه کردن دنباله بیت 00112 به هر نوک بر روی یک رشته ASCII به یک رشته ASCII تبدیل کنید. ترک کرد.

"یونیکد"

همانطور که می دانید برای نمایش متون به زبان های گروه آسیای جنوب شرقی به هزاران کاراکتر نیاز است. چنین تعدادی از آنها را نمی توان به هیچ وجه در یک بایت اطلاعات توصیف کرد، بنابراین حتی نسخه های توسعه یافته ASCII دیگر نمی توانند نیازهای افزایش یافته کاربران از کشورهای مختلف را برآورده کنند.

بنابراین، نیاز به ایجاد یک رمزگذاری متن جهانی ایجاد شد که توسعه آن با همکاری بسیاری از رهبران صنعت جهانی فناوری اطلاعات توسط کنسرسیوم یونیکد انجام شد. متخصصان آن سیستم UTF 32 را ایجاد کردند که در آن 32 بیت برای رمزگذاری 1 کاراکتر اختصاص داده شد که 4 بایت اطلاعات را تشکیل می داد. نقطه ضعف اصلی افزایش شدید مقدار حافظه مورد نیاز تا 4 برابر بود که مشکلات زیادی را به همراه داشت.

در عین حال، برای اکثر کشورهای دارای زبان رسمی متعلق به گروه هند و اروپایی، تعداد کاراکترها برابر با 232 بیش از حد است.

در نتیجه کار بیشتر متخصصان کنسرسیوم یونیکد، رمزگذاری UTF-16 ظاهر شد. این به گزینه ای برای تبدیل اطلاعات نمادین تبدیل شد که هم از نظر مقدار حافظه مورد نیاز و هم از نظر تعداد کاراکترهای رمزگذاری شده برای همه مناسب است. به همین دلیل است که UTF-16 به طور پیش فرض پذیرفته شده است و نیاز به ذخیره 2 بایت برای یک کاراکتر دارد.

حتی این نسخه نسبتا پیشرفته و موفق یونیکد دارای اشکالاتی بود و پس از انتقال از نسخه توسعه یافته ASCII به UTF-16، وزن سند دو برابر شد.

در این راستا تصمیم گرفته شد از رمزگذاری طول متغیر UTF-8 استفاده شود. در این حالت، هر کاراکتر متن مبدأ به صورت دنباله ای از طول 1 تا 6 بایت کدگذاری می شود.

برای تبادل اطلاعات با کد استاندارد آمریکایی تماس بگیرید

تمام کاراکترهای لاتین در طول متغیر UTF-8 مانند سیستم رمزگذاری ASCII در 1 بایت کدگذاری می شوند.

ویژگی خاص YTF-8 این است که در مورد متن به زبان لاتین بدون استفاده از کاراکترهای دیگر، حتی برنامه هایی که یونیکد را درک نمی کنند همچنان می توانند آن را بخوانند. به عبارت دیگر، کدگذاری متن پایه ASCII به سادگی بخشی از UTF با طول متغیر جدید می شود. کاراکترهای سیریلیک در YTF-8 2 بایت را اشغال می کنند، و به عنوان مثال، نویسه های گرجی - 3 بایت. با ایجاد UTF-16 و 8 مشکل اصلی ایجاد یک فضای کد واحد در فونت ها حل شد. از آن زمان، تولیدکنندگان فونت فقط می توانند جدول را با فرم های برداری از کاراکترهای متنی بر اساس نیاز خود پر کنند.

سیستم عامل های مختلف کدگذاری های متفاوتی را ترجیح می دهند. برای خواندن و ویرایش متون تایپ شده با کدگذاری متفاوت، از برنامه های تبدیل متن روسی استفاده می شود. برخی از ویرایشگرهای متن حاوی رمزگذارهای داخلی هستند و به شما امکان می دهند بدون توجه به رمزگذاری متن را بخوانید.

اکنون می دانید که چند کاراکتر در رمزگذاری ASCII وجود دارد و چگونه و چرا آن را توسعه داده است. البته امروزه استاندارد یونیکد در جهان بسیار فراگیر شده است. با این حال، نباید فراموش کنیم که مبتنی بر ASCII است، بنابراین باید از مشارکت توسعه دهندگان آن در زمینه فناوری اطلاعات قدردانی کرد.

مجموعه کاراکترهایی که متن با آن نوشته می شود نامیده می شود الفبا.

تعداد کاراکترهای الفبای آن است قدرت.

فرمول تعیین مقدار اطلاعات: N=2b,

که در آن N قدرت الفبا (تعداد کاراکترها) است.

b – تعداد بیت ها (وزن اطلاعات نماد).

الفبای با ظرفیت 256 کاراکتر می تواند تقریباً تمام کاراکترهای لازم را در خود جای دهد. این الفبا نامیده می شود کافی

زیرا 256 = 2 8، سپس وزن 1 کاراکتر 8 بیت است.

واحد اندازه گیری 8 بیت نامگذاری شد 1 بایت:

1 بایت = 8 بیت.

کد دودویی هر کاراکتر در متن کامپیوتر 1 بایت حافظه اشغال می کند.

اطلاعات متنی چگونه در حافظه کامپیوتر نمایش داده می شود؟

راحتی رمزگذاری کاراکتر بایت به بایت واضح است زیرا یک بایت کوچکترین بخش آدرس پذیر حافظه است و بنابراین، پردازنده می تواند هنگام پردازش متن به هر کاراکتر جداگانه دسترسی داشته باشد. از سوی دیگر، 256 کاراکتر برای نشان دادن طیف گسترده ای از اطلاعات نمادین، عدد کافی است.

حال این سوال پیش می آید که کدام کد باینری هشت بیتی را به هر کاراکتر اختصاص دهیم.

واضح است که این یک موضوع مشروط است.

همه کاراکترهای الفبای کامپیوتر از 0 تا 255 شماره گذاری می شوند. هر عدد مربوط به یک کد باینری هشت بیتی از 00000000 تا 11111111 است. این کد به سادگی شماره سریال کاراکتر در سیستم اعداد باینری است.

جدولی که در آن به تمام کاراکترهای الفبای کامپیوتر شماره سریال اختصاص داده می شود، جدول رمزگذاری نامیده می شود.

انواع مختلف کامپیوترها از جداول رمزگذاری متفاوتی استفاده می کنند.

جدول به استاندارد بین المللی رایانه های شخصی تبدیل شده است ASCII(آسکی بخوانید) (کد استاندارد آمریکایی برای تبادل اطلاعات).

جدول کد اسکی به دو بخش تقسیم می شود.

فقط نیمه اول جدول استاندارد بین المللی است، یعنی. نمادها با اعداد از 0 (00000000)، تا 127 (01111111).

ساختار جدول کدگذاری اسکی

شماره سریال	کد	سمبل
0 - 31	00000000 - 00011111	نمادهایی با اعداد از 0 تا 31 معمولاً نمادهای کنترل نامیده می شوند. عملکرد آنها کنترل فرآیند نمایش متن روی صفحه یا چاپ، به صدا درآوردن سیگنال صوتی، علامت گذاری متن و غیره است.
32 - 127	00100000 - 01111111	قسمت استاندارد جدول (انگلیسی). این شامل حروف کوچک و بزرگ الفبای لاتین، اعداد اعشاری، علائم نقطه گذاری، انواع پرانتز، علامت های تجاری و سایر علائم است. کاراکتر 32 یک فضا است، یعنی. جای خالی در متن همه موارد دیگر در علائم خاصی منعکس می شوند.
128 - 255	10000000 - 11111111	قسمت جایگزین جدول (روسی). نیمه دوم جدول کدهای ASCII به نام صفحه کد (128 کد از 10000000 شروع و با 11111111 ختم می شود) می تواند گزینه های مختلفی داشته باشد که هر گزینه شماره مخصوص به خود را دارد. صفحه کد در درجه اول برای قرار دادن الفبای ملی به غیر از لاتین استفاده می شود. در رمزگذاری های ملی روسیه، حروف الفبای روسی در این قسمت از جدول قرار می گیرند.

نیمه اول جدول کد اسکی

لطفا توجه داشته باشید که در جدول رمزگذاری حروف (بزرگ و کوچک) به ترتیب حروف الفبا و اعداد به ترتیب صعودی مرتب شده اند. این رعایت نظم واژگانی در چینش نمادها را اصل رمزگذاری ترتیبی الفبا می گویند.

برای حروف الفبای روسی، اصل کدگذاری متوالی نیز رعایت می شود.

نیمه دوم جدول کد اسکی

متأسفانه، در حال حاضر پنج رمزگذاری سیریلیک مختلف (KOI8-R، Windows. MS-DOS، Macintosh و ISO) وجود دارد. به همین دلیل، اغلب با انتقال متن روسی از یک رایانه به رایانه دیگر، از یک سیستم نرم افزاری به سیستم دیگر، مشکلاتی ایجاد می شود.

از نظر زمانی، یکی از اولین استانداردها برای رمزگذاری حروف روسی در رایانه، KOI8 ("کد تبادل اطلاعات، 8 بیت") بود. این رمزگذاری در دهه 70 در رایانه های سری رایانه های ES مورد استفاده قرار گرفت و از اواسط دهه 80 در اولین نسخه های روسی شده سیستم عامل یونیکس استفاده شد.

از اوایل دهه 90، زمان تسلط سیستم عامل MS DOS، رمزگذاری CP866 باقی می ماند ("CP" به معنای "صفحه کد"، "صفحه کد" است).

کامپیوترهای اپل که سیستم عامل مک را اجرا می کنند از کدگذاری مک خود استفاده می کنند.

علاوه بر این، سازمان بین المللی استاندارد (ISO) کدگذاری دیگری به نام ISO 8859-5 را به عنوان استاندارد زبان روسی تایید کرده است.

رایج ترین رمزگذاری مورد استفاده در حال حاضر مایکروسافت ویندوز است که به اختصار CP1251 نامیده می شود.

از اواخر دهه 90، مشکل استانداردسازی رمزگذاری کاراکترها با معرفی یک استاندارد بین المللی جدید به نام حل شد. یونیکد. این یک رمزگذاری 16 بیتی است، یعنی. برای هر کاراکتر 2 بایت حافظه اختصاص می دهد. البته این مقدار حافظه اشغال شده را 2 برابر افزایش می دهد. اما چنین جدول کدی امکان گنجاندن حداکثر 65536 کاراکتر را فراهم می کند. مشخصات کامل استاندارد یونیکد شامل تمام الفبای موجود، منقرض شده و مصنوعی جهان و همچنین بسیاری از نمادهای ریاضی، موسیقی، شیمیایی و غیره است.

بیایید سعی کنیم با استفاده از جدول ASCII تصور کنیم که کلمات در حافظه کامپیوتر چگونه به نظر می رسند.

نمایش داخلی کلمات در حافظه کامپیوتر

گاهی اوقات اتفاق می افتد که متنی متشکل از حروف الفبای روسی دریافت شده از رایانه دیگری قابل خواندن نیست - نوعی "آبراکادابرا" روی صفحه نمایشگر قابل مشاهده است. این به این دلیل اتفاق می افتد که رایانه ها از رمزگذاری کاراکترهای مختلف برای زبان روسی استفاده می کنند.

بهترین مقالات در این زمینه

راه هایی برای تعیین شناسه Steam یا شناسه دوستان

چگونه یک رشته سیریلیک را با استفاده از PHP برش دهیم

PHP _SELF در ویژگی action فرم

دسته بندی ها:

کدهای کاراکتر آسکی اعشاری ج. رمزگذاری اطلاعات متنی

جدول کد کاراکتر ASCII Windows. شرح کاراکترهای ویژه (کنترلی).