Tato stránka je převzata ze serveru www.cestina.cz s laskavým souhlasem autora. Její aktuální verzi naleznete zde.Dále jsou zde ze serveru www.cestina.cz tyto dokumenty:
Přes vekerou snahu o přesnost nelze tento přehled kódování (přesněji "znakových sad") pouitelných pro psaní českých textů povaovat za ádný oficiální ba ani úplný přehled, vekeré připomínky či opravy jsou vítány.
Informace o Unicode hledejte zde.
1. Slovní popis, historie, registrované názvy znakových sad a ukázky textu
- Grafické znázornění ukázky
- ASCII (a stručný popis registrací u IANA)
- ISO-8859-2
- Bratři Kameničtí
- Cork
- CP852
- East8
- ICL
- KOI8-ČS
- Mac OS Central European
- Windows-1250
- ISO-8859-1 (znaková sada nepouitelná pro četinu)
2. Přesné tabulky znakových sad (na samostatných stránách)
- Tabulky znakových sad do Unicode (nejlepí)
- Tabulky dvojznaků v ASCII
- Tabulky k nahlédnutí přímo v HTML (externí odkaz)
(Očekává se, e vá prohlíeč umí UTF8, jinak vám poslouí jen otisky v obrázku)3. Obecné informace
- Česká abeceda a kódy četiny
- Slovenská abeceda a kódy sloventiny
- Tabulka anglických a českých jmen diakritických znamének
- Norma ČSN 36 9103 (na samostatné stránce)
4. Poděkování
5. Pouité zdroje informací
![]()
- takhle by měl vypadat alespoň některý z následujících odstavců.
Priserne zlutoucky kun upel dabelske kody.
PRISERNE ZLUTOUCKY KUN UPEL DABELSKE KODY.Znaková sada US-ASCII samozřejmě nesplňuje potřeby českého jazyka, protoe na svých sedmi definovaných bitech kóduje pouze velká a malá nediakritická písmena latinské abecedy, číslice, dalí běné grafické symboly a několik řídicích kódů (skok na nový řádek ap.). Uvádím ji na tomto místě spíe pro úplnost. Význam znakového standardu ASCII ovem dokládá existence a činnost ASCII Konsorcia.
ASCII je výchozí znakovou sadou pro větinu znakových sad a rovně se v ní zapisují vechny registrované názvy znakových sad. Ne můe být toti jméno znakové sady pouito pro označení dokumentů v internetu, musí projít řádnou registrací u IANA. Registrace obsahuje vechny pouívané názvy znakové sady a navíc specifikuje preferované označení v MIME, tedy název, kterým je nejvhodnějí označovat např. zprávy elektronické poty nebo HTML dokumenty.
Seznam vech registrovaných znakových sad je k dispozici na adrese ftp://ftp.isi.edu/in-notes/iana/assignments/character-sets nebo v geograficky bliím zrcadle ve výcarsku.
V tomto přehledu budu přísluné registrace u IANA citovat (jsou-li znakové sady vůbec registrovány), protoe u řádně registrovaných sad není pochyb o názvu, jakým je označovat. Chtěl bych přesto zdůraznit, e registrování znakových sad nemá za cíl "posvětit" kadému jeho vlastní znakovou sadu, nýbr usnadnit orientaci v zmatku, který se ji vyrobil. Je v zájmu vech uivatelů internetu shodnout se na co nejmením počtu standardů. V otázce kódování českých textů jeden takový standard existuje. Zde si můete přečíst několik argumentů, proč se mi právě znaková sada ISO-8859-2 jeví tou ideální.
Registrace znakové sady ASCII u IANA:
Name: ANSI_X3.4-1968 Reference: RFC1345 MIBenum: 3 Source: ECMA registry Alias: iso-ir-6 Alias: ANSI_X3.4-1986 Alias: ISO_646.irv:1991 Alias: ASCII Alias: ISO646-US Alias: US-ASCII (preferred MIME name) Alias: us Alias: IBM367 Alias: cp367 Alias: csASCII
Příšerně žluťoučký kůň úpěl ďábelské kódy.
PŘÍŠERNĚ ŽLUŤOUČKÝ KŮŇ ÚPĚL ĎÁBELSKÉ KÓDY.ISO Latin 2 je specifikováno normou ISO-8859-2 (z roku 1987), která jej doporučuje pouívat pro současnou albántinu, angličtinu, četinu, chorvattinu, maďartinu, němčinu, poltinu, rumuntinu, sloventinu a slovintinu. Je pouíváno na systémech Unix a dalích Příjemných systémech. (Kódová stránka s označením IBM 912 je shodná s ISO-8859-2.)
Zde je úplný přehled diakritických znaků znakové sady ISO-8859-2:
,^u" , v v- , "v ,^ /v, ,v ,^"" ,v ,v v o,"" , ,v. AAAAAABCCCCDDDEEEEEFGHIIIJKLLLLMNNNOOOOOPQRRRSSSSTTTUUUUUVWXYYZZZZ ' ' ' ' 'ČSN 369103 definuje kódování KOI-8 L2, které je téměř shodné s ISO-8859-2. Toto kódování je registrováno jako ISO pod číslem 139.
Výhody pouití této znakové sady pro přenos dokumentů v internetu jsou shrnuty na této stránce.
Registrace znakové sady ISO-8859-2 u IANA:
Name: ISO_8859-2:1987 Reference: RFC1345 MIBenum: 5 Source: ECMA registry Alias: iso-ir-101 Alias: ISO_8859-2 Alias: ISO-8859-2 (preferred MIME name) Alias: latin2 Alias: l2 Alias: csISOLatin2Přesné sloení znakové sady najdete v tabulce do Unicode nebo v tabulce dvojznaků.
PŠĄ¨ern luouk k¤ Łpl belsk k˘dy.
PERN LUOUK KŚĽ PL BELSK KDY.Kódování bratrů Kamenických (té KEYBCS2) se pouívá na IBM kompatibilních počítačích. Je stanoveno chováním veřejně přístupného programu "KEYBCS2", jeho autory jsou právě bratři Kameničtí. Donedávna bylo nejoblíbenějím kódováním na PC vůbec, nebo zachovává vekeré grafické symboly. Mnoho tiskáren umí tisknout texty kódované v Kamenických, uivatelé FidoNETu a mnoho dalích je stále pouívá.
Přestoe PC-L2 (852) bylo definováno dříve ne MJK, bylo MJK donedávna uíváno a oblíbeno více, hlavně díky jeho vlastnostem na monitorech HGC a CGA a také díky osobní podpoře autorů pro firmy, které tehdy dodávaly počítače na ná trh (Olivetti) a které se samy otázkou četiny vůbec nezabývaly. Poté, co IBM a Microsoft začaly hojně uívat CP852 (PC Latin 2), situace se pomalu přiblíila přijetí PC Latin 2.
Někteří z českých výrobců (např. první lokalizace FoxPro) nazývají kódování Kamenických kódovou stránkou CP895, nicméně tato stránka není specifikována ani IBM, ani Microsoftem. (Podle dopisu Jana Tomana <janto@microsoft.com> neexistuje specifikace CP895.) Některé programy podporují CP852 (PC Latin 2) i CP895 (Kameničtí).
Znaková sada bří. Kamenických není registrována u IANA, je proto problematické najít jednoznačné jméno této znakové sady.
Přesné sloení znakové sady najdete v tabulce dvojznaků.
P°í˛ernĽ şlu´ouŁký kˇŹ úpĽl ¤ábelské kódy.
PÍERN LUOUKÝ K ÚP L ÁBELSKÉ KÓDY.Kódování Cork (rovně T1) pouívá větina evropských TUG (národní TeX Users Groups) pro TeXovské mezinárodní písmo T1. Kódování bylo definováno v roce 1990 na setkání TUG v Corku. Rodina písem TeX DC je kódována podle T1.
Toto kódování není doplňkem ASCII, nebo obsahuje tisknutelné znaky ji na nejniích pozicích (0 - 31), které ASCII pouívá pro řídící znaky.
Znaková sada Cork není registrována u IANA.
Přesné sloení znakové sady najdete v tabulce dvojznaků.
PýĄçernŘ §luoukě k ĺ ŁpŘl Ô belsk k˘dy.
PüÖćERNˇ ŚLUOUŹKí KŢŐ éPˇL ŇľBELSK KŕDY.Kódování PC Latin 2 (zkráceně PC L2) se pouívá na PC. Větina současných programů pro DOS a OS/2 je podporují, nebo IBM a Microsoft ho definovali jako kódovou stránku CP852 a takté ČSN 36 9103 jeho pouívání na PC doporučuje. Toto kódování má vechny tisknutelné znaky sady ISO-8859-2 (ISO Latin 2), diakritická písmenka jsou vak na jiných pozicích.
Manuály k MS DOSu pojmenovávají CP852 jako "Slavic (Latin II)", ačkoli některé z jazyků, jejich potřeby CP852 pokrývá, se mezi slovanské jazyky neřadí (např. maďartina).
Větina českých a slovenských uivatelů zná toto kódování pouze pod názvem Latin 2 a ani netuí, jak moc se PC Latin 2 a ISO Latin 2 lií.
Registrace znakové sady CP852 u IANA; bohuel nespecifikuje preferované označení v MIME:
Name: IBM852 Reference: RFC1345 MIBenum: 2010 Source: IBM NLS RM Vol2 SE09-8002-01, March 1990 Alias: cp852 Alias: 852 Alias: csPCp852Přesné sloení znakové sady najdete v tabulce do Unicode nebo v tabulce dvojznaků.
East8 pouívala kdysi firma HP u svých zařízení (a moná jej dosud interně pouívá).Ing. Jiří KuchtaZnaková sada East8 není registrována u IANA.
Rovně bohuel nemám k dispozici ádné tabulky charakterizující tuto znakovou sadu.
ICL je varianta PC kódování, která měla česká písmena místo řeckých, dnes natěstí vyhynula (ze známějích produktů to pouíval textový editor CSED).Ing. Jiří KuchtaZnaková sada ICL není registrována u IANA.
Rovně bohuel nemám k dispozici ádné tabulky charakterizující tuto znakovou sadu.
PŇÉÓernĹ ÚluÔouĂkŮ kĘÎ ŐpĹl ÄÁbelsk× kĎdy.
PňéóERNĺ úLUôOUăKů Kęî őPĺL äáBELSK÷ KďDY.Toto kódování definuje norma ČSN 36 9103. Obsahuje "ch" a "CH" v podobě zvlátních znaků (v souladu s českou abecedou) a větinu diakritických písmen lze získat pouhým nastavením osmého bitu. Toto kódování bylo pouíváno na starých terminálech a v současné době se zdá být mrtvé. Některé dobře známé programy (např. T602) vak stále dovolují jeho pouívání.
Registrace u IANA; bohuel nespecifikuje preferované označení v MIME, registrované jméno je navíc nejednoznačné, nebo norma ČSN 369103 definuje celkem est různých znakových sad:
Name: CSN_369103 Reference: RFC1345 MIBenum: 86 Source: ECMA registry Alias: iso-ir-139 Alias: csISO139CSN369103Přesné sloení znakové sady najdete v tabulce dvojznaků.
PŢäern ěluéouků kóË pl belsk kdy.
PŰęáERN ëLUčOUKř KńĹ ňPL çBELSK KîDY.Tuto znakovou sadu pouívá lokalizovaný Mac OS (předevím počítače Apple Macintosh).
Vechna písma s koncovkou CE (např. Times CE) jsou pod Mac OS v tomto kódování. (Nelze zaměňovat s písmy CE pod Windows, kde se pouívá striktně CP1250.) Písma pro Macintosh bez této koncovky pouívají kódování Mac Roman, které ádné specificky české znaky (č, ř) neobsahuje. Podrobněji lze obě znakové sady prostudovat v tabulkách do Unicode.
Znaková sada Mac OS CE není registrována u IANA, je proto problematické najít jednoznačné jméno této znakové sady.
Klub přátel počítačů Macintosh iniciuje registraci této znakové sady, jetě vak není jasné, jaký by měl být její výchozí název. V úvahu přicházejí dvě varianty:
- 1.
apple-ce
- v praxi na tento název ji reaguje Netscape
- 2.
mac-ce
- coby registrovaná podoba mého neoficiálního návrhu
x-mac-ce
Přesné sloení znakové sady najdete v tabulce do Unicode nebo v tabulce dvojznaků.
Příerně luoučký kůň úpěl ďábelské kódy.
PŘÍERNĚ LUOUČKÝ KŮŇ ÚPĚL ĎÁBELSKÉ KÓDY.MS Windows (3.1, WfW, W95 a NT) ve verzi CS, EE a verzích pro Maďarsko a Polsko pouívají kódování CP1250, které obsahuje vechny tisknutelné znaky sady ISO Latin 2, čtrnáct znaků je vak na jiných pozicích (z toho osm se pouívá v četině a sloventině). Kódy v rozsahu 128 a 159 obsahují rovně tisknutelné znaky (jedná se o oblast C1, kterou kódování ISO Latin 2 a dalí kódování normy ISO 2022 vyhrazují pro řídící znaky).
Není tedy pravda, e CP1250 je (jednosměrně) zaměnitelná s ISO-8859-2. (Rozdíl je patrný např. u "")
Kuloární informace o vzniku kódování Windows-1250 naleznete na konci stránky o tom, proč pouívat ISO-8859-2.
Registrace znakové sady Windows-1250 u IANA; vzhledem k tomu, e definuje jediný název této znakové sady, je logicky v označování podle MIME pouíván výhradně tento název:
Name: windows-1250 MIBenum: 2250 Source: Microsoft (see ../character-set-info/windows-1250) [Lazhintseva] Alias:Přesné sloení znakové sady najdete v tabulce do Unicode nebo v tabulce dvojznaků.
Príserne zlutoucký kun úpel dábelské kódy.
PRÍSERNE ZLUTOUCKÝ KUN ÚPEL DÁBELSKÉ KÓDY.Kódování ISO-8859-1 neobsahuje vechny potřebné české znaky, pouze některá mezinárodní písmenka mají shodný (podobný) vzhled s některými písmenky pouívanými i v četině - předevím se jedná o dlouhé á, é ap. Této částečné podobnosti lze občas vyuít a napsat alespoň "cástecne" český text. Zde je úplný přehled diakritických znaků znakové sady ISO-8859-1:
\,^~"oA - \,^" \,^" ~ \,^"~/ S \,"^ ," | AAAAAAAEBCCDDEEEEEFGHIIIIIJKLMNNOOOOOOOPQRSSTUUUUUVWXYYYZO 'Mnoho programů platformy Mac OS obsahuje konverzní tabulky
Mac->ISO
aISO->Mac
. Tyto tabulky vak vycházejí z kódování Mac Roman (známé z mezinárodních písem, obsahuje znaky jako promile ap.) a jsou plnohodnotně zvratné (ádný kód se po převodu tam a zpět nestává duplicitní, nejednoznačný). K přenosu z Maca na Maca je tedy lze tento převod bez viditelných potíí pouít, přenáený dokument je vak kódován částečně nesmyslně a částečně podle skutečné ISO-8859-1 (správně jsou ty znaky, které lze na Macovi napsat s nastavenou klávesnicí Czech, tj. pouít výběr z českých znaků existujících i v kódování Roman a jinak uít znaků z ASCII). Nevarem mnoha mezinárodních programů, je bezmylenkovité pouití této tabulky na vechny textové dokumenty. Jak programy rozířit nebo upravit, aby podporovaly nějakou rozumnějí tabulku, se dozvíte v sekci Počeování Mac OS.Stejným problémem trpí i řada hloupějích programů pro Windows. Opět bezmylenkovitě pouijí konverzní tabulku z nečeské znakové sady pouívané v mezinárodních verzích Windows do ISO-8859-1. Pokud se na takto pokaený text pouije při čtení inverzní tabulka, bude text zdánlivě nepokozen. Ve skutečnosti je vak řada znaků (vechna typicky česká písmenka a dalí symboly) během přenosu kódována naprosto nesmyslně a nedefinovaně. Pokud by tedy taková zpráva byla přijata hloupým programem pro Mac OS z odstavce výe, budou správně zobrazeny pouze "mezinárodnějí" diakritické znaky (dlouhé á, é ap.).
Pro úplnost jetě registrace znakové sady ISO-8859-1 u IANA:
Name: ISO_8859-1:1987 Reference: RFC1345 MIBenum: 4 Source: ECMA registry Alias: iso-ir-100 Alias: ISO_8859-1 Alias: ISO-8859-1 (preferred MIME name) Alias: latin1 Alias: l1 Alias: IBM819 Alias: CP819 Alias: csISOLatin1Přesné sloení znakové sady najdete v tabulce do Unicode.
a a' b c c< d d< e e' e< f g h ch i i' j k l m n n< o o' p q r r< s s< t t< u u' u0 v w x y y' z z<Spřeka "ch" je povaována za jedno písmeno.
České znaky "r<", "e<" a "u0" se ve sloventině nepouívají.
Kód českého jazyka je podle ISO 639 "cs". Dvoupísmenný kód České republiky je podle normy ISO 3166 "CZ". (Povimněte si, e podle konvence norem ISO 639 a ISO 3166 jsou kódy jazyků psány malými a kódy států velkými písmeny.)
a a' a: b c c< d d< dz dz< e e' f g h ch i i' j k l l' l< m n n< o o' o> p q r r' s s< t t< u u' v w x y y' z z<Spřeky "ch", "dz" a "dz<" jsou povaovány za samostatná písmena.
Slovenské znaky "a:", "o>", "r'", "l'" a "l<" se v četině nepouívají.
Kód slovenského jazyka je podle ISO 639 "sk". Dvoupísmenný kód Slovenska je podle normy ISO 3166 "SK".
English name Czech Name (CSN 36 9103) ---------------------------------------------------------------------- acute accent ......... carka nad pismenem, silny prizvuk (c<A'RKA nad pi'smenem, silny' pr<i'zvuk) breve ................ breve caron ................ hacek (ha'c<ek) cedilla .............. hacek pod pismenem, cedilie (ha'c<ek pod pi'smenem, cedilie) circumflex accent .... vokan (voka'n<) diaeresis ............ dve tecky nad pismenem, prehlaska (dve< tec<ky nad pi'smenem, pr<ehla'ska) dot above ............ tecka nad pismenem (tec<ka nad pi'smenem) double acute accent .. dvojcarka (dvojc<a'rka) ogonek ............... ocasek (oca'sek) ring above ........... krouzek nad pismenem (krouz<ek nad pi'smenem) stroke ............... preskrtnuti (pres<krtnuti')[Chybí: jména slovenských znamének]
Tento přehled kódování pouívaných pro zápis českých textů vznikl sloučením mé původní stránky s obsahem
cs-encodings-faq
Lukáe Petrlíka, kterému tímto děkuji za velmi cenné informace (dvojznakové tabulky znakových sad a podrobný popis kódování Kamenických (CP 859), CP 852 (PC Latin 2), ISO Latin 2, KOI-8 CS2,CP1250 (MS Windows CS a EE) a Cork).Rovně bych chtěl poděkovat Ing. Jiřímu Kuchtovi za stručné informace ke kódování East8 a ICL.
Ondřej Bojar
cs-encodings-faq Lukáe Petrlíka.
ČSN 36 9103. Information processing: 8-bit code for information interchange. Vydavatelství norem Praha, 1989.
Gapaříková, Z. - Kamis, A.: Slovensko-český slovník. SPN Praha 1987.
IBM: IBM OS/2 Warp 4. Klavesnice a kodove stranky. (Keyboards and Code Pages.) IBM, 1996.
D. E. Knuth: The TeXbook. Addison Wesley, Reading, Massachusetts, 1986.
Lamport, L.: LaTeX. Addison - Wesley, Reading, Massachusetts, 1986.
List of IANA Registered Character Sets.
RFC 1345. Character Mnemonics & Character Sets. [Tabulky pro ISO Latin 2, PC Latin 2 a KOI-8 L2 (CSN_369103).]
The cp1250_WinLatin2 to Unicode table, 2.00.
The MacOS_CentralEurope to Unicode table, 0.2. [Tato tabulka obsahuje i slovní popis kódu.]
www.cestina.cz