4 апр. 2011 г.

Cangjie был разработан Chu Bong-Foo в 1976 году и был назван в честь создателя китайской письменности Цан Цзе. В свое время, этот метод дал большой толчек к развитию компьютерезации в Китае. Сейчас это один из немногих методов ввода иероглифов, которые доступны на большинстве компьютеров без установки дополнительного программного обеспечения.

Это структурный метод ввода иероглифов, который базируется не на ключах Канси, и не на стандартном порядке написания черт, а на простой геометрической декомпозиции иероглифа.

Кодирование "倉頡輸入法" (ЦанЦзе метод), написаного традиционными китайскими иероглифами.


Раскладка клавиатуры, ключи и радикалы

Базовые компоненты в ЦанЦзе называются "радикалы". В раскладке клавиатуры используются 26 кнопок, из которых 24 - радикалы. Эти 24 базовых очертания соотнесены с 76-ю вспомогательными очертаниями. Вспомогательные очертания, в большинстве случаев, являются видоизмененными (трансформированными  и/или перевернутыми) базовыми очертаниями.

Клавиатура Cangjie (автор изображения Minghong)

Радикалы разбиты на группы, которые формируются на основе латинского алфавита (в порядке следования, A-Z). Каждый радикал ассоциирован с определенной клавишей клавиатуры. Ниже приведена таблица радикалов и вспомогательных очертаний, ассоциированных с ними:

Философская группа состоит из 7 радикалов, ассоциированных с латинскими буквами A-G: 
日 солнце, 月 луна, 金 золото, 木 лес, 水 вода, 火 огонь, 土 земля






Группа "черты":
竹 бамбук, 戈 оружие, 十 десять, 大 большой, 中 центр, 一 один, 弓 лук






Группа "части тела":
人 человек, 心 сердце, 手 рука, 口 рот




Группа "формы":
尸 мертвец, 廿 двадцать, 山 гора, 女 женщина, 田 поле, 卜 гадать





Специальная группа 
重 / 難 ("Коллизия" / "Сложные")


В специальной группы 重 / 難 клавиша X используется в двух случаях:
重 - для разрешения колизий при декомпозиции иероглифа
難 - Для ввода сложных радикалов.

Клавиша Z, которая часто используется для ввода пунктуации, как специальная клавиша, может в некоторых вариантах выступать в роли кнопки для разрешения коллизии (重). В этом случае, клавиша X будет использоваться только как 難 ("Сложно").

Таблица радикалов со вспомогательными очертаниями и примерами их использования.


Правила и искючения

Для того, чтобы разобрать правильно иероглиф на "радикалы", необходимо знать следующие правила декомпозиции:

  • Направление разбора: слева-направо, сверху-вниз, снаружи-внутрь.
  • Для иероглифов, состоящих из соединенных частей: для кодирования необходимы только 4 части: 1, 2, 3 и последняя.
  • Иероглифы, состаящие из 2х несоединенных частей (к примеру ): необходимо разложить иероглиф на соединенные части (人 и 尔 для ), после чего кодировать 1 и последний код первой части и 1, 2 и последний код второй части. 
  • Иероглифы, состаящие из нескольких несоединенных частей (к примеру ): необходимо разложить иероглиф на соединенные части (言 身 и 寸 из ) и кодировать 1 и последний код первой части, 1й и последний код второй части и последний код последней части.

В основу декомпозиции заложены следующие принципы:

  • Лаконичность. Если сущевствует несколько вариантов декомпозиции, верным является наиболее короткий.
  • Полнота. Если сущевствуют несколько вариантов декомпозиции с одинаковой длинной, верным является тот, в котором первый элемент декомпозиции наиболее сложный.
  • Отражение части радикала:
    • По возможности необходимо избегать использование одного и того же кода более одного раза подряд.
    • Форма иероглифа не должна быть "обрезаной" по углам при разделении на части.
  • Пропуск кодов:
    • Частичный пропуск: при превышении количества кодов, используемых при декомпозиции допустимого значения, лишние коды игнорируются.
    • Пропуск "вложенных" частей: если часть иероглифа или очертание, подлежащие декомпозиции "огорожены",  кодируется только огораживающая часть, вложенная часть игнорируется.

Некоторые очертания всегда кодируются определенным образом и являются исключением из правил:

Лист исключений. Источник.




















Версии

Система ЦанЦзе на пути своей эволюции уже дошла до 5ой версии. Каждая из версий немного отличается друг от друга. На текущий момент, самая распространенная версия - 3я, поскольку эта версия ЦанЦзе реализованна в Microsoft Windows. В Mac OS X поддерживается ЦанЦзе, который является смесью версии 3 и версии 5.


Тренировка
Для тренировки ввода по системе цанцзе, можно воспользоваться специальной флэш-игрой. Данная игра имет опциональную возмоность подсказки правильной декомпозиции иероглифа и подсказки кнопки для кодирования следующего элемента. Так же, можно вывести таблицу всех радикалов, что, в общем-то тоже упрощает обучение :)




Полезные ссылки




3 апр. 2011 г.

Отличная программа на Java для компьютера от Jordan Kiang, реализующая рукописный ввод иероглифов. Имеет встроенный словарик. Можно скачать на компьютер или использовать из браузера. Для того, чтобы запустить программу, вам необходимо скачать и установить Java.


Недавно я нашел отличную статью про структурный способ ввода Уби. Оригинал статьи, написаной  Дмитрий Шакура в 2006 году (ООО «Шу Ба»), к сожалению, уже не доступен по этому адресу. Я решил сохранить эту статью для дальнейшего поколения, поэтому публикую здесь, в блоге.



Как известно, существует несколько методов ввода иероглифов в компьютер.
Самым распротраненным (по крайней мере, среди иностранцев) является фонетический метод, так как ему практически не нужно специально обучаться. Чтобы пользоваться фонетическим методом, достаточно просто знать латинскую транскрипцию (pinyin).

Кроме того, существует еще метод ввода по чжуиню (более распространен на Тайване).

Однако самым быстрым является Метод ввода иероглифов по графемам «Уби» («Пять черт»).
Он хорош не только тем, что он самый быстрый. Иногда другие методы ввода просто отсутствуют — как, например, в Карманном Русско-Англо-Китайском Электронном Словаре.


Данный метод предлагает ввод иероглифа не по фонетическому звучанию, а по графическим элементам, при этом ввод любого иероглифа происходит, самое большее, за четыре нажатия (в вводе по пиньиню – в среднем за шесть). Более того, каждая комбинация клавиш, как правило, соответствует только одному иероглифу и его не придётся искать в списке из нескольких десятков вариантов с одним и тем же произношением. К тому же теперь Вам не придётся перелистывать таблицы ключей, пытаясь угадать, какой же ключ у того или иного иероглифа. Данный метод набирает всё большую популярность в Китае, поскольку даже китайцы не всегда знают чтения редких иероглифов. Потратив полчаса на его освоение, Вы сможете сэкономить драгоценное переводческое время в будущем.

Своё название метод «Уби» получил от пяти базовых черт китайской каллиграфии, на которых он и построен. У каждой из них есть свой номер:
1) 一;
2) 丨;
3) 丿;
4) 丶 (к четвёртой черте относятся точка и откидная вправо);
5) 乙 (к пятой черте относятся все ломаные черты)

Для успешного использования метода «Уби» нужно научиться правильно разбивать иероглиф на составляющие его графемы. Под графемой подразумевается не любой графический элемент, а лишь те, которые присутствуют на клавиатуре «Уби» (см. рисунок). Метод «Уби» делит все иероглифы на четыре группы.

1) «Одиночки».

К данной группе относятся базовые 5 черт (一, 丨, 丿, 丶, 乙), а также ещё 25 частых иероглифов, которые являются, каждый их которых соответствует одной клавише на клавиатуре (напр., 言, 虫, 寸, 米, 夕).

2) «Порознь».

Эта группа включает иероглифы, между графемами которых есть определённое расстояние. Например, иероглиф 苗 состоит из графем 艹 и 田, между которыми есть расстояние. Другие примеры: 汉, 昌, 花, 笔, 型.

3) «Соединение».

К данной группе относятся иероглифы, графемы которых соединены друг с другом. Так, иероглиф 且 представляет собой графему月, соединённую с горизонтальной чертой; 尺 состоит из графемы 尸 и откидной черты. Другие примеры: 夭, 下, 正, 自 и т. д. Эта группа также включает в себя иероглифы, состоящие из одной графемы и точки, например, иероглиф 勺, состоящий из графемы勹 и точки. Другие примеры: 术, 太, 主, 义, 斗, 头.

N.B. : к данной группе не относятся иероглифы типа 足, 充, 首, 左, 页, графемы которых лишь «соприкасаются», но не соединены безусловно.

4) «Пересечение».

Графемы иероглифов этой группы пересекаются, либо накладываются друг на друга. Например, иероглиф 本 – это пересечение графем 木 и 一. Другие примеры: 申, 必, 夷, 东, 里.

При разбиении иероглифов на графемы действует следующие общее правила:


1) Всегда брать более крупный элемент. Пример:


Правильный первый вариант, поскольку более крупную графему 古 не следует разбивать на более мелкие 十 и 口.

2) Не разрывать одну черту. Пример:




Первый вариант (田+木) неверен, поскольку разбивается вертикальная черта. Второй (旦+小) неверен, поскольку旦 не относится к графемам «Уби». Правильный третий вариант.

3) Не соединять, если можно порознь.

4) Не пересекать, если можно соединить. Пример:


Второй вариант неверен, поскольку разбив таким образом мы получаем иероглиф группы «пересечение», хотя мы можем его разбить так, чтобы он попал в группу «соединение», т. е. как показано в первом варианте.

Кроме того важен порядок разбиения. Он совпадает с порядком написания иероглифа, то есть действуют те же правила, что и при письме на бумаге. Основными из них являются: сначала лево, затем право; сначала верх, затем низ; сначала горизонталь, затем вертикаль; сначала внутри, затем снаружи, сначала середина, затем по бокам и др.



Правильным является первый вариант, поскольку именно в таком порядке мы пишем этот иероглиф.

Единственное отличие от письма на бумаге в том, что в письме на бумаге порядок написания некоторых графемы может быть «разорван» другими графемами, как например в иероглифе 国, где мы сначала пишем элемент 冂, затем 王, затем 丶 и только после этого закрываем «ограду» горизонтальной чертой 一. В «Пяти чертах» один раз введя графему 囗, мы уже будем считать её введённой, т. е. иероглиф 国 будет разбит в порядке 囗→王→丶. Другой пример: 或=弋+口+一.

Иероглифы, состоящие из одной черты и одной графемы разбиваются как раз на данные черту и графему. Примеры:


И последнее, что нужно учитывать при вводе иероглифов по методу «Уби», это взаимное расположение элементов иероглифа. Всего существует три различных типа расположения элементов. Они приведены в следующей таблице:



При наборе необходимо будет помнить номера этих типов, указанные в левой колонке таблицы.

Легко догадаться, что к первым двум типам будут относиться только иероглифы группы «Порознь», все иероглифы групп «Соединение» и «Пересечение» попадут в третий тип. Для набора «иероглифов-одиночек» данная классификация, как мы увидим ниже, не нужна.

Итак, перейдём непосредственно к набору иероглифов. Для этого сначала взглянем на клавиатуру «Уби»:


На первый взгляд кажется, что графем очень много и они расположены беспорядочно. Однако мы сейчас убедимся, что на самом деле это не так. В методе «Уби» клавиатура разбита на пять зон (на рисунке они отмечены разными цветами: 1-я – рыжий цвет, 2-я – зелёный, 3-я – синий, 4-я – розовый, 5-я – сиреневый). Внутри каждой зоны клавиши также пронумерованы – от центра клавиатуры к краям.

Рассмотрим принципы расположения графем на клавиатуре. Большинство графем расположены по принципу пяти базовых черт, по порядку от первой к пятой: 一, 丨, 丿, 丶, 乙. Как мы видим, каждая из этих черт занимает место на соответствующей клавише с индексом X1, где X – соответствующий ей порядковый номер. Для набора этих черт достаточно нажать два раза на эту клавишу и два раза на клавишу L. (一=GGLL; 丨=HHLL; 丿=TTLL; 丶=YYLL; 乙=NNLL). Внимательно посмотрев на графемы, можно заметить, что большинство графем расположено зоне порядкового номера первой базовой черты. Например, иероглиф 大 начинается с горизонтальной черты, и мы видим, что он расположен в зоне 1 на клавише 13. Более того, его вторая черта это 丿, её порядковый номер – 3. По этому принципу расположены очень многие графемы: 王 (11), 人 (34), 门 (42), 又 (54) и т. д. Существуют и другие мнемонические принципы расположения. Так, графемы 一, 二 и 三 соответственно расположены на первой, второй и третьей клавишах первой зоны. Такие же примеры есть во всех других зонах (напр., точки от 丶 до 灬 расположены на клавишах 41-44 в зависимости от количества точек в графеме). Есть также графемы, расположенные по внешнему сходству с другими графемами, например, графема похожа по форме на 八 и 人 и располагается вместе с ними на клавише 34 (W). Некоторые графемы расположены по первой букве транскрипции (力 [li] расположена на клавише «L», 口 [kou] – на «K») либо по внешнему сходству с буквой клавиши (阝 и 卩 – на клавише «B»). Наконец, на клавише S собраны три графемы, для которых авторы метода «Уби» просто не нашли места на других клавишах. Поскольку такая клавиша только одна, то её также легко запомнить.

Итак, начнём с самых простых для ввода графем, а именно с заглавных графем каждой клавиши (выделены крупным шрифтом в таблице). Как мы уже говорили, каждая из них представляет собой отдельный «одинокий» иероглиф. Для того, чтобы ввести такой иероглиф, достаточно просто нажать четыре раза на соответствующую клавишу. Например, 金=QQQQ, 立=YYYY и т. д.

Простыми для ввода также являются иероглифы, состоящие из четырёх и более графем. Иероглифы из четырёх графем вводятся набором графем в том же порядке, в котором мы пишем их на бумаге:


таким образом 毅=U+E+M+C. Для ввода иероглифов, состоящих более чем из четырёх графем, нужно ввести первые три графемы и последнюю. Например, иероглиф 缩 разбивается на графемы 纟, 宀, 亻, и 日. Поэтому мы вводим XPWJ и получаем 缩.

Ввод иероглифов-графем. Если внимательно посмотреть на раскладку клавиатуры «Уби», можно заметить, что многие графемы сами по себе являются отдельными иероглифами. Как вводить такие иероглифы? Это тоже очень просто. Для ввода таких иероглифов сначала нужно нажать клавишу, на которой он расположен, а затем ввести две его первых черты и последнюю. Например, иероглиф 手:

Первая черта (丿) расположена на клавише 31 (T), вторая (一) – на 11 (G), а последняя (丨) – на 21 (H).

Наиболее сложным для начинающих является ввод иероглифов, состоящих из двух или трёх графем. Поскольку таких иероглифов очень много, то неизбежно появятся несколько иероглифов, «претендующих» на одну комбинацию клавиш (например, 叭 и 只; 洒, 沐 и 汀 и др.). Для того чтобы их различать, разработчики «Пяти черт» придумали «код отличия». Код отличия вводится после введения всех графем двух- или трёхграфемного иероглифа. Этот код состоит из двух цифр, первая из которых является порядковым номером последней черты иероглифа, а вторая – номером типа расположения элементов иероглифа (см. выше).

Рассмотрим на примере иероглифов 叭 и 只. Первыми двумя графемами в обоих случаях будут 口 и 八, т. е. клавиши 23 (K) и 34 (W). Последней чертой обоих иероглифов является 丶 (черта номер 4), однако элементы в каждом из них расположены по-разному: у 叭 расположение «лево-право» (которое мы договорились обозначать номером 1), а у 只 – «верх-низ» (номер два). Поставив эти два номера рядом, мы получим для 叭 код 41 (соответствует клавише Y), а для 只 – 42 (клавиша U). Поэтому эти два иероглифа будут вводиться так: 叭=KWY, 只=KWU.

Для того чтобы оставить как можно меньше возможностей появления нескольких кандидатов на одно сочетание клавиш в четырёх случаях пришлось пойти на условное определение последней черты:

1) В иероглифах, где ключом является 辶, 廴 или 囗, последней чертой будет считаться последняя черта его фонетика. Примеры (условная последняя черта выделена красным цветом):


Это правило не относится к иероглифам, где данные графемы не являются ключами и входят в состав других элементов (например, 链 или 莲 – в них последней чертой будет откидная вправо, т.е. последняя черта элемента 辶, и их коды ввода будут соответственно QLPY и ALPU).

2) В графемах типа 九, 刀, 七, 力, 匕 и т. п. во всех иероглифах, заканчивающихся на данные графемы, последней чертой будет считаться ломаная. Примеры:


3) В иероглифах типа 我, 贱, 成 последней черта будет подчиняться правилу «сначала верх, затем низ», и последней чертой будет считаться 丿. Примеры:


4) В иероглифах, где точка является отдельной графемой, последней чертой будет считаться именно она. При этом следует помнить, что иероглифы с точкой мы считаем относящимися к группе «Соединение», поэтому они относятся к смешанному типу расположения внутренних элементов, значит кодом отличия таких иероглифов всегда будет являться 43, то есть кнопка I (4 – номер базовой черты 丶, 3 – номер типа со смешанным расположением элементов). Примеры:


К счастью, при наборе большинства часто используемых иероглифов Вам не придётся думать о кодах отличия и условных последних чертах, поскольку эти иероглифы будут появляться на экране уже после первых двух или трёх нажатий.

Более того, 24 наиболее часто встречающихся иероглифа можно ввести всего одним нажатием. Они соответствуют следующим клавишам:


Они располагаются на клавиатуре в соответствии с теми же принципами, что и другие графемы.

Ниже приведены способы разбиения наиболее часто встречающихся ключей и других графических элементов, не являющихся графемами «Уби»:









В любом случае, лучшим способом запоминания является многократное повторение, поэтому теперь советуем Вам попрактиковаться в написании различных иероглифов с помощью метода «Уби».