鬼佬大哥大
  • / 11
  • 下載費用:30 金幣  

新型漢語信息ASCII碼.pdf

摘要
申請專利號:

CN201510442110.8

申請日:

2015.07.24

公開號:

CN105068977A

公開日:

2015.11.18

當前法律狀態:

撤回

有效性:

無權

法律詳情: 發明專利申請公布后的視為撤回 IPC(主分類):G06F 17/22申請公布日:20151118|||公開
IPC分類號: G06F17/22 主分類號: G06F17/22
申請人: 王欣
發明人: 王欣
地址: 272100山東省濟寧市兗州區奎星樓社區5#樓二單元403室
優先權:
專利代理機構: 代理人:
PDF完整版下載: PDF下載
法律狀態
申請(專利)號:

CN201510442110.8

授權公告號:

|||

法律狀態公告日:

2019.02.12|||2015.11.18

法律狀態類型:

發明專利申請公布后的視為撤回|||公開

摘要

本發明是一種新型漢語信息編碼方案,屬于中文信息處理領域,本發明用26個拉丁字母和一個標點符號(:)對漢語語素、詞、詞組等漢語信息進行ASCII編碼,從而提高了計算機的漢語信息處理的工作效率,并降低了計算機進行漢語信息處理的難度和出錯的概率,為今后中文信息處理和漢語自然語言理解軟件的開發提供了一個更好的平臺,達到了一個全新的境界。

權利要求書

1.本發明是一種新型漢語信息編碼方案,屬于中文信息處理領域,其特征是:用
26個拉丁字母和一個標點符號(:)對漢語語素、詞、詞組等漢語信息進行ASCII
編碼,從而提高了計算機漢語信息處理的工作效率,并降低了計算機進行漢語
信息處理的難度和出錯的概率,為今后中文信息處理和漢語自然語言理解軟件
的開發提供了一個更好的平臺,達到了一個全新的境界。

說明書

新型漢語信息ASCII碼

說明書

(一)技術領域

本發明是一種漢語信息編碼技術方案,屬于中文信息處理技術領域

(二)背景技術

本發明的背景技術是中華人民共和國國家標準GB2312-1980《信息交換用漢字編碼字符集·基
本集》

(三)發明內容

國家標準GB2312-1980《信息交換用漢字編碼字符集·基本集》是計算機系統內部處理和存
儲漢字時使用的代碼,在GB2312中規定,編碼采用雙七位編碼方式(即兩個字節表示一個漢
字),為了與英文字母相區別,漢字機內代碼中兩個字節的最高位規定為“1”,英文字母的機
代碼是7位的ASCII碼,這種編碼在使用范圍上有一些限制,例如在一些大中型計算機系統以
及在網絡通信環境中,要用字節的最高位作奇偶校驗的情況下,就不能用這種漢字內部標識
方法,而必須考慮設計其他形式的標識信息。

國家標準GB2312-1980《信息交換用漢字編碼字符集·基本集》只規定了漢字的編碼,而漢
語自然語言理解研究則需要對更多的漢語信息例如漢語語素、漢語詞、漢語語素的義位、漢
語詞的義位進行編碼以提高信息處理的效率和避免錯誤,本發明的目的是脫離漢字,另辟蹊
徑,以《漢語拼音方案》為基礎,直接用ASCII碼對漢語信息進行編碼。

漢語的聲母編碼

漢語聲母的編碼

《漢語拼音方案》中規定漢語拼音中有聲母b、p、m、f、zh、ch、sh等21個聲母,本發明
以《漢語拼音方案》的聲母作為聲碼。

漢語韻母的編碼

《漢語拼音方案》中規定漢語拼音中有韻母a、o、e、i、u等35個韻母,本發明以《漢語拼
音方案》的韻母作為韻碼,因ASCII字符集中無ü這個字母的編碼,我的解決方式是按照ü=u:
的方式編碼,所以《漢語拼音方案》的4個韻母ü、üe、üan、ün分別以ü=u:、üe=u:e、üan=u:an、
ün=u:n的方式編碼,其余韻母不作變更,作為韻碼。

漢語聲調的編碼

《漢語拼音方案》中規定聲調符號為:陰平(-)陽平(/)上聲(v)去聲(\),聲調符號標
在音節的主要母音上,輕聲不標,漢語聲調有字母式、數字式和符號式3種標調方式,《漢語
拼音方案》采用的是符號式,符號式標調的缺點是將聲調符號和韻母復合在一起,增加了計
算機處理漢語信息的難度,數字式標調的缺點是不符合國際慣例,我的解決方式是用5個拉
丁字母符號分別表示陰平、陽平、上聲、去聲、輕聲5個聲調,聲調標在韻
母之后,因ASCII字符集中沒有這5個拉丁字母符號,我認為調碼可以用
的方式進行編碼。

漢語信息的編碼

漢字不是漢語的語言單位,語素、詞和詞組是漢語的語言單位,這是一個語言學常識,如果
我們不首先將漢語的自身規律研究清楚,則漢語信息的編碼也就沒有科學性可言。漢語詞、
語素和詞組的區分眾說紛紜,呂叔湘先生說過,任何對漢語詞、語素和詞組的區分做過一番
思索的人都認為這是個很困難的問題,我認為語素是最小的、有意義的、沒有詞性的語言單
位,詞是有意義的、有詞性的語言單位,詞組是有意義的、沒有詞性的、可以單獨作為一個
句子成分的語言單位,而詞性是詞所獨有的語法性質,詞根據詞性不同而被劃分為不同的詞
類。

常用現代漢語詞的編碼

國家漢辦漢語水平考試部和北京語言學院漢語水平考試中心研制的《漢語水平詞匯與漢字等
級大綱》收現代常用詞8822個,《現代漢語詞典》收詞65000條,計算機必須像人腦一樣優
先處理現代常用詞才能提高效率,所以漢語詞的編碼首先要進行常用現代詞的編碼。絕大部
分單音節漢語詞、少部分雙音節和多音節詞都有同音詞,為區分同音詞,我選定a、e、n、o、
u、w、x、z8個拉丁字母作為現代漢語常用詞編碼字母,根據大綱排查,現代漢語常用詞“世”
的同音詞最多,有7個同音詞,根據筆畫數多寡和相同筆畫數第一筆橫豎撇點折的順序排列,
分別是“市”、“式”、“試”、“事”、“視”、“是”、“室”,根據數學上的抽屜定理,每個現代漢
語常用詞在調碼后加一個現代漢語常用詞編碼字母,則不會重碼,常用現代漢語詞可以按照
以下公式編碼:現代漢語常用詞的編碼=聲碼+韻碼+調碼+現代漢語常用詞編碼字母,現代漢
語常用詞編碼字母的作用是區別現代漢語常用詞的同音詞,如有的現代漢語常用詞沒有同音
詞則不加現代漢語常用詞編碼字母。

現代漢語非常用詞的編碼

現代漢語非常用詞的編碼可以按照以下公式編碼:現代漢語非常用詞的編碼=聲碼+韻碼+調碼
+現代漢語非常用詞編碼字母,現代漢語非常用詞編碼字母是aa、ae、an、ao、au、aw、ax、
az等64個拉丁字母組合,現代漢語非常用詞編碼字母的作用是區別現代漢語非常用詞的同
音詞,如有的現代漢語非常用詞沒有同音詞則不加現代漢語非常用詞編碼字母,如有的現代
漢語非常用詞的同音詞的數量超過64個,可以增加aaa、aae、aao、aau、aaw、aax、aaz等
字母組合作為現代漢語非常用詞編碼字母。

漢語文言常用詞的編碼

自五四運動以來,文言文已退出歷史舞臺,但是很多古代文獻都是用文言文記錄的,很多漢
語詞在古代和現代雖然都是用同一個漢字表示,但是表示的意義其實是不一樣的,例如“豆”
古代表示盛食物用的器具,現代漢語“豆”的詞義是大豆,大豆在古代不叫豆,而叫菽,為
了漢語自然語言理解研究的需要,必須將漢語文言詞與現代漢語詞分開編碼。文言詞在英語
中譯為theclassicalChineseword,所以漢語文言常用詞可以按照以下公式編碼:漢語
文言常用詞的編碼=聲碼+韻碼+調碼+c+漢語文言詞常用編碼字母,漢語文言詞常用編碼字母
是由a、e、n、o、u、w、x,z8個拉丁字母構成,漢語文言常用詞編碼字母的作用是區別漢
語文言常用詞的同音詞,如有的漢語文言常用詞無同音詞則不加漢語文言常用詞編碼字母。
漢語文言非常用詞的編碼

漢語文言非常用詞的編碼可以按照以下公式編碼:漢語文言非常用詞的編碼=聲碼+韻碼+調碼
+c+漢語文言非常用詞編碼字母,漢語文言非常用詞編碼字母是由aa、ae、an、ao、au、aw、
ax、az等64個拉丁字母組合構成的,漢語文言非常用詞編碼字母的作用是區別漢語文言非
常用詞的同音詞,如有的漢語文言非常用詞無同音詞則可以不加漢語文言詞非常用編碼字母,
如有的漢語文言非常用詞的同音詞的數量超過64個,則可以增加aaa、aae、aao、aau、aaw、
aax、aaz等拉丁字母組合作為漢語文言詞編碼字母。

漢語方言詞的編碼

隨著國家推廣普通話,方言的使用范圍越來越小,但是方言也存儲著很多漢語信息,為了漢
語自然語言理解研究的需要,有必要對漢語方言詞進行編碼,方言在英語中是用dialect這
個詞表示的,所以漢語文言詞可以按照以下公式編碼:漢語方言詞的編碼=d+:+聲碼+韻碼+
調碼+漢語方言詞編碼字母,漢語方言詞編碼字母是由a、e、n、o、u、w、x、z8個拉丁字母
構成,漢語方言詞編碼字母的作用是區別漢語方言詞的同音詞,如有的漢語方言詞無同音詞
則可以不加漢語方言詞編碼字母,如漢語方言詞的同音詞的數量超過8個,可以增加aa、ae、
ao、au、an、aw、ax、az等拉丁字母組合作為漢語方言詞編碼字母。

兄弟民族詞的編碼

我國有55個少數民族,這些少數民族都是我們主體民族漢族的兄弟民族,有些漢語中的詞如
旗袍、薩其馬、哈達都是來自我們兄弟民族語言中的詞匯,這些來自兄弟民族的詞可以分為
意譯的兄弟民族詞(例如:旗袍),和音譯的兄弟民族詞,(例如:薩其馬、哈達),意譯的兄
弟民族詞是由漢語語素構成,而音譯的兄弟民族詞則不是由漢語語素構成的,所以為了漢語
自然語言理解研究的需要,有必要對音譯的兄弟民族詞進行編碼,兄弟的,兄弟般的在英語
中是用brotherly這個詞表示的,所以音譯的兄弟民族詞的編碼可以按照以下公式編碼:音
譯的兄弟民族詞的編碼=b+:+聲碼+韻碼+調碼+兄弟民族詞編碼字母,兄弟民族詞如無聲調,
可不標聲調,兄弟民族詞編碼字母是由a、e、n、o、u、w、x、z8個拉丁字母構成的,兄弟
民族詞的編碼字母的作用是區別音譯的兄弟民族詞的同音詞,如音譯的兄弟民族詞的同音詞
的數量超過8個,可用增加aa、ae、an、ao、au、aw、ax、az等拉丁字母組合作為兄弟民族
詞的編碼字母,意譯的兄弟民族詞因為是由漢語語素構成的,所以可以按照普通漢語詞編碼。
外來詞的編碼

中華民族自古以來就是一個有高度文明的,兼容并蓄的民族,漢語中有大量的外來詞,例如輪
回、印度等。這些外來詞可以分為意譯的外來詞(例如輪回)和音譯的外來詞(例如印度),
意譯的外來詞是由漢語語素構成的,而音譯的外來詞則不是由漢語語素構成的,所以為了漢
語自然語言理解研究的需要,必須對音譯的外來詞進行編碼,外國的、來自外國的、外國語
的在英語中是用foreign這個詞來表示的,所以音譯的外來詞可以按照以下公式編碼:音譯
的外來詞的編碼=f+:+聲碼+韻碼+調碼+外來詞編碼字母,外來詞編碼字母是由a、e、n、o、u、
w、x、z8個拉丁字母構成,外來詞編碼字母的作用是區別音譯的外來詞的同音詞,如音譯
的外來詞無同音詞則不必加外來詞編碼字母,如音譯的外來詞的同音詞的數量超過8個,可以
增加aa、ae、an、ao、au、、aw、ax、az等拉丁字母組合作為外來詞編碼字母,隨著科技日
新月異,一些新詞如英語新詞helilift(使用直升機運輸)、vehicle(多彈頭分導重返大氣
層運載工具)在詞典中暫時沒有確定權威的翻譯形式時,可用f:+英語詞來翻譯,直接用于
中文文本,作為漢語新詞來進行漢語信息編碼,在此情況下,翻譯的外來詞不必加聲調,如
英語新詞helilift(使用直升機運輸)、vehicle(多彈頭分導重返大氣層運載工具)則可翻
譯為2個漢語新詞,f:helilift和f:vehicle,這2個漢語新詞直接與其他漢語詞用于中文
文本并作為漢語新詞來進行漢語信息編碼,意譯的外來詞因為是由漢語語素構成的,所以可
以按照普通漢語詞編碼。

現代漢語常用詞的義位編碼

義位,又稱義項,英語中使用的是sememe這一術語,義位是由語匯形式表示的、獨立的、概
括的、固定的語義單位,語匯形式包括語素、詞和詞組。漢語詞大多有2個或2個以上的義
位,為了漢語自然語言理解研究的需要,必須對現代漢語常用詞的義位進行編碼,我的解決
方案是:首先選定義位編碼字母,義位編碼字母由h、k、l、t4個拉丁字母構成,為避免拼
讀錯誤,義位編碼字母和聲母之間用:隔開,有的詞(例如:“愛情”)沒有聲母,則義位編碼
字母和這些詞的韻母之間用:隔開,如有的現代漢語常用詞的義位超過4個,則增加hh、hk、
h1、ht等拉丁字母組合作為義位編碼字母,如有的現代漢語常用詞只有一個義位,則不加s+
義位編碼字母,所以現代漢語常用詞的義位編碼可以按照以下公式進行:現代漢語常用詞的
義位編碼=s+義位編碼字母+:+聲碼+韻碼+調碼+現代漢語常用詞編碼字母,當一個現代漢語常
用詞只有一個義位時,則不用加s+義位編碼字母+:。

現代漢語非常用詞的義位編碼

現代漢語非常用詞的義位編碼可以按照以下公式進行:現代漢語非常用詞的義位編碼=s+義位
編碼字母+:+聲碼+韻碼+調碼+現代漢語非常用詞編碼字母,當一個現代漢語非常用詞只有一
個義位時,則不用加s+義位編碼字母+:。

漢語文言常用詞的義位編碼

漢語文言常用詞的義位編碼可以按照以下公式進行:漢語文言常用詞的義位編碼=s+義位編碼
字母+:+聲碼+韻碼+調碼+c+漢語文言常用詞編碼字母,當一個漢語文言常用詞只有一個義位
時,則不用加s+義位編碼字母+:。

漢語文言非常用詞的義位編碼

漢語文言非常用詞的義位編碼可以按照以下公式進行:漢語文言非常用詞的義位編碼=s+義位
編碼字母+:+聲碼+韻碼+調碼+c+漢語文言非常用詞編碼字母,當一個漢語文言非常用詞只有
一個義位時,則不用加s+義位編碼字母+:。

漢語方言詞的義位的編碼

漢語方言詞的義位的編碼=s+義位編碼字母+:+d+:+聲碼+韻碼+調碼+漢語方言詞編碼字母,當
一個漢語方言詞只有一個義位時,則不用加s+義位編碼字母+:。

兄弟民族詞的義位的編碼

音譯的兄弟民族詞的義位的編碼=s+義位編碼字母+:+b+:+聲碼+韻碼+調碼+兄弟民族詞編碼
字母,當一個音譯的兄弟民族詞只有一個義位時,則不用加s+義位編碼字母+:,意譯的兄弟
民族詞因為是由漢語語素構成的,所以意譯的兄弟民族詞的義位的編碼可以按照普通漢語詞
進行義位編碼。

外來詞的義位的編碼

音譯的外來詞的義位的編碼=s+義位編碼字母+f+:+聲碼+韻碼+調碼+音譯的外來詞編碼字母,
當一個音譯的外來詞只有一個義位時,則不用加s+義位編碼字母+:,意譯的外來詞因為是由
漢語語素構成的,所以意譯的外來詞的義位的編碼可以按照普通漢語詞進行義位編碼。

現代漢語常用語素的編碼

語素是最小的、有意義的、沒有詞性的語言單位,語素在英語中譯為morpheme,為了漢語自
然語言理解研究的需要,必須對現代漢語常用語素進行編碼,現代漢語常用語素的編碼可以
按照以下公式進行:現代漢語常用語素的編碼=聲碼+韻碼+調碼+現代漢語常用詞編碼字母+m。
現代漢語非常用語素的編碼

現代漢語非常用語素的編碼可以按照以下公式編碼:現代漢語非常用語素的編碼=聲碼+韻碼+
調碼+現代漢語非常用詞編碼字母+m。

漢語文言詞常用語素的編碼

漢語文言詞常用語素可以按照以下公式編碼:漢語文言詞常用語素的編碼=聲碼+韻碼+調碼
+c+漢語文言常用詞編碼字母+m。

漢語文言詞非常用語素的編碼

漢語文言詞非常用語素的編碼可以按照以下公式編碼:漢語文言詞非常用語素的編碼=聲碼+
韻碼+調碼+c+漢語文言詞非常用編碼字母+m。

漢語方言詞語素的編碼

漢語方言詞語素的編碼=d+:+聲碼+韻碼+調碼+漢語方言詞編碼字母+m。

兄弟民族詞語素的編碼

音譯的兄弟民族詞語素的編碼=b+:+聲碼+韻碼+調碼+兄弟民族詞編碼字母+m,意譯的兄弟民
族詞因為是由漢語語素構成的,所以意譯的兄弟民族詞語素的編碼可以按照普通漢語詞語素
進行編碼。

外來詞語素的編碼

音譯的外來詞語素的編碼=f+:+聲碼+韻碼+調碼+外來詞編碼字母+m,意譯的外來詞因為是由
漢語語素構成的,所以意譯的外來詞語素的編碼可以按照普通漢語詞語素進行編碼。

現代漢語常用語素的義位編碼

語素雖然是最小的、有意義的、無詞性的語言單位,但是很多漢語語素都有2個甚至2個以
上的義項。例如語素“一”的義項有:1、一旦,一經如:一失足成千古恨,2、表示專一,
如:一心一意,所以為了漢語自然語言理解研究的需要,必須對現代漢語常用語素的義位進
行編碼,我的解決方案是:首先選定義位編碼字母,義位編碼字母由h、k、l、t4個拉丁字
母構成,為避免拼讀錯誤,義位編碼字母和聲母之間用:隔開,如有的語素(例如:“愛”)沒
有聲母,則義位編碼字母和韻母之間用:隔開,如有的語素的義位超過8個,則添加hh、hk、
hl、ht等拉丁字母組合作為義位編碼字母,所以現代漢語常用語素的義位編碼可以按照以下
公式進行:現代漢語常用語素的義位編碼=s+義位編碼字母+:+聲碼+韻碼+調碼+現代漢語常用
詞編碼字母+m,當一個現代漢語常用詞語素只有一個義位時,則不用加s+義位編碼字母+:。
現代漢語非常用語素義位的編碼

現代漢語非常用語素的義位編碼可以按照以下公式進行:現代漢語非常用語素的義位編碼=s+
義位編碼字母+:+聲碼+韻碼+調碼+現代漢語非常用詞編碼字母+m,當一個現代漢語非常用語
素只有一個義位時,則不用加s+義位編碼字母+:。

漢語文言詞常用語素義位的編碼

漢語文言詞常用語素義位的編碼可以按照以下公式編碼:漢語文言詞常用語素義位的編碼=s+
義位編碼字母+:+聲碼+韻碼+調碼+c+漢語文言詞常用編碼字母+m,當一個漢語文言詞常用語
素只有一個義位時,則不用加s+義位編碼字母+:。

漢語文言詞非常用語素義位的編碼

漢語文言詞非常用語素義位的編碼可以按照以下公式編碼:漢語文言詞非常用語素義位的編
碼=s+義位編碼字母+:+聲碼+韻碼+調碼+c+漢語文言詞非常用編碼字母+m,當一個漢語文言詞
非常用語素只有一個義位時,則不用加s+義位編碼字母+:。

漢語方言詞語素義位的編碼

漢語方言詞語素義位的編碼=s+義位編碼字母+:+d+:+聲碼+韻碼+調碼+漢語方言詞編碼字母
+m,當一個漢語方言詞語素只有一個義位時,則不用加s+義位編碼字母+:。

兄弟民族詞語素的義位的編碼

音譯的兄弟民族詞語素的義位的編碼=s+義位編碼字母+:+b+:+聲碼+韻碼+調碼+兄弟民族詞
編碼字母+m,當一個音譯的兄弟民族詞語素只有一個義位時,則不用加s+義位編碼字母+:,
意譯的兄弟民族詞語素因為是漢語語素,所以意譯的兄弟民族詞語素的義位的編碼可以按照
普通漢語詞語素的義位進行編碼。

外來詞的義位的編碼

音譯的外來詞語素的義位的編碼=s+義位編碼字母+f+:+聲碼+韻碼+調碼+音譯的外來詞編碼
字母+m,當一個音譯的外來詞語素只有一個義位時,則不用加s+義位編碼字母+:,意譯的外
來詞語素因為是漢語語素,所以意譯的外來詞語素的義位的編碼可以按照普通漢語詞語素的
義位進行編碼。

非語素字的編碼

在中文中一般一個漢字表示一個語素,但是也有一些罕見的,漢字不是語素的情況,例如“啤”、
“琵”、“枇”、“蚍”、“陂”、“芘”、“狓”、“郫”、“魮”、“鼙”都不是語素,我的解決方案是:
首先將同音的非語素漢字按照筆畫數多寡和相同筆畫數第一筆橫豎撇點折的順序排列,以字
母i+非語素字編碼字母來區別同音非語素漢字,非語素字編碼字母字母由g、y2個拉丁字
母構成,選擇字母i是因為罕見的在英語中是用infrequent這個詞表示,為了避免拼讀錯誤,
非語素字母編碼與聲碼之間用:隔離,所以非語素字的編碼可以按照以下公式進行:非語素字
的編碼=字母i+非語素字編碼字母+:+聲碼+韻碼+調碼,如一個非語素字沒有同音字,則不加
字母i+非語素字字母編碼+:,如有的非語素字的同音字超過2個,則增加gg、gy、yg、yy、
ggg、ggygyg、gyy、ygg、ygy、yyy等拉丁字母組合作為非語素字編碼字母。

漢語詞典詞組的編碼

詞組可以分為固定詞組和自由詞組,固定詞組是指結構固定的,構成該類詞組的詞或其他信
息單位都不能更換為其他信息單位,組成詞組的信息單位的排序也不能變更的詞組,固定詞
組分為詞典詞組和聯合詞組,詞典詞組是收入在詞典中的、有豐富的、有代表性的和重要的
信息內涵的詞組稱之為詞典詞組。詞典詞組宜于作為一個信息單位來處理,可以看做是一個
大詞,例如“股份有限公司”是收錄在《現代漢語詞典》中的一個詞組,釋義:企業的一種
常見的組織形式,公司的全部資本分為等額股份,股東以所持股份為限對公司承擔責任,公
司以其全部資產對公司的債務承擔責任,股東大會是公司的權利機構,當計算機遇到這個詞
組時應提醒計算機,這是個詞典詞組,可以作為一個信息單位來處理,我的解決方案是:字
母p+:+(),將詞典詞組包括進來,以提醒計算機將括號內的信息作為一個信息單位來處理,
選擇字母p是因為在英語中詞組、短語是用phrase這個詞表示的,所以漢語詞典詞組編碼可
以按照以下公式進行:漢語詞典詞組編碼=p+:+(),所以漢語詞典詞組“有限責任公司”的
編碼是:p:(gu:ifen:oyou:ixian:ogong:asi:a)。

漢語詞典詞組義位的編碼

漢語詞典詞組義位的編碼可以按照以下公式進行:漢語詞典詞組的義位編碼=s+義位編碼字母
+:+p+:(漢語詞典詞組編碼),漢語詞典詞組義位的編碼的義位編碼字母我選擇用r、v2個
拉丁字母作為義位編碼字母,如漢語詞典詞組的義位超過2個,則添加rr、rv、vr、vv等拉
丁字母組合作為義位編碼字母,在漢語拼音中字母v用來拼寫外來語、少數民族語言和方言,
韻母er用作韻尾的時候寫成r,為了避免拼讀錯誤,義位編碼字母與p之間用:隔離,當一
個漢語詞典詞組只有一個義位時,則不用加s+義位編碼字母+:。

漢語聯合詞組的編碼

在漢語中有一些固定詞組例如:中國銀行股份有限公司、《信息交換用漢字編碼字符集·基本
集》等固定詞組雖然沒有收入在詞典之中,但是也可以作為一個整體概念進行信息處理,這
類詞組稱為漢語聯合詞組。計算機漢語信息存儲和處理的過程和銀行的存取款有一定的類似
之處,商業銀行業務中有一種聯名賬戶的業務,英語中是用jointaccount這個詞組表示的,
聯合詞組在英語中沒有對應的、現成的翻譯,我們可以根據聯合詞組的信息內涵將其譯為the
jiontphrase,所以聯合詞組的編碼可以按照以下公式進行:漢語聯合詞組編碼=j+:+(),
所以漢語聯合詞組“中國銀行股份有限公司”的編碼是:j:(zhong:aguo:egu:ifen:o
you:ixian:ogong:asi:a)。

漢語聯合詞組義位的編碼

漢語聯合詞組義位的編碼可以按照以下公式進行:漢語聯合詞組的義位編碼=s+義位編碼字母
+j+:(),漢語聯合詞組的義位編碼字母我選擇用r、v2個拉丁字母作為義位編碼字母,如
漢語聯合詞組的義位超過2個,則添加rr、rv、vr、vv等拉丁字母組合作為義位編碼字母,
在漢語拼音中字母v用來拼寫外來語、少數民族語言和方言,韻母er用作韻尾的時候寫成r,
為了避免拼讀錯誤,義位編碼字母與j之間用:隔離,當一個漢語聯合詞組只有一個義位時,
則不用加s+義位編碼字母+:。

漢語自由詞組的編碼

漢語自由詞組的編碼可以按照正常的信息單位構成各自分開編碼。

漢語引語的編碼

在漢語中有一類特殊的句子,這類句子的信息內涵不是字面上的意思,例如:我國卓越的領
導人鄧小平曾說過這樣一句名言,“不管黑貓、白貓,抓住老鼠就是好貓”,所以為了漢語自
然語言理解研究的需要,必須對這類特殊的句子進行編碼,引文、引語、語錄在英語中是用
quotation這個詞表示的,所以漢語引語的編碼可以按照以下公式進行:漢語引語的編碼=q+:+
(),所以漢語引語“不管黑貓、白貓,抓住老鼠就是好貓”的編碼是:q:(bu:aguan:ihei:aa
mao:abai:emao:azhua:azhu:oelao:ishu:ijiu:onshi:oxhao:imao:a)。

具體實方式:

例如:漢字“是”是一個現代漢語常用詞,又是一個漢語語素,還是一個漢語文言詞,包含
有很多漢語信息,共有16種不同的用法和含義,為了漢語自然語言理解研究的需要,我們可
以對漢字“是”的這16種不同的用法和含義都進行漢語信息編碼:

1、詞性:形容詞,詞義:對正確(跟“非”相對)例如:你說的極對,按照本發明的現代漢
語常用詞義位的編碼原則進行編碼,現代漢語常用詞中,“是”有7個同音詞,這8個詞根據
筆畫數多寡和相同筆畫數第一筆橫豎撇點折的順序排列,分別是“世”“市”、“式”、“試”、
“事”、“視”、“是”、“室”,現代漢語常用詞“是”對應的現代漢語常用詞編碼字母是x,因
為是第1個義位,所以現代漢語常用詞義位編碼字母是h,這樣現代漢語常用詞“是”的第1
個義位編碼=s+義位編碼字母(h)+:+聲碼(sh)+韻碼(i)+調碼(o:)+現代漢語常用詞編碼字
母(x)=sh:shi:ox。

2、詞性:動詞,詞義:表示答應的詞,例如:是,我知道,所以按照上述編碼原則編碼現代
漢語常用詞“是”的第2個義位編碼=sk:shi:ox。

3、詞性:名詞,詞義:姓例如:您貴姓?我免貴姓是,所以按照上述編碼原則編碼現代漢語
常用詞“是”的第3個義位編碼=sl:shi:ox。

4、詞性:動詞,詞義:聯系兩種事物,表明兩者同一或后者說明前者的種類、屬性,例如:
《阿Q正傳》的作者是魯迅,所以按照上述編碼原則編碼現代漢語常用詞“是”的第4個義
位編碼=st:shi:ox。

5、詞性:動詞,詞義:與“的”字配合使用,有分類的作用,例如:這張桌子是石頭的,所
以按照上述編碼原則編碼現代漢語常用詞“是”的第5個義位編碼=shh:shi:ox。

6、詞性:動詞,詞義:聯系兩種事物,表示陳述的對象屬于“是”后面說的情況,例如:他
是一片好心,所以按照上述編碼原則編碼現代漢語常用詞“是”的第6個義位編碼
=shk:shi:ox。

7、詞性:動詞,詞義:表示存在,主語通常是表示處所的詞語,“是”后面表示存在的事物,
例如:村子前面是一片水田,所以按照上述編碼原則編碼現代漢語常用詞“是”的第7個義
位編碼=shl:shi:ox。

8、詞性:動詞,詞義:“是”前后用相同的名詞和動詞,連用兩個這樣的格式,表示所說的
幾樁事物互不相干,不能混淆,例如:去年是去年,今年是今年,你當年年一個樣哪!所以
按照上述編碼原則編碼現代漢語常用詞“是”的第8個義位編碼=sht:shi:ox。

9、詞性:動詞,詞義:在上半句里“是”前面用相同的名詞、形容詞或動詞,表示讓步,含
有雖然的意思,例如:詩是好詩,就是長了點,所以按照上述編碼原則編碼現代漢語常用詞
“是”的第9個義位編碼=skh:shi:ox。

10、詞性:動詞,詞義:用在句首,加重語氣,例如:是國防戰士,日日夜夜保衛著祖國,
咱們才能過幸福的日子,所以按照上述編碼原則編碼現代漢語常用詞“是”的第10個義位編
碼=skk:shi:ox。

11、詞性:動詞,詞義:用在名詞前面,含有“凡是”的意思,例如:是有利于群眾的事情,
他都肯干,所以按照上述編碼原則編碼現代漢語常用詞“是”的第11個義位編碼=skl:shi:ox。
12、詞性:動詞,詞義:用在名詞前面,含有“適合”的意思,例如:他想的很是路,所以
按照上述編碼原則編碼現代漢語常用詞“是”的第12個義位編碼=skt:shi:ox。

13、詞性:動詞,詞義:用在選擇問句、是非問句或反問句里,例如:他不是走了嗎?所以
按照上述編碼原則編碼現代漢語常用詞“是”的第13個義位編碼=slh:shi:ox。

14、詞性:動詞,詞義:(必須重讀)表示堅決肯定,含有“的確、實在”的意思:所以例如:
我打聽清楚了,他那天是沒沒去!按照上述編碼原則編碼現代漢語常用詞“是”的第14個義
位編碼=slk:shi:ox。

15、詞性:代詞(古漢語文言詞),詞義:這,這個,例如:是可忍,孰不可忍!因為在這句
話中漢字“是”是漢語文言常用詞,而且只有一個義位,所以不用加s+義位編碼字母+:,按
照漢語文言常用詞的編碼=聲碼+韻碼+調碼+c+漢語文言詞常用編碼字母的編碼原則編碼,漢
語文言常用詞“是”的漢語信息編碼=聲碼(sh)+韻碼(i)+調碼(:o)+c+漢語常用詞編碼字母
(x)=shi:ocx

16、詞性:無,漢語文言詞常用語素,語素義:正確,例如:是古非今,因為在這個詞中漢
字“是”是漢語文言詞常用語素,不能單獨成詞,而且只有一個義位,所以不用加s+義位編
碼字母+:,漢語文言詞常用語素“是”的漢語信息編碼=聲碼(sh)+韻碼(i)+調碼(:o)+c+
漢語文言詞常用編碼字母(x)+m=shi:ocxm

我們將按照本發明編碼原則編碼得到的漢語“是”的漢語信息編碼,對照ASCII字符集,就
可以轉換為計算機可以進行信息處理的二進制編碼。

綜述所述漢字“是”有16種不同的用法和含義,按照國家標準GB2312-1980《信息交換用漢
字編碼字符集·基本集》給漢字“是”編碼時,只有一種編碼方式,計算機在遇到漢字“是”
進行漢語信息處理時將面對16種信息選項,而采用本發明的編碼方法,計算機遇到一個漢語
“是”的漢語義位信息編碼時,將只有一個信息選項,從而提高了計算機漢語信息處理的工
作效率,并降低了計算機進行漢語信息處理的難度和出錯的概率,所以本發明為今后漢語語
言理解軟件和中文信息處理軟件的開發提供了一個更好的平臺,達到了一個全新的境界。

關 鍵 詞:
新型 漢語 信息 ASCII
  專利查詢網所有資源均是用戶自行上傳分享,僅供網友學習交流,未經上傳用戶書面授權,請勿作他用。
關于本文
本文標題:新型漢語信息ASCII碼.pdf
鏈接地址:http://www.wwszu.club/p-6386038.html
關于我們 - 網站聲明 - 網站地圖 - 資源地圖 - 友情鏈接 - 網站客服客服 - 聯系我們

[email protected] 2017-2018 zhuanlichaxun.net網站版權所有
經營許可證編號:粵ICP備17046363號-1 
 


收起
展開
鬼佬大哥大