鬼佬大哥大
  • / 23
  • 下載費用:30 金幣  

一種評估文本難度的方法.pdf

摘要
申請專利號:

CN201510467535.4

申請日:

2015.07.31

公開號:

CN105068993A

公開日:

2015.11.18

當前法律狀態:

授權

有效性:

有權

法律詳情: 授權|||實質審查的生效IPC(主分類):G06F 17/27申請日:20150731|||公開
IPC分類號: G06F17/27 主分類號: G06F17/27
申請人: 成都思戴科科技有限公司
發明人: 范舟; 白彬; 袁敦龍; 錢登勝; 余夏婷; 陳遙
地址: 610000四川省成都市高新區九興大道6號B幢6層603號
優先權:
專利代理機構: 成都頂峰專利事務所(普通合伙)51224 代理人: 楊軍
PDF完整版下載: PDF下載
法律狀態
申請(專利)號:

CN201510467535.4

授權公告號:

||||||

法律狀態公告日:

2018.08.07|||2015.12.16|||2015.11.18

法律狀態類型:

授權|||實質審查的生效|||公開

摘要

本發明涉及文本難度分析技術領域,公開了一種評估文本難度的方法。所述評估文本難度的方法,通過結合統計學原理和中文實際難度特點對閱讀文本進行難度評估,可簡化評估算法結構,利于計算機實現,從而快速得到難度評估結果,并確保評估結果的準確度,進而提升用戶體驗和實用性。

權利要求書

1.一種評估文本難度的方法,其特征在于,包括如下步驟:
S101.讀取待測評內容;
S102.通過數學統計的方式獲取所述待測評內容的文字難度系數、詞語難度
系數、句子難度系數和段落難度系數中的任意一種或它們的任意組合;
S103.將獲取的、唯一維度的所述難度系數作為所述待測評內容的文本難度
評估值,或者將獲取的、多維度的所述難度系數的算術平均結果作為所述待測評
內容的文本難度評估值。
2.如權利要求1所述的一種評估文本難度的方法,其特征在于,在所述通過數學
統計的方式獲取所述待測評內容的文字難度系數的步驟中還包括如下步驟:
S201.獲取所述待測評內容中出現的各個文字;
S202.統計各個文字在所述待測評內容中的出現頻率;
S203.查找各個文字在文字難度等級表中對應的文字難度等級;
S204.按照如下公式計算所述待測評內容的文字難度系數ZD:
Z D = Σ i = 1 n ( ZX i * ZR i ) ]]>
式中,n為所述待測評內容中不同文字的個數,ZXi為第i個文字在所
述文字難度等級表中對應的文字難度等級,ZRi為第i個文字在所述待測評內容
中的出現頻率。
3.如權利要求1所述的一種評估文本難度的方法,其特征在于,在所述通過數學
統計的方式獲取所述待測評內容的詞語難度系數的步驟中還包括如下步驟:
S301.獲取所述待測評內容中出現的各個詞語;
S302.統計各個詞語在所述待測評內容中的出現頻率;
S303.查找各個詞語在詞語難度等級表中對應的詞語難度等級;
S304.按照如下公式計算所述待測評內容的詞語難度系數CD:
C D = Σ i = 1 m ( CX i * CR i ) ]]>
式中,m為所述待測評內容中不同詞語的個數,CXi為第i個詞語在所
述詞語難度等級表中對應的詞語難度等級,CRi為第i個詞語在所述待測評內容
中的出現頻率。
4.如權利要求1所述的一種評估文本難度的方法,其特征在于,在所述通過數學
統計的方式獲取所述待測評內容的句子難度系數的步驟中還包括如下步驟:
S401.獲取所述待測評內容中出現的各個句子;
S402.以詞匯量為度量標尺確定各個句子的句子長度;
S403.根據句子長度查找各個句子在句子難度等級表中對應的句子難度等級;
S404.按照如下公式計算所述待測評內容的句子難度系數SD:
S D = ( Σ i = 1 k SX i ) / k ]]>
式中,k為所述待測評內容中句子的總數,SXi為第i個句子根據句
子長度在所述句子難度等級表中對應的句子難度等級;
或者,當所述句子為分句時,按照如下公式計算所述待測評內容的句
子難度系數SD:
S D = ( Σ j = 1 q ( Σ i = 1 p SX i j ) / p ) / q ]]>
式中,q為所述待測評內容中復句的總數,p為第j個復句中分句的
總數,SXij為第j個復句中第i個分句根據句子長度在所述句子難度等級表中對
應的句子難度等級。
5.如權利要求1所述的一種評估文本難度的方法,其特征在于,在所述通過數學
統計的方式獲取所述待測評內容的段落難度系數的步驟中還包括如下步驟:
S501.獲取所述待測評內容中出現的各個段落;
S502.以詞匯量為度量標尺確定各個段落的段落長度;
S503.按照如下公式計算各個段落的段落難度等級:
PD i = PX M i n PT i < K PX M i n + log 2 ( PT i - K ) K PT i 2 ( PX M a x - PX M i n ) + K PX M a x PT i > 2 ( PX M a x - PX M i n ) + K ]]>
式中,PDi為第i個段落的段落難度等級,PXMax為最高段落難度等級,
PXMin為最低段落難度等級,K為不小于20的第一數值,PTi為第i個段落的詞
匯量;
S504.對多個段落的所述段落難度等級進行算術平均計算,最終得到所述待
測評內容的段落難度系數PD。
6.如權利要求2所述的一種評估文本難度的方法,其特征在于,所述文字難度等
級表的建立過程包括如下步驟:
S601.選取M種版本的N個學習階段的教材;
S602.按照如下方式確定各個文字在第X種版本教材中的文字難度等級
ZXX:
對于在第Y個學習階段的教材中首次出現的文字,按照如下公式確定對應
的文字難度等級ZXX:
ZXX=(Y-1)*(ZXMax-ZXMin)/N+ZXMin
式中,ZXMax為最高文字難度等級,ZXMin為最低文字難度等級;
對于未在所有學習階段的教材中出現的文字,按照如下公式確定對應的文
字難度等級ZXX:
ZXX=ZXMax
式中,ZXMax為最高文字難度等級,ZXMin為最低文字難度等級;
S603.針對每個文字,對多版本的所述文字難度等級進行算術平均計算,得
到各個文字的平均文字難度等級;
S604.將各個文字及對應的平均文字難度等級記錄在所述文字難度等級表中。
7.如權利要求3所述的一種評估文本難度的方法,其特征在于,所述詞語難度等
級表的建立過程包括如下步驟:
S701.從互聯網中隨機抓取詞匯量不少于第二數值的第一文字內容,所述第
二數值不小于1億;
S702.獲取在所述第一文字內容中出現的各個詞語;
S703.統計各個詞語在所述第一文字內容中的出現頻率;
S704.按照如下方式確定各個詞語的詞語難度等級:
CX i = CX M i n R i > 10 - CX M i n - lgR i 10 - CX M i n R i 10 - CX M a x CX M a x R i < 10 - CX M a x ]]>
式中,CXi為第i個詞語的詞語難度等級,CXMax為最高詞語難度等級,
CXMin為最低詞語難度等級,Ri為第i個詞語在所述第一文字內容中的出現頻率;
S705.將各個詞語及對應的詞語難度等級記錄在所述詞語難度等級表中。
8.如權利要求4所述的一種評估文本難度的方法,其特征在于,所述句子難度等
級表的建立過程包括如下步驟:
S801.從互聯網中隨機抓取詞匯量不少于第三數值的第二文字內容,所述第
二數值不小于1億;
S802.獲取在所述第二文字內容中出現的各個句子;
S803.以詞匯量為度量標尺確定各個句子的句子長度;
S804.獲取具有各種句子長度的句子在所述第二內容中的出現頻率;
S805.按照如下公式確定具有各種句子長度的句子的句子難度等級:
SX i = SX M i n ST i < L , Q i > 10 - SX M i n - lgQ i ST i < L , 10 - SX M i n Q i 10 - SX M a x SX M a x ST i < L , Q i < 10 - SX M i n SX M a x ST i L ]]>
式中,SXi為具有第i種句子長度的句子的句子難度等級,SXMax為最
高句子難度等級,SXMin為最低句子難度等級,STi為具有第i種句子長度的句子
的詞匯量,Qi為具有第i種句子長度的句子在所述第二文字內容中的出現頻率,L
為不小于20的第四數值;
S806.將具有各種句子長度的句子及對應的句子難度等級記錄在所述句子難
度等級表中。
9.如權利要求1所述的一種評估文本難度的方法,其特征在于:
統計待評估對象的文字個數,如果待評估對象的文字個數不超過第五數值,
則將待評估對象的全部文字內容作為所述待測評內容,然后執行一次S101至
S103的步驟,最終將步驟S103得到的所述文本難度評估值作為待評估對象的文
本難度評估值,否則按照每分片的文字個數為第六數值的方式將待評估對象切分
為若干個分片,再從各個分片中隨機抽取一個片段作為所述待測評內容,然后針
對一個片段執行一次S101至S103的步驟,然后將在步驟S103得到的、多個片
段的所述文本難度評估值的算術平均結果作為所述待評估對象的文本難度評估
值,所述第五數值不小于1000,所述第六數值不小于500。
10.如權利要求1所述的一種評估文本難度的方法,其特征在于:
統計待評估對象的文字個數,如果待評估對象的文字個數不超過第七數值,
則將待評估對象的全部文字內容作為所述待測評內容,否則按照每分片的文字個
數為第八數值的方式將待評估對象切分為若干個分片,再從各個分片中隨機抽取
一個片段組合成所述待測評內容,然后執行一次S101至S103的步驟,最終將步
驟S104得到的所述文本難度評估值作為待評估對象的文本難度評估值,所述第
七數值不小于1000,所述第八數值不小于500。

說明書

一種評估文本難度的方法

技術領域

本發明涉及文本難度分析技術領域,具體地,涉及一種評估文本難度的
方法。

背景技術

隨著在線教育的興起,通過諸如平板電腦、手機等電子化平臺進行文字
閱讀的應用逐漸普及,其中的分級閱讀應用也逐漸市場化。所述分級閱讀應用是
指在閱讀之前,先通過一種評估算法對待閱讀文本進行難度評估,然后根據難度
評估值進行分級處理,將待閱讀文本推薦給閱讀能力與其文本難度評估值匹配的
閱讀人群,例如根據閱讀文本的難度評估值向不同年級的學生推薦適合的閱讀書
籍,從而有助于學生閱讀能力或考試成績的提高。

目前所采用的文本難度評估算法主要存在如下問題:(1)現有評估算法
結構復雜,包含了語法分析和語義分析,甚至還有句子之間的邏輯分析,難以通
過計算機技術實現;(2)現有評估算法的應用對象多為外文文本,由于中文與外
文的文化差異性,其對中文文本的評估結果具有一定的誤差。

針對目前文本難度評估算法的問題,有必要設計一種新的文本難度評估
方法,可結合統計學原理和中文實際難度特點對閱讀文本進行難度評估,從而可
簡化評估算法結構,利于計算機實現,快速得到難度評估結果,同時還可確保評
估結果的準確度,進而提升用戶體驗和實用性。

發明內容

針對前述文本難度評估算法的問題,本發明提供了一種評估文本難度的
方法,可結合統計學原理和中文實際難度特點對閱讀文本進行難度評估,從而可
簡化評估算法結構,利于計算機實現,快速得到難度評估結果,還可確保評估結
果的準確度,進而提升用戶體驗和實用性。

本發明采用的技術方案,提供了一種評估文本難度的方法,包括如下步驟:
S101.讀取待測評內容;S102.通過數學統計的方式獲取所述待測評內容的文字難
度系數、詞語難度系數、句子難度系數和段落難度系數中的任意一種或它們的任
意組合;S103.將獲取的、唯一維度的所述難度系數作為所述待測評內容的文本
難度評估值,或者將獲取的、多維度的所述難度系數的算術平均結果作為所述待
測評內容的文本難度評估值。根據中文的實際難度特點,待測評內容的文本難度
可以但不限于從文字、詞語、句子和段落等維度中任意一種或它們的任意組合去
評估,同時在所述評估方法中,通過數學統計方式獲取各個維度的所述難度系數
以及對多個維度的所述難度系數進行綜合考量,可簡化算法結構,利于計算機實
現,從而使所述評估文本難度的方法具有準確度高、易于實現和計算量小的特點,
能夠在適于評估中文文本的基礎上,快速得到難度評估結果,進而提升用戶體驗
和實用性。

具體的,在所述通過數學統計的方式獲取所述待測評內容的文字難度系
數的步驟中還包括如下步驟:S201.獲取所述待測評內容中出現的各個文字;S202.
統計各個文字在所述待測評內容中的出現頻率;S203.查找各個文字在文字難度
等級表中對應的文字難度等級;S204.按照如下公式計算所述待測評內容的文字
難度系數ZD:

Z D = Σ i = 1 n ( ZX i * ZR i ) ]]>

式中,n為所述待測評內容中不同文字的個數,ZXi為第i個文字在所述文字
難度等級表中對應的文字難度等級,ZRi為第i個文字在所述待測評內容中的出
現頻率。所述文字難度等級表包括各個文字和基于中文實際難度特點得到的、對
應的文字難度等級,因此根據步驟S201至S204所描述的數學統計方式,可得到
針對中文文本具有高準確度的、且在文字維度上的文字難度系數ZD。

進一步具體的,所述文字難度等級表的建立過程包括如下步驟:S601.
選取M種版本的N個學習階段的教材;S602.按照如下方式確定各個文字在第
X種版本教材中的文字難度等級ZXX:對于在第Y個學習階段的教材中首次出現
的文字,按照如下公式確定對應的文字難度等級ZXX:

ZXX=(Y-1)*(ZXMax-ZXMin)/N+ZXMin

式中,ZXMax為最高文字難度等級,ZXMin為最低文字難度等級;對于未在
所有學習階段的教材中出現的文字,按照如下公式確定對應的文字難度等級ZXX:

ZXX=ZXMax

式中,ZXMax為最高文字難度等級,ZXMin為最低文字難度等級;S603.針對
每個文字,對多版本的所述文字難度等級進行算術平均計算,得到各個文字的平
均文字難度等級;S604.將各個文字及對應的平均文字難度等級記錄在所述文字
難度等級表中。前述建立所述文字難度等級表的步驟提供了一種量化文字難度的
標準化機制,可進一步利于計算機實現,同時由于各個學習階段的教材是根據中
文實際難度特點和學生的閱讀能力而特別編輯的,因此依托目前使用的各個版本、
各個學習階段的教材,確定的文字難度等級表具有準確度高的特點,利于后續得
到高準確度的文字難度系數。

具體的,在所述通過數學統計的方式獲取所述待測評內容的詞語難度系
數的步驟中還包括如下步驟:S301.獲取所述待測評內容中出現的各個詞語;S302.
統計各個詞語在所述待測評內容中的出現頻率;S303.查找各個詞語在詞語難度
等級表中對應的詞語難度等級;S304.按照如下公式計算所述待測評內容的詞語
難度系數CD:

C D = Σ i = 1 m ( CX i * CR i ) ]]>

式中,m為所述待測評內容中不同詞語的個數,CXi為第i個詞語在所述詞
語難度等級表中對應的詞語難度等級,CRi為第i個詞語在所述待測評內容中的
出現頻率。所述詞語難度等級表包括各個詞語和基于中文實際難度特點得到的、
對應的詞語難度等級,因此根據步驟S301至S304所描述的數學統計方式,可得
到針對中文文本具有高準確度的、且在詞語維度上的詞語難度系數CD。

進一步具體的,所述詞語難度等級表的建立過程包括如下步驟:S701.
從互聯網中隨機抓取詞匯量不少于第二數值的第一文字內容,所述第二數值不小
于1億;S702.獲取在所述第一文字內容中出現的各個詞語;S703.統計各個詞語
在所述第一文字內容中的出現頻率;S704.按照如下方式確定各個詞語的詞語難
度等級:

CX i = CX M i n R i > 10 - CX M i n - lgR i 10 - CX M i n R i 10 - CX M a x CX M a x R i < 10 - CX M a x ]]>

式中,CXi為第i個詞語的詞語難度等級,CXMax為最高詞語難度等級,CXMin
為最低詞語難度等級,Ri為第i個詞語在所述第一文字內容中的出現頻率;S705.
將各個詞語及對應的詞語難度等級記錄在所述詞語難度等級表中。前述建立所述
詞語難度等級表的步驟提供了一種量化詞語難度的標準化機制,可進一步利于計
算機實現,同時由于針對詞語的中文實際難度特點是在日常使用過程中,詞語出
現的頻率越高,相應的詞語難度越低,因此根據步驟S701至S705所描述的方法,
確定的詞語難度等級表具有準確度高的特點,利于后續得到高準確度的詞語難度
系數。

具體的,在所述通過數學統計的方式獲取所述待測評內容的句子難度系
數的步驟中還包括如下步驟:S401.獲取所述待測評內容中出現的各個句子;S402.
以詞匯量為度量標尺確定各個句子的句子長度;S403.根據句子長度查找各個句
子在句子難度等級表中對應的句子難度等級;S404.按照如下公式計算所述待測
評內容的句子難度系數SD:

S D = ( Σ i = 1 k SX i ) / k ]]>

式中,k為所述待測評內容中句子的總數,SXi為第i個句子根據句子長度
在所述句子難度等級表中對應的句子難度等級;或者,當所述句子為分句時,按
照如下公式計算所述待測評內容的句子難度系數SD:

S D = ( Σ j = 1 q ( Σ i = 1 p SX i j ) / p ) / q ]]>

式中,q為所述待測評內容中復句的總數,p為第j個復句中分句的總數,
SXij為第j個復句中第i個分句根據句子長度在所述句子難度等級表中對應的句
子難度等級。所述句子難度等級表包括具有各種句子長度的句子和基于中文實際
難度特點得到的、對應的句子難度等級,因此根據步驟S401至S404所描述的數
學統計方式,可得到針對中文文本具有高準確度的、且在句子維度上的句子難度
系數SD。

進一步具體的,所述句子難度等級表的建立過程包括如下步驟:S801.
從互聯網中隨機抓取詞匯量不少于第三數值的第二文字內容,所述第二數值不小
于1億;S802.獲取在所述第二文字內容中出現的各個句子;S803.以詞匯量為度
量標尺確定各個句子的句子長度;S804.獲取具有各種句子長度的句子在所述第
二內容中的出現頻率;S805.按照如下公式確定具有各種句子長度的句子的句子
難度等級:

SX i = SX M i n ST i < L , Q i > 10 - SX M i n - lgQ i ST i < L , 10 - SX M i n Q i 10 - SX M a x SX M a x ST i < L , Q i < 10 - SX M i n SX M a x ST i L ]]>

式中,SXi為具有第i種句子長度的句子的句子難度等級,SXMax為最高句子
難度等級,SXMin為最低句子難度等級,STi為具有第i種句子長度的句子的詞匯
量,Qi為具有第i種句子長度的句子在所述第二文字內容中的出現頻率,L為不
小于20的第四數值;S806.將具有各種句子長度的句子及對應的句子難度等級記
錄在所述句子難度等級表中。前述建立所述句子難度等級表的步驟提供了一種量
化句子難度的標準化機制,可進一步利于計算機實現,同時由于針對句子的中文
實際難度特點是在日常使用過程中,具有某種句子長度的句子出現頻率越高,相
應的句子難度越低,因此根據步驟S801至S806所描述的方法確定的句子難度等
級具有準確度高的特點,利于后續得到高準確度的句子難度系數。

具體的,在所述通過數學統計的方式獲取所述待測評內容的段落難度系
數的步驟中還包括如下步驟:S501.獲取所述待測評內容中出現的各個段落;S502.
以詞匯量為度量標尺確定各個段落的段落長度;S503.按照如下公式計算各個段
落的段落難度等級:

PD i = PX M i n PT i < K PX M i n + log 2 ( PT i - K ) K PT i 2 ( PX M a x - PX M i n ) + K PX M a x PT i > 2 ( PX M a x - PX M i n ) + K ]]>

式中,PDi為第i個段落的段落難度等級,PXMax為最高段落難度等級,
PXMin為最低段落難度等級,K為不小于20的第一數值,PTi為第i個段落的詞
匯量;S504.對多個段落的所述段落難度等級進行算術平均計算,最終得到所述
待測評內容的段落難度系數PD。由于針對段落的中文實際難度特點是在段落的
詞匯量越多,相應的段落難度越高,因此根據步驟S501至S504所描述的數學統
計方式,可得到針對中文文本具有高準確度的、且在段落維度上的段落難度系數
PD。

具體的,統計待評估對象的文字個數,如果待評估對象的文字個數不超
過第五數值,則將待評估對象的全部文字內容作為所述待測評內容,然后執行一
次S101至S103的步驟,最終將步驟S103得到的所述文本難度評估值作為待評
估對象的文本難度評估值,否則按照每分片的文字個數為第六數值的方式將待評
估對象切分為若干個分片,再從各個分片中隨機抽取一個片段作為所述待測評內
容,然后針對一個片段執行一次S101至S103的步驟,然后將在步驟S103得到
的、多個片段的所述文本難度評估值的算術平均結果作為所述待評估對象的文本
難度評估值,所述第五數值不小于1000,所述第六數值不小于500。所述待評估
對象為完整的、待評估的閱讀材料,因此前述方法提供了一種針對文字過多情況
下的簡化處理方法,可減小計算量,進一步快速的得到文本難度評估結果。

具體的,統計待評估對象的文字個數,如果待評估對象的文字個數不超
過第七數值,則將待評估對象的全部文字內容作為所述待測評內容,否則按照每
分片的文字個數為第八數值的方式將待評估對象切分為若干個分片,再從各個分
片中隨機抽取一個片段組合成所述待測評內容,然后執行一次S101至S103的步
驟,最終將步驟S104得到的所述文本難度評估值作為待評估對象的文本難度評
估值,所述第七數值不小于1000,所述第八數值不小于500。所述待評估對象為
完整的、待評估的閱讀材料,因此前述方法提供了另一種針對文字過多情況下的
簡化處理方法,在減小計算量的基礎上,進一步優化了評估算法結構,能夠更快
的得到文本難度評估結果。

綜上,采用本發明所提供的評估文本難度的方法,具有如下有益效果:
(1)在評估過程中結合了統計學原理和算術平均算法,可簡化評估算法的結構,
利于計算機實現;(2)在評估過程中結合中文實際難度特點,可得到文字、詞語、
句子和段落等多個維度的、高準確度的難度系數,進而可確保最終評估結果的準
確度;(3)結合中文實際難度特點,提供了一套標準化的機制來量化文字、詞語
和句子等的難度等級,進一步利于計算機實現;(4)針對文字過多情況,提供了
簡化處理方法,以便減小計算量,優化評估算法結構,從而方便快速得到文本難
度評估結果,提升了用戶體驗和實用性。

附圖說明

為了更清楚地說明本發明實施例或現有技術中的技術方案,下面將對實
施例或現有技術描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述
中的附圖僅僅是本發明的一些實施例,對于本領域普通技術人員來講,在不付出
創造性勞動的前提下,還可以根據這些附圖獲得其他的附圖。

圖1是本發明提供的第一種評估文本難度的方法流程圖。

圖2是本發明提供的通過數學統計的方式獲取文字難度系數的流程圖。

圖3是本發明提供的建立文字難度等級表的流程圖。

圖4是本發明提供的通過數學統計的方式獲取詞語難度系數的流程圖。

圖5是本發明提供的建立詞語難度等級表的流程圖。

圖6是本發明提供的通過數學統計的方式獲取句子難度系數的流程圖。

圖7是本發明提供的建立句子難度等級表的流程圖。

圖8是本發明提供的通過數學統計的方式獲取段落難度系數的流程圖。

具體實施方式

以下將參照附圖,通過實施例方式詳細地描述本發明提供的評估文本難
度的方法。在此需要說明的是,對于這些實施例方式的說明用于幫助理解本發明,
但并不構成對本發明的限定。

本文中描述的各種技術可以用于但不限于文本難度分析技術領域,還可
以用于其它類似領域。

本文中術語“和/或”,僅僅是一種描述關聯對象的關聯關系,表示可以
存在三種關系,例如,A和/或B,可以表示:單獨存在A,單獨存在B,同時存
在A和B三種情況,本文中術語“/和”是描述另一種關聯對象關系,表示可以
存在兩種關系,例如,A/和B,可以表示:單獨存在A,單獨存在A和B兩種情
況,另外,本文中字符“/”,一般表示前后關聯對象是一種“或”關系。

實施例一

圖1示出了本發明提供的第一種評估文本難度的方法流程圖。所述評估
文本難度的方法,包括如下步驟。

S101.讀取待測評內容。

S102.通過數學統計的方式獲取所述待測評內容的文字難度系數、詞語難
度系數、句子難度系數和段落難度系數中的任意一種或它們的任意組合。

S103.將獲取的、唯一維度的所述難度系數作為所述待測評內容的文本難
度評估值,或者將獲取的、多維度的所述難度系數的算術平均結果作為所述待測
評內容的文本難度評估值。

在上述評估文本難度的方法中,所述待測評內容可以是完整的待評估材
料,也可以是待評估材料中的一個片段,例如一部小說中的一個章節。根據中文
的實際難度特點,待測評內容的文本難度可以但不限于從文字、詞語、句子和段
落等維度中任意一種或它們的任意組合去評估,同時在所述評估方法中,通過數
學統計方式獲取各個維度的所述難度系數以及對多個維度的所述難度系數進行
綜合考量,可簡化算法結構,利于計算機實現,從而使所述評估文本難度的方法
具有準確度高、易于實現和計算量小的特點,能夠在適于評估中文文本的基礎上,
快速得到難度評估結果,進而提升用戶體驗和實用性。

實施例二

圖2示出了本發明提供的通過數學統計的方式獲取文字難度系數的流程
圖,圖3示出了本發明提供的建立文字難度等級表的流程圖,圖4示出了本發明
提供的通過數學統計的方式獲取詞語難度系數的流程圖,圖5示出了本發明提供
的建立詞語難度等級表的流程圖,圖6示出了本發明提供的通過數學統計的方式
獲取句子難度系數的流程圖,圖7示出了本發明提供的建立句子難度等級表的流
程圖,圖8示出了本發明提供的通過數學統計的方式獲取段落難度系數的流程圖。
實施例二作為實施例一的一種細化方案,下面對實施例一中的各個步驟進行詳細
描述。

S101.讀取待測評內容。

S102.通過數學統計的方式獲取所述待測評內容的文字難度系數、詞語難
度系數、句子難度系數和段落難度系數中的任意一種或它們的任意組合。

在步驟S102中,具體的,在所述通過數學統計的方式獲取所述待測評內
容的文字難度系數的步驟中還包括如下步驟:S201.獲取所述待測評內容中出現
的各個文字;S202.統計各個文字在所述待測評內容中的出現頻率;S203.查找各
個文字在文字難度等級表中對應的文字難度等級;S204.按照如下公式計算所述
待測評內容的文字難度系數ZD:

Z D = Σ i = 1 n ( ZX i * ZR i ) ]]>

式中,n為所述待測評內容中不同文字的個數,ZXi為第i個文字在所述文字
難度等級表中對應的文字難度等級,ZRi為第i個文字在所述待測評內容中的出
現頻率。

如圖2所示,在步驟S201至S204中,對于未在所述文字難度等級表中
查找到的文字,確定對應的文字難度等級為所述文字難度等級表中的最高文字難
度等級。所述文字難度等級表包括各個文字和基于中文實際難度特點得到的、對
應的文字難度等級,因此根據步驟S201至S204所描述的數學統計方式,可得到
針對中文文本具有高準確度的、且在文字維度上的文字難度系數ZD。進一步具
體的,所述文字難度等級表的建立過程包括如下步驟:S601.選取M種版本的N
個學習階段的教材;S602.按照如下方式確定各個文字在第X種版本教材中的文
字難度等級ZXX:對于在第Y個學習階段的教材中首次出現的文字,按照如下公
式確定對應的文字難度等級ZXX:

ZXX=(Y-1)*(ZXMax-ZXMin)/N+ZXMin

式中,ZXMax為最高文字難度等級,ZXMin為最低文字難度等級;對于未在
所有學習階段的教材中出現的文字,按照如下公式確定對應的文字難度等級ZXX:

ZXX=ZXMax

式中,ZXMax為最高文字難度等級,ZXMin為最低文字難度等級;S603.針對
每個文字,對多版本的所述文字難度等級進行算術平均計算,得到各個文字的平
均文字難度等級;S604.將各個文字及對應的平均文字難度等級記錄在所述文字
難度等級表中。

如圖6所示,在步驟S601至S604中,提供了一種量化文字難度的標準
化機制,可進一步利于計算機實現。下面舉例描述量化文字難度的過程:首先選
取目前使用范圍最廣的5種版本、12個學期的中小學教材;然后按照步驟S602
的方式確定所有漢字的難度等級,例如“坤”字在第2種版本、第7學期的教材
中首次出現,則確定“坤”字的在第2種版本教材中的難度等級為7(最低文字
難度等級設定為1,最高文字難度等級設定為13);最后針對每個文字,對5個
版本的所述文字難度等級進行算術平均計算,即可得到各個文字的平均難度等級。
由于各個學習階段的教材是根據中文實際難度特點和學生的閱讀能力而特別編
輯的,因此依托目前使用的各個版本、各個學習階段的教材,確定的文字難度等
級具有準確度高的特點,利于后續得到高準確度的文字難度系數。此外,為了能
夠使步驟S203正常執行,所述文字難度等級表的建立過程必須在步驟S203之前
完成,因此作為優化的,所述步驟S601至S604可以但不限于在步驟S101之前
完成。

在步驟S102中,具體的,在所述通過數學統計的方式獲取所述待測評內
容的詞語難度系數的步驟中還包括如下步驟:S301.獲取所述待測評內容中出現
的各個詞語;S302.統計各個詞語在所述待測評內容中的出現頻率;S303.查找各
個詞語在詞語難度等級表中對應的詞語難度等級;S304.按照如下公式計算所述
待測評內容的詞語難度系數CD:

C D = Σ i = 1 m ( CX i * CR i ) ]]>

式中,m為所述待測評內容中不同詞語的個數,CXi為第i個詞語在所述詞
語難度等級表中對應的詞語難度等級,CRi為第i個詞語在所述待測評內容中的
出現頻率。

如圖3所示,在步驟S301至S304中,可以通過現有的、三種分詞算法
(基于字典或詞庫匹配的分詞算法,基于知識理解的分詞算法和基于詞頻統計的
分詞算法)中的任意一種算法對所述待測評內容進行分詞處理,從而獲取所述待
測評內容中出現的各個詞語,同時,對于未在所述詞語難度等級表中查找到的詞
語,確定對應的詞語難度等級為所述詞語難度等級表中的最高詞語難度等級。所
述詞語難度等級表包括各個詞語和基于中文實際難度特點得到的、對應的詞語難
度等級,因此根據步驟S301至S304所描述的數學統計方式,可得到針對中文文
本具有高準確度的、且在詞語維度上的詞語難度系數CD。進一步具體的,所述
詞語難度等級表的建立過程包括如下步驟:S701.從互聯網中隨機抓取詞匯量不
少于第二數值的第一文字內容,所述第二數值不小于1億;S702.獲取在所述第
一文字內容中出現的各個詞語;S703.統計各個詞語在所述第一文字內容中的出
現頻率;S704.按照如下方式確定各個詞語的詞語難度等級:

CX i = CX M i n R i > 10 - CX M i n - lgR i 10 - CX M i n R i 10 - CX M a x CX M a x R i < 10 - CX M a x ]]>

式中,CXi為第i個詞語的詞語難度等級,CXMax為最高詞語難度等級,CXMin
為最低詞語難度等級,Ri為第i個詞語在所述第一文字內容中的出現頻率;S705.
將各個詞語及對應的詞語難度等級記錄在所述詞語難度等級表中。

如圖7所示,在步驟S701至S705中,提供了一種量化詞語難度的標準化
機制,可進一步利于計算機實現。下面舉例描述量化詞語難度的過程:首先從互
聯網中隨機抓取詞匯量不少于1億的第一文字內容;然后利用分詞算法從第一文
字內容提取出各個詞語,并統計各個詞語的出現概率,然后按照步驟S704的方
式確定各個詞語的難度等級,例如“長征”一詞在第一文字內容中的出現頻率為
10-6(即第一文字內容的詞匯量為1億,“長征”一詞在第一文字內容中出現了103
次),則確定“長征”一詞的難度等級為6(最低文字難度等級設定為1,最高文
字難度等級設定為9)。由于針對詞語的中文實際難度特點是在日常使用過程中,
詞語出現的頻率越高,相應的詞語難度越低,因此根據步驟S701至S705所描述
的方法,確定的詞語難度等級表具有準確度高的特點,利于后續得到高準確度的
詞語難度系數。此外,為了能夠使步驟S303正常執行,所述詞語難度等級表的
建立過程必須在步驟S303之前完成,因此作為優化的,所述步驟S701至S705
可以但不限于在步驟S101之前完成。

在步驟S102中,具體的,在所述通過數學統計的方式獲取所述待測評內
容的句子難度系數的步驟中還包括如下步驟:S401.獲取所述待測評內容中出現
的各個句子;S402.以詞匯量為度量標尺確定各個句子的句子長度;S403.根據句
子長度查找各個句子在句子難度等級表中對應的句子難度等級;S404.按照如下
公式計算所述待測評內容的句子難度系數SD:

S D = ( Σ i = 1 k SX i ) / k ]]>

式中,k為所述待測評內容中句子的總數,SXi為第i個句子根據句子長度
在所述句子難度等級表中對應的句子難度等級;或者,當所述句子為分句時,按
照如下公式計算所述待測評內容的句子難度系數SD:

S D = ( Σ j = 1 q ( Σ i = 1 p SX i j ) / p ) / q ]]>

式中,q為所述待測評內容中復句的總數,p為第j個復句中分句的總數,
SXij為第j個復句中第i個分句根據句子長度在所述句子難度等級表中對應的句
子難度等級。

如圖4所示,在步驟S401至S404中,所述句子為分句或復句,可以通
過判斷諸如逗號、句號或分號等特殊字符的方式對所述待測評內容進行分句處理,
從而獲取所述待測評內容中出現的各個詞語,然后通過現有的、三種分詞算法(基
于字典或詞庫匹配的分詞算法,基于知識理解的分詞算法和基于詞頻統計的分詞
算法)中的任意一種算法對各個句子進行分詞處理,統計各個句子的詞匯量,然
后以詞匯量為度量標尺確定各個句子的句子長度。所述句子難度等級表包括具有
各種句子長度的句子和基于中文實際難度特點得到的、對應的句子難度等級,因
此根據步驟S401至S404所描述的數學統計方式,可得到針對中文文本具有高準
確度的、且在句子維度上的句子難度系數SD。進一步具體的,所述句子難度等
級表的建立過程包括如下步驟:S801.從互聯網中隨機抓取詞匯量不少于第三數
值的第二文字內容,所述第二數值不小于1億;S802.獲取在所述第二文字內容
中出現的各個句子;S803.以詞匯量為度量標尺確定各個句子的句子長度;S804.
獲取具有各種句子長度的句子在所述第二內容中的出現頻率;S805.按照如下公
式確定具有各種句子長度的句子的句子難度等級:

SX i = SX M i n ST i < L , Q i > 10 - SX M i n - lgQ i ST i < L , 10 - SX M i n Q i 10 - SX M a x SX M a x ST i < L , Q i < 10 - SX M i n SX M a x ST i L ]]>

式中,SXi為具有第i種句子長度的句子的句子難度等級,SXMax為最高句子
難度等級,SXMin為最低句子難度等級,STi為具有第i種句子長度的句子的詞匯
量,Qi為具有第i種句子長度的句子在所述第二文字內容中的出現頻率,L為不
小于20的第四數值;S806.將具有各種句子長度的句子及對應的句子難度等級記
錄在所述句子難度等級表中。

如圖8所示,在步驟S801至S802中,提供了一種量化句子難度的標準
化機制,可進一步利于計算機實現。下面舉例描述量化句子難度的過程:首先從
互聯網中隨機抓取詞匯量不少于10億的第二文字內容;然后利用分句算法(即
基于判斷諸如逗號、句號或分號等特殊字符的分句處理方式)從所述第二文字內
容中提取出各個句子,再利用分詞算法分離各個句子的詞語,并統計各個句子的
詞匯量,再統計獲取具有各種句子長度的句子在所述第二內容中出現的出現頻率,
最后按照步驟S805的方式確定具有各種句子長度的句子的難度等級,例如句子
長度為20(即詞匯量為20)的句子在所述第二文字內容中的出現頻率為10-6(即
在第二文字內容中,句子的平均詞匯量為10,句子長度為20的句子在所述第二
文字內容中出現了103次),則確定句子長度為20的句子的難度等級為6(最低
句子難度等級設定為1,最高句子難度等級設定為9,第八數值為30)。由于針
對句子的中文實際難度特點是在日常使用過程中,具有某種句子長度的句子出現
頻率越高,相應的句子難度越低,因此根據步驟S801至S806所描述的方法,確
定的句子難度等級具有準確度高的特點,利于后續得到高準確度的句子難度系數。

在步驟S102中,具體的,在所述通過數學統計的方式獲取所述待測評內
容的段落難度系數的步驟中還包括如下步驟:S501.獲取所述待測評內容中出現
的各個段落;S502.以詞匯量為度量標尺確定各個段落的段落長度;S503.按照如
下公式計算各個段落的段落難度等級:

PD i = PX M i n PT i < K PX M i n + log 2 ( PT i - K ) K PT i 2 ( PX M a x - PX M i n ) + K PX M a x PT i > 2 ( PX M a x - PX M i n ) + K ]]>

式中,PDi為第i個段落的段落難度等級,PXMax為最高段落難度等級,
PXMin為最低段落難度等級,K為不小于20的第一數值,PTi為第i個段落的詞
匯量;S504.對多個段落的所述段落難度等級進行算術平均計算,最終得到所述
待測評內容的段落難度系數PD。

如圖5所示,在步驟S501至S504中,可以通過判斷諸如句號和換行等
方式對所述待測評內容進行分段處理,從而獲取所述待測評內容中出現的各個段
落,然后通過現有的、三種分詞算法(基于字典或詞庫匹配的分詞算法,基于知
識理解的分詞算法和基于詞頻統計的分詞算法)中的任意一種算法對各個段落進
行分詞處理,統計各個段落的詞匯量,然后以詞匯量為度量標尺確定各個段落的
句子長度。由于針對段落的中文實際難度特點是在段落的詞匯量越多,相應的段
落難度越高,因此根據步驟S501至S504所描述的數學統計方式,可得到針對中
文文本具有高準確度的、且在段落維度上的段落難度系數PD。

S103.將獲取的、唯一維度的所述難度系數作為所述待測評內容的文本難
度評估值,或者將獲取的、多維度的所述難度系數的算術平均結果作為所述待測
評內容的文本難度評估值。

在步驟S103中,如果在步驟S102中只從唯一維度獲取到對應的所述難
度系數(例如只從文字維度進行文本的難度評估,得到對應的文字難度系數),
則將獲取的、唯一維度的所述難度系數作為所述待測評內容的文本難度評估值,
或者對獲取的、唯一維度的所述難度系數進行有目標的等比縮放處理(例如等比
縮放至[100,1000]的目標范圍),然后再將等比縮放處理結果作為所述待測評內
容的文本難度評估值;如果在步驟S102中從多個維度獲取到對應的所述難度系
數(例如分別從文字、詞語、句子和段落等四個維度進行文本的難度評估,得到
對應的文字難度系數、詞語難度系數、句子難度系數和段落難度系數),則先對
獲取的、各個維度對應的所述難度系數進行有目標的等比縮放處理(例如均等比
縮放至[100,1000]的目標范圍),然后再對多維度的等比縮放處理結果進行算術
平均計算,最終將算術平均結果作為所述待測評內容的文本難度評估值。通過前
述方法,可以解決多維度的難度等級范圍不一致的問題。

上述實施例二詳細提供的所述評估文本難度的方法,具有如下技術效果:
(1)在評估過程中結合了統計學原理和算術平均算法,可簡化評估算法的結構,
利于計算機實現;(2)在評估過程中結合中文實際難度特點,可得到文字、詞語、
句子和段落等多個維度的、高準確度的難度系數,進而可確保最終評估結果的準
確度;(3)結合中文實際難度特點,提供了一套標準化的機制來量化文字、詞語
和句子等的難度等級,進一步利于計算機實現;(4)所述方法的計算量小,可快
速得到文本難度評估結果,提升用戶體驗和實用性。

實施例三

實施例三作為實施例一或實施例二的一種優化方案,其提供的評估文本
難度的方法與實施例一或實施例二提供的評估文本難度的方法的不同之處在于:
具體的,統計待評估對象的文字個數,如果待評估對象的文字個數不超過第五數
值,則將待評估對象的全部文字內容作為所述待測評內容,然后執行一次S101
至S103的步驟,最終將步驟S103得到的所述文本難度評估值作為待評估對象的
文本難度評估值,否則按照每分片的文字個數為第六數值的方式將待評估對象切
分為若干個分片,再從各個分片中隨機抽取一個片段作為所述待測評內容,然后
針對一個片段執行一次S101至S103的步驟,然后將在步驟S103得到的、多個
片段的所述文本難度評估值的算術平均結果作為所述待評估對象的文本難度評
估值,所述第五數值不小于1000,所述第六數值不小于500。

所述待評估對象為完整的、待評估的閱讀材料,因此前述方法提供了一
種針對文字過多情況下的簡化處理方法,可減小計算量,進一步快速的得到文本
難度評估結果。

在實施例一或實施例二的技術效果的基礎上,實施例三所提供的評估文
本難度的方法還具有如下效果:(1)針對文字過多情況,提供了簡化處理方法,
以減小計算量,從而方便快速得到文本難度評估結果,進一步提升用戶體驗和實
用性。

實施例四

實施例四作為實施例一或實施例二的另一種優化方案,其提供的評估文
本難度的方法與實施例一或實施例二提供的評估文本難度的方法的不同之處在
于:具體的,統計待評估對象的文字個數,如果待評估對象的文字個數不超過第
七數值,則將待評估對象的全部文字內容作為所述待測評內容,否則按照每分片
的文字個數為第八數值的方式將待評估對象切分為若干個分片,再從各個分片中
隨機抽取一個片段組合成所述待測評內容,然后執行一次S101至S103的步驟,
最終將步驟S104得到的所述文本難度評估值作為待評估對象的文本難度評估值,
所述第七數值不小于1000,所述第八數值不小于500。

所述待評估對象為完整的、待評估的閱讀材料,因此上述方法提供了另
一種針對文字過多情況下的簡化處理方法,在減小計算量的基礎上,進一步優化
了評估算法結構,能夠更快的得到文本難度評估結果。

在實施例一或實施例二的技術效果的基礎上,實施例四所述提供的評估
文本難度的方法還具有如下效果:(1)在減小計算量的基礎上,進一步優化了評
估算法結構,能夠更快的得到文本難度評估結果。

如上所述,可較好的實現本發明。對于本領域的技術人員而言,根據本
發明的教導,設計出不同形式的評估文本難度的方法并不需要創造性的勞動。在
不脫離本發明的原理和精神的情況下對這些實施例進行變化、修改、替換、整合
和變型仍落入本發明的保護范圍內。

關 鍵 詞:
一種 評估 文本 難度 方法
  專利查詢網所有資源均是用戶自行上傳分享,僅供網友學習交流,未經上傳用戶書面授權,請勿作他用。
關于本文
本文標題:一種評估文本難度的方法.pdf
鏈接地址:http://www.wwszu.club/p-6385892.html
關于我們 - 網站聲明 - 網站地圖 - 資源地圖 - 友情鏈接 - 網站客服客服 - 聯系我們

[email protected] 2017-2018 zhuanlichaxun.net網站版權所有
經營許可證編號:粵ICP備17046363號-1 
 


收起
展開
鬼佬大哥大