多篇文本分析排序
使用方法與詳細資料介紹「多篇文本分析排序」功能說明
一、目的
多篇文本分析排序的目的有二:
-
-
- 從文本之整體難度著手,對文本難度等級進行分析,同時顯示難度相關語言特徵—文本長度、平均句長、總形符比、詞性譜、詞彙等級、情境主題詞等,以有助於教師或學習者了解或判斷文本難度——也就是「多篇文本等級評估」功能。
- 從文本之局部語言特徵著手,將多篇文本出現的各漢字、詞彙之數量進行統計並加以排序,再標出其在整體多篇文本出現的位置——也就是「多篇文本複現性」功能。
-
上述兩種功能可以從「網站首頁」—「置頂列:多篇文本分析排序」之下拉選單中找到,如下圖所示。
二、具體功能項目
三、多篇文本等級評估之原理——華語文本分級模型
多篇文本等級評估係以台灣TBCL及大陸HSK的能力分級為目標,將訓練應用NLP技術訓練好的華語分級模型對輸入的多篇文本之等級難度進行分析。此一功能係應用NLP技術,擷取詞性譜為主的語言特徵開發的華語文本分級模型 ,該模型經測試,其預測準確度為72-80%之間。以下即為本網站使用之華語文本分級模型之流程:
四、操作方法
(一)本部分之兩個功能皆須以以檔案形式(txt-純文字檔)上傳,最高以十篇為限。
必須注意的是,本系統有防按錯設計,每批文本分析完畢後,必須將瀏覽器按「重新整理」後,才能分析下一批。
(二)操作具體流程
使用者先在「網站首頁」—「置頂列:多篇文本分析排序」之下拉選單中選擇所要使用的功能,在選擇所需功能後,請點選「選擇檔案」,選擇欲分析的一國多個檔案,再按「傳送」即可。由於分析對象為多篇文本,且需應用分級模型,因此耗時較長,時間1至8分鐘不等。下圖即為多篇文本等級評估之檔案選擇畫面:
五、顯示結果說明
(一)多篇文本等級評估結果
本部分將輸出文本等級評估結果,係採初、中、高三階(近於CEFR之A1-A2、B1-B2、C1-C2),其中的低階包括TBCL之1-3+級及HSK的1-3級、中階包括TBCL的4-5級及HSK 4-6級、高階包括TBCL的6-7級及HSK的7-9級,以及六種有利於判斷文本等級的文本細部資訊,以有助於教師或學習者了解或判斷文本難度,其結果如下圖所示:
本功能也同時提供情境詞單,其內容如下圖所示:
由此一詞單可以協助使用者判斷文本的情境主題歸屬。
(二)多篇文本複現性結果
本功能之輸出結果包括:多篇文本出現的各漢字、詞彙之統計數量,以及其數量排序高低,再標出這些漢字、詞彙具體出現在哪些文本,其結果如下圖所示:
本功能多篇文本複現性分析的可能應用場域:
-
- 整體統計教材之知識點,了解教材之整體難度及特徵。
- 「i+1」考量下,從各知識點之分布情形,做為教材調整之依據。
- 建立教材或等級漢字、詞彙詞單,做為能力判斷之重要依據。