「多篇文本分析排序」功能說明

一、目的

多篇文本分析排序的目的有二：

1. 1. 從文本之整體難度著手，對文本難度等級進行分析，同時顯示難度相關語言特徵—文本長度、平均句長、總形符比、詞性譜、詞彙等級、情境主題詞等，以有助於教師或學習者了解或判斷文本難度——也就是「多篇文本等級評估」功能。
  2. 從文本之局部語言特徵著手，將多篇文本出現的各漢字、詞彙之數量進行統計並加以排序，再標出其在整體多篇文本出現的位置——也就是「多篇文本複現性」功能。

上述兩種功能可以從「網站首頁」—「置頂列：多篇文本分析排序」之下拉選單中找到，如下圖所示。

二、具體功能項目

三、多篇文本等級評估之原理——華語文本分級模型

　　多篇文本等級評估係以台灣TBCL及大陸HSK的能力分級為目標，將訓練應用NLP技術訓練好的華語分級模型對輸入的多篇文本之等級難度進行分析。此一功能係應用NLP技術，擷取詞性譜為主的語言特徵開發的華語文本分級模型，該模型經測試，其預測準確度為72-80%之間。以下即為本網站使用之華語文本分級模型之流程：

四、操作方法

（一）本部分之兩個功能皆須以以檔案形式（txt-純文字檔）上傳，最高以十篇為限。

　　必須注意的是，本系統有防按錯設計，每批文本分析完畢後，必須將瀏覽器按「重新整理」後，才能分析下一批。

（二）操作具體流程

　　使用者先在「網站首頁」—「置頂列：多篇文本分析排序」之下拉選單中選擇所要使用的功能，在選擇所需功能後，請點選「選擇檔案」，選擇欲分析的一國多個檔案，再按「傳送」即可。由於分析對象為多篇文本，且需應用分級模型，因此耗時較長，時間1至８分鐘不等。下圖即為多篇文本等級評估之檔案選擇畫面：

五、顯示結果說明

（一）多篇文本等級評估結果

　　本部分將輸出文本等級評估結果，係採初、中、高三階（近於CEFR之A1-A2、B1-B2、C1-C2），其中的低階包括TBCL之1-3+級及HSK的1-3級、中階包括TBCL的4-5級及HSK 4-6級、高階包括TBCL的6-7級及HSK的7-9級，以及六種有利於判斷文本等級的文本細部資訊，以有助於教師或學習者了解或判斷文本難度，其結果如下圖所示：

本功能也同時提供情境詞單，其內容如下圖所示：

由此一詞單可以協助使用者判斷文本的情境主題歸屬。

（二）多篇文本複現性結果

　　本功能之輸出結果包括：多篇文本出現的各漢字、詞彙之統計數量，以及其數量排序高低，再標出這些漢字、詞彙具體出現在哪些文本，其結果如下圖所示：

本功能多篇文本複現性分析的可能應用場域：

1. 整體統計教材之知識點，了解教材之整體難度及特徵。
2. 「i+1」考量下，從各知識點之分布情形，做為教材調整之依據。
3. 建立教材或等級漢字、詞彙詞單，做為能力判斷之重要依據。