多篇文本分析排序

使用方法與詳細資料介紹

「多篇文本分析排序」功能說明

一、目的

多篇文本分析排序的目的有二:

      1. 文本之整體難度著手,對文本難度等級進行分析,同時顯示難度相關語言特徵—文本長度、平均句長、總形符比、詞性譜、詞彙等級、情境主題詞等,以有助於教師或學習者了解或判斷文本難度——也就是「多篇文本等級評估」功能。
      2. 文本之局部語言特徵著手,將多篇文本出現的各漢字、詞彙數量進行統計並加以排序,再標出其在整體多篇文本出現的位置——也就是「多篇文本複現性」功能。

上述兩種功能可以從「網站首頁」—「置頂列:多篇文本分析排序」下拉選單中找到,如下圖所示。

二、具體功能項目

三、多篇文本等級評估之原理——華語文本分級模型

  多篇文本等級評估係以台灣TBCL及大陸HSK的能力分級為目標,將訓練應用NLP技術訓練好的華語分級模型對輸入的多篇文本之等級難度進行分析。此一功能係應用NLP技術,擷取詞性譜為主的語言特徵開發的華語文本分級模型 ,該模型經測試,預測準確度為72-80%之間。以下即為本網站使用之華語文本分級模型之流程:

四、操作方法

(一)本部分之兩個功能皆須以以檔案形式(txt-純文字檔)上傳,最高以十篇為限。

  必須注意的是,本系統有防按錯設計,每批文本分析完畢後,必須將瀏覽器按「重新整理」後,才能分析下一批

(二)操作具體流程

  使用者先在「網站首頁」—「置頂列:多篇文本分析排序」下拉選單中選擇所要使用的功能,在選擇所需功能後,請點選「選擇檔案」,選擇欲分析的一國多個檔案,再按「傳送」即可。由於分析對象為多篇文本,且需應用分級模型,因此耗時較長,時間1至8分鐘不等。下圖即為多篇文本等級評估之檔案選擇畫面:

五、顯示結果說明

(一)多篇文本等級評估結果

  本部分將輸出文本等級評估結果,係採初、中、高三階(近於CEFRA1-A2B1-B2C1-C2,其中的低階包括TBCL1-3+級及HSK1-3、中階包括TBCL4-5級及HSK 4-6、高階包括TBCL6-7級及HSK7-9,以及六種有利於判斷文本等級的文本細部資訊,以有助於教師或學習者了解或判斷文本難度,其結果如下圖所示:

本功能也同時提供情境詞單,其內容如下圖所示:

由此一詞單可以協助使用者判斷文本的情境主題歸屬。

(二)多篇文本複現性結果

  本功能之輸出結果包括:多篇文本出現的各漢字、詞彙統計數量,以及其數量排序高低,再標出這些漢字、詞彙具體出現在哪些文本,其結果如下圖所示:

本功能多篇文本複現性分析的可能應用場域:

    1. 整體統計教材之知識點,了解教材之整體難度及特徵。
    2. i+1」考量下,從各知識點之分布情形,做為教材調整之依據。
    3. 建立教材或等級漢字、詞彙詞單,做為能力判斷之重要依據。