Uedu 優學院教師工作坊 · Session 5

學習分析儀表板與教學決策

Learning Analytics & Data-Driven Teaching Decisions

張家凱 (Chia-Kai Chang)
通識教育中心助理教授 · 教育組學實驗室 Educational Omics Lab

2026.05.07（四）12:00–13:00 · 教學發展中心

今日議程

60 分鐘 · Demo + 討論

為什麼看數據

不是評鑑學生
是優化教學設計

Bloom 認知分析

對話被自動分層
看學生想到哪一層

蘇格拉底 / 辯論前後測

觀察知識增益
觀察態度變化

教學決策四情境

從數據到行動
看完之後做什麼

定位開場 ~5 分鐘

Bloom 分析 ~20 分鐘

前後測 ~20 分鐘

決策情境 ~10 分鐘

討論收束 ~5 分鐘

為什麼老師需要看數據？

常見的誤會

「學習分析 = 監看學生」

「數據是用來打分數、抓不認真的人」

「老師沒空也沒能力看儀表板」

Uedu 想做的

數據是用來檢查 「我設計的教學到底有沒有產生我想要的效果」

是給老師用的，不是給校方用來考核老師、也不是給老師用來考核學生

「數據不是用來打分數，是用來打教學的稿。」

從前 4 場走到今天

前面在「做東西」——今天把鏡頭轉過來看「效果」

3/12 + 3/19

建立帳號、設計蘇格拉底對話
→ 學生開始跟 AI 講話

4/16

AI 自動出題、發布 Quiz
→ 學生留下作答資料

4/23

語音、TTS、多語系
→ 學生留下口語互動軌跡

今天 (5/7)：這些痕跡都被結構化記下來了，現在來看怎麼讀。

Educational Omics 框架

Uedu 想要看的「整體學習者」

Educational Omics：整體學習者

Uedu 把學習者拆成多個「組學」維度，每個維度都有對應的資料來源。 今天聚焦在前兩個。

Cognomics 認知歷程
Bloom / 對話分析

Linguomics 語言表達
提問品質、論述深度

Sociomics 社會互動
同儕對話、辯論

Environomics 學習環境
光照、噪音、CO2

Ethicomics 倫理規範
同意書、AI 偏誤檢測

生理／神經組學（PhysioNeuromics）目前不在這場討論範圍內，會在另外的研究場合介紹。

今天聚焦的兩條線

Cognomics（認知層次）

學生的提問與回應屬於 Bloom's Taxonomy 哪一層？
→ Bloom 認知分析儀表板

知識／態度的「位移」

蘇格拉底對話之後，學生有沒有變得不一樣？
→ 蘇格拉底前後測 + 模擬辯論前後測

為什麼是這兩條： Bloom 看「學生在過程中想到哪一層」（事中），前後測看「學生最後到底有沒有改變」（事後）。一個是 process，一個是 outcome。

Bloom 認知分析儀表板

看學生在跟 AI 對話的時候想到哪一層

Bloom's Taxonomy（修訂版）

六個認知層次，由低到高

記憶 Remember 知道事實、辨認名詞、列舉

理解 Understand 解釋意義、舉例、總結

應用 Apply 把學到的概念用在新情境

分析 Analyze 拆解、比較、辨別關係

評鑑 Evaluate 判斷、辯論、批判

創造 Create 產生新想法、整合、設計

一般大學課堂 50-70% 停留在「記憶 + 理解」——Uedu 想看清這個現實，再決定怎麼往上推。

為什麼用 Bloom 看 AI 對話？

傳統評量看不到的東西

考卷測「結果」，看不見學生思考的軌跡。

學生可能背得很熟（記憶層滿分），但問他「這個概念跟另一個概念有什麼關係？」就講不出來（分析層卡住）。

AI 對話留下軌跡

Uedu 對每一輪對話都用 LLM 自動標註 Bloom 層次。

老師不必逐句讀，可以直接看：
▸ 整班的層次分布
▸ 個別學生的層次分布
▸ 學期內層次的變化軌跡

重要前提： Bloom 標註是「輔助觀察工具」，不是評分依據。LLM 也會誤判，請永遠以「整體分布」而非「單次標註」為解讀依據。

Bloom Overview — 班級總覽

雷達圖

六個維度的相對強弱
一眼看出班級「集中在哪幾層」

長條圖

記憶

理解

應用

分析

評鑑

創造

具體百分比與筆數

Bloom 班級分布 — 看誰在哪一層

每位學生的「平均 Bloom 層次」分布

學生	對話筆數	平均層次	主要層次	觀察
學生 A	32	4.2	分析 / 評鑑	已能批判性提問
學生 B	28	3.1	應用	進步空間大
學生 C	14	1.8	記憶	需要提問引導
學生 D	5	2.0	記憶 / 理解	對話量過低

這就是 Session 1 講過的「教師控制台」最強的價值——每個學生不再只是名字，而是有立體輪廓。

Bloom Trajectory — 時序軌跡

學生 A · 一學期內的 Bloom 層次變化

從「記憶層」逐週爬升到「分析／評鑑層」——這是好的 system prompt 在發揮作用。

解讀重點： Trajectory 是 Bloom 儀表板最有說服力的一張圖。
走向向上 = 教學設計有效；水平 = 對話模式重複，需要重設 prompt；向下 = 學生開始把 AI 當搜尋引擎，要介入。

JSON 匯出 — 不是只有看一看

一鍵匯出整班 Bloom 資料

包含每位學生、每週、每個層次的計次與比例。
可直接匯入 Excel、Tableau、Python pandas。

教學實踐研究計畫的證據

可作為「教育部教學實踐研究計畫」、「高教深耕」、TPREE 期末成果報告的客觀數據佐證。

進階： 與 Quiz 數據（4/16）+ 前後測（下一段）三層交叉，就能寫出有「過程證據 + 成效證據 + 學習軌跡」的完整教學成效報告。

蘇格拉底對話 / 模擬辯論前後測

觀察學生在對話前後的真實位移

為什麼要前後測？

前測

對話之前的
知識／態度狀態

對話介入

蘇格拉底對話
或模擬辯論

後測

對話之後的
知識／態度狀態

教育研究黃金標準： Pre-test → Intervention → Post-test 是評估教學效果最被廣泛接受的設計。 Uedu 把這個流程內建進蘇格拉底對話與模擬辯論，老師只要打開開關，每個學生每次對話都會自動跑完整套。

兩種前後測，測不同的東西

面向	蘇格拉底對話前後測	模擬辯論前後測
測量目標	知識理解程度	態度與觀點
題型	單選題（A/B/C/D）	Likert 五點量表（1-5）
有沒有正確答案	有	沒有，看「位移」
核心指標	學習增益（Normalized Gain）	整體 / 維度 shift
維度	單一（答對題數）	三維度：立場 / 信心 / 開放性
適合場景	有明確知識點的議題	有立場、無標準答案的議題

這兩個前後測用同一個學生帳號就會跑兩種測法，老師不需要自己決定要哪個—— 系統根據對話模式（mode_3 / mode_4）自動派發。

蘇格拉底前後測 — AI 自動出題

老師設定主題

標題、引導問題
對話規則

AI 自動出題

根據主題產生
5 題單選題

老師審核

修改、刪除、
手動新增題目

學生作答

對話前 → 對話
→ 對話後

多語系自動翻譯： 系統內建前後測題目的即時翻譯，外籍生會看到雙語顯示（翻譯 + 中文原文）。老師只要顧好中文版，外籍生就能跟上。

學習增益（Normalized Gain）

Hake (1998) Normalized Gain

⟨g⟩ = 後測 − 前測滿分 − 前測

為什麼分母不是「滿分」而是「滿分 − 前測」？
因為前測已經高分的學生「能進步的空間」本來就小，標準化後才能公平比較。

高增益 ≥ 0.7

非常有效

中增益 0.3–0.7

有效

低增益 < 0.3

需要改設計

來源：Hake, R. R. (1998). Interactive-engagement versus traditional methods. American Journal of Physics.

觀察學生的前後測作答

個別學生視角

進到任一學生的對話頁，可看到該次對話的前測題目、學生作答、後測作答、學習增益三欄並陳。

班級彙整視角

透過 Uedu Lab 匯出 socratic_quiz_responses，整班的前後測 score / time_spent 一張表跑出來。

題目層級視角

每題前測正確率、後測正確率、鑑別度。前測都答錯但後測都答對的題目 = 對話介入的「最甜」題目。

老師最常拿來做什麼： 挑出「前測都答錯、後測還是錯」的題目——這代表你的 system prompt 沒有把學生引導到那個知識點。回到 Session 2 重設 prompt，下次再跑一輪前後測，就有閉環。

模擬辯論前後測 — 三維度

立場 Stance

學生對辯題的贊成 / 反對程度。

範例題：「我認為 AI 應該被允許做出醫療決策」

信心 Confidence

學生對自身觀點的確信程度。

範例題：「我有信心為自己的立場提出有力的論據」

開放性 Openness

學生對反方觀點的理解與接納。

範例題：「我能理解持相反立場者的論點」

研究假設： 有效的辯論練習應該能提升學生的信心（更敢表達）和開放性（更能理解對方），而立場的變化反映辯論是否真正改變了學生的觀點。

辯論前後 — 三維度位移

學生 A · 「AI 醫療決策」辯論前後三維度比較

維度	前測平均	後測平均	位移	解讀
立場 Stance	4.2	3.8	↓ -0.4	立場略軟化，反映辯論啟發再思考
信心 Confidence	3.0	4.2	↑ +1.2	論述能力提升，辯論練習有效
開放性 Openness	2.8	4.0	↑ +1.2	更能同理反方，這是核心目標

Likert 沒有「正確答案」： 我們不問「學生是否答對」，而是問「這個學生在這個議題上有沒有真正動過腦」。立場的變化方向不重要，信心 + 開放性是否同時上升，才是辯論教學品質的試金石。

反向題：作答誠實度的內建檢驗

什麼是反向題？

正向題：「我能理解對方的觀點」
反向題：「我無法理解對方的觀點」

計分時：有效分 = 6 − 原始分
學生選 2（不同意），有效分變 4（其實是同意「能理解」）。

為什麼老師要知道？

如果學生對「正向題」和「反向題」答出明顯矛盾的分數，代表他可能沒有認真看題目就亂選。

每次問卷至少 1 題反向題，幫老師過濾掉作答不一致的資料。

老師不用做什麼： AI 出題時會自動安插反向題，計分時自動轉換。老師只要看「整體 mean_score」和「dimension_scores」即可。

從數據到教學決策

看完之後，下一步做什麼？

情境 1：找出該被關注的學生

Bloom 軌跡平直

整學期都停在記憶 / 理解層，沒往上爬。
→ 對話 prompt 沒能挑戰他

前後測無進步

Normalized Gain 接近 0 或負值。
→ 對話沒有真正介入到知識

對話量過低

整學期 5 筆以下對話。
→ 學生根本沒在用 AI 助教

老師可以做的事： 這三個訊號通常不是學生不想學，而是設計沒接住他。主動找學生談、給他不同層次的提問引導、或者就是請他去用一下 AI 助教（很多人沒有用過）。

情境 2：評估你的 System Prompt

問題訊號

▸ 班級 Bloom 分布絕大多數壓在記憶層
▸ Normalized Gain 中位數低於 0.3
▸ 學生對 AI 的提問都很短、很表面

這代表你的 system prompt 把 AI 設定得太「百科全書」——有問必答，沒有反問。

改寫方向

▸ 在 prompt 加：「不直接給答案，先反問三個問題」
▸ 在 prompt 加：「學生講出結論時，要求他舉一個反例」
▸ 蘇格拉底主題加進「引導學生比較兩個案例的異同」

改完之後跑一輪前後測，看 Gain 中位數會不會上升。

真正的閉環： Session 2 學的 prompt 設計不是一次寫完。今天教的儀表板就是用來告訴你「上一版 prompt 哪裡不夠好」——這才是教師工作坊系列的內在連貫。

情境 3：寫教學實踐研究計畫

過程證據

▸ Bloom Trajectory 的學生軌跡圖
▸ 對話次數、每週活躍度
▸ 前後測題目與作答歷程

說明：學生的學習在這學期是怎麼發生的。

成效證據

▸ Normalized Gain 班級分布
▸ 三維度 shift（信心 / 開放性）
▸ Quiz 答題正確率

說明：整體有沒有達到預期目標。

適用計畫： 教育部教學實踐研究計畫、高教深耕、TPREE、各校教發中心成果報告皆適用。 Uedu 有 IRB 通過（NTU-REC 202507EM058），匯出資料的倫理基礎已經建好。

情境 4：期中課程微調

第 4-6 週

看 Bloom 班級分布
大致定錨整班程度

第 8 週

看 Trajectory 是否上升
看前後測 Gain 中位數

第 9 週

調整 system prompt
調整辯論主題難度

第 12 週

再看一次 Trajectory
確認改變有效

不要等到期末： 傳統教學的 feedback loop 是「學生考期末考 → 老師發現問題 → 但學期已經結束了」。 Uedu 的儀表板讓老師每兩週就能拿到一次回饋，課程設計可以動態調整。

收束與下次預告

帶到 5/21 的討論題

「你最想用這些數據，回答你課堂裡的哪一個問題？」

範例：
▸ 我想知道「我那班 90 人的通識課，有沒有真的有人在思考？」
▸ 我想知道「期中改了 prompt 之後，學生有沒有變得不一樣？」
▸ 我想知道「我這學期適不適合送教學實踐研究計畫？」

Session 6 · 5/21（四）12:00–13:00

教學案例分享與數據驅動反思

把今天的觀察，變成你下學期的課程設計。

謝謝大家！

uedu.tw
[email protected]

完整方法論文件：
uedu.tw/doc/socratic-quiz · uedu.tw/doc/debate-survey