Uedu 優學院教師工作坊 · Session 5

學習分析儀表板與教學決策

Learning Analytics & Data-Driven Teaching Decisions

張家凱 (Chia-Kai Chang)
通識教育中心 助理教授 · 教育組學實驗室 Educational Omics Lab

2026.05.07(四)12:00–13:00 · 教學發展中心

今日議程

60 分鐘 · Demo + 討論

為什麼看數據

不是評鑑學生
是優化教學設計

Bloom 認知分析

對話被自動分層
看學生想到哪一層

蘇格拉底 / 辯論前後測

觀察知識增益
觀察態度變化

教學決策四情境

從數據到行動
看完之後做什麼

定位開場 ~5 分鐘
Bloom 分析 ~20 分鐘
前後測 ~20 分鐘
決策情境 ~10 分鐘
討論收束 ~5 分鐘

為什麼老師需要看數據?

常見的誤會

「學習分析 = 監看學生」

「數據是用來打分數、抓不認真的人」

「老師沒空也沒能力看儀表板」

Uedu 想做的

數據是用來檢查 「我設計的教學到底有沒有產生我想要的效果」

是給老師用的,不是給校方用來考核老師、也不是給老師用來考核學生

「數據不是用來打分數,是用來打教學的稿。」

從前 4 場走到今天

前面在「做東西」——今天把鏡頭轉過來看「效果」

3/12 + 3/19

建立帳號、設計蘇格拉底對話
→ 學生開始跟 AI 講話

4/16

AI 自動出題、發布 Quiz
→ 學生留下作答資料

4/23

語音、TTS、多語系
→ 學生留下口語互動軌跡

今天 (5/7):這些痕跡都被結構化記下來了,現在來看怎麼讀。

1

Educational Omics 框架

Uedu 想要看的「整體學習者」

Educational Omics:整體學習者

Uedu 把學習者拆成多個「組學」維度,每個維度都有對應的資料來源。 今天聚焦在前兩個

Cognomics 認知歷程
Bloom / 對話分析
Linguomics 語言表達
提問品質、論述深度
Sociomics 社會互動
同儕對話、辯論
Environomics 學習環境
光照、噪音、CO2
Ethicomics 倫理規範
同意書、AI 偏誤檢測

生理/神經組學(PhysioNeuromics)目前不在這場討論範圍內,會在另外的研究場合介紹。

今天聚焦的兩條線

Cognomics(認知層次)

學生的提問與回應屬於 Bloom's Taxonomy 哪一層?
→ Bloom 認知分析儀表板

知識/態度的「位移」

蘇格拉底對話之後,學生有沒有變得不一樣?
→ 蘇格拉底前後測 + 模擬辯論前後測

為什麼是這兩條: Bloom 看「學生在過程中想到哪一層」(事中),前後測看「學生最後到底有沒有改變」(事後)。 一個是 process,一個是 outcome。
2

Bloom 認知分析儀表板

看學生在跟 AI 對話的時候想到哪一層

Bloom's Taxonomy(修訂版)

六個認知層次,由低到高

記憶 Remember 知道事實、辨認名詞、列舉
理解 Understand 解釋意義、舉例、總結
應用 Apply 把學到的概念用在新情境
分析 Analyze 拆解、比較、辨別關係
評鑑 Evaluate 判斷、辯論、批判
創造 Create 產生新想法、整合、設計

一般大學課堂 50-70% 停留在「記憶 + 理解」——Uedu 想看清這個現實,再決定怎麼往上推。

為什麼用 Bloom 看 AI 對話?

傳統評量看不到的東西

考卷測「結果」,看不見學生思考的軌跡

學生可能背得很熟(記憶層滿分),但問他「這個概念跟另一個概念有什麼關係?」就講不出來(分析層卡住)。

AI 對話留下軌跡

Uedu 對每一輪對話都用 LLM 自動標註 Bloom 層次。

老師不必逐句讀,可以直接看:
▸ 整班的層次分布
▸ 個別學生的層次分布
▸ 學期內層次的變化軌跡

重要前提: Bloom 標註是「輔助觀察工具」,不是評分依據。LLM 也會誤判,請永遠以「整體分布」而非「單次標註」為解讀依據。

Bloom Overview — 班級總覽

現場示範 · 教師控制台 → 數據分析 → Bloom's 認知分析

雷達圖

六個維度的相對強弱
一眼看出班級「集中在哪幾層」

長條圖

記憶
理解
應用
分析
評鑑
創造

具體百分比與筆數

Bloom 班級分布 — 看誰在哪一層

每位學生的「平均 Bloom 層次」分布

學生 對話筆數 平均層次 主要層次 觀察
學生 A 32 4.2 分析 / 評鑑 已能批判性提問
學生 B 28 3.1 應用 進步空間大
學生 C 14 1.8 記憶 需要提問引導
學生 D 5 2.0 記憶 / 理解 對話量過低

這就是 Session 1 講過的「教師控制台」最強的價值——每個學生不再只是名字,而是有立體輪廓。

Bloom Trajectory — 時序軌跡

學生 A · 一學期內的 Bloom 層次變化

L1 L3 L5 L6 第 1 週 第 8 週 第 16 週

從「記憶層」逐週爬升到「分析/評鑑層」——這是好的 system prompt 在發揮作用。

解讀重點: Trajectory 是 Bloom 儀表板最有說服力的一張圖。
走向向上 = 教學設計有效;水平 = 對話模式重複,需要重設 prompt;向下 = 學生開始把 AI 當搜尋引擎,要介入。

JSON 匯出 — 不是只有看一看

一鍵匯出整班 Bloom 資料

包含每位學生、每週、每個層次的計次與比例。
可直接匯入 Excel、Tableau、Python pandas。

教學實踐研究計畫的證據

可作為「教育部教學實踐研究計畫」、「高教深耕」、TPREE 期末成果報告的客觀數據佐證

進階: 與 Quiz 數據(4/16)+ 前後測(下一段)三層交叉,就能寫出有「過程證據 + 成效證據 + 學習軌跡」的完整教學成效報告。
3

蘇格拉底對話 / 模擬辯論前後測

觀察學生在對話前後的真實位移

為什麼要前後測?

前測
對話之前
知識/態度狀態
對話介入
蘇格拉底對話
或模擬辯論
後測
對話之後
知識/態度狀態
教育研究黃金標準: Pre-test → Intervention → Post-test 是評估教學效果最被廣泛接受的設計。 Uedu 把這個流程內建進蘇格拉底對話與模擬辯論,老師只要打開開關,每個學生每次對話都會自動跑完整套。

兩種前後測,測不同的東西

面向 蘇格拉底對話前後測 模擬辯論前後測
測量目標知識理解程度態度與觀點
題型單選題(A/B/C/D)Likert 五點量表(1-5)
有沒有正確答案沒有,看「位移」
核心指標學習增益(Normalized Gain)整體 / 維度 shift
維度單一(答對題數)三維度:立場 / 信心 / 開放性
適合場景有明確知識點的議題有立場、無標準答案的議題

這兩個前後測用同一個學生帳號就會跑兩種測法,老師不需要自己決定要哪個—— 系統根據對話模式(mode_3 / mode_4)自動派發。

蘇格拉底前後測 — AI 自動出題

1

老師設定主題

標題、引導問題
對話規則

2

AI 自動出題

根據主題產生
5 題單選題

3

老師審核

修改、刪除、
手動新增題目

4

學生作答

對話前 → 對話
→ 對話後

多語系自動翻譯: 系統內建前後測題目的即時翻譯,外籍生會看到雙語顯示(翻譯 + 中文原文)。老師只要顧好中文版,外籍生就能跟上。

學習增益(Normalized Gain)

Hake (1998) Normalized Gain

g⟩ = 後測 − 前測 滿分 − 前測

為什麼分母不是「滿分」而是「滿分 − 前測」?
因為前測已經高分的學生「能進步的空間」本來就小,標準化後才能公平比較。

高增益 ≥ 0.7
非常有效
中增益 0.3–0.7
有效
低增益 < 0.3
需要改設計

來源:Hake, R. R. (1998). Interactive-engagement versus traditional methods. American Journal of Physics.

觀察學生的前後測作答

現場示範 · 教師控制台 → 學生對話瀏覽器

個別學生視角

進到任一學生的對話頁,可看到該次對話的前測題目、學生作答、後測作答、學習增益三欄並陳。

班級彙整視角

透過 Uedu Lab 匯出 socratic_quiz_responses,整班的前後測 score / time_spent 一張表跑出來。

題目層級視角

每題前測正確率、後測正確率、鑑別度。前測都答錯但後測都答對的題目 = 對話介入的「最甜」題目。

老師最常拿來做什麼: 挑出「前測都答錯、後測還是錯」的題目——這代表你的 system prompt 沒有把學生引導到那個知識點。 回到 Session 2 重設 prompt,下次再跑一輪前後測,就有閉環。

模擬辯論前後測 — 三維度

立場 Stance

學生對辯題的贊成 / 反對程度。

範例題:「我認為 AI 應該被允許做出醫療決策」

信心 Confidence

學生對自身觀點的確信程度。

範例題:「我有信心為自己的立場提出有力的論據」

開放性 Openness

學生對反方觀點的理解與接納。

範例題:「我能理解持相反立場者的論點」

研究假設: 有效的辯論練習應該能提升學生的信心(更敢表達)和開放性(更能理解對方), 而立場的變化反映辯論是否真正改變了學生的觀點。

辯論前後 — 三維度位移

學生 A · 「AI 醫療決策」辯論前後三維度比較

維度前測平均後測平均位移解讀
立場 Stance 4.23.8 ↓ -0.4 立場略軟化,反映辯論啟發再思考
信心 Confidence 3.04.2 ↑ +1.2 論述能力提升,辯論練習有效
開放性 Openness 2.84.0 ↑ +1.2 更能同理反方,這是核心目標
Likert 沒有「正確答案」: 我們不問「學生是否答對」,而是問「這個學生在這個議題上有沒有真正動過腦」。 立場的變化方向不重要,信心 + 開放性是否同時上升,才是辯論教學品質的試金石。

反向題:作答誠實度的內建檢驗

什麼是反向題?

正向題:「我能理解對方的觀點」
反向題:「我無法理解對方的觀點」

計分時:有效分 = 6 − 原始分
學生選 2(不同意),有效分變 4(其實是同意「能理解」)。

為什麼老師要知道?

如果學生對「正向題」和「反向題」答出明顯矛盾的分數, 代表他可能沒有認真看題目就亂選。

每次問卷至少 1 題反向題,幫老師過濾掉作答不一致的資料。

老師不用做什麼: AI 出題時會自動安插反向題,計分時自動轉換。老師只要看「整體 mean_score」和「dimension_scores」即可。
4

從數據到教學決策

看完之後,下一步做什麼?

情境 1:找出該被關注的學生

Bloom 軌跡平直

整學期都停在記憶 / 理解層,沒往上爬。
→ 對話 prompt 沒能挑戰他

前後測無進步

Normalized Gain 接近 0 或負值。
→ 對話沒有真正介入到知識

對話量過低

整學期 5 筆以下對話。
→ 學生根本沒在用 AI 助教

老師可以做的事: 這三個訊號通常不是學生不想學,而是設計沒接住他。 主動找學生談、給他不同層次的提問引導、或者就是請他去用一下 AI 助教(很多人沒有用過)。

情境 2:評估你的 System Prompt

問題訊號

▸ 班級 Bloom 分布絕大多數壓在記憶層
▸ Normalized Gain 中位數低於 0.3
▸ 學生對 AI 的提問都很短、很表面

這代表你的 system prompt 把 AI 設定得太「百科全書」——有問必答,沒有反問。

改寫方向

▸ 在 prompt 加:「不直接給答案,先反問三個問題
▸ 在 prompt 加:「學生講出結論時,要求他舉一個反例
▸ 蘇格拉底主題加進「引導學生比較兩個案例的異同

改完之後跑一輪前後測,看 Gain 中位數會不會上升。

真正的閉環: Session 2 學的 prompt 設計不是一次寫完。 今天教的儀表板就是用來告訴你「上一版 prompt 哪裡不夠好」——這才是教師工作坊系列的內在連貫。

情境 3:寫教學實踐研究計畫

過程證據

▸ Bloom Trajectory 的學生軌跡圖
▸ 對話次數、每週活躍度
▸ 前後測題目與作答歷程

說明:學生的學習在這學期是怎麼發生的。

成效證據

▸ Normalized Gain 班級分布
▸ 三維度 shift(信心 / 開放性)
▸ Quiz 答題正確率

說明:整體有沒有達到預期目標。

適用計畫: 教育部教學實踐研究計畫、高教深耕、TPREE、各校教發中心成果報告皆適用。 Uedu 有 IRB 通過(NTU-REC 202507EM058),匯出資料的倫理基礎已經建好。

情境 4:期中課程微調

1

第 4-6 週

看 Bloom 班級分布
大致定錨整班程度

2

第 8 週

看 Trajectory 是否上升
看前後測 Gain 中位數

3

第 9 週

調整 system prompt
調整辯論主題難度

4

第 12 週

再看一次 Trajectory
確認改變有效

不要等到期末: 傳統教學的 feedback loop 是「學生考期末考 → 老師發現問題 → 但學期已經結束了」。 Uedu 的儀表板讓老師每兩週就能拿到一次回饋,課程設計可以動態調整。

收束與下次預告

帶到 5/21 的討論題

「你最想用這些數據,回答你課堂裡的哪一個問題?」

範例:
▸ 我想知道「我那班 90 人的通識課,有沒有真的有人在思考?」
▸ 我想知道「期中改了 prompt 之後,學生有沒有變得不一樣?」
▸ 我想知道「我這學期適不適合送教學實踐研究計畫?」

Session 6 · 5/21(四)12:00–13:00

教學案例分享與數據驅動反思

把今天的觀察,變成你下學期的課程設計。

謝謝大家!

uedu.tw
[email protected]

完整方法論文件:
uedu.tw/doc/socratic-quiz · uedu.tw/doc/debate-survey