Uedu 優學院教師工作坊 · Session 5
張家凱 (Chia-Kai Chang)
通識教育中心 助理教授 · 教育組學實驗室 Educational Omics Lab
2026.05.07(四)12:00–13:00 · 教學發展中心
60 分鐘 · Demo + 討論
不是評鑑學生
是優化教學設計
對話被自動分層
看學生想到哪一層
觀察知識增益
觀察態度變化
從數據到行動
看完之後做什麼
「學習分析 = 監看學生」
「數據是用來打分數、抓不認真的人」
「老師沒空也沒能力看儀表板」
數據是用來檢查 「我設計的教學到底有沒有產生我想要的效果」
是給老師用的,不是給校方用來考核老師、也不是給老師用來考核學生
「數據不是用來打分數,是用來打教學的稿。」
前面在「做東西」——今天把鏡頭轉過來看「效果」
建立帳號、設計蘇格拉底對話
→ 學生開始跟 AI 講話
AI 自動出題、發布 Quiz
→ 學生留下作答資料
語音、TTS、多語系
→ 學生留下口語互動軌跡
今天 (5/7):這些痕跡都被結構化記下來了,現在來看怎麼讀。
Uedu 想要看的「整體學習者」
Uedu 把學習者拆成多個「組學」維度,每個維度都有對應的資料來源。 今天聚焦在前兩個。
生理/神經組學(PhysioNeuromics)目前不在這場討論範圍內,會在另外的研究場合介紹。
學生的提問與回應屬於 Bloom's Taxonomy 哪一層?
→ Bloom 認知分析儀表板
蘇格拉底對話之後,學生有沒有變得不一樣?
→ 蘇格拉底前後測 + 模擬辯論前後測
看學生在跟 AI 對話的時候想到哪一層
六個認知層次,由低到高
一般大學課堂 50-70% 停留在「記憶 + 理解」——Uedu 想看清這個現實,再決定怎麼往上推。
考卷測「結果」,看不見學生思考的軌跡。
學生可能背得很熟(記憶層滿分),但問他「這個概念跟另一個概念有什麼關係?」就講不出來(分析層卡住)。
Uedu 對每一輪對話都用 LLM 自動標註 Bloom 層次。
老師不必逐句讀,可以直接看:
▸ 整班的層次分布
▸ 個別學生的層次分布
▸ 學期內層次的變化軌跡
六個維度的相對強弱
一眼看出班級「集中在哪幾層」
具體百分比與筆數
| 學生 | 對話筆數 | 平均層次 | 主要層次 | 觀察 |
|---|---|---|---|---|
| 學生 A | 32 | 4.2 | 分析 / 評鑑 | 已能批判性提問 |
| 學生 B | 28 | 3.1 | 應用 | 進步空間大 |
| 學生 C | 14 | 1.8 | 記憶 | 需要提問引導 |
| 學生 D | 5 | 2.0 | 記憶 / 理解 | 對話量過低 |
這就是 Session 1 講過的「教師控制台」最強的價值——每個學生不再只是名字,而是有立體輪廓。
從「記憶層」逐週爬升到「分析/評鑑層」——這是好的 system prompt 在發揮作用。
包含每位學生、每週、每個層次的計次與比例。
可直接匯入 Excel、Tableau、Python pandas。
可作為「教育部教學實踐研究計畫」、「高教深耕」、TPREE 期末成果報告的客觀數據佐證。
觀察學生在對話前後的真實位移
| 面向 | 蘇格拉底對話前後測 | 模擬辯論前後測 |
|---|---|---|
| 測量目標 | 知識理解程度 | 態度與觀點 |
| 題型 | 單選題(A/B/C/D) | Likert 五點量表(1-5) |
| 有沒有正確答案 | 有 | 沒有,看「位移」 |
| 核心指標 | 學習增益(Normalized Gain) | 整體 / 維度 shift |
| 維度 | 單一(答對題數) | 三維度:立場 / 信心 / 開放性 |
| 適合場景 | 有明確知識點的議題 | 有立場、無標準答案的議題 |
這兩個前後測用同一個學生帳號就會跑兩種測法,老師不需要自己決定要哪個—— 系統根據對話模式(mode_3 / mode_4)自動派發。
標題、引導問題
對話規則
根據主題產生
5 題單選題
修改、刪除、
手動新增題目
對話前 → 對話
→ 對話後
⟨g⟩ = 後測 − 前測 滿分 − 前測
為什麼分母不是「滿分」而是「滿分 − 前測」?
因為前測已經高分的學生「能進步的空間」本來就小,標準化後才能公平比較。
來源:Hake, R. R. (1998). Interactive-engagement versus traditional methods. American Journal of Physics.
進到任一學生的對話頁,可看到該次對話的前測題目、學生作答、後測作答、學習增益三欄並陳。
透過 Uedu Lab 匯出 socratic_quiz_responses,整班的前後測 score / time_spent 一張表跑出來。
每題前測正確率、後測正確率、鑑別度。前測都答錯但後測都答對的題目 = 對話介入的「最甜」題目。
學生對辯題的贊成 / 反對程度。
範例題:「我認為 AI 應該被允許做出醫療決策」
學生對自身觀點的確信程度。
範例題:「我有信心為自己的立場提出有力的論據」
學生對反方觀點的理解與接納。
範例題:「我能理解持相反立場者的論點」
| 維度 | 前測平均 | 後測平均 | 位移 | 解讀 |
|---|---|---|---|---|
| 立場 Stance | 4.2 | 3.8 | ↓ -0.4 | 立場略軟化,反映辯論啟發再思考 |
| 信心 Confidence | 3.0 | 4.2 | ↑ +1.2 | 論述能力提升,辯論練習有效 |
| 開放性 Openness | 2.8 | 4.0 | ↑ +1.2 | 更能同理反方,這是核心目標 |
正向題:「我能理解對方的觀點」
反向題:「我無法理解對方的觀點」
計分時:有效分 = 6 − 原始分
學生選 2(不同意),有效分變 4(其實是同意「能理解」)。
如果學生對「正向題」和「反向題」答出明顯矛盾的分數,
代表他可能沒有認真看題目就亂選。
每次問卷至少 1 題反向題,幫老師過濾掉作答不一致的資料。
看完之後,下一步做什麼?
整學期都停在記憶 / 理解層,沒往上爬。
→ 對話 prompt 沒能挑戰他
Normalized Gain 接近 0 或負值。
→ 對話沒有真正介入到知識
整學期 5 筆以下對話。
→ 學生根本沒在用 AI 助教
▸ 班級 Bloom 分布絕大多數壓在記憶層
▸ Normalized Gain 中位數低於 0.3
▸ 學生對 AI 的提問都很短、很表面
這代表你的 system prompt 把 AI 設定得太「百科全書」——有問必答,沒有反問。
▸ 在 prompt 加:「不直接給答案,先反問三個問題」
▸ 在 prompt 加:「學生講出結論時,要求他舉一個反例」
▸ 蘇格拉底主題加進「引導學生比較兩個案例的異同」
改完之後跑一輪前後測,看 Gain 中位數會不會上升。
▸ Bloom Trajectory 的學生軌跡圖
▸ 對話次數、每週活躍度
▸ 前後測題目與作答歷程
說明:學生的學習在這學期是怎麼發生的。
▸ Normalized Gain 班級分布
▸ 三維度 shift(信心 / 開放性)
▸ Quiz 答題正確率
說明:整體有沒有達到預期目標。
看 Bloom 班級分布
大致定錨整班程度
看 Trajectory 是否上升
看前後測 Gain 中位數
調整 system prompt
調整辯論主題難度
再看一次 Trajectory
確認改變有效
「你最想用這些數據,回答你課堂裡的哪一個問題?」
範例:
▸ 我想知道「我那班 90 人的通識課,有沒有真的有人在思考?」
▸ 我想知道「期中改了 prompt 之後,學生有沒有變得不一樣?」
▸ 我想知道「我這學期適不適合送教學實踐研究計畫?」
Session 6 · 5/21(四)12:00–13:00
把今天的觀察,變成你下學期的課程設計。