学習者の学習支援を自動化する場合,学習者個別の学習状況を自動的に定量化する手法が課題となる.学習者の主体的な学習には,学習者が自身の学習状況を把握するメタ認知が重要である[1].そこで,学習者に振り返りと計画を促す足場かけ,足場はずしなどの学習支援が行われる[2].足場かけ,足場はずしの設定やアドバイスの選択を自動化をする場合,学習者の振り返りと計画の記述内容を自動的に評価して定量化する必要がある.
そこで,本研究は以下の2つを目的とする.
以下に,前提となる学習支援における評価と足場かけ,足場はずしの関係と必要性を説明する.そして,自動評価を実装する開発中の学習支援システムと,本研究の目的である自動評価の必要性について説明を行う.
振り返りと計画の具体性,および,躓き度の評価をしなければならない理由は,学生の主体的な学習のために,どの程度の支援が必要なのかを判断するためである.
オンライン教育では,学習者が自宅などから参加して学習活動を行うほかに,参加しない時間における主体的な学習活動も重要となる.主体的な学習者は,自身の学習状況を常に把握して,自身の学習方略を自己調整しているとされる[3], [4].つまり,オンライン教育などある程度主体的な学習が求められる学習活動では,学習者が自身の学習状況を把握して計画的に見通しを立て,学習活動を調整していくことが重要である[5].
振り返りと計画が具体的に記述できていない学習者は,自身の学習状況の把握や学習の見通しがうまくできていない.さらには自身の躓きにも気が付いていないことがある.したがって,振り返りと計画が具体的に記述できるよう支援を行う必要がある[6], [7].
振り返りや計画の記述は,学習者が自身の状況を吟味を促し,学習の工夫を促す[5].足場はずしは,主体的な吟味や工夫を修得する機会として必要である.しかし,うまく記述ができない学習者には,足場かけによる記述支援が必要である.さらに,教員による手動評価や機械学習による自動評価のためには,できる限り学習状況が記述された文章であることが望ましい.そのために,足場かけ,足場はずしを行う必要がある.
足場かけ 足場かけは,一定の学習状況を得るための記述支援措置とした.そのために,振り返りや計画について,ヒントや選択肢,定型文を用いて,ある程度の型にあてはめた記述をさせる.つまり,何をどのように記述すべきか分からない学習者からも学習状況を読み取りやすいテキストデータが得られる.しかし,型に当てはめようとするため学習者個別の状況に応じた主体的な工夫を阻害する恐れもある.そのために記述内容の状況に応じた足場はずしを必要とする.
足場はずし 足場はずしは,学習者個別の吟味と工夫を含んだ学習状況を得るための措置とした.そのために,自由記述欄を用いることで,学習者が自身の状況を吟味した記述させる.つまり,学習者個別の学習状況に応じて吟味と工夫を含んだテキストデータが得られる.しかし,型にあてはまらないテキストデータのため学習状況を読み取ることが比較的難しい.また,何をどのように記述すべきか分からない学習者については,教員が意図しないデータを含む可能性が高まる.そのために,記述内容の状況に応じた足場かけを必要とする.
なお,本研究では,足場かけ,足場はずしの妥当性や,主体的な記述ができるようになったかどうかの評価についてはできていない.今後の研究課題である.
これらの足場かけ,足場はずしは学習者個別の学習状況に応じて判断することが重要となる.
図1は,筆者らが開発している学習支援である.図1の上部が提案手法実装前,下部が実装後を示す.筆者らは,以前開発した学習支援[7]を改善するため,学習者の振り返りと計画の記述の具体化,および記述に伴う学習状況把握から自己調整を支援するシステムを開発している.
具体的には,学習者の振り返りと計画の支援として,3つの足場はずしレベル(Lv.1–3)を設定した.
図2は,図1に示した専用アプリの画面である.図2の専用アプリは提案手法の実装前後で共通であり,本研究の実験に使用された.図2の「TASK」が学習支援の実装部分である.専用アプリは,授業課題の制作環境と学習支援環境を統合したWebアプリである.「TASK」以外の「IMAGE」「CASE」「TEST」は,授業課題であるデジタルサイネージを制作するための機能やツールを備える.「TASK」には,学習支援として,振り返りや計画の記入,記入有無の表示,記述内容の再表示,アンケート回答,課題タスクを管理する機能を備える.
学習者は,振り返りや計画の記述を図2に示した「TASK」内の赤枠点線内に提示される入力フォームに行う.入力フォームは3種類あり,授業回ごとに学習者個別に設定された足場はずしレベル(Lv.1–3)に応じて選択され提示される.足場はずしレベルごとに提示される入力フォーム(1–3)の例は4章実験方法で示す.
振り返りや計画にされた記述内容は専用アプリ内に保存される.教員は,次の授業回の足場はずしレベルを設定するため専用アプリ内に保存された記述内容について目視と手作業で具体性の評価を行う.そして,教員は必要に応じて学習者にアドバイスを行う.
図1の上部に示す手動評価による学習支援の運用について,大学などの毎週実施される授業では,学習者が多く,さらに複数の授業を担当する教員にとって多大な負担となった.そのために,学習支援のためのアドバイスについても緊急性が高い場合など最小限となり,提示するタイミングが遅れるなどの問題が生じた.そこで,学生個別の学習支援を充実しつつ教員の負担を増やさないために,足場はずしレベルの自動設定や提示するアドバイスの選択を自動化する方法が必要となった.
図1の下部は,自動化したときの学習支援を示す.学習者の振り返りと計画の記述内容から具体性と躓き度を自動評価する.自動評価によって以下2つの自動化を実現する.
以上2つの自動化を実現することで,さらに入力フォームの提示と同時に学習者個別にアドバイスを自動提示することも実現できる.
図3は,図1の下部に示した自動評価の詳細を示す.学習者が記述する振り返りと計画の記述内容は,振り返り4項目,計画4項目の計8項目で構成される.図3点線部に示した項目の自動評価を実現するため,学習の振り返りと計画の8項目の記述内容から具体性と躓き度を自動的に評価する手法が課題となる.
そこで,本研究では,OpenAIの大規模言語モデルGPT-3 [8]の再学習を行うことで自動的な評価を実現する.自動的な評価を実現するための自動評価用モデルは,GPT-3の事前学習モデルcurieをトレーニングデータで再学習する.再学習した自動評価用モデルを用いることで,学習者の振り返りと計画の記述内容から具体性と躓き度を自動評価する手法を提案する.
本研究は,自動評価用モデルによる自動評価の有効性について,自動評価用モデルによる自動評価と教員による手動評価を比較した検証を行う.
先行研究では,先行研究における限界を示し,教員の評価を模倣した自動評価手法にGPT-3を用いる新規性を示す.提案手法では,自動評価モデルを得るためのGPT-3の再学習と,トレーニングデータの作成方法を示す.実験方法では,実際の授業からトレーニングデータ,および,テストデータを得た方法を示す.評価方法では,交差検証法を用いて自動評価した実験データを検証する方法を示す.実験結果では,具体性の自動評価に順位相関係数+0.815,躓き度の自動評価に順位相関係数+0.876,足場はずしレベルの自動設定に順位相関係数+0.804が得られたため,それらの詳細と,評価が一致した事例と誤差が生じた事例を示す.考察では,実験結果から本研究の本研究の目的1と2をある程度達成できており,実用に耐える性能と結論した考察と,考察から得られた今後の課題を示す.まとめでは,考察結果を総括し,結論と今後の課題を示す.
学習の振り返りの記述内容を評価して定量化する手法として,ファイルサイズに着目した事例がある[9].ファイルサイズが定量化の指標となりうる可能性について,学習者が手書した振り返りの記述内容を機械的に読み取ったときのファイルサイズと学習成果評価との関係と傾向から明らかにしている.しかし,文字数やファイルサイズなどの指標を用いる従来手法は,事例の中でも説明されているように,学習成果との関係性が示されたのみで因果関係が明らかでなく,おそらくは本研究が必要とする記述内容の具体性や躓きを評価するのに適した手法ではない.
学習者のノート記録内の単語数と教員が提示した単語や単語数との比較結果を特徴量として,教員によるノート評定との関係からテストの得点を予測する可能性を示した事例がある[10].本研究が焦点をあてる記述内容の具体性や躓き度を評価するものではないものの,学習者のノート記録に出現する単語や単語数に着目し,教員の付けたノート評定の関係から推定したテストの得点として定量化されている.具体性の躓き度の評価にも応用できる可能性があり事例として参考にできる.しかし,本研究の自動化に応用するには,学生の記述内容と教員が提示する内容を解析して比較を特徴量として評価するための事前事後のデータ準備を授業回ごとに行う手間が負担となる.
機械学習モデルを作成して学習者の振り返り内容を分類する手法を示した事例がある[11].自然言語処理の手法を用いたテキストデータの分類モデルを再学習し,学習者の振り返りの記述内容から学習者の振り返り状況を分類することで,学習者の自己評価と教員の評価を支援する手法を示している.学習者の振り返り記述内容と分類を再学習したモデルを用いる評価手法が参考にできる.本研究では振り返りと計画の記述内容と教員が評価した具体性と躓き度の数値をトレーニングデータに用いて再学習したモデルによる自動的な評価手法を提案する.
学習者の振り返りと計画の記述内容から具体性と躓き度を自動評価する.以下2つの目的を実現するために,大規模言語モデルの再学習を用いる手法を提案する.
以下の3点は,具体性や躓き度の評価にGPT-3を用いる理由である.
図4は,自動評価用モデル作成の手順を示す.トレーニングデータは,学習者が記述した学習活動の振り返りと計画内容に対して授業担当教員が手作業で具体性と躓き度を評価した結果を用いる.
具体的には,トレーニングデータは,図3の学習者の記述内容に示した振り返り4項目(目標の振り返り,焦点の振り返り,方略の振り返り,行動の振り返り)と計画4項目(目標計画,焦点計画,方略計画,行動計画)の計8項目について,図3の自動評価で示す9項目(目標評価具体性,焦点評価具体性,方略評価具体性,行動評価具体性,目標計画具体性,焦点計画具体性,方略計画具体性,行動計画具体性,躓き度)について教員が手作業で評価した結果を用いる.
具体性8項目の評価は,記述の具体的なものを「5」とし,具体的でないものを「1」の5段階評価とした.躓き度の評価値は,躓きが大きいものを「5」とし,小さいものを「1」の5段階評価とした.具体的な評価基準は,付録のA.1に示した.なお,評価基準どおりに教員が評価できているかについて,評価の妥当性の検証はできていないため,今後の課題とする.
表1に,振り返りの記述に対して教員が手動評価した一部例を示す.焦点の振り返り(焦点評価)に対する具体性評価5から1の例を示した.
表1の各評価について,ルーブリックに照らした評価を示す.
評価5 「設定した条件が出てこない」という結果を回避するために,データの作り方に関係があることに注意した記述が評価された.
評価4 良い結果を得るために「条件を可能な限り散らした」「画像に合った条件を考えた」が寄与していると注意した記述が評価された.
評価3 「様々なパターンを考え」ることに注意した記述が評価された.
評価2 「ユーザー目線」とすることに注意した記述が評価された.
評価1 記述内容が注意点として評価されなかった.躓き度1とした表2の事例は,振り返りと計画が具体的になっていない記述が評価された.
表2に,トレーニングデータの例を示す.「prompt」に振り返りと計画の記述,「completion」に教員の付けた評価を記述した.
表2の躓き度について,ルーブリックに照らした評価を示す.
躓き度1 振り返りと計画が具体的になっていない記述が評価された.
以上のトレーニングデータを用いてGPT-3の事前学習モデルを再学習することで自動評価用モデルを得る.再学習は,GPT-3の事前学習モデルcurieを用い,バッチサイズは2,エポック数は6とした.
再学習に用いるトレーニングデータ,および,評価に用いるテストデータを実際の授業から得るために実験を行った.以下にデータを得るために実施した実験方法について示す.
対象授業 デジタルデザイン表現
被験者 大学生156名
演習課題 デシジョンツリーで動くデジタルサイネージの作成
対象授業回 10回目,12回目
振り返りと計画の提出数 253件(10回目128件,12回目125件)未提出は含まない
毎回の授業において156名の受講者に振り返りと計画の記入を求めた.本研究では,10回目と12回目の253件の学習活動の振り返りと計画の内容を実験対象および実験用のトレーニングデータとして使用した.
10,12回目を対象にした理由を述べる.10回目は,足場はずしレベル(Lv.)ごとの入力フォームの調整を終え,全員を足場はずしLv.3に統一したタイミングであった.そのため教員の手作業による評価が安定すると考えた.11回目は,担当教員である筆者が手作業で評価を行う前に,筆者が練習で試した自動評価の結果に触れてしまっていたため,あらかじめ自動評価の結果を知っている筆者が手動評価を行うと,自動評価の結果を意識せずに本来の手動評価を行うことが困難であるため使用しなかった.13回目は,11回目と同じ理由で使用しなかった.
以下に,12回目の記述に使用された足場はずしLv.の件数を示す.足場はずしLv.3:16件,Lv.2:63件,Lv.1:46件.
図5に授業回ごとに実施した振り返りと計画のサイクルを示す.たとえば10回目の振り返りは,9回目に建てた計画に基づいて記述する.そして,10回目の計画は,振り返りと10回目の授業内容に基づいて記述する.なお,振り返りと計画のサイクルにおいて提示される入力フォームの種類については,たとえば,10回目に記述するときは,9回目の記述内容の具体性評価に基づいた足場はずしレベルによって定まる.
以下に10,12回目に関連する可能性のある9回目から13回目までの授業内容を簡潔に示す.振り返りと計画の記述内容は授業進行に沿って記述されることが想定される.たとえば,10,12回目の振り返りは9,11回目に記述した学習計画に対する自己評価であり,10,12回目の計画は11,13回目までの学習計画となる.
9回目 デシジョンツリーの調整
10回目 キャッチコピーの考案
11回目 キャッチコピー表示とレイアウト
12回目 デジタルサイネージの動作設定
13回目 画像表示と切り替えアニメーション
足場はずしレベルの設定は,図3の学習者の記述内容に示された振り返り4項目と計画4項目について各項目の具体性評価値の合計と暫定閾値(Lv.1:合計値<15,Lv.2:合計値<25,Lv.3:合計値≧26)によって設定される.なお,暫定閾値の適性検証は今後の研究課題である.
図6に足場はずしレベル(Lv.)ごとの入力フォームの一部を示す.図6は,上から順に足場はずしLv.3,2,1と並ぶ.すべての入力フォームは,図3に示した振り返り4項目(目標の振り返り,焦点の振り返り,方略の振り返り,行動の振り返り)と計画4つの項目(目標計画,焦点計画,方略計画,行動計画)について学習者が記述する.
以下に各項目の説明を示す.
1.目標の振り返り(目標評価) 前回計画した目標の妥当性と,どこまで到達したか,何ができなかったのかについて自己評価する.
2.焦点の振り返り(焦点評価) 前回計画した焦点の妥当性と,取り組みから得られた結果と焦点を関係付けて自己評価する.
3.方略の振り返り(方略評価) 前回計画した方法の妥当性と,得られた結果と方法を関係付けて自己評価する.
4.行動の振り返り(行動評価) 前回計画した行動の妥当性と,得られた結果と行動を関係付けて自己評価する.
5.目標計画 次回までの到達目標について,前回の自己評価と現状を踏まえて段階的に計画する.
6.焦点計画 課題から着目したポイントを明確にし,自身の興味関心などと関連付けて計画する.
7.方略計画 課題の方法や考え方,試みについて,課題内容や焦点,自身の得意不得意などと関連付けて計画する.
8.行動計画 課題をいつ実施するのか,次回までの自身の予定と関連付けて計画する.
以下に,図6の入力フォームの違いを示す.
足場はずしLv.3の入力フォーム 学習者がほぼ自力で記述する.振り返り4項目と計画4つの項目の問いと入力欄が提示される.
足場はずしLv.2の入力フォーム 記述内容を示唆する支援がある.Lv.3の入力欄に加え,振り返りには前回の記述内容,計画には授業内容に沿ったヒントが提示される.
足場はずしLv.1の入力フォーム 記述内容の定形文を示す支援がある.ボットとの対話で,学習者が選択肢を選び,選択肢に応じた定形文があらかじめ示された入力フォームが提示される.
10回目は,全員が足場はずしLv.3のフォームで記入され,12回目は,11回目の記述内容によって学習者個別に足場はずしレベルが設定され,学習者個別に足場はずしレベルに応じた種類の入力フォームで記述された.
本研究の目的1:教員が手作業で評価した手動評価を模倣することができているか,および,目的2:自動評価した値を用いて足場はずしを自動的に設定できるかどうかについて,実験で得られたデータを用いた交差検証法によって評価する.
以下に示す(1)から(3)の3つの自動評価は,本研究の目的2つに対応する.3つの自動評価について,交差検証法を用いた検証を行う.これにより,本研究の2つの目的について評価する.なお,提案手法の評価軸は,自動評価と教員による手動評価の相関係数であり,交差検証法(Cross-validation)で性能評価するのが一般的である.
表3は,実験用トレーニングデータに含まれた手動評価による評価項目と評価値の度数分布を示す.本研究では10,12回目の手動評価のみを使用したため,各項目とも評価値5の件数が少ない.
表4に交差検証用のグループ分けを示す.グループ分けは,手動評価の足場はずしレベルの分布が大きく偏らないようにした.データの先頭から順にABCDEの各グループにLv.別に割り振った.
交差検証を行うため,各グループのデータを除外した5つの実験用トレーニングデータを作成し,そこから5つの交差検証用の自動評価用モデルを再学習した.具体的には,Aグループ51件を除いた自動評価用モデル「Excluding A」,Bグループ51件を除いた自動評価用モデル「Excluding B」,Cグループ51件を除いた自動評価用モデル「Excluding C」,Dグループ50件を除いた自動評価用モデル「Excluding D」,Eグループ50件を除いた自動評価用モデル「Excluding E」を再学習した.再学習時のパラメータは,事前学習モデルcurieを用い,再学習時のバッチサイズは2,エポック数は6とした.また,再学習によって得られた自動評価用のGPT-3モデルを適用して自動評価する際,ランダム性を表すパラメータtemperatureは0に設定した.
交差検証用の自動評価結果を得るため,交差検証用の自動評価用モデルで対応するグループの自動評価を行った.具体的には,「Excluding A」モデルでAグループ51件,「Excluding B」モデルでBグループ51件,「Excluding C」モデルでCグループ51件,「Excluding D」モデルでDグループ50件,「Excluding E」モデルでEグループ50件を自動評価した.
足場はずしレベルの自動設定は,自動評価された具体性の合計値と暫定閾値(手動評価と同じ閾値)によって設定された.
本研究の2つの目的ために以下の3つを交差検証法によって評価した結果を示す.自動評価の性能を示すために,自動評価と手動評価について,ノンパラメトリック(スピアマン)の順位相関分析を行った.
以下に,自動評価の値と手動評価の値の散布図を示す.ただし,評価値が離散的な整数値であるため,そのまま散布図を描くと単なる格子点となり,標本の密度を読み取ることができない.そこで,自動評価値,手動評価値ともに[−0.05, +0.05]の一様乱数を加算して表示している.
なお,以下に示す実験結果の順序は,具体性の自動評価,足場はずしLv.の自動評価,躓き度の自動評価とした.足場はずしLv.は,具体性の自動評価の値によって設定されるためである.
図7からは,振り返りと計画の計8項目全体の具体性評価について手動評価と自動評価の順位相関係数+0.815(p<0.0001,n=2024)が示された.
図8は,振り返り4項目と計画4項目ごとの具体性評価について手動評価と自動評価の関係を示す.
目標評価具体性(図8,a)の順位相関係数+0.855(p<0.0001,n=253)が最も相関が強く,焦点評価具体性(図8,b)の順位相関係数+0.854(p<0.0001,n=253),方略評価具体性(図8,c)の順位相関係数+0.777(p<0.0001,n=253),目標計画具体性(図8,e)の順位相関係数+0.841(p<0.0001,n=253)が正の相関を示した.
一方,行動評価具体性(図8,d)の順位相関係数+0.647(p<0.0001,n=253)は8項目の中で最も相関が弱く,行動計画の4項目内では,行動計画具体性(図8,h)の順位相関係数+0.708(p<0.0001,n=253)が最も相関が弱い.
表5は,具体性評価項目ごとの誤差(自動評価値−手動評価値)の件数を示す.すべての評価項目について誤差±1は一定数あったことが読み取れる.さらに,誤差±2に注目したとき,振り返りでは,目標評価具体性と焦点評価具体性について,自動評価が手動評価よりも高く評価する場合があった.方略評価具体性と行動評価具体性誤差では,手動評価よりも低く評価した事例が3件,高く評価した事例が2件あった.計画に関する4項目では,手動評価よりも具体性を2高く,もしくは2低く評価した事例がみられた.
表6は,手動評価と自動評価の具体性評価が一致した記述事例の一部を示す.記述内容欄の括弧内に足場はずしLvを示した.Lv.3の事例は,自動評価モデルが,十分に記述内容があるため,自動評価による単語や文の重要な点と,それらの関係性の解釈がうまくできた可能性を示す.Lv.2では,加えてヒントによる語彙の類似性によってうまくできた可能性を示す.Lv.1の事例は,定形文による類似性によってうまくできた可能性を示す.
表7は,手動評価と自動評価の具体性評価に誤差があった記述事例の一部を示す.これらの事例は,比較的文字数が少ない事例では,文や単語の重要な点,それらの関係性をうまく捉えられず誤差が生じた可能性を示す.誤字や文に違和感のあるものは,自動評価は教員が行うような文章の補完を行わなかった可能性を示す.授業内容との関係の認知期の違いなどの要因があった可能性を示す.事例ごとの分析は考察で示す.
表8の記述内容は,想定外の記述内容にもかかわらず,比較的うまく自動評価された事例を示す.課題内容と直接関係性が少ない記述が含まれるものの,学習者の工夫が含まれた記述内容である.手動評価とほぼ同等の自動評価がされた.
足場はずしレベルについて実験結果を示す.足場はずしレベルは,手動評価においても自動評価においても具体性評価値の合計を暫定閾値で区分することで自動設定された.図9からは,手動評価と自動評価の結果に強い正の相関+0.804(p<0.0001,n=253)が読み取れる.図9の散布図は,縦軸が手動評価,横軸が自動評価による足場はずしレベル設定を示す.表9は,手動評価と自動評価によって自動選択された足場はずしレベルごとの件数を示した.足場はずしレベルごとの選択数にわずかな誤差が認められる.表10は,足場はずしレベルの誤差(自動評価のLv.−手動評価のLv.)の詳細を示す.自動評価が手動評価より低いレベルを設定した件数が22件あり,高いレベルを設定した件数が23件あった.
図10は,躓き度の評価について手動評価と自動評価の散布図を示す.縦軸が手動評価,横軸が自動評価,評価は躓き度が強いほど5,弱いほど1を示す.手動評価と自動評価の結果に強い正の相関+0.876(p<0.0001,n=253)が示された.足場はずしレベルごとに分析すると,Lv.3は正の相関+0.666(p<0.0001,n=46),Lv.2は強い正の相関+0.8(p<0.0001,n=134),Lv.1は正の相関+0.792(p<0.0001,n=73)が示された.
表11は,躓き度評価値の誤差について詳細を示す.92件の誤差±1と7件の誤差±2があった.手動評価の足場はずしレベル別で見るとLv.2(ある程度の具体性がある記述)に誤差の件数が多い傾向が読み取れる.
表12は,手動と自動による躓き度評価が一致した記述例として,手動評価,自動評価とも躓き度1(躓きがほとんどみられない)の例を示す.この事例は,各項目について全体的に十分な文と単語が含まれていることから,自動評価は文や単語の重要な点,それらの関係性をうまく捉えることができていた可能性を示している.
表13は,手動と自動による躓き度評価に誤差があった記述例として,手動評価の躓き度4(だいぶ躓きがみられる),自動評価の躓き度2(やや躓きがある)の誤差の例を示す.この事例は,各項目について文字数と文と単語の偏りがあることから,自動評価は文や単語の重要な点,それらの関係性をうまく捉えることができなかったために誤差が生じた可能性を示している.
12回目の記述内容から,足場はずしLv.によって以下3つのテストデータの質の違いが読み取れる.10回目の128件はLv.3のみであり,12回目の125件はLv.3:16件,Lv.2:63件,Lv.1:46件が混在する.
なお,Lv.1の46件について,33件に定形文に沿った記述がみられた.一方,残りの13件は定形文をあえて削除して書き直したとみられる記述があった.
また,うまく記述できない学習者については,短い文かつ抽象的な記述がみられた.具体的には「コツコツとやる」「ない」「思うままにやる」「空いてる時間」「特にない」などであった.これらは,Lv.3,Lv.2,および,Lv.1の定形文をあえて削除した記述にみられた.
以下は,12回目の記述内容の事例として計画の一部について,足場はずしLv.ごとの事例を示す.計画の事例を示した理由は,Lv.2において,ヒントの影響が分かりやすいためである.
Lv.3の事例は,自由記述欄に記入された事例を示した.
Lv.2の事例は,ヒントを活かして記述された事例を示した.提示されたヒントは「たとえば,まずは,デシジョンツリーの遷移を設定して,動作を確認してから,言葉の表示を設定していくとかかな.どうかな.自分なりのステップを作ってみよう.」であった.したがって,「ツリーを作成して」「言葉の位置を調整」の記述によって,ヒントを活かしていることが分かる事例である.
Lv.1は,定形文を編集して記述された事例を示した.「計画する目標地点」についての難易度,「自分の目標地点」について,自分が到達できると思う目標,「一番近い目標地点」について,穴埋め的に記述された事例である.
目標の計画
Lv.3 実行テストを繰り返し行い,改善点を見つける.デシジョンツリーの修正を行う.文字設定を行う.
Lv.2 ツリーを作成して,キャッチフレーズを紙に書き出してみてから,画像と言葉の位置を調整していく.
Lv.1 計画する目標地点は,困難.自分の目標地点は,初期設定までにある程度完成させる.一番近い目標地点は,動作確認までにある程度完成させる.
実験結果が示した自動評価と手動評価の比較において,以下3つの自動評価の結果が示された.
したがって,提案手法による自動評価用モデルは,本研究の目的1:教員の手動評価を模倣して具体性と躓き度の自動評価ができていた可能性と,目的2:自動評価で得た値を用いて足場はずしの自動設定ができていた可能性が示された.このことから,十分に実用に耐える性能と考えられる.以下に,実験結果について考察を加える.
まず,実験結果の全般において自動評価と手動評価に正の相関がみられた理由について考察を述べる.
自動評価は,教員をある程度模倣した評価ができていたと考えられる.なぜなら,具体性の自動評価,躓き度の自動評価,足場はずしレベルの自動設定の3つとも,手動評価との順位相関係数に強い正の相関を示していたためである.また,表6は,付録A.1のルーブリックにある程度沿って教員が評価できていたと思われる事例であり,これらの評価が自動評価と手動評価で一致していたからである.ただし,教員の評価が付録A.1のルーブリックどおりにできていたかどうかの検証はできておらず,今後の課題としている.
一方,10回目のテストデータは,記述支援なしのデータであった.そのため,12回目のデータよりもうまく記述できない学習者のデータを多く含んでいた可能性が考えられる.10回目では,うまく記述できない学習者に短い文で抽象的な記述がみられた.したがって,足場かけのあった12回目のテストデータは,足場かけがなかった10回目よりも自動評価の精度を高める要因が多く含まれていたと考えられる.なお,自動評価の性能評価について,記述時の足場はずしレベルごとの検証は行っていない.なぜなら,実際の運用では,足場はずしレベルが混在することを想定したからである.ただし,本研究によって当初の想定よりも,記述時の足場はずしレベルの違いによるデータへの質的影響があると考えられたため,足場はずしレベルごとの検証は今後の課題とする.
表13のように,自動評価と手動評価の躓き度に差異が生じる事例も確認された.そこで,誤差の事例について考察を加える.
具体性評価項目ごとの相関は,自動評価と手動評価は全体的に高い相関を示している.しかし,行動振り返り(行動評価)と行動計画の具体性評価は,他の具体性評価項目に比べて相関が低い傾向がみられた.その原因は以下の2つと考えられる.
表7に示された誤差の理由について,ルーブリックに照らした考察を加える.以下の考察によって,授業内で用いられた言葉に対する認識や解釈の差,および,記述内容を補完した解釈から誤差が生じていた可能性が考えられる.
1.目標評価 「公欠」「休んでしまった」「取り返したい」が学習に関係する内容かどうかの認識の違いによって誤差が生じたと考えられる.教員は,記述内容が学習内容に直接関係しないと判断したと考えられる.一方,自動評価は,何らかの振り返りで改善点が示されていると判断した可能性が考えられる.
2.焦点評価 「ディジョンツリー」(デシジョンツリーの間違い)について,自動評価は,学習に関する語彙であると誤認した可能性が考えられる.さらに,単語のみで評価3としたのは,トレーニングデータに単語のみで評価していた事例が含まれていた可能性が考えられる.一方,教員は記述に誤字があることに加え,単語を示すのみでは振り返りとしては不足と判断したと考えられる.
3.方略評価 記述の冒頭と,その後の記述の関係をどう認識して解釈したのかによって誤差が生じたと考えられる.自動評価は冒頭の適性を示した部分と,その後に続く具体的な部分との関係についてうまく評価できなかった可能性が考えられる.一方,教員は,文章の前後関係を補完して解釈したのち評価したと考えられる.
4.行動評価 「テスト」が最終的な機会であることの認識の差によって誤差が生じたと考えられる.自動評価は(何度も実施されるような)「テスト」の機会に行うとした評価になったと考えられる.一方,教員は最終的な機会であることを認識しているため,行動計画の振り返りの記述として不十分であるとした可能性が考えられる.
5.目標計画 「Excel」と「デシジョンツリー作成」の関係の認知の違いで誤差が生じたと考えられる.教員は,「Excel」と「デシジョンツリー作成」の2つが授業においては一体的な工程であることを知っている.一方,自動評価は,授業における2つの関係を認識していない.そのため,異なる2つの工程を段階的に進めることが記述されているとして評価した可能性が考えられる.
6.焦点計画 「著作権」の扱いが異なることで誤差が生じたと考えられる.教員は,授業で扱った内容を含めて単語のみで具体的であるとした可能性が考えられる.一方,自動評価は,授業で扱った注意点であることを認識していない.そのため,用語のみでは,注意点について具体的ではないと判断した可能性が考えられる.
7.方略計画 自動評価は,誤字を含め何らかの方法や考え方が記述されていると誤認した可能性が考えられる.一方,教員は,誤字を補完しつつも,課題を進めるための方法についての記述ではないと判断した評価と考えられる.
8.行動計画 教員が文を補完して解釈し評価していたことで誤差が生じた可能性が考えられる.教員は「バイト終わりにする」と「授業の空きコマ」を分けて評価したと考えられるが,自動評価は,1つの具体的なタイミングがあるのみと評価した可能性が考えられる.
自動評価された躓き度において,手動評価との誤差が比較的大きかった記述例について考察を加える.
表13の誤差のあった記述例では,学習者は計画に書いたことが実施できていないという経緯があった.しかし,振り返りでは,できているように記述していた.そのため,自動評価では躓き度2と評価された.一方,手動評価した教員は,上記の経緯を把握していたため躓き度4とした可能性がある.つまり教員による手動評価では,学習者の経緯を加味して評価が行われたと考えられる.
このことから,教員の手動評価を模倣するためには,課題の制作状況や専用アプリの操作ログなどの経緯を含めたトレーニングデータが必要となる.このような学習者の状況や経緯を含めた評価手法は今後の研究課題とする.
表13について,ルーブリックに照らした考察を加える.以下の考察によって,自動評価は,教員とは異なる記述項目を重視して判断していた可能性が考えられる.つまり,躓き度の自動評価は,記述された項目のすべてが十分に具体的に記述されていない場合,少ない記述内容だけで,判断できるほど十分なトレーニングデータが無かった可能性が考えられる.
手動評価 振り返りでは,目標評価はある程度自己把握できているものの,焦点評価に結果との関連付けた振り返りがなく,方略評価,行動評価が具体的でない,計画では,目標計画は段階的に示されているものの,焦点計画,方略計画,行動計画が具体的ではないことから見通しに期待ができないと判断されたものと思われる.
自動評価 目標評価とある程度詳細な記述があり,あまりうまく進められていない記述があるものの,目標計画にある程度の過程が示されており,焦点計画,方略計画,行動計画にある程度の記述があることによって手動評価ほど躓いているとは判断されなかった可能性が考えられる.
一方,表8のように想定していない記述内容について,うまく評価されていた事例がみられた.事例は,授業課題のデジタルサイネージに,学習者自身の興味関心のある3DCGの映像を組み合わせた内容を記述していた.トレーニングデータに該当事例と似たような記述が含まれていないにもかかわらず,自動評価は手動評価とほぼ同様にうまく評価していた.
このように,授業内容に自身の興味関心を組み合わせる工夫は,自己調整学習において焦点の調整方略として歓迎すべき内容である.
また,この事例によってGPT-3を用いたことの妥当性が示されたと考える.なぜなら,「3DCGでのロゴアニメーションを作ってYouTubeにアップロードしたものを設定した.」は,「3DCG」「ロゴアニメーション」「YouTube」などの想定外の語彙を含む記述であっても,その文脈から複数の過程の記述であると判断された可能性が考えられるからである.
ただし,この事例から,記入項目や授業内容にまったく関係しない内容を具体的に記述した場合についても,具体性を高く評価する可能性が考えられる.
なお,学習者個別の特性や興味関心に伴う焦点の調整方略と授業内容や記入項目との整合性の課題については今後の研究課題とする.
本研究の自動評価は,十分な性能が示された.しかし,本研究の自動評価に教員が過度に依存することは危険が伴う.なぜなら,上述の躓き度誤差分析から自動評価が学習者の躓きを見逃す事例が明らかになっている.そのため自動評価への過度な依存は,学習者の躓きを見逃す恐れがある.そこで,対策案としては,たとえば自動評価と教員による手動評価を授業回ごとに交互に運用する仕組みとすることによって,教員の負担を一定程度軽減しながら,自動評価への過度な依存を防ぐ対策が考えられる.
具体性の自動評価の誤差は,足場はずしレベルの自動設定に影響して学習者が記述する内容に影響を与えると考えられるが,誤差による影響は学習者の許容範囲に収まると考えられる.なぜなら,以下2つの措置による.
ただし,誤差が学習者に以下のような影響を与える可能性もある.
表11に示したような躓き度の誤差について,躓き度が低く見積もられた場合においては,学習者の許容範囲に収まらないと考えられる.なぜなら,教員などから学習支援を受ける機会を失う可能性が考えられる.そのため,今後の課題として,教員による確認を要とする仕組みの構築が必要となる.一方,躓き度が高く見積もられた場合については,学習者の許容範囲に収まると考えられる.なぜなら,不要な学習支援を受ける負担が若干あるものの,学習としては無駄にはならないものと考えられる.
本研究が提案した2つの目的について,自動評価手法は,教員の手動評価をある程度模倣した自動評価ができ,十分に実用に耐える性能であったと考えられる.
ただし,本研究は実際の授業の一部から得られたトレーニングデータをそのまま使用した.そのために,標本数の少ない高評価値をうまく自動評価できない事例が生じていた.このことから,実際の授業データをトレーニングデータとして用いる場合,事前に評価値の分布を分析し,標本に偏りがある場合にはダミーの記述内容や評価を加えるなどの補完する措置が考えられる.
また,躓き度の自動評価では,教員の手動評価と異なり学習者の状況や経緯を考慮しなかった.そのために,学習者の躓き度を低く評価した事例が確認された.このことから,課題の制作状況や専用アプリの操作ログなどの経緯を含めたトレーニングデータを含めるなどの今後の研究課題が明らかになった.
さらに,足場かけによる記述支援が,自動評価の精度に影響を与えていたことが分かった.特に潜在的な支援の必要性を見つけだして学習者を支援するためには,精度よく自動評価できることが重要である.そのために,うまく記述できない学習者が学習状況を記述できる支援が重要である.そこで,今後の課題として,足場かけを改善する.具体的には学習状況の詳細な聞取りなどの自動対話の内容を改善する.
なお,自動評価への教員の過度な依存は,学習者の躓きを見逃す恐れがある.そのため,教員が自動評価に依存しない対策が必要である.自動評価は一定の性能を示したが,上述で示したようにうまく評価できない事例もある.
そもそも,各学生への個別最適化した学習支援を行うにはテキスト情報だけでは不十分であり,学習者の特性や興味関心などを考慮する必要がある.
GPT-3を用いた本手法は,当然,それらの要素を考慮できていないので,個別最適化のためには人間の教員による評価と併用する必要がある.そこで,たとえば自動評価と教員の手動評価を交互に運用する仕組みにするなどの対策案が考えられる.また,自動評価への過度な依存を防止するためのインストラクションが不可欠となろう.
本研究が提案した自動評価手法は,実際の授業から蓄積したデータを活用することで評価を自動化する手法である.つまり,従来の学習支援において教員が行わなければならなかった記述内容の評価部分について,教員が行っていた評価を模倣して自動化する提案である.そのため,教員が個別に学習支援に使用してきたアドバイスや足場かけ,足場はずしの手法と親和性が高いと考えられる.
なお,本研究から新たな研究課題として次のことが明らかになった.
これらの研究課題についてさらなる検討と検証を行い,学習支援の自動化に向けた改善点を明らかにする.
謝辞 本研究はJSPS科研費(JP22K12325)およびJST CREST(JPMJCR20D1)の助成を受けた.
評価1:目標が何だったかについて書かれていない
評価2:遠い目標,あるいは,抽象的な目標について書かれている
評価3:具体的な目標について書かれている
評価4:具体的な目標に対して,どのような過程を経たのかについて書かれている
評価5:具体的な目標に対する過程でどこまで到達できたのか,できなかったのか,対応などについて書かれている
評価1:注意点となったことについて書かれていない
評価2:大まかな注意点について書かれている
評価3:具体的な注意点について書かれている
評価4:結果に寄与する注意点として書かれている
評価5:注意点と成果や結果との関係などの説明が書かれている
評価1:使用した方法や考え方について書かれていない
評価2:使用した方法や考え方について抽象的に書かれている
評価3:具体的に使用した方法や考え方について書かれている
評価4:使用した方法や考え方の適性について書かれている
評価5:使用した方法や考え方の適性と対策などの説明が書かれている
評価1:取り組んだタイミングについて書かれていない
評価2:取り組んだタイミングについて抽象的に書かれている
評価3:取り組んだタイミングについて具体的に書かれている
評価4:取り組んだタイミングの適性について書かれている
評価5:取り組んだタイミングについて結果と対策などの説明が書かれている
評価1:目標について書かれていない
評価2:遠い目標,あるいは,抽象的な目標について書かれている
評価3:具体的な目標について書かれている
評価4:目標に対して段階化した近い目標が書かれている
評価5:段階化した目標について,理由や達成見込みなどの説明について書かれている
評価1:注意点について書かれていない
評価2:大まかな注意点について書かれている
評価3:具体的な注意点について書かれている
評価4:結果に寄与する注意点として書かれている
評価5:注意点と見込まれる成果や結果との関係などの説明について書かれている
評価1:使用する方法や考え方について書かれていない
評価2:使用する方法や考え方についてか抽象的に書かれている
評価3:具体的に使用する方法や考え方が書かれている
評価4:使用する方法や考え方の適性が書かれている
評価5:使用する方法や考え方の適性と,うまくいかないときの対策などの説明について書かれている
評価1:取り組むタイミングについて書かれていない
評価2:取り組むタイミングについて抽象的に書かれている
評価3:取り組むタイミングについて具体的に書かれている
評価4:取り組むタイミングの理由が書かれている
評価5:取り組むタイミングが都合が悪いときの対策などの説明について書かれている
躓き度1:目標,焦点,方略,行動計画から状況把握ができており,計画による見通しが十分期待できる.
躓き度2:状況把握がほぼできており,計画による見通しがある程度期待できる.
躓き度3:状況把握ができていないものの,計画による見通しはある程度できている.
躓き度4:状況把握がある程度できているものの計画による見通しがあまり期待できない.
躓き度5:振り返りで状況把握ができていない.学習が進んでいない旨が書かれており,計画による見通しに期待できていない.
2005中京大学大学院認知科学専攻修士課程修了,2007愛知産業大学造形学部講師に従事,2020から名古屋工業大学大学院工学研究科博士後期課程を履修中.
2008京都大学 情報学研究科 知能情報学専攻修了,2021名古屋工業大学 大学院工学研究科情報工学専攻 教授.2018から人工知能学会 市民共創知研究会 主査.シビックテックや市民協働の支援技術,市民参加型議論の支援技術の研究開発に従事.
2020名古屋工業大学 大学院工学研究科 博士後期課程情報工学専攻修了,2021京都大学 大学院情報学研究科 社会情報学専攻 特定助教,2022三重大学 工学研究科 情報工学専攻・知能工学講座(人間情報学教育研究分野)講師.
会員種別ごとに入会方法やサービスが異なりますので、該当する会員項目を参照してください。