AIが言語テストに与える影響
AIと従来の人間の採点について、テスト受験者の懸念を調べる。
― 1 分で読む
この記事では、英語の試験を受ける人たちが、言語テストにおける人工知能(AI)と従来の人間の採点について感じている懸念を見ていくよ。また、AIが彼らの体験や選択にどんな影響を与えるかも考察するね。
言語テストの懸念
言語テストの種類
言語テストは大きく分けて2つのタイプに分かれるよ:AIベースの言語テスト(ALT)と人間ベースの言語テスト(HLT)。ALT、例えばPTEやDETはAIを使ってテストを採点するけど、HLT、例えばTOEFLやIELTSは人間の採点者に頼ってスコアを決めるんだ。
受験者の懸念
受験者たちは、これらのテストの公平性と信頼性について意見が分かれるよ。多くの人は、AIには個人的なバイアスがないからALTの方が公平だと思ってる。インタビューで、いくつかの受験者はAIが特定のアクセントや話し方を理解するのが難しいかもしれないから、不公平な採点につながる場合があるって感じてたよ。例えば、高音の女性の話し方や強いアクセントのある人たちは、AIの採点システムからあまり理解されていないと感じたみたい。
逆に、HLTについて心配している受験者もいたよ。彼らは、人間の採点者が自分の気分や好みに影響されるかもしれないって懸念してた。これがスコアの一貫性のなさにつながるかもしれないっていう心配があったんだ。
公平性と一貫性
参加者の大部分は、ALTが提供する一貫性を好んでた。多くの人が、HLTでは試験ごとにスコアが変わるのに対して、ALTはより安定した結果をもたらすと報告してた。この認識は調査データにも表れていて、ほとんどの回答者がALTの方がHLTより一貫性があると考えてたよ。
コスト、入手可能性、結果
手頃さと便利さ
コストについて聞いたところ、ほとんどの受験者は、料金が安く、利用可能性が高いALTを好んでた。例えば、PTEは約235ドルだけど、TOEFLやIELTSは255ドル以上かかることが多いんだ。ALTのPTEは毎日受けられるけど、HLTは通常あまり頻繁には提供されない。また、ALTは結果を早く出してくれて、通常2日以内に届くのに対し、HLTは1週間かかることが多いんだ。
満足度
受験者たちは、ALTの手頃さ、利用可能性、迅速な結果を高く評価してたよ。かなりの数の調査参加者がALTが安くてアクセスしやすいと感じてた。
試験戦略
ALTでのテクニックの利用
私たちの調査では、ALTとHLTの両方で受験者がより良いスコアを得るために様々な戦略を使っていることがわかったよ。ある受験者は特にALTで結果を改善するために「テクニック」を使っていると認めてた。一般的なテクニックには、エッセイやスピーキングの回答でテンプレートを使ったり、テスト中にずっと話し続けたり、スピーキングセクションで自己修正を避けたりすることが含まれていた。
ALTの参加者は、AIの採点方法を操作するために継続的に話すといった特別なテクニックを使っていると報告してた。たとえば、いくつかは特定のフレーズを練習したり、様々な質問に合わせたテンプレートを作ったりしてたよ。
HLTでのテクニックの利用
HLTの参加者も戦略を使ってたけど、これらのテクニックがどれほど効果的かについての見解は異なってた。ある受験者は、人間の採点者が自分の戦術に気づいてスコアを調整するかもしれないと信じていたから、スコアが低くなる可能性があると感じていた。それでも、多くの人はその方法を使い続けて、チャンスを高めようとしてた。
テクニックのまとめ
ALTとHLTの両方で受験者はエッセイやオープンレスポンスの質問にテンプレートを使ってた。ただし、ALTにはAIの弱点を乗り越えるための独自の戦略があって、継続的に話すことやテスト中のミスを避けることが含まれてたよ。
透明性と説明責任
採点システムの理解
多くの受験者が言語テストの採点がどうなっているかについて混乱を感じてた。試験の主催者は採点基準に関する情報を提供していたけど、参加者の多くは十分な理解がないと感じてたよ。ほとんどの人は試験主催者から直接ではなく、語学学校や友達、オンラインリソースを通じて採点方法を学んでたんだ。
ALTとHLTの参加者は、結果についてのより明確なフィードバックを望んでいたよ。多くは、受け取ったスコアが広すぎて改善方法について具体的なアドバイスが足りないと感じてた。この一般的なフィードバックは、情報の有用性を薄れさせることにつながった。
AI採点についての混乱
いくつかの受験者は、AIベースのテストスコアがどのように計算されるのかについて混乱を見せてた。例えば、個々のセクションスコアに基づいて期待していたよりも全体のスコアが低かったことに驚いた人もいた。ほかにも、DETのようなテストの適応的な性質が試験中の不安を増す要因になっていると感じる人もいたよ。
異議申し立てと説明責任
テスト結果に対する異議申し立て
ALTもHLTも、受験者がスコアに異議を唱えるためのプロセスが整っているよ。しかし、多くの参加者は結果に異議を申し立てることにためらってた。高いコストや、結果がほとんど変わらない可能性がその気持ちに影響を与えてた。中には、異議申し立てをしてもスコアが変わっても期待に応えられないだろうと考える人もいたんだ。
全体的に、多くの受験者はコストや悪い結果を恐れることで、スコアに異議を唱えることをためらっていたよ。
追加の懸念
利益追求の動機
インタビュー中、受験者は試験提供者の動機についても追加の問題を提起していた。参加者の中には、PTEのようなテストが、IELTSやTOEFLなどの伝統的なテストよりも簡単であると宣伝されているのではないかと疑っている人もいた。それが、結果の真実性や利益動機に基づいて再受験を推奨されているかどうかの疑問につながったんだ。
インタラクティブ性の欠如
かなりの数の参加者も、ALTやTOEFLのスピーキングテストの非インタラクティブな性質に不満を表明してた。彼らは言語は本質的に社交的なものであり、実際の会話を含むべきだと考えてたよ。多くの人が、コンピュータと対話するのは現実的ではないと感じてたんだ。
AIが言語テストに与える影響
テストの選択肢
より多くの大学や団体が様々な言語テストを受け入れるようになったことで、受験者は選択肢が増えているよ。私たちの調査では、多くの参加者がHLT、特にIELTSからALTに切り替えた理由は、結果が早く、簡単だと感じたからだって分かった。移住を考えている人たちには、ALTが人気の選択肢だったんだ。
言語の改善
受験者はしばしば、テストのスコアを自分の言語スキルを向上させる指標として使ってるんだけど、多くの人がテストからのフィードバックに不満を感じてた。ALTの参加者は結果がより有益だと感じていたけれど、HLTの受験者たちはその価値については中立的だったみたい。
練習方法
テストの準備では、参加者は人間のチューターや自己フィードバックに大きく依存してたよ。人間のチューターはコストが高いけれど、ほとんどの人が学習に与えるポジティブな影響を認めていた。一部の人はコストの都合でAIのマーカーを選んだけど、その効果には疑問を呈していたんだ。
結論
受験者たちはAIベースと人間ベースの言語テストに関して多様な経験や懸念を持っているよ。多くの人がALTの公平さ、一貫性、コスト、効率を評価する一方で、フィードバックの質や透明性、試験提供者の潜在的な動機についても疑問を投げかけているんだ。これらの側面を理解することで、言語テストのプロセスを改善し、ユーザー体験を向上させる助けになるよ。
タイトル: Test-takers have a say: understanding the implications of the use of AI in language tests
概要: Language tests measure a person's ability to use a language in terms of listening, speaking, reading, or writing. Such tests play an integral role in academic, professional, and immigration domains, with entities such as educational institutions, professional accreditation bodies, and governments using them to assess candidate language proficiency. Recent advances in Artificial Intelligence (AI) and the discipline of Natural Language Processing have prompted language test providers to explore AI's potential applicability within language testing, leading to transformative activity patterns surrounding language instruction and learning. However, with concerns over AI's trustworthiness, it is imperative to understand the implications of integrating AI into language testing. This knowledge will enable stakeholders to make well-informed decisions, thus safeguarding community well-being and testing integrity. To understand the concerns and effects of AI usage in language tests, we conducted interviews and surveys with English test-takers. To the best of our knowledge, this is the first empirical study aimed at identifying the implications of AI adoption in language tests from a test-taker perspective. Our study reveals test-taker perceptions and behavioral patterns. Specifically, we identify that AI integration may enhance perceptions of fairness, consistency, and availability. Conversely, it might incite mistrust regarding reliability and interactivity aspects, subsequently influencing the behaviors and well-being of test-takers. These insights provide a better understanding of potential societal implications and assist stakeholders in making informed decisions concerning AI usage in language testing.
著者: Dawen Zhang, Thong Hoang, Shidong Pan, Yongquan Hu, Zhenchang Xing, Mark Staples, Xiwei Xu, Qinghua Lu, Aaron Quigley
最終更新: 2023-07-19 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2307.09885
ソースPDF: https://arxiv.org/pdf/2307.09885
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。
参照リンク
- https://www.scmp.com/comment/insight-opinion/united-states/article/2177403/how-english-testing-failing-chinese-students
- https://webberz.in/blog/pte-describe-image-templates-to-achieve-high-score/
- https://www.youtube.com/watch?v=bRgc5cHKKp0
- https://go.duolingo.com/securitywhitepaper
- https://www.ielts.org/-/media/publications/quality-and-fairness/quality-and-fairness-2015-uk.ashx
- https://www.ets.org/toefl/research/reliability-validity.html
- https://www.pearson.com/content/dam/one-dot-com/one-dot-com/global/Files/efficacy-and-research/reports/PTE-Academic-Assessment-Efficacy-Report-2019.pdf
- https://blog.duolingo.com/fairness/
- https://www.pearsonpte.com/scoring/automated-scoring
- https://www.xiaohongshu.com/explore/6380e1460000000018013afb
- https://www.pearsonpte.com/ctf-images/yqwtwibiobs4/5Tkz5xNp0H67FtzmLbP8yX/5d9493a87e90e1cbdbe63117b479a564/score
- https://www.pearsonpte.com/
- https://www.ielts.org/
- https://englishtest.duolingo.com/
- https://www.ets.org/toefl/test-takers/ibt.html
- https://www.ieltsasia.org/hk/en/study-in-us/required-score
- https://leapscholar.com/blog/ielts-countries-list-accepting-exam-academic/
- https://www.pearsonpte.com/pte-academic
- https://www.qualtrics.com/
- https://www.canada.ca/en/immigration-refugees-citizenship/corporate/publications-manuals/operational-bulletins-manuals/updates/2023-designated-language-testing-organization.html
- https://grow.google/certificates/interview-warmup/
- https://callannie.ai/
- https://www.speak.com/