疑問68 470点を取るために必要な正答数
合計スコアで470点を取るためには各セクションで57パーセントが必要である、という仮説は何回か検証したことがあります。2009月1月11日に実施された、第144回の公開テストでは、ロバート・ヒルキ氏と一緒に実験しました。正答数は次の通りです。
ロバートの正答数:56問ずつ(各セクション)
ロバートが470をターゲットにした理由は、企業で教える機会が多いからです。企業が社員に470を課す事情は知りませんが。もともとは、57パーセントが必要であると2人とも知っていたのですが、テスト前にケンタッキーフライドキチンで打ち合わせした際に、何となく56を選びました。
実際のスコア
リスニング:245 リーディング:215 合計:460
このような検証は過去に何回もやってきたので自信はありましたが、実際に460になったので、57パーセントで470になるであろう、という証明はできたと言えそうです。もちろん、テストによって多少の誤差は出ますが。
ボクは同じテストで各セクション52問ずつを正答し、スコアは次の通りです。
リスニング:230 リーディング:205 合計:435
2人の差を比べると1問の価値が推測できます。
だいたい、以下の数値が正しいと言えるでしょう。正答数とスコアの関係です。
正答数、リスニング、リーディングの順で。
56 245 215
55 245 210
54 240 210
53 235 205
52 230 205
51 225 200
リーディングでは、4問の差が10点の差しか生み出していません。その近辺に受験者が多く存在するからです。TOEICのスコアは正答数に一定の数値を掛けることで算出できるものではありません。多くの人が存在する領域では「1問の価値」が低いです。ですから、同じ1問の差でも、領域しだいでは4問の差が30点くらいの差を生むこともあります。過去の実験によれば。
検証すれば簡単に判明しますが、なぜか、多くの「プロらしき人」は検証しません。もちろん受験者も。だから、間違った情報が本に載っていても、講師が適当な情報を言っても顧客は気づきません。不思議な市場です。
ロバートの正答数:56問ずつ(各セクション)
ロバートが470をターゲットにした理由は、企業で教える機会が多いからです。企業が社員に470を課す事情は知りませんが。もともとは、57パーセントが必要であると2人とも知っていたのですが、テスト前にケンタッキーフライドキチンで打ち合わせした際に、何となく56を選びました。
実際のスコア
リスニング:245 リーディング:215 合計:460
このような検証は過去に何回もやってきたので自信はありましたが、実際に460になったので、57パーセントで470になるであろう、という証明はできたと言えそうです。もちろん、テストによって多少の誤差は出ますが。
ボクは同じテストで各セクション52問ずつを正答し、スコアは次の通りです。
リスニング:230 リーディング:205 合計:435
2人の差を比べると1問の価値が推測できます。
だいたい、以下の数値が正しいと言えるでしょう。正答数とスコアの関係です。
正答数、リスニング、リーディングの順で。
56 245 215
55 245 210
54 240 210
53 235 205
52 230 205
51 225 200
リーディングでは、4問の差が10点の差しか生み出していません。その近辺に受験者が多く存在するからです。TOEICのスコアは正答数に一定の数値を掛けることで算出できるものではありません。多くの人が存在する領域では「1問の価値」が低いです。ですから、同じ1問の差でも、領域しだいでは4問の差が30点くらいの差を生むこともあります。過去の実験によれば。
検証すれば簡単に判明しますが、なぜか、多くの「プロらしき人」は検証しません。もちろん受験者も。だから、間違った情報が本に載っていても、講師が適当な情報を言っても顧客は気づきません。不思議な市場です。
Comment
ずいぶん前に出た記事へのコメントですみません。ちょっとひっかかることがあるので(ガチンコ討論場外編第2ラウンドのためということもありますが)。上の記事に:
「どれだけ1位に近いか」という視点に立てば、多くの人が存在する領域では「1問の価値」が低いわけです。
とありますが、これって逆じゃないですか。多くの人が固まっている得点帯だと、正答1問でたくさんの人を追い越せるので、順位的にぐんと上がります。正答数による影響がないのは人がまばらな得点帯です。すごく低いまたは高い得点域では、人がまばらなので、1問の正答で追い越せる人の数が少なくなり、「どれだけ1位に近いか」という視点に立てば、「1問の価値」が低くなります。だから、正答率98%付近の高得点域では5〜6問間違えても得点に差が出ません(みんな990点)。また、昔、常野さんがやった「全部Aを選ぶ実験」では、180点という結果が出ています(おそらく正答率は25%以上、すなわち正答数50問以上のはずなので、一問の価値は平均3.6点以下になります)。
仮に正答数50で180点、正答数195で990点とすると、正答数の差は145、得点差は810です。一問平均5.59です。正答数50と195の間において、一問の価値の平均が5.59ということは、場所によっては一問あたり10点、またはそれ以上の差が出る得点域があるはずです。で、それがどこかというと、受験者が密集している得点帯のはずです(1問の正答で追い越せる人の数が多いので)。もし仮に正答数が増えても得点が増えない得点帯があるのであれば、そこには受験者がまばらであることを意味します。上の前田さんとロバート・ヒルキ氏の実験によるとリスニング、リーディングそれぞれ正答数50前後がそれに該当するというのは、どうも賦に落ちません。この得点域が受験者数の谷間になっている(人数が少ない)ということでしょうか。それとも、もう少し上の得点域(例えば平均点前後)の密集率が極端に高く、一問で30点前後の差が出ているということでしょうか。そうでないとつじつまが合いません。
「どれだけ1位に近いか」という視点に立てば、多くの人が存在する領域では「1問の価値」が低いわけです。
とありますが、これって逆じゃないですか。多くの人が固まっている得点帯だと、正答1問でたくさんの人を追い越せるので、順位的にぐんと上がります。正答数による影響がないのは人がまばらな得点帯です。すごく低いまたは高い得点域では、人がまばらなので、1問の正答で追い越せる人の数が少なくなり、「どれだけ1位に近いか」という視点に立てば、「1問の価値」が低くなります。だから、正答率98%付近の高得点域では5〜6問間違えても得点に差が出ません(みんな990点)。また、昔、常野さんがやった「全部Aを選ぶ実験」では、180点という結果が出ています(おそらく正答率は25%以上、すなわち正答数50問以上のはずなので、一問の価値は平均3.6点以下になります)。
仮に正答数50で180点、正答数195で990点とすると、正答数の差は145、得点差は810です。一問平均5.59です。正答数50と195の間において、一問の価値の平均が5.59ということは、場所によっては一問あたり10点、またはそれ以上の差が出る得点域があるはずです。で、それがどこかというと、受験者が密集している得点帯のはずです(1問の正答で追い越せる人の数が多いので)。もし仮に正答数が増えても得点が増えない得点帯があるのであれば、そこには受験者がまばらであることを意味します。上の前田さんとロバート・ヒルキ氏の実験によるとリスニング、リーディングそれぞれ正答数50前後がそれに該当するというのは、どうも賦に落ちません。この得点域が受験者数の谷間になっている(人数が少ない)ということでしょうか。それとも、もう少し上の得点域(例えば平均点前後)の密集率が極端に高く、一問で30点前後の差が出ているということでしょうか。そうでないとつじつまが合いません。
神崎正哉 | 2009/03/13 12:11 PM
(続き)
蛇足ですが「多くのプロらしき人は検証しません」について、一言。私も検証しない「プロらしき人」なので。検証しない理由は3つあります。
まず、検証して得られた結果をTOEICの受験指導に生かすことができない。あるテストでリスニング245点、リーディング210点の人がいたとして、その人に「あなたはリスニングは56〜57問正解、リーディングは54〜55問正解」と試験の結果が出た後に教えることはできます(たまたまその試験でその正答数の検証をしていれば)。でも、例えば470点を目標にしている人に、「正答数は57%以上必要」と精緻な数字で示すことは、あまり大きな意味を持たないと思います。私はおおざっぱな性格なので、「470点取るにはどのくらいの正答数が必要か」と聞かれたら、「5割弱くらいじゃない?」と答えます。でも正当数57%を目指して学習するのと、5割を目指して学習するのでは、実際のTOEIC対策において、ほとんど差はないと思います。(で、正答率5割を目指して学習する人って、自力で5割を目指すと思います。で、自力で5割正答できる実力が付けば、残りの半数の問題中、勘で当たる問題もあるので、実際のテストでは計6割以上正答が得られ、結局470点は越えられる。)
検証しないふたつ目の理由は職業倫理に反する(笑)からです。私は自分を受験のプロとして見ています。受験のプロなので問題は全力で解く、正答できる問題はすべて正答するというのが信条です。だからTOEICを受けるときはいつもガチで解きます。ガチで受けることによって見えることが多くあります。毎回、発見がある。そうして得られる知識の方が受験指導をする際、正答数と得点の検証より、私は役に立つと思っています。
3つ目の理由は、私は性格的に精緻な検証をするのに向かない(というかできない)からです。私はいつもTOEICを受ける際、全問正解を目指して受けます。でも実際、数問落としてしまします。正答率100%だったことは今までに2回しかありません。で、これは私の想像ですが、ある特定の正答率を得る、例えば「正答率50%にする」とかって、正答率100%を得るより難しいと思うんですよ。100%を狙う場合は、とにかく全力でやればいい。精神的に常にMaxな状態です。でも、ある特定の正答率を狙う場合って、その辺、on/offを繰り返すんじゃないですか。そうすると、どうも気が緩んでしまい、正解のつもりで選んでいるのに、落としてしまいそうな気がします。正解がBだとわかっていて、Dを塗っていることってないですか。私はたまにあります。ガチで解いていてこれなので、ガチじゃなかったらもっとそういうミスが増えると思います。なので、正答率50%を狙ったら、実際は45%くらいになりそうです。
とここまで書いて、ふと思ったのですが、前田さんはその辺り、大丈夫ですか。いや、こんなこと言うと失礼に当たるかも知れませんが、正答数52問ずつを狙って、でも実際選んだ正答は50問ずつだったということも可能性としてはありますよね。人間離れした正確さを持った、いわばサイボーグのような人ではないと、その点、確証は持てないのではないでしょうか。それから、ロバート・ヒルキ氏はサイボーグのような方でしょうか。ヒルキ氏と前田さんでそれぞれ正答数56%と52%を狙った検証をして、でも実際は53%と51%だったなんてことも起こり得ると思いますが、いかがでしょうか(ご無礼、お許しください)。
蛇足ですが「多くのプロらしき人は検証しません」について、一言。私も検証しない「プロらしき人」なので。検証しない理由は3つあります。
まず、検証して得られた結果をTOEICの受験指導に生かすことができない。あるテストでリスニング245点、リーディング210点の人がいたとして、その人に「あなたはリスニングは56〜57問正解、リーディングは54〜55問正解」と試験の結果が出た後に教えることはできます(たまたまその試験でその正答数の検証をしていれば)。でも、例えば470点を目標にしている人に、「正答数は57%以上必要」と精緻な数字で示すことは、あまり大きな意味を持たないと思います。私はおおざっぱな性格なので、「470点取るにはどのくらいの正答数が必要か」と聞かれたら、「5割弱くらいじゃない?」と答えます。でも正当数57%を目指して学習するのと、5割を目指して学習するのでは、実際のTOEIC対策において、ほとんど差はないと思います。(で、正答率5割を目指して学習する人って、自力で5割を目指すと思います。で、自力で5割正答できる実力が付けば、残りの半数の問題中、勘で当たる問題もあるので、実際のテストでは計6割以上正答が得られ、結局470点は越えられる。)
検証しないふたつ目の理由は職業倫理に反する(笑)からです。私は自分を受験のプロとして見ています。受験のプロなので問題は全力で解く、正答できる問題はすべて正答するというのが信条です。だからTOEICを受けるときはいつもガチで解きます。ガチで受けることによって見えることが多くあります。毎回、発見がある。そうして得られる知識の方が受験指導をする際、正答数と得点の検証より、私は役に立つと思っています。
3つ目の理由は、私は性格的に精緻な検証をするのに向かない(というかできない)からです。私はいつもTOEICを受ける際、全問正解を目指して受けます。でも実際、数問落としてしまします。正答率100%だったことは今までに2回しかありません。で、これは私の想像ですが、ある特定の正答率を得る、例えば「正答率50%にする」とかって、正答率100%を得るより難しいと思うんですよ。100%を狙う場合は、とにかく全力でやればいい。精神的に常にMaxな状態です。でも、ある特定の正答率を狙う場合って、その辺、on/offを繰り返すんじゃないですか。そうすると、どうも気が緩んでしまい、正解のつもりで選んでいるのに、落としてしまいそうな気がします。正解がBだとわかっていて、Dを塗っていることってないですか。私はたまにあります。ガチで解いていてこれなので、ガチじゃなかったらもっとそういうミスが増えると思います。なので、正答率50%を狙ったら、実際は45%くらいになりそうです。
とここまで書いて、ふと思ったのですが、前田さんはその辺り、大丈夫ですか。いや、こんなこと言うと失礼に当たるかも知れませんが、正答数52問ずつを狙って、でも実際選んだ正答は50問ずつだったということも可能性としてはありますよね。人間離れした正確さを持った、いわばサイボーグのような人ではないと、その点、確証は持てないのではないでしょうか。それから、ロバート・ヒルキ氏はサイボーグのような方でしょうか。ヒルキ氏と前田さんでそれぞれ正答数56%と52%を狙った検証をして、でも実際は53%と51%だったなんてことも起こり得ると思いますが、いかがでしょうか(ご無礼、お許しください)。
神崎正哉 | 2009/03/13 12:13 PM
神崎さん、コメントありがとうございました。1つ目について回答します。
僕の見解の根拠は2つの事実に基づいているだけです。まず、4問の差が15点と10点の差を生み出したのは(実験が正確だったとすると)事実ですので、その近辺の領域における1問の価値が相対的に低いことは確かです(1問5.59点より小さいですから)。そして、その近辺が密集エリアであることも事実と言えます。特にRセクションでは、195-215に存在する人の数が9,151人(全体の中で2番目に多い領域)で、前後を見てもベルカーブの頂点を形成するエリアです。Lセクションは、少しだけずれています。これら2つの事実を元に密集領域における、1問の差が生み出すスコアの差(1問の価値)が小さいと結論付けることができると思います。
<ここまでで主張を立証できていると思います。あとは、言葉遣いの問題かも知れません>
密集領域で「1問の正答で追い越せる人の数が多い」のは確かです。僕もそれについて考えましたので、1位にどれだけ近づいたか、を追い越した人数で見たわけではありません。代わりに、次のようなイメージをしました。人事評価で、多くの社員が100点満点のうち60点-65点を取るとして、その領域で1点の差が生み出す評価の差(A)と優秀社員しか取れない80点-85点の領域で1点の差が生み出す評価の差(B)を比べました。すると(A)は「追い越す人の絶対数は多いがドングリの背比べ」で、(B)は「追い越す人の絶対数は少ないが価値は高い」です。なぜなら「多くの人ができないタスクをやった」ことになり評価が高くても不思議ではありません(これをそのままTOEICに当てはめるつもりはありませんが、イメージを掴むうえでは有効な比喩だと思います)。なので、僕が書いた「1位に近い」とは人数の絶対数を指すのではなく、パーセンテージ、、うーん、表現しにくいです。より適切な表現があれば訂正します。
なお、正答率98%付近で5〜6問ミスしても皆が990になるという例はトータルスコアなので、この議論には関係ないはずです。また、「Lセクション96問正解+Rセクション100問正解」と「Lセクション100問正解+Rセクション96問正解」を比べれば前者が495+495の990で、後者が495+465の960(前後)になることは経験的に我々は知っていますよね。ということは、Rセクションでの正答数96問と100問の間には30点前後の差があることになります。人が少ない領域であることも事実です。ということは、なおさら僕が主張したことをサポートするのではないでしょうか。ま、そこまでハイスコアな状態を想定するつもりはありませんでしたが結果的に、こういう展開になったので書きました。
僕の見解の根拠は2つの事実に基づいているだけです。まず、4問の差が15点と10点の差を生み出したのは(実験が正確だったとすると)事実ですので、その近辺の領域における1問の価値が相対的に低いことは確かです(1問5.59点より小さいですから)。そして、その近辺が密集エリアであることも事実と言えます。特にRセクションでは、195-215に存在する人の数が9,151人(全体の中で2番目に多い領域)で、前後を見てもベルカーブの頂点を形成するエリアです。Lセクションは、少しだけずれています。これら2つの事実を元に密集領域における、1問の差が生み出すスコアの差(1問の価値)が小さいと結論付けることができると思います。
<ここまでで主張を立証できていると思います。あとは、言葉遣いの問題かも知れません>
密集領域で「1問の正答で追い越せる人の数が多い」のは確かです。僕もそれについて考えましたので、1位にどれだけ近づいたか、を追い越した人数で見たわけではありません。代わりに、次のようなイメージをしました。人事評価で、多くの社員が100点満点のうち60点-65点を取るとして、その領域で1点の差が生み出す評価の差(A)と優秀社員しか取れない80点-85点の領域で1点の差が生み出す評価の差(B)を比べました。すると(A)は「追い越す人の絶対数は多いがドングリの背比べ」で、(B)は「追い越す人の絶対数は少ないが価値は高い」です。なぜなら「多くの人ができないタスクをやった」ことになり評価が高くても不思議ではありません(これをそのままTOEICに当てはめるつもりはありませんが、イメージを掴むうえでは有効な比喩だと思います)。なので、僕が書いた「1位に近い」とは人数の絶対数を指すのではなく、パーセンテージ、、うーん、表現しにくいです。より適切な表現があれば訂正します。
なお、正答率98%付近で5〜6問ミスしても皆が990になるという例はトータルスコアなので、この議論には関係ないはずです。また、「Lセクション96問正解+Rセクション100問正解」と「Lセクション100問正解+Rセクション96問正解」を比べれば前者が495+495の990で、後者が495+465の960(前後)になることは経験的に我々は知っていますよね。ということは、Rセクションでの正答数96問と100問の間には30点前後の差があることになります。人が少ない領域であることも事実です。ということは、なおさら僕が主張したことをサポートするのではないでしょうか。ま、そこまでハイスコアな状態を想定するつもりはありませんでしたが結果的に、こういう展開になったので書きました。
前田 | 2009/03/13 2:30 PM
2つ目について。
これは2008年7月にTBRで話した、というか話す前にストップした議論でしたね、たしか。「検証しない理由」に異論はあっても反論はありません。僕のポイントは「事実を知らない状態」と「事実を知っている状態」を比べた場合に後者が指導者として優れている、という前提をもっていることで、得た知識をどう活かすかは別の議論です。後者を実現するために何パターンかの検証作業をやっています。ですから、その前提を持つかどうかで受験方法が変わるのも当然だと思いますから、2つ目の理由にも反論しません。異なる見解としては「大は小を兼ねるだろう」です。たとえば全問正解を目指す受験を年に8回する場合は、得られる知識パターンは1つです。内容は違っていても経験が1種類ですから。それを4回+4回にすれば少なくとも2種類の経験をすることになります。個人的には、そのメリットの方が(デメリットがあるにしても)指導者として有意義であるとみなしているだけです。
3つ目の理由について。経験的に言えば、正答率50%の方が100%より圧倒的に簡単です(比較すれば)。オンとオフを繰り返すことになりますが、それによる悪影響は感じません。全アイテムに中途半端に取り組むと悪影響がありそうですが、僕の場合は「この10問は正答する」と仮に決めたら、そこは100%全力です。「実は49%だった」という可能性がゼロだとは断言できません。その可能性がゼロという状態がどういう状態を指すか想像しにくいですが、数値化も証明もできないものの、非常に低い自信はあります。
これは神崎さんにとっても、そうだと思いますよ。100%というのはミスがない状態ですから、ほかのどの状態と比べても「より簡単」ではないと思います。
ただし、今は50%(52%)を例にしていますが、それが95%だった場合は、より難しくなります。50%の場合は「確信を持って60個正解してから10問のマークを消す」ことも可能ですが95%の場合は少なくとも95問を確信を持って正解する必要があるからです。
なお、検証の正確性に関する不安要素は「採点対象から除外されたアイテムを正答していた」場合です。これは立証できないことなので無視することにしています。ズレは小さいですし。こういう可能性も考慮して、1つの実験パターンを1回ではなく複数回数行うことにしています。
ロバートはサイボーグっぽくないですが、56%(など)を正答するには、前述したような潜在的なズレの要素はありますが、サイボーグっぽい必要はありません。
これは2008年7月にTBRで話した、というか話す前にストップした議論でしたね、たしか。「検証しない理由」に異論はあっても反論はありません。僕のポイントは「事実を知らない状態」と「事実を知っている状態」を比べた場合に後者が指導者として優れている、という前提をもっていることで、得た知識をどう活かすかは別の議論です。後者を実現するために何パターンかの検証作業をやっています。ですから、その前提を持つかどうかで受験方法が変わるのも当然だと思いますから、2つ目の理由にも反論しません。異なる見解としては「大は小を兼ねるだろう」です。たとえば全問正解を目指す受験を年に8回する場合は、得られる知識パターンは1つです。内容は違っていても経験が1種類ですから。それを4回+4回にすれば少なくとも2種類の経験をすることになります。個人的には、そのメリットの方が(デメリットがあるにしても)指導者として有意義であるとみなしているだけです。
3つ目の理由について。経験的に言えば、正答率50%の方が100%より圧倒的に簡単です(比較すれば)。オンとオフを繰り返すことになりますが、それによる悪影響は感じません。全アイテムに中途半端に取り組むと悪影響がありそうですが、僕の場合は「この10問は正答する」と仮に決めたら、そこは100%全力です。「実は49%だった」という可能性がゼロだとは断言できません。その可能性がゼロという状態がどういう状態を指すか想像しにくいですが、数値化も証明もできないものの、非常に低い自信はあります。
これは神崎さんにとっても、そうだと思いますよ。100%というのはミスがない状態ですから、ほかのどの状態と比べても「より簡単」ではないと思います。
ただし、今は50%(52%)を例にしていますが、それが95%だった場合は、より難しくなります。50%の場合は「確信を持って60個正解してから10問のマークを消す」ことも可能ですが95%の場合は少なくとも95問を確信を持って正解する必要があるからです。
なお、検証の正確性に関する不安要素は「採点対象から除外されたアイテムを正答していた」場合です。これは立証できないことなので無視することにしています。ズレは小さいですし。こういう可能性も考慮して、1つの実験パターンを1回ではなく複数回数行うことにしています。
ロバートはサイボーグっぽくないですが、56%(など)を正答するには、前述したような潜在的なズレの要素はありますが、サイボーグっぽい必要はありません。
前田 | 2009/03/13 3:17 PM
「どれだけ1位に近いか」に代える表現をボーと考えていて、イメージはあるのですが文字になりませんでした。簡単に誤解を招きそうなので、とりあえずトルツメにしておきました。
前田 | 2009/03/14 10:01 AM
TOEICは、norm-referenced testなので、percentile rankを基準に得点を算出している、すなわち得点分布上の相対的な位置によって得点が決まる、というのが私の理解です。だから密集地では1問差で得点の差が大きく、過疎地ではそれが少なく出ると。次のリンクはWikipediaのpercentile rankのページです。http://en.wikipedia.org/wiki/Percentile_rank
ページの右側にベルカーブのグラフがあるのでクリックしてみてください。グラフの下にいろいろ数字が書いてありますが、下からふたつ目がPercentilesです。左から1, 5, 10, 20, 30…80, 90, 95, 99となっています。1と5の間は広く、5と10、10と20というように中心近くになるにつれて間隔が狭くなる。そして、50を越えると広がり出す。Percentileの数字をスコア、2つのスコア間の間隔を正答数として、TOEICのスコアも基本的にこのような分布になっているのではないでしょうか。私はそう捉えています。もちろん実際のTOEICでは、これほどきれいなベルカーブになっておらず、山自体ももっと低くなだらかなような気がしますが、基本的にはこのようなモデルに基づいてスコアを算出しているはずです。
リーディングの得点に関してですが、回によって正答数97〜98問で495が取れるときがあります。96問で465点のときって、100問正解じゃないと495にならないときでしたか。それとも正答数97〜98問まで495で、96問になるといきなり30点下がっていましたか。
まあ、いずれにしても正答数96で465点というのは低いですよね。最低でも475点は出ないと、上のpercentile rankのシステムにはそぐわない。その得点域の受験者はまばらなはずなので。
もしかして、TOEICスコアって、percentile rankに基づいてない?いや、そんなことはないと思いますが、どうなんだろう。percentile rankを使わないnorm-referenced testって、テスト理論の基本に反する気がしますが。でも、これって、調べれば簡単にわかりますよ。スコア表に得点と一緒にpercentile rankが出ているので、ある程度、データを集めれば、相関関係があるかどうかわかります。得点域によって、percentileの差が得点差として表れない(またはその逆で大きく出る)区域があるのでしょうか。まあ、上の記事中の前田さんの実験結果によれば、percentile rankの差がスコアに反映されないということになりますが。これは、調査する価値があると思います。
ページの右側にベルカーブのグラフがあるのでクリックしてみてください。グラフの下にいろいろ数字が書いてありますが、下からふたつ目がPercentilesです。左から1, 5, 10, 20, 30…80, 90, 95, 99となっています。1と5の間は広く、5と10、10と20というように中心近くになるにつれて間隔が狭くなる。そして、50を越えると広がり出す。Percentileの数字をスコア、2つのスコア間の間隔を正答数として、TOEICのスコアも基本的にこのような分布になっているのではないでしょうか。私はそう捉えています。もちろん実際のTOEICでは、これほどきれいなベルカーブになっておらず、山自体ももっと低くなだらかなような気がしますが、基本的にはこのようなモデルに基づいてスコアを算出しているはずです。
リーディングの得点に関してですが、回によって正答数97〜98問で495が取れるときがあります。96問で465点のときって、100問正解じゃないと495にならないときでしたか。それとも正答数97〜98問まで495で、96問になるといきなり30点下がっていましたか。
まあ、いずれにしても正答数96で465点というのは低いですよね。最低でも475点は出ないと、上のpercentile rankのシステムにはそぐわない。その得点域の受験者はまばらなはずなので。
もしかして、TOEICスコアって、percentile rankに基づいてない?いや、そんなことはないと思いますが、どうなんだろう。percentile rankを使わないnorm-referenced testって、テスト理論の基本に反する気がしますが。でも、これって、調べれば簡単にわかりますよ。スコア表に得点と一緒にpercentile rankが出ているので、ある程度、データを集めれば、相関関係があるかどうかわかります。得点域によって、percentileの差が得点差として表れない(またはその逆で大きく出る)区域があるのでしょうか。まあ、上の記事中の前田さんの実験結果によれば、percentile rankの差がスコアに反映されないということになりますが。これは、調査する価値があると思います。
神崎正哉 | 2009/03/14 6:44 PM
前田さんのコメント中の「内容は違っていても経験が1種類ですから。それを4回+4回にすれば少なくとも2種類の経験をすることになります」に関してですが、普通の受験者って、できるだけ多く正解を選ぼうとするじゃないですか。だから、例え私が57%の正答率で470点を取ったとしても、それは、真剣に解いて470点を取った人と同じ経験をしてることにはなりません。わざと間違えているわけだから。そういった意味で、普通の受験者の立場に立ったTOEICの受け方は全問正解を目指して解くことだと私は考えています。この辺、前田さんと考え方が違うところですよね。視点が違うというか。それはそれでいいと思います。
「100%を目指すより、50%を目指すほうが易しい」という点に関しては、前田さんがそう言うのであれば、私は反論できません。私は実際、50%を目指してやったことはなく、「そっちの方が難しそうだ」というのは、あくまでも想像の話なので。
あと、こういうこと言うとまた「プロらしくない」って言われちゃうかもしれませんが、私、TOEICを受けるの、好きなんですよ。なんというか、あの緊張感と終わった後の適度な疲労感が。なんかマラソン大会と共通する部分があります。ちょっとマゾ的な楽しみというか。それからテストの後、「あの問題の答え、何にした?」とか聞き合って、「あー、間違えた!」とか「やったー、合ってた!」とか言って盛り上がるのが楽しくて。で、1ヶ月後、結果が出て、またそれで一喜一憂するのも楽しみのうち。それって、全力で解かないと味わえない楽しみなので、やはり私は明日もガチで解きます。
「100%を目指すより、50%を目指すほうが易しい」という点に関しては、前田さんがそう言うのであれば、私は反論できません。私は実際、50%を目指してやったことはなく、「そっちの方が難しそうだ」というのは、あくまでも想像の話なので。
あと、こういうこと言うとまた「プロらしくない」って言われちゃうかもしれませんが、私、TOEICを受けるの、好きなんですよ。なんというか、あの緊張感と終わった後の適度な疲労感が。なんかマラソン大会と共通する部分があります。ちょっとマゾ的な楽しみというか。それからテストの後、「あの問題の答え、何にした?」とか聞き合って、「あー、間違えた!」とか「やったー、合ってた!」とか言って盛り上がるのが楽しくて。で、1ヶ月後、結果が出て、またそれで一喜一憂するのも楽しみのうち。それって、全力で解かないと味わえない楽しみなので、やはり私は明日もガチで解きます。
神崎正哉 | 2009/03/14 7:14 PM
「得点分布上の相対的な位置によって得点が決まる」のは事実ですが、その帰結として「密集地では1問差で得点の差が大きく、過疎地ではそれが少なく出る」という解釈が正しくないようです。僕も統計(?)の知識が少ないので、正しい(専門的な)ルールを知らない状態でした。なので、データを集めて帰納的にアプローチしはじめたのです。事実に基づいて帰納的に言えば、密集地帯では1問の差が生み出すスコアの差が相対的に小さいことは、ほとんど間違いないと思います。なので、じゃぁ、どういう理屈があればそうなるのかを考えることが正解への近道だと思います。文字にならないレベルでは自分なりにわかっているつもりですが書きにくいです。
中心地のスコアを先に決めて、左右に分散させていく、という順番でスコアが計算されているはずです。「中心地点から遠くなると密集具合が薄れ、1問の価値が上がる」と書くことはできますが、その背景にあるのは標準偏差です(この後で少し触れている68パーセントの話です)。
話題は少しずれますが、LとRを比較した場合にベルカーブの頂点が「より右側」にあるのがLで、Rは「より左側」です。TOEICのスコアはそこ(平均あたり)から左右に一定の幅の中に全受験者の68パーセント(でしたっけ?)が存在するようにスコアを計算します。なので、頂点が「より右」にあるLでは(Rと比べると)990が頂点に近いので数問をミスをしても990が出てしまうんですね。仮に上限が990じゃないとすれば、96問正解した人が495を取ったとして、100問正解した人は515点くらいの得点力があったことになりますね。神崎さんも受験したことのあるSSTで言えば8と9の間には差があるけれど、9を取った2人の間には差があってもスコアとしては表現できないのと同じですね。
「正答数97〜98問まで495で、96問になるといきなり30点」下がることはありません。僕が知っている範囲では1問の差が生んだスコアの差は10が最高です。ま、よほど変な現象がおきれば理論的にはありえるんでしょうが。
なお、「Rセクションでの正答数96問と100問の間には30点前後の差」があることがあると書きましたが、1つの実例として僕が持っているのは97問で465でした。同じテストで96問正答のスコアは持っていません。神崎さんは100問正解の495でした。
100問495←神崎さん
99問485
98問475←僕
97問465
このエリアは明らかに過疎地帯ですね。同じテストで正答数50〜55くらいがベルカーブの頂点、つまり密集地帯です。そこでは1問の差が5点または0点の差しか生んでいないはずです(体が1つなので、そのデータは持っていませんが経験的にはそう言えそうです)。同時に、平均より低いエリアの過疎地帯でも1問の差が生み出すスコアの差は相対的には大きいはずです(2人以上で検証したことがないので確かなこと言えませんが)。
参考:http://toeic-info.jugem.jp/?eid=200
中心地のスコアを先に決めて、左右に分散させていく、という順番でスコアが計算されているはずです。「中心地点から遠くなると密集具合が薄れ、1問の価値が上がる」と書くことはできますが、その背景にあるのは標準偏差です(この後で少し触れている68パーセントの話です)。
話題は少しずれますが、LとRを比較した場合にベルカーブの頂点が「より右側」にあるのがLで、Rは「より左側」です。TOEICのスコアはそこ(平均あたり)から左右に一定の幅の中に全受験者の68パーセント(でしたっけ?)が存在するようにスコアを計算します。なので、頂点が「より右」にあるLでは(Rと比べると)990が頂点に近いので数問をミスをしても990が出てしまうんですね。仮に上限が990じゃないとすれば、96問正解した人が495を取ったとして、100問正解した人は515点くらいの得点力があったことになりますね。神崎さんも受験したことのあるSSTで言えば8と9の間には差があるけれど、9を取った2人の間には差があってもスコアとしては表現できないのと同じですね。
「正答数97〜98問まで495で、96問になるといきなり30点」下がることはありません。僕が知っている範囲では1問の差が生んだスコアの差は10が最高です。ま、よほど変な現象がおきれば理論的にはありえるんでしょうが。
なお、「Rセクションでの正答数96問と100問の間には30点前後の差」があることがあると書きましたが、1つの実例として僕が持っているのは97問で465でした。同じテストで96問正答のスコアは持っていません。神崎さんは100問正解の495でした。
100問495←神崎さん
99問485
98問475←僕
97問465
このエリアは明らかに過疎地帯ですね。同じテストで正答数50〜55くらいがベルカーブの頂点、つまり密集地帯です。そこでは1問の差が5点または0点の差しか生んでいないはずです(体が1つなので、そのデータは持っていませんが経験的にはそう言えそうです)。同時に、平均より低いエリアの過疎地帯でも1問の差が生み出すスコアの差は相対的には大きいはずです(2人以上で検証したことがないので確かなこと言えませんが)。
参考:http://toeic-info.jugem.jp/?eid=200
前田 | 2009/03/15 2:34 AM
論争するトピックではないと思いますので、1つだけ視点を加えて終わりにしますね。
僕と神崎さんの大きな違いは、あえて言うなら「何のプロとして振る舞いたいか、受験するのか」ですよね。神崎さんは自身がおっしゃるように受験プロだと(僕は)強く思います。が、僕は受験のプロだと自覚していませんし目指していません。
これは互いの仕事(活動)の領域が異なることが原因だと思われます。神崎さんの職業は(以前の対談でおっしゃていたように)ブロガーです。いえ、それは冗談ですが、執筆がメインですよね、きっと。そしてレッスンを提供する立場でもあります。「俺は昔、こうやって努力した。今も続けている。君たちもできる。ちゃんと教えるから一緒にがんばろうぜ。次のテストでも990取ってみせる。学んだことを還元するからついてきなよ」という、圧倒的に実力のあるESSクラブの先輩に例えることができると思います。もちろん、その力を使ってより多くの学習者に知識を提供され、支持を得ていると心から思っています。
神崎さんからALCブログでコメントをもらった日より、ずっと前からTBBを知っていました。たぶん、2004年くらいからだと思います。そのころ、自分の人生を俯瞰してポジションを決めるころだったんですが、自分自身が受験のプロを目指しても、神崎さんを含めて先行している人々と同じ土俵に立っても前頭3枚目か、よくて小結にしかなれないと感じたのです。関脇や大関にはなれない。
なので、僕は自分をコンサルタントみたいな位置づけにしました。2005年くらいからです。対象は「学習者」「教員、講師」「編集者」「ネイティブスピーカー」ですのでベクトルの向きが違いますよね。TOEICに関して困っているのは学習者のほかに、先生や編集者も含まれます。その人々の手助けをするには複眼思考で受験することが必須で、そうしているうちに得られるものが増え、一部を本に書いたりレクチャーしたりすることで学習者にも還元します。ついでに言えば、このブログも学習者のためだけに書いているわけではありません。コンテンツを見れば明らかですよね。
なので、受験目的や楽しみ方も僕と神崎さんでは異なることが自然です。何のプロを目指すかによっては調査受験は明らかに不要です。ただ、経験的に言えば、自らが生徒や受講者から質問を受ける立場にある人や、正しい情報を文字にして世の中に伝える立場にある編集者は、様々な調査をすることで「本人が欲しい情報」を得ることができるのは間違いないです(正答数とスコアの関係は、ごく一部の実験例でしかありません。パート6で使われるフォントって4文書同じだっけ?と編集者が疑問に思ったら受験しないと解決できません。そういう悩みって山ほどあります。それを解決することも僕の役割の1つです)。調査を目的に受験すれば指導者であれ編集者であれアイテムライターであれ「自分が欲しい情報」を得られますから「自らの存在意義や目的に照らし合わせて受験してください」という意図を込めていました。「プロらしき人」というのは指導者に限ったことではありません。
僕と神崎さんの大きな違いは、あえて言うなら「何のプロとして振る舞いたいか、受験するのか」ですよね。神崎さんは自身がおっしゃるように受験プロだと(僕は)強く思います。が、僕は受験のプロだと自覚していませんし目指していません。
これは互いの仕事(活動)の領域が異なることが原因だと思われます。神崎さんの職業は(以前の対談でおっしゃていたように)ブロガーです。いえ、それは冗談ですが、執筆がメインですよね、きっと。そしてレッスンを提供する立場でもあります。「俺は昔、こうやって努力した。今も続けている。君たちもできる。ちゃんと教えるから一緒にがんばろうぜ。次のテストでも990取ってみせる。学んだことを還元するからついてきなよ」という、圧倒的に実力のあるESSクラブの先輩に例えることができると思います。もちろん、その力を使ってより多くの学習者に知識を提供され、支持を得ていると心から思っています。
神崎さんからALCブログでコメントをもらった日より、ずっと前からTBBを知っていました。たぶん、2004年くらいからだと思います。そのころ、自分の人生を俯瞰してポジションを決めるころだったんですが、自分自身が受験のプロを目指しても、神崎さんを含めて先行している人々と同じ土俵に立っても前頭3枚目か、よくて小結にしかなれないと感じたのです。関脇や大関にはなれない。
なので、僕は自分をコンサルタントみたいな位置づけにしました。2005年くらいからです。対象は「学習者」「教員、講師」「編集者」「ネイティブスピーカー」ですのでベクトルの向きが違いますよね。TOEICに関して困っているのは学習者のほかに、先生や編集者も含まれます。その人々の手助けをするには複眼思考で受験することが必須で、そうしているうちに得られるものが増え、一部を本に書いたりレクチャーしたりすることで学習者にも還元します。ついでに言えば、このブログも学習者のためだけに書いているわけではありません。コンテンツを見れば明らかですよね。
なので、受験目的や楽しみ方も僕と神崎さんでは異なることが自然です。何のプロを目指すかによっては調査受験は明らかに不要です。ただ、経験的に言えば、自らが生徒や受講者から質問を受ける立場にある人や、正しい情報を文字にして世の中に伝える立場にある編集者は、様々な調査をすることで「本人が欲しい情報」を得ることができるのは間違いないです(正答数とスコアの関係は、ごく一部の実験例でしかありません。パート6で使われるフォントって4文書同じだっけ?と編集者が疑問に思ったら受験しないと解決できません。そういう悩みって山ほどあります。それを解決することも僕の役割の1つです)。調査を目的に受験すれば指導者であれ編集者であれアイテムライターであれ「自分が欲しい情報」を得られますから「自らの存在意義や目的に照らし合わせて受験してください」という意図を込めていました。「プロらしき人」というのは指導者に限ったことではありません。
前田 | 2009/03/15 3:39 AM
2004年にはTBBは存在してませんでしたか(苦笑)
前田 | 2009/03/15 3:42 AM
そうか、偏差値か!なぞが解けました!
すみません、前田さんの説明であってます。私の間違いでした。ちょっと今からTOEIC受けに行くので、詳しく書けないのですが、今晩か明日の晩、時間があったら、私がどういう結論に達したかご説明します。
すみません、前田さんの説明であってます。私の間違いでした。ちょっと今からTOEIC受けに行くので、詳しく書けないのですが、今晩か明日の晩、時間があったら、私がどういう結論に達したかご説明します。
神崎正哉 | 2009/03/15 11:48 AM
え、「偏差値」とは書きませんでしたよ?ま、いいや。
スコアは5点きざみなので、正答数の種類が101なのに対してスコアの種類は98ですよね。しかもマーク式なので正答数が25未満の人は少ない。こういう背景のもとで標準偏差の68パーセントルールを守ろうとすると無理が生じる、というか何と言うか。ベルカーブの左右から中央に向かって、ぎゅっと圧縮するんだと思うんです。うまく言葉にできません。
スコアは5点きざみなので、正答数の種類が101なのに対してスコアの種類は98ですよね。しかもマーク式なので正答数が25未満の人は少ない。こういう背景のもとで標準偏差の68パーセントルールを守ろうとすると無理が生じる、というか何と言うか。ベルカーブの左右から中央に向かって、ぎゅっと圧縮するんだと思うんです。うまく言葉にできません。
前田 | 2009/03/15 4:40 PM
前田さん
昨日はTBRをお聞きいただき、ありがとうございました(コメントも感謝です)。
そうそう、正答数の種類とスコアの種類のずれですよね、正答数が違うのに同じ点になったり、正答数1問差でスコアに5点以上の差が出たりするのって。
前田さんのコメント中の「標準偏差」という言葉を見て、「偏差値」によってスコアが決まることを思い出しました。偏差値であれば、「1問で追い抜く人数」(私の一番初めのコメント)はスコアに関係ありません。つまり、こういうことです。理想的なベルカーブ(教科書的な左右対称の、上に私が貼ったWikipediaのリンク先にあるような分布図、今はTOEICに当てはめるために横軸は正答数、縦軸は人数として考えてください)だと、平均正答数の位置にベルカーブの頂点が来て(0S)、そこから標準偏差プラスマイナス1(+1Sと-1S)の間にそれぞれ総受験者の34%がくる。その先、上下標準偏差1(+2Sと-2S)の間にそれぞれ14%、さらに標準偏差もうひとつ分いったところ(+3Sと-3S)までの間にそれぞれ2%がくる(小数点以下四捨五入)。このベルカーブ上では、中心(平均点)が偏差値50、+1Sが偏差値60、+2Sが偏差値70、+3Sが偏差値80、-1Sが偏差値40、-2Sが偏差値30、-3Sが偏差値20になります。偏差値を10上げるために必要な「追い抜く人数」は中心から遠い20から30と70から80では全体の2%でいいのに、中心付近の40から50と50から60では全体の34%に相当する人数が必要です。だから中心付近ではたくさん追い抜かないと偏差値が上がらない。中心から遠い地域では少し抜けばすぐ上がる。で、TOEICスコアは偏差値によって決まるわけだから、「偏差値」を「TOEICスコア」に置き換えても同じことが言えるわけで、前田さんの記事中の説明が正しいことがわかりました。いちゃもんつけてすみません。
ちなみに上述のような理想的なベルカーブでは、正答数の差が偏差値の差(すなわちスコアの差)になってきれいに(平均的に)表れます。でも、前田さんも書いているように実際のTOEICでは、きれいなベルカーブになっていない。おそらく、平均正答数は真ん中より右、そしてベルカーブの頂点は平均正答数のさらに右に来ているのではないでしょうか。そう考えると、平均正答数の右側で34%をカバーするのに必要な正答数の種類は左側34%をカバーするに必要な種類より大分少なくなるのではないでしょうか。逆に左側34%(0Sと-1Sの間)では、スコアの種類に対して正答数の種類が多くなる。すなわち、正答数に対して割り当てられるスコアの数が足りないので、正答数の差がスコアの差になって表れない部分が出る(右側では正答数に対して割り当てられるスコアの数に余裕があるので、1問違いで10点やそれ以上の差が出る部分がある)。というように考えて、自分の中では合点がいってるんですが、この解釈で合ってますかね。
あと、これは私の予想なんですが、TOEICでは、偏差値70を最高点、偏差値30を最低点にしていると思います。最高点のpercentile rankが98%のことがあるので。+2Sより右側と-2Sより左側には点数の割り当てはないのでは(あっても最低点5と最高点495のみ)?
昨日はTBRをお聞きいただき、ありがとうございました(コメントも感謝です)。
そうそう、正答数の種類とスコアの種類のずれですよね、正答数が違うのに同じ点になったり、正答数1問差でスコアに5点以上の差が出たりするのって。
前田さんのコメント中の「標準偏差」という言葉を見て、「偏差値」によってスコアが決まることを思い出しました。偏差値であれば、「1問で追い抜く人数」(私の一番初めのコメント)はスコアに関係ありません。つまり、こういうことです。理想的なベルカーブ(教科書的な左右対称の、上に私が貼ったWikipediaのリンク先にあるような分布図、今はTOEICに当てはめるために横軸は正答数、縦軸は人数として考えてください)だと、平均正答数の位置にベルカーブの頂点が来て(0S)、そこから標準偏差プラスマイナス1(+1Sと-1S)の間にそれぞれ総受験者の34%がくる。その先、上下標準偏差1(+2Sと-2S)の間にそれぞれ14%、さらに標準偏差もうひとつ分いったところ(+3Sと-3S)までの間にそれぞれ2%がくる(小数点以下四捨五入)。このベルカーブ上では、中心(平均点)が偏差値50、+1Sが偏差値60、+2Sが偏差値70、+3Sが偏差値80、-1Sが偏差値40、-2Sが偏差値30、-3Sが偏差値20になります。偏差値を10上げるために必要な「追い抜く人数」は中心から遠い20から30と70から80では全体の2%でいいのに、中心付近の40から50と50から60では全体の34%に相当する人数が必要です。だから中心付近ではたくさん追い抜かないと偏差値が上がらない。中心から遠い地域では少し抜けばすぐ上がる。で、TOEICスコアは偏差値によって決まるわけだから、「偏差値」を「TOEICスコア」に置き換えても同じことが言えるわけで、前田さんの記事中の説明が正しいことがわかりました。いちゃもんつけてすみません。
ちなみに上述のような理想的なベルカーブでは、正答数の差が偏差値の差(すなわちスコアの差)になってきれいに(平均的に)表れます。でも、前田さんも書いているように実際のTOEICでは、きれいなベルカーブになっていない。おそらく、平均正答数は真ん中より右、そしてベルカーブの頂点は平均正答数のさらに右に来ているのではないでしょうか。そう考えると、平均正答数の右側で34%をカバーするのに必要な正答数の種類は左側34%をカバーするに必要な種類より大分少なくなるのではないでしょうか。逆に左側34%(0Sと-1Sの間)では、スコアの種類に対して正答数の種類が多くなる。すなわち、正答数に対して割り当てられるスコアの数が足りないので、正答数の差がスコアの差になって表れない部分が出る(右側では正答数に対して割り当てられるスコアの数に余裕があるので、1問違いで10点やそれ以上の差が出る部分がある)。というように考えて、自分の中では合点がいってるんですが、この解釈で合ってますかね。
あと、これは私の予想なんですが、TOEICでは、偏差値70を最高点、偏差値30を最低点にしていると思います。最高点のpercentile rankが98%のことがあるので。+2Sより右側と-2Sより左側には点数の割り当てはないのでは(あっても最低点5と最高点495のみ)?
神崎正哉 | 2009/03/16 11:06 PM
あのTBRの中で神崎さんがこのブログにある写真と同じものが出題されたとおっしゃった際に、どの写真か気づかず自分で探してしまいました(苦笑)
正答数とスコアの関係:
スコアの種類と正答数の種類が異なること、および領域による受験者数が異なることをあわせて自分なりに感覚的な答えは持っていました(が、リサーチ不足により文字にできていませんでした)。今回の説明を読んですっきり理解できたと思います。
後半:TOEICのベルカーブは左右対称になっていないので頂点の右と左で1問の正答数の差が生み出すスコアの差も異なることは容易に想像できますね。最高点のpercentile rankが98%の場合がある、とのことですが、それは1回のテストにおけるrankではなく、たしか2年間を対象にしてますよね。今をY年度として、(Y-2)年度と(Y-1)年度の2年間です。なので、ん?何を書こうとしていたか忘れました。(苦笑)
+2Sは98%ぴったりですよね。であれば、偏差値70が最高ではないと思いますよ。なぜなら、どちらのセクションでも(特にRでは)50点分くらい不正解を選んでも上位2%くらいには位置するからです(今データは見ていませんが)。よって、+2Sより右にいる人の中で、特に右にいる人は偏差値でいえば70より大きいはずです。
ところで、2004年にはTBBは存在していませんでしたよね(笑)
正答数とスコアの関係:
スコアの種類と正答数の種類が異なること、および領域による受験者数が異なることをあわせて自分なりに感覚的な答えは持っていました(が、リサーチ不足により文字にできていませんでした)。今回の説明を読んですっきり理解できたと思います。
後半:TOEICのベルカーブは左右対称になっていないので頂点の右と左で1問の正答数の差が生み出すスコアの差も異なることは容易に想像できますね。最高点のpercentile rankが98%の場合がある、とのことですが、それは1回のテストにおけるrankではなく、たしか2年間を対象にしてますよね。今をY年度として、(Y-2)年度と(Y-1)年度の2年間です。なので、ん?何を書こうとしていたか忘れました。(苦笑)
+2Sは98%ぴったりですよね。であれば、偏差値70が最高ではないと思いますよ。なぜなら、どちらのセクションでも(特にRでは)50点分くらい不正解を選んでも上位2%くらいには位置するからです(今データは見ていませんが)。よって、+2Sより右にいる人の中で、特に右にいる人は偏差値でいえば70より大きいはずです。
ところで、2004年にはTBBは存在していませんでしたよね(笑)
前田 | 2009/03/17 2:17 PM
前田さん
ええ、TBBは2005年9月1日(厳密には2日早朝)から始めたので、2004年には存在していません(笑)記念すべき、第1回目の記事はこちら:http://toeicblog.blog22.fc2.com/blog-entry-2.html
ラドの宣伝を一生懸命しているところが痛い。
>偏差値70が最高ではないと思いますよ。なぜなら、どちらのセクションでも(特にRでは)50点分くらい不正解を選んでも上位2%くらいには位置するからです
なるほど。TOEIC運営委員会のサイトで裏づけ資料見つけました:http://www.toeic.or.jp/toeic/data/data_dist01.html?score_id=0000000048
リスニングは445〜でpercentile rankが97.7なんですね。そうすると偏差値の右端は77くらいで切ってるのかな。ちなみにペーパー版TOEFLは67.7で切っていました。
話は変わりますが、新TOEICになってから、満点が出やすくなったようですが、偏差値のcutting pointが少し左にずれたような気がします。旧TOEICの頃って最高点が985や980の回がありましたが、新TOEICになってからはありません(問題の難易度が上がったということも影響しているかも知れませんが)。
あと、http://www.toeic.or.jp/toeic/data/data_dist01.html?score_id=0000000048を見て気がついたんですが、TOEICの得点分布って、本当にすごくゆがんだベルカーブ(というかもう「ベルカーブ」と呼べないようないびつな曲線)ですね。頂点が2つあるところが面白い。リスニングの得点は270〜が10,631人、295〜が8,807人、320〜が11,348人になっています。これは調整するのが大変でしょう。
あと、この表はスコア分布で、正答数分布ではないのですが、それでもここまで右によっているとは。
この回は平均点が約320点で、その上下にほぼ同数の人数がいます。しかし「スコアの種類」に関しては平均点以下の範囲が平均点以上の倍です。人数はほぼ同じなので、平均点の上と下で密集度が倍違うことになります。
このことから推測して、正答数の種類も平均以下のほうか平均以上よりかなり多いはずです。言い換えれば平均以下の範囲はなだらかな山(過疎地)、平均以上では急な山(密集地)になっている。過疎地では、正答数の差に対する偏差値の差(すなわちTOEICスコアの差)が少なくなります。ということは、正答数が1つ動いてもスコアが変わらない部分が出やすくなるはずです。それに対して密集地では正答数の差に対する偏差値の差(スコアの差)が大きく、正答数が1つ違うと10点またはそれ以上の差が生じる部分があるのではないでしょうか(なだらかな山では正答数あたりの偏差値の差が少ない、急な山ではそれが大きい)。上の記事中の前田さんの実験では、「57%の正答率で470点を取る」というものでした。これは平均点の左側の「なだらかな山(過疎地)」の部分です。「急な山(密集地)」の部分で同様の実験をすると、正答1問の差でスコア10点の差が出る部分があるのではないでしょうか。例えば600点前後を狙って同じような実験(正答率は70%程度でしょうか)をすると、正答数に差があればスコアの重複はなく、1問差で10点差が出るところもあるのでは?
ええ、TBBは2005年9月1日(厳密には2日早朝)から始めたので、2004年には存在していません(笑)記念すべき、第1回目の記事はこちら:http://toeicblog.blog22.fc2.com/blog-entry-2.html
ラドの宣伝を一生懸命しているところが痛い。
>偏差値70が最高ではないと思いますよ。なぜなら、どちらのセクションでも(特にRでは)50点分くらい不正解を選んでも上位2%くらいには位置するからです
なるほど。TOEIC運営委員会のサイトで裏づけ資料見つけました:http://www.toeic.or.jp/toeic/data/data_dist01.html?score_id=0000000048
リスニングは445〜でpercentile rankが97.7なんですね。そうすると偏差値の右端は77くらいで切ってるのかな。ちなみにペーパー版TOEFLは67.7で切っていました。
話は変わりますが、新TOEICになってから、満点が出やすくなったようですが、偏差値のcutting pointが少し左にずれたような気がします。旧TOEICの頃って最高点が985や980の回がありましたが、新TOEICになってからはありません(問題の難易度が上がったということも影響しているかも知れませんが)。
あと、http://www.toeic.or.jp/toeic/data/data_dist01.html?score_id=0000000048を見て気がついたんですが、TOEICの得点分布って、本当にすごくゆがんだベルカーブ(というかもう「ベルカーブ」と呼べないようないびつな曲線)ですね。頂点が2つあるところが面白い。リスニングの得点は270〜が10,631人、295〜が8,807人、320〜が11,348人になっています。これは調整するのが大変でしょう。
あと、この表はスコア分布で、正答数分布ではないのですが、それでもここまで右によっているとは。
この回は平均点が約320点で、その上下にほぼ同数の人数がいます。しかし「スコアの種類」に関しては平均点以下の範囲が平均点以上の倍です。人数はほぼ同じなので、平均点の上と下で密集度が倍違うことになります。
このことから推測して、正答数の種類も平均以下のほうか平均以上よりかなり多いはずです。言い換えれば平均以下の範囲はなだらかな山(過疎地)、平均以上では急な山(密集地)になっている。過疎地では、正答数の差に対する偏差値の差(すなわちTOEICスコアの差)が少なくなります。ということは、正答数が1つ動いてもスコアが変わらない部分が出やすくなるはずです。それに対して密集地では正答数の差に対する偏差値の差(スコアの差)が大きく、正答数が1つ違うと10点またはそれ以上の差が生じる部分があるのではないでしょうか(なだらかな山では正答数あたりの偏差値の差が少ない、急な山ではそれが大きい)。上の記事中の前田さんの実験では、「57%の正答率で470点を取る」というものでした。これは平均点の左側の「なだらかな山(過疎地)」の部分です。「急な山(密集地)」の部分で同様の実験をすると、正答1問の差でスコア10点の差が出る部分があるのではないでしょうか。例えば600点前後を狙って同じような実験(正答率は70%程度でしょうか)をすると、正答数に差があればスコアの重複はなく、1問差で10点差が出るところもあるのでは?
神崎正哉 | 2009/03/17 11:07 PM
たしかに平均エリアの左と右を比べた場合の密集具合が異なるということは、1問の正答数の差が生み出すスコアの差が異なることが自然ですね。それを証明するには同じテストで4つのサンプルが必要(平均より右の2つと左の2つ)なので検証できません(4人必要なので)。
Rセクションの450〜495において1問の差が生み出すスコアの差が10あったことは証明しましたが、15だったことはない、というか調べていませんので、領域によってはあるのかも知れませんね。
57%の正答率が「なだらかな山(過疎地)」ですか。密集地帯ではないでしょうか(平均点ぴったりではないものの、ほぼ平均に近いですよね)。
Rセクションの450〜495において1問の差が生み出すスコアの差が10あったことは証明しましたが、15だったことはない、というか調べていませんので、領域によってはあるのかも知れませんね。
57%の正答率が「なだらかな山(過疎地)」ですか。密集地帯ではないでしょうか(平均点ぴったりではないものの、ほぼ平均に近いですよね)。
前田 | 2009/03/19 9:46 AM
すみません、私の言葉の使い方が悪かったです。確かに前田さんの言うように、57%付近は全体的に見て、「密集地」です。で、私が使った「過疎地」と言葉が間違いでした。私が伝えたかったのは「平均点を境にした右側の対照部分より密集度が低い」ということです。例えば、正規分布している場合、-1Sと+1Sは密集度が同じです。しかし、TOEICの場合、右に偏っているので、+1Sの密集度のほうが-1Sより高くなる。すなわち、-1Sでは、密集度が(+1Sと比べ)低い=山がなだらか、ということを言いたかったわけです。57%はおそらく-1Sより中心よりですが、平均点より左です。で、同じ距離だけ平均点の右側へ行った部分と比べ、密集度は低くなっているはずです。正規分布している場合、山が高い(密集している)と1問あたりで動く偏差値の幅が大きくなります(逆に山が低いとそれが小さい)。例えば全100問のテストを100人の人が受けたとします。山が高い場合と低い場合の極端な例を考えてみましょう。
山が高い例:
正答数 人数
48問 2人
49問 14人
50問 34人
51問 34人
52問 14人
53問 2人
これは正規分布をしています。平均点50.5、標準偏差1です。1問の差で偏差値が10動きます。
山が低い例:
正答数 人数
30問以下 2人
31〜40問 14人
41〜50問 34人
51〜60問 34人
61〜70問 14人
70問以上 2人
(細かい配分は省略しましたが、なだらかな曲線を描くベルカーブを想像してください。)
この場合も正規分布で、平均点50.5、標準偏差10です。1問の差で偏差値が1動きます。
山が高いと正答1問あたりの偏差値の差が大きく、山が低いとそれが小さいというのはこういう意味でした。
正規分布している場合は、その分布曲線上、どこでも一問あたりの偏差値の差は同じです(上述の高い山の例では、どこでも1問あたり偏差値10、低い山の例ではどこでも1問あたり偏差値1)。同じ分布曲線上では、中心に近い部分(密集地)と遠い部分(過疎地)で正答1問あたりの偏差値の差はありません。しかしTOEICでは、正規分布をしていない。ベルカーブがゆがんでいる。中心より右に偏っている=中心の左はなだらかな山、右は急な山。なだらかな山では正答1問あたりの偏差値の差が少ない=得点差が少ない=正答数の差が得点の差に表れない部分がある。急な山では正答数1問あたりの偏差値差が大きい=得点差が大きい=一問の差で5点以上差が出る部分がある。というのが私の推論です。なので、57%前後で正答数の差がスコアに表れない部分があるのは、そこが密集地であるからではなく、右側との比較で密集度が低いからではないでしょうか。私の推論が正しければ、さらに左へ行ったところ、例えば47%や37%部分でもそのような部分があるはずです(全体的に見て「過疎地」、でもスコアは重複する)。逆に中心より右側の密集部分、例えば67%前後では、スコアの重複はなく、1問差で10点差が出る部分があるのではないでしょうか(全体的に見て「密集地」、でも正答あたりのスコアの差が大きい)。
もう既に前田さんは57%付近で正答数の差がスコアに表れない部分があるということは、検証済みなので、あとは70%付近の検証をすればよいのでは?同時に4箇所調べる必要はありません。
と、ここまで書いて、2つ私に見えないことがあるのに気がつきました。ひとつは偏ったベルカーブ上での偏差値の調整法です。山が高い=1問あたりの偏差値の差が大きい、山が低い=1問あたりの偏差値の差が小さい、というのはいいと思うんですが、「中心の左がなだらか、右が急」といった偏った山の場合、どのように偏差値を調整するのは分かりかねます。もうひとつは偏差値をTOEICスコアに換算する際の調整法です。「偏差値50で250点」のように単純に決まっているわけでは、ないようで、いい塩梅にスコアが出るように統計処理をしていることが伺えますが、そのやり方が見えない。あと前田さんもコメントで触れている「今をY年度として、(Y-2)年度と(Y-1)年度の2年間の受験者を母集団として算出」という調整との絡みもはっきりしません。
山が高い例:
正答数 人数
48問 2人
49問 14人
50問 34人
51問 34人
52問 14人
53問 2人
これは正規分布をしています。平均点50.5、標準偏差1です。1問の差で偏差値が10動きます。
山が低い例:
正答数 人数
30問以下 2人
31〜40問 14人
41〜50問 34人
51〜60問 34人
61〜70問 14人
70問以上 2人
(細かい配分は省略しましたが、なだらかな曲線を描くベルカーブを想像してください。)
この場合も正規分布で、平均点50.5、標準偏差10です。1問の差で偏差値が1動きます。
山が高いと正答1問あたりの偏差値の差が大きく、山が低いとそれが小さいというのはこういう意味でした。
正規分布している場合は、その分布曲線上、どこでも一問あたりの偏差値の差は同じです(上述の高い山の例では、どこでも1問あたり偏差値10、低い山の例ではどこでも1問あたり偏差値1)。同じ分布曲線上では、中心に近い部分(密集地)と遠い部分(過疎地)で正答1問あたりの偏差値の差はありません。しかしTOEICでは、正規分布をしていない。ベルカーブがゆがんでいる。中心より右に偏っている=中心の左はなだらかな山、右は急な山。なだらかな山では正答1問あたりの偏差値の差が少ない=得点差が少ない=正答数の差が得点の差に表れない部分がある。急な山では正答数1問あたりの偏差値差が大きい=得点差が大きい=一問の差で5点以上差が出る部分がある。というのが私の推論です。なので、57%前後で正答数の差がスコアに表れない部分があるのは、そこが密集地であるからではなく、右側との比較で密集度が低いからではないでしょうか。私の推論が正しければ、さらに左へ行ったところ、例えば47%や37%部分でもそのような部分があるはずです(全体的に見て「過疎地」、でもスコアは重複する)。逆に中心より右側の密集部分、例えば67%前後では、スコアの重複はなく、1問差で10点差が出る部分があるのではないでしょうか(全体的に見て「密集地」、でも正答あたりのスコアの差が大きい)。
もう既に前田さんは57%付近で正答数の差がスコアに表れない部分があるということは、検証済みなので、あとは70%付近の検証をすればよいのでは?同時に4箇所調べる必要はありません。
と、ここまで書いて、2つ私に見えないことがあるのに気がつきました。ひとつは偏ったベルカーブ上での偏差値の調整法です。山が高い=1問あたりの偏差値の差が大きい、山が低い=1問あたりの偏差値の差が小さい、というのはいいと思うんですが、「中心の左がなだらか、右が急」といった偏った山の場合、どのように偏差値を調整するのは分かりかねます。もうひとつは偏差値をTOEICスコアに換算する際の調整法です。「偏差値50で250点」のように単純に決まっているわけでは、ないようで、いい塩梅にスコアが出るように統計処理をしていることが伺えますが、そのやり方が見えない。あと前田さんもコメントで触れている「今をY年度として、(Y-2)年度と(Y-1)年度の2年間の受験者を母集団として算出」という調整との絡みもはっきりしません。
神崎正哉 | 2009/03/19 2:23 PM
中心から見て左右に同じだけ離れたエリア同士を比較した場合に確かに密集具合が異なりますね。「逆に中心より右側の密集部分、例えば67%前後では、スコアの重複はなく、1問差で10点差が出る部分があるのではないでしょうか」については、調べないとわかりませんが、1問あたり(たとえば)15点の差を生む領域があったとして、それが正答数の種類にして仮に10種類(50点)分の幅を持つとすれば、10問の差が150点の差を生むことになります。多少のずれはありますが、ボクの経験では68問正解と78問正解が生む差は70〜90くらいですので、そういう領域があるにしても幅がせまそうです(ただし、その実験は異なるテストを比較しています)。
>同時に4箇所調べる必要はありません。
同じテストの中で「中心より左で2つ、右で2つ」を比較するのがベストでしょう?ま、TOEICの受験者は毎回十分に多いので異なるテストのサンプルでも有効に検証できそうな気はしますが。ということは、70%付近で2つ同時に調べればいいんですね。70と75とか。これは簡単ですのでロバートと一緒にやってみます。
スコアシートに表示されているpercentile rankは、表示されているだけで、1回のテストのスコア算出に用いられているのは、そのテストにおけるpercentile rankですよね。2006年3月まで公開されていましたが、今は非公開です。ボクは勝手にそう思っていました。
>同時に4箇所調べる必要はありません。
同じテストの中で「中心より左で2つ、右で2つ」を比較するのがベストでしょう?ま、TOEICの受験者は毎回十分に多いので異なるテストのサンプルでも有効に検証できそうな気はしますが。ということは、70%付近で2つ同時に調べればいいんですね。70と75とか。これは簡単ですのでロバートと一緒にやってみます。
スコアシートに表示されているpercentile rankは、表示されているだけで、1回のテストのスコア算出に用いられているのは、そのテストにおけるpercentile rankですよね。2006年3月まで公開されていましたが、今は非公開です。ボクは勝手にそう思っていました。
前田 | 2009/03/19 11:28 PM
ヤフーメルマガのランキング1位達成、おめでとうございます!
70%付近での調査、私のリクエストに応じていただけて恐縮です。どうぞよろしくお願いします。
>スコアシートに表示されているpercentile rankは、表示されているだけで、1回のテストのスコア算出に用いられているのは、そのテストにおけるpercentile rankですよね。2006年3月まで公開されていましたが、今は非公開です。ボクは勝手にそう思っていました。
これなんですけど、私は過去の2年間分の母集団を基にスコアも算出されると思っていました。ほら、母集団って大きければ大きいほど安定するというか、スコアの信頼性が出るじゃないですか。だから、「percentile rankに使用する=スコアの算出に利用する」だと勝手に思っていました。ある公開テストのスコアをそのテストのpercentile rankのみで出すと、例えばたまたま受験者数が少なく、そしてその少ない受験者がたまたま上級者ばかりだと不利になりますよね、percentile rank的に。そういう不公平なことが起こらないように、大きな母集団に基づいてスコアを出すようにしているのだと思っていました。いや、そんなことどこにも書いてないんですが、そうだろうなあという推測です。実際、どうなんでしょう。TOEIC運営委員会に問い合わせれば、教えてくれそうですね。機会があったら聞いて見ます。
神崎正哉 | 2009/03/22 10:37 PM
2年分のpercentile rankを母集団にした場合、たとえば3月のテストAも5月のテストBも同じ母集団をスコア算出の基準にすることになるので、スコアにずれが出ない、または数字に表れない程度の小さいずれしか出ないと思います(つまり信憑性があるということです)。
でも、実際に個別のテストを見るとAの正答数とBの正答数が同じでもスコアが10くらいずれることはあります(ま、それが小さいずれと呼べるのかも知れませんが)。
過去の2年分の母集団+今回のテストの母集団=スコア算出の母集団、なのかも知れませんね。
でも、実際に個別のテストを見るとAの正答数とBの正答数が同じでもスコアが10くらいずれることはあります(ま、それが小さいずれと呼べるのかも知れませんが)。
過去の2年分の母集団+今回のテストの母集団=スコア算出の母集団、なのかも知れませんね。
前田 | 2009/03/23 3:29 PM
>実際に個別のテストを見るとAの正答数とBの正答数が同じでもスコアが10くらいずれることはあります。
テストごとの難易度によって調整してるんじゃないでしょうか。受験者全体の平均正答数は簡単に出ます。あと受験者全体のレベルはリサイクル問題の結果から推測できるはずです(リサイクル問題の正答率の差で受験者全体のレベルの差を判断)。そうすると例えば、テストAの正答数50は母集団の正答数52に相当、テストBの正答数50は母集団の正答数48に相当なんていう調整をすることができると思います。きっと何かしらこのようなテスト間の難易度の差による不公平をなくす調整をしていますよね。Equatingって呼んでいるのもその一種かと。
テストごとの難易度によって調整してるんじゃないでしょうか。受験者全体の平均正答数は簡単に出ます。あと受験者全体のレベルはリサイクル問題の結果から推測できるはずです(リサイクル問題の正答率の差で受験者全体のレベルの差を判断)。そうすると例えば、テストAの正答数50は母集団の正答数52に相当、テストBの正答数50は母集団の正答数48に相当なんていう調整をすることができると思います。きっと何かしらこのようなテスト間の難易度の差による不公平をなくす調整をしていますよね。Equatingって呼んでいるのもその一種かと。
神埼正哉 | 2009/03/24 12:52 AM
(たびたびすいません)
上の投稿に語弊がありました。
TOEIC 450などスコアを固定した上では、問題の難易度にかかわらず配点は同じということを言いたかったのです。
TOEIC 450の人とTOEIC 900の人の1問の価値は前田さんがご指摘の通り違うと思います。
上の投稿に語弊がありました。
TOEIC 450などスコアを固定した上では、問題の難易度にかかわらず配点は同じということを言いたかったのです。
TOEIC 450の人とTOEIC 900の人の1問の価値は前田さんがご指摘の通り違うと思います。
おむれつ | 2009/03/30 11:36 PM
おむれつさん
リンク、ありがとうございます!とても勉強になります(最後のはリンク先が無効です)。
ETSのリンク先にある資料にはIRTを使わないequatingの方法が載っていますが、TOEICはそのうちのどれかを使っているのでは?TOEICにはIRTを使ってないと確かどこかで聞きました。
リンク、ありがとうございます!とても勉強になります(最後のはリンク先が無効です)。
ETSのリンク先にある資料にはIRTを使わないequatingの方法が載っていますが、TOEICはそのうちのどれかを使っているのでは?TOEICにはIRTを使ってないと確かどこかで聞きました。
神崎正哉 | 2009/04/01 12:08 AM
神崎さん
はじめまして。私はEquatingのプロでもTOEICのプロでもありませんが…と前置きした上で
ETSの資料はIRTがあまりにもメジャーだからwithout IRTでのequatingを見直そうという内部向けの講習資料であるように受け取りました。確かにEquipercentile eqatingかIRTかの議論をする価値はあると思いますが、噂で確認するよりモデルを作ることでどちらが正しいか答えを出せるのではないかと思います。簡単な推測になりますが、raw scoreとTOEICのスコアをグラフに描くと、equipercentileでは直線か凸型の関係になると思います(これは実際にモデルを組んで計算しないと分かりません)
IRTの方は間違いなく、低得点層と高得点層ではRaw socre 1問に対してTOEICスコアの増え方は大きく、そしてそこ以外では小さいという相関が出るグラフになると思います。
はじめまして。私はEquatingのプロでもTOEICのプロでもありませんが…と前置きした上で
ETSの資料はIRTがあまりにもメジャーだからwithout IRTでのequatingを見直そうという内部向けの講習資料であるように受け取りました。確かにEquipercentile eqatingかIRTかの議論をする価値はあると思いますが、噂で確認するよりモデルを作ることでどちらが正しいか答えを出せるのではないかと思います。簡単な推測になりますが、raw scoreとTOEICのスコアをグラフに描くと、equipercentileでは直線か凸型の関係になると思います(これは実際にモデルを組んで計算しないと分かりません)
IRTの方は間違いなく、低得点層と高得点層ではRaw socre 1問に対してTOEICスコアの増え方は大きく、そしてそこ以外では小さいという相関が出るグラフになると思います。
おむれつ | 2009/04/01 7:52 AM
おむれつさん
レス、ありがとうございます。私もEquatingのプロでもTOEICのプロでもありません。ただのTOEICオタクです。おむれつさんはTesting theory、お詳しいようですね。私はTestingのコースを取ったことはあるんですが、Classical Testing Theory (CTT)しかやらず、Item Response Theory (IRT)についてはWikipediaでちょっと見た程度の知識しかありません。
上の議論はEquatingの話ですよね。Scoring ではないですよね。ScoringとEquatingが何かごっちゃになっているようなので、はっきり区別したいと思います。Scoringに関して
TOEICはCTTに基づいていると思います。それは、percentile rankや標準偏差が知らされるからです。偏差値に基づいてスコアが決まるCTT方式であるという印象があります。IRTの場合、percentile rankや標準偏差は使いませんよね。あと、IRTだとperson parametersとかitem parametersとか、何か質問ごとに各受験者がどう答えたか細かく見るような印象がありますが、TOEICのように問題数も受験者数も多いテストでIRTはScoringに使えるのでしょうか。(←これはrhetoricalではなくてgenuineな質問です。私はIRTって言うとcomputerized adaptive testingで、ある質問に対して正解が得られるかどうかで次に出す問題の難易度を変えるのに使われるものというくらいの認識しかありませんでした。それ以外にも広く使われているんですね。でもTOEICの場合、アイテムごとのdifficulty levelってどうやって計算するんでしょう。個人個人難しいと感じる問題は違いますよね。例えば私が答えられなかった語彙問題を800点くらいの人が解けるなんてことはよくあります。)あと、IRTって個人の特性と問題の特性を細かく見るから、問題数が少なくて済むっていう利点がないですか。もしTOEICがIRTをつかってスコアを出しているなら200問も必要ないのでは?
と、ここまでは、Scoringの話でした。でも、おむれつさんは「EquatingにIRTが使われている」という議論でしたよね。私はScoringにIRTが使われていないから、EquatingにもIRTは使われていないという印象を持っています。また、TOEICはいつもpercentile rankを重視しているので、ETS資料中にあるEquipercentile equatingが、なんとなくTOEICに使われていそうな気がします。でも調べたわけではないのでなんとも言えません。
>モデルを作ることでどちらが正しいか答えを出せるのではないかと思います。
モデルというのは数式のようなものを作るということでしょうか。それはちょっと私の能力の限界を超えています。
>IRTの方は間違いなく、低得点層と高得点層ではRaw socre 1問に対してTOEICスコアの増え方は大きく、そしてそこ以外では小さいという相関が出るグラフになると思います。
これは確かでしょうか。もしそうであれば、IRTを使っていない論拠になります。TOEICは低得点層(180点以下)でRaw score 1 に対してTOEICスコアの増え方は少ないです。私の友人が一度、200問全てAを塗って提出したことがありました。TOEICは200問中、170問が4択、30問が3択で、平均的に正解の記号はバラけるので、全部Aを塗った場合、少なくとも全体の4分の1、すなわち50問は正答しているはすです。それでスコアは180点でした。1問あたり平均3.6点です。
ところで、「低得点層と高得点層ではRaw socre 1問に対してTOEICスコアの増え方は大きく、そしてそこ以外では小さい」というのはEquatingの話ですか。Scoringの話のように聞こえますが。
IRT、特にRasch model、最近、いろいろなところで見たり聞いたりします。いや、自分ではなんだかよくわかっていないんですが、機会があったら詳しく勉強してみたいなと思っています。お薦めの参考書などありますか。どうぞよろしくお願いします。
レス、ありがとうございます。私もEquatingのプロでもTOEICのプロでもありません。ただのTOEICオタクです。おむれつさんはTesting theory、お詳しいようですね。私はTestingのコースを取ったことはあるんですが、Classical Testing Theory (CTT)しかやらず、Item Response Theory (IRT)についてはWikipediaでちょっと見た程度の知識しかありません。
上の議論はEquatingの話ですよね。Scoring ではないですよね。ScoringとEquatingが何かごっちゃになっているようなので、はっきり区別したいと思います。Scoringに関して
TOEICはCTTに基づいていると思います。それは、percentile rankや標準偏差が知らされるからです。偏差値に基づいてスコアが決まるCTT方式であるという印象があります。IRTの場合、percentile rankや標準偏差は使いませんよね。あと、IRTだとperson parametersとかitem parametersとか、何か質問ごとに各受験者がどう答えたか細かく見るような印象がありますが、TOEICのように問題数も受験者数も多いテストでIRTはScoringに使えるのでしょうか。(←これはrhetoricalではなくてgenuineな質問です。私はIRTって言うとcomputerized adaptive testingで、ある質問に対して正解が得られるかどうかで次に出す問題の難易度を変えるのに使われるものというくらいの認識しかありませんでした。それ以外にも広く使われているんですね。でもTOEICの場合、アイテムごとのdifficulty levelってどうやって計算するんでしょう。個人個人難しいと感じる問題は違いますよね。例えば私が答えられなかった語彙問題を800点くらいの人が解けるなんてことはよくあります。)あと、IRTって個人の特性と問題の特性を細かく見るから、問題数が少なくて済むっていう利点がないですか。もしTOEICがIRTをつかってスコアを出しているなら200問も必要ないのでは?
と、ここまでは、Scoringの話でした。でも、おむれつさんは「EquatingにIRTが使われている」という議論でしたよね。私はScoringにIRTが使われていないから、EquatingにもIRTは使われていないという印象を持っています。また、TOEICはいつもpercentile rankを重視しているので、ETS資料中にあるEquipercentile equatingが、なんとなくTOEICに使われていそうな気がします。でも調べたわけではないのでなんとも言えません。
>モデルを作ることでどちらが正しいか答えを出せるのではないかと思います。
モデルというのは数式のようなものを作るということでしょうか。それはちょっと私の能力の限界を超えています。
>IRTの方は間違いなく、低得点層と高得点層ではRaw socre 1問に対してTOEICスコアの増え方は大きく、そしてそこ以外では小さいという相関が出るグラフになると思います。
これは確かでしょうか。もしそうであれば、IRTを使っていない論拠になります。TOEICは低得点層(180点以下)でRaw score 1 に対してTOEICスコアの増え方は少ないです。私の友人が一度、200問全てAを塗って提出したことがありました。TOEICは200問中、170問が4択、30問が3択で、平均的に正解の記号はバラけるので、全部Aを塗った場合、少なくとも全体の4分の1、すなわち50問は正答しているはすです。それでスコアは180点でした。1問あたり平均3.6点です。
ところで、「低得点層と高得点層ではRaw socre 1問に対してTOEICスコアの増え方は大きく、そしてそこ以外では小さい」というのはEquatingの話ですか。Scoringの話のように聞こえますが。
IRT、特にRasch model、最近、いろいろなところで見たり聞いたりします。いや、自分ではなんだかよくわかっていないんですが、機会があったら詳しく勉強してみたいなと思っています。お薦めの参考書などありますか。どうぞよろしくお願いします。
神崎正哉 | 2009/04/01 4:52 PM
おむれつさん、神崎さん、
出張中でして、反応が遅れました。ボクがどこかで書いた「TOEICにIRTは採用されていない」という話の根拠は単純で、主催者に尋ねたらそういう回答があったことです。
かつ、それに関連して「TOEICがコンピュータテストではない」点にも触れました。それも主催者回答にありましたが、事実とは異なるとすれば情報が間違っていたことになります。ご指摘ありがとうございました。ほかの論点については知識不足のため特にコメントできません。
出張中でして、反応が遅れました。ボクがどこかで書いた「TOEICにIRTは採用されていない」という話の根拠は単純で、主催者に尋ねたらそういう回答があったことです。
かつ、それに関連して「TOEICがコンピュータテストではない」点にも触れました。それも主催者回答にありましたが、事実とは異なるとすれば情報が間違っていたことになります。ご指摘ありがとうございました。ほかの論点については知識不足のため特にコメントできません。
前田 | 2009/04/01 6:58 PM
前田さん、神崎さん、
お返事ありがとうございます。IRTとコンピュータテストであるかについては、どちらでもよいというのが答えで、computer-adaptive testingはIRTのおかげで実現できたという風に前後が逆です。
神崎さん、
この件の続きは、やはり数学的な内容や画像も交えて議論した方が良さそうなのでメールでやりとりできないでしょうか?その上で前田さんにも結論と経過を共有できれば前田さんにも迷惑がかからずベターかなと思います。よろしかったらcedrat0802あyahoo。co。jpでお待ちしております。さて…
1. ScoringとEquatingが何かごっちゃになっている
これは話を簡単にしたかったので敢えてしました。加えてIRTの能力値として使っているパラメータθとTOEICのスコアを線形変換と仮定すれば、大きな問題が生まれないからです。equipercentileの方でのequating+scoringの話は、percentileとTOEICスコアの相関を考えなくてはいけないので神崎さんのお知恵をお借りしたいところです。TOEICの事については欧州から帰国後3月に2, 3年ぶりに受験したくらいなので情報もありません。私のバックグラウンドは理系の院生で、こういった数式の取り扱いと理解には自信があります。協力できれば良い結論が出せると期待しています。
2. Percentile rankや標準偏差が知らされるから
これはCTTである根拠として薄いと思います。しかもこれらはStataやExcelでコマンド/関数一発なくらい基本です。
3.difficulty levelの設定
乱暴な設定では問題の正答率で判断できると思います。TOEIC800の人が解けてTOEIC 990の人が解けないと言う問題の存在はなかなか承伏しにくいのですが、ここは全体を捉える統計での話なので、「神崎さん1人(TOEIC 990)が解けなくてTOEIC 800の人が解ける問題」と「TOEIC990の人誰しもが解けなくて、TOEIC800の人なら解ける」という事実は分けて考えたいと思います。後者の仮定が真となるような問題というのが思い浮かばないのでこの仮定を棄却したいのですがいかがでしょうか。
そして受験者全体のレベルによって個々の問題の出来不出来に不平等が現れるというご指摘にはそれだからこそInternal ancher(問題のリサイクル)を用いて"Equating"が必要なのでしょう。
4. モデル
Excelで仮の分布をつくってシミュレーションするのはいかがでしょうか。就活に一息付けたらやってみます。
5. 1問あたり平均3.6点
仮にTOEIC score = f(raw score)なる関数を定義したとして、1問あたりの点数はf(raw score)/raw scoreです。私が申し上げた増え方はf'(raw score)の値で、f(raw score)/raw scoreとは別物の値を指します。
6. 「低得点層と高得点層ではRaw socre 1問に対してTOEICスコアの増え方は大きく、そしてそこ以外では小さい」というのはEquatingの話ですか。Scoringの話のように聞こえますが。
1で申しましたとおり英語能力値θとTOEICスコアが線形であると仮定すれば、概形は同じになります。(IRTで使っている英語能力値とTOEICスコアが線形という仮定は有意に思いますがいかがでしょうか?)
ps. コンピュータテストじゃないとIRTは使えないのではないか?の事については1番最初のリンクで飛べる資料と3番目の資料をご参照ください。リンク切れは一時的なものだったのでしょう。私はアクセスできました。
お返事ありがとうございます。IRTとコンピュータテストであるかについては、どちらでもよいというのが答えで、computer-adaptive testingはIRTのおかげで実現できたという風に前後が逆です。
神崎さん、
この件の続きは、やはり数学的な内容や画像も交えて議論した方が良さそうなのでメールでやりとりできないでしょうか?その上で前田さんにも結論と経過を共有できれば前田さんにも迷惑がかからずベターかなと思います。よろしかったらcedrat0802あyahoo。co。jpでお待ちしております。さて…
1. ScoringとEquatingが何かごっちゃになっている
これは話を簡単にしたかったので敢えてしました。加えてIRTの能力値として使っているパラメータθとTOEICのスコアを線形変換と仮定すれば、大きな問題が生まれないからです。equipercentileの方でのequating+scoringの話は、percentileとTOEICスコアの相関を考えなくてはいけないので神崎さんのお知恵をお借りしたいところです。TOEICの事については欧州から帰国後3月に2, 3年ぶりに受験したくらいなので情報もありません。私のバックグラウンドは理系の院生で、こういった数式の取り扱いと理解には自信があります。協力できれば良い結論が出せると期待しています。
2. Percentile rankや標準偏差が知らされるから
これはCTTである根拠として薄いと思います。しかもこれらはStataやExcelでコマンド/関数一発なくらい基本です。
3.difficulty levelの設定
乱暴な設定では問題の正答率で判断できると思います。TOEIC800の人が解けてTOEIC 990の人が解けないと言う問題の存在はなかなか承伏しにくいのですが、ここは全体を捉える統計での話なので、「神崎さん1人(TOEIC 990)が解けなくてTOEIC 800の人が解ける問題」と「TOEIC990の人誰しもが解けなくて、TOEIC800の人なら解ける」という事実は分けて考えたいと思います。後者の仮定が真となるような問題というのが思い浮かばないのでこの仮定を棄却したいのですがいかがでしょうか。
そして受験者全体のレベルによって個々の問題の出来不出来に不平等が現れるというご指摘にはそれだからこそInternal ancher(問題のリサイクル)を用いて"Equating"が必要なのでしょう。
4. モデル
Excelで仮の分布をつくってシミュレーションするのはいかがでしょうか。就活に一息付けたらやってみます。
5. 1問あたり平均3.6点
仮にTOEIC score = f(raw score)なる関数を定義したとして、1問あたりの点数はf(raw score)/raw scoreです。私が申し上げた増え方はf'(raw score)の値で、f(raw score)/raw scoreとは別物の値を指します。
6. 「低得点層と高得点層ではRaw socre 1問に対してTOEICスコアの増え方は大きく、そしてそこ以外では小さい」というのはEquatingの話ですか。Scoringの話のように聞こえますが。
1で申しましたとおり英語能力値θとTOEICスコアが線形であると仮定すれば、概形は同じになります。(IRTで使っている英語能力値とTOEICスコアが線形という仮定は有意に思いますがいかがでしょうか?)
ps. コンピュータテストじゃないとIRTは使えないのではないか?の事については1番最初のリンクで飛べる資料と3番目の資料をご参照ください。リンク切れは一時的なものだったのでしょう。私はアクセスできました。
おむれつ | 2009/04/01 10:52 PM
おむれつさん、神崎さん、
コンピュータのテストが作られる前からIRTは存在していたはずですから、考えてみれば確かに「コンピュータテストじゃないならIRTは採用されていない」という考え方はおかしいですね。
ところで、上の方に長いURLがあることで、このブログのレイアウトが崩れています(サイドバーが下に落ちました)。申し訳ありませんが近日中にURLを消させていただきます。神崎さん、OKでしたらお知らせください。
コンピュータのテストが作られる前からIRTは存在していたはずですから、考えてみれば確かに「コンピュータテストじゃないならIRTは採用されていない」という考え方はおかしいですね。
ところで、上の方に長いURLがあることで、このブログのレイアウトが崩れています(サイドバーが下に落ちました)。申し訳ありませんが近日中にURLを消させていただきます。神崎さん、OKでしたらお知らせください。
前田 | 2009/04/01 11:15 PM
おむれつさん
是非よろしくお願いします。
後ほどメールいたします。
前田さん
URL、大丈夫です。
よろしくおねがいします。
是非よろしくお願いします。
後ほどメールいたします。
前田さん
URL、大丈夫です。
よろしくおねがいします。
神崎正哉 | 2009/04/02 2:02 PM
コメントを部分的に修正することができなかったため、コメントごと削除せざるを得ませんでした。
前田 | 2009/04/02 8:54 PM
⇒ ken (08/25)
⇒ 前田 (08/25)
⇒ ken (08/25)
⇒ 前田 (06/15)
⇒ AKKO (06/14)
⇒ 前田 (05/11)
⇒ 大感謝さん (04/27)
⇒ 西嶋 (02/28)
⇒ 前田 (02/28)
⇒ 西嶋 (02/28)