久々に、読んだ本の紹介をしてみたい。帯には、「兆単位のデータ計算が専門家にとってかわる」「政治家も、評論家も、医者も、裁判官も、映画プロデューサーもみんな真っ青!」とある。日経新聞の書評で見つけて、面白そうだったので買ってみた。ハードカバー、全340ページの本で、数学系?の話、しかも翻訳物ということで読むのに苦労するかと思ったが、内容はわかりやすいし、翻訳が山形浩生氏ということもあってか、さくさくと読めた。
その数学が戦略を決める Super Crunchers
イアン・エアーズ 著 bk1、amazon
原題は Super Crunchers、サブタイトルとして、Why thinking-by-numbers is the new way to be smart とある。crunchという単語はあまり聞かないが、コンピュータで計算するという意味があるようだ。この本を読み終わってみても、「その数学が戦略を決める」というタイトルが適切なものには思えない。しいていえば「大量計算が戦略を決める」だろうか。どうしても本書の内容を「数学」と呼ぶのは違和感がある。。
本書は、従来は専門家が行っていたような高度な判断を、いまや大量のデータを統計的に扱うことで、(専門的な知識は必ずしも使わなくても)計算によって行えるようになっている、という事例などを紹介している。その際に、計算機がどのような理論や手順に基づいて判断をしているか、などの数学的な中身が関わりそうな部分については全く触れられていない。その代わりに、いくつかの例を比較的詳しく紹介し、しかも計算機の判断の方が従来の専門家によるものよりも優れているケースが多いということや、逆にそこで懸念される問題点などを明らかにしている。
本書では、そのような大量のデータから答えを見つけ出すような計算のことを、絶対計算と呼んでいる。たぶん原文では super crunching なのだろうけど、適切な日本語はないのだろうか? 絶対計算という単語はもともと囲碁で使われている用語のようで、それ以外にネットで見つかる用例はほとんどが本書に関連しているようだが、今後この意味での用語として定着していくのだろうか?
本書に出てくる絶対計算だが、そこで実際に使われている手法は、回帰分析、多変量解析、主成分分析、ニューラルネットなど、従来からある手法そのもののようだ。しかし、その対象となるデータが膨大であり、しかもそれらが電子化されていて高速大容量の計算機で取り扱うことが可能となったことにより、非常に有用な結果を導き出すことができるようになったというわけだ。
以下、少し長くなるが本書の内容を紹介する。
--------------------------------------------------------------------------------
序章と第1章では、出荷前にその年の天候からワインの価格を予測したり、野球選手の有望性を判断するために統計的なデータを利用するなどの回帰分析の例が出てくる。他にも、車両盗難防止装置の普及率と実際の車両盗難件数との関係を解析し、適切な保険料を算出する話とか、カジノで遊ぶ顧客が許容する損失を予測し、限界直前で遊ぶのを止めさせるアイデアや、入社テスト時のアンケート調査からその求職者の適性を判断する例なども紹介されている。まあ、これらの話は現実に日本でもいろいろと応用されていそうな例だ。
第2章は、ランダムテストの例である。これは、例えばAとBのどちらが客に好まれるのかを知りたい時に、サービスを受ける顧客をランダムに二分し、一方にはAを、他方にはBを与えるテストを行い、その結果からどちらを本格的に採用するかを決めるような方法である。ここでは、クレジットカード会社がキャッシングの金利を多段階に変えて、顧客の反応を見たり、ウエブサイトのデザインをランダムに変えて、どのデザインが好まれるかを実際のクリック数で判断したり、といった例が出ている。
この方法のメリットは、ほぼ理想的な無作為抽出が可能なので、知りたい答えが比較的ストレートに出てくることで、従来の統計解析のように、多数のコントロールされていないデータから苦労して答えを見つけ出す必要がないということだ。 なるほど、こんな方法があったのか! と驚かされたけど、実はこの手のことは既に日本でもやられているのだろうか? 我々が知らないうちに、実はランダムテストの被験者になっている可能性もあるかもしれない。
第3章は、政府が行うランダムテストの話。少なくともアメリカでは政策の有効性を試すために、試験的に複数の措置を実施し、その結果から本格的な政策を決めるというようなことが行われているのだそうだ。また連邦制であるため、それぞれの州が独自に政策を競い、その結果を見て最良の政策にスライドしていくようなこともできる。また、メキシコでは貧困対策のランダムテストを行い、その結果を使って全国展開をしたなんて例があるようだ。なお、この章では、アメリカの裁判官の割り当てが完全にランダムなので、各裁判官の過去の判決データを解析することで、各裁判官の判決の傾向(量刑のランク)が予想できるなんて例も出ている。
第4章は根拠に基づく医療(EBM)の例。今では、過去の病例や最新の研究結果を網羅したデータベースを元に、患者の病歴や個別症状から病気の診断を行ってくれる「イザベル」というソフトウエアができているとのこと。もちろんこれだけで確定的な診断ができるわけではないので、可能性のある病名やさらに必要な検査項目をリストアップしてくれるものようだ。これにより、従来は見落としがちだった、非常に特殊なケースの可能性も検討できるとか、最新の研究結果を反映した診断が可能となるなど、患者はもちろん医者や病院にとっても相当大きなメリットが出てきそうだ。訳者あとがきによると、残念ながら日本では専門家の抵抗も大きく、このようなソフトが実用化される動きは今のところないらしい。
第5章は専門家と絶対計算の争い。とかく専門家は自分の判断に自信を持っていて、このような(比較的単純な少数の因子だけで結果が予測できるという)絶対計算の結果を過小評価しがちのようで、この章では、いくつかの実例を挙げて、実は絶対計算の方が優れているし、絶対計算結果を参考にして専門家が最終判断するケースでは、絶対計算よりも悪い結果しか得られなかった、という例を紹介している。まあ、そういうケースもあるだろうけど、逆に十分な予測精度を持つ絶対計算モデルがない場合もあるだろうし、一概に決められないだろうと思うけど。。
第6章では、なぜいま絶対計算がこれだけ発展しているかということで、コンピュータの進歩、記憶容量の進歩、ネットによるデータ収集の容易化、データベースを統合する技術の進歩などを挙げている。まあ、ここはそうだろう。なお、この章で紹介されている例としては、ハリウッドの映画のヒット予測の例や、ヒットする本の題名のつけ方の例が出てくる。本書の原題、Super Crunchers も、この絶対計算によって選んだのだそうだ。ただし、邦題は編集者が(専門的知識に基づいて?)つけたものらしい。
第7章の最初に出てくるのは、アメリカのDI(ダイレクト・インストラクション)という教育法の話である。あの911の瞬間にブッシュ大統領が訪問していた小学校で行われていたのがこのDIらしい。極めてマニュアル化された教育方法のようで、少人数の子供たちを相手に、呼びかけと応答を繰り返す形で教えていく手法らしい。様々な教育論に基づく様々な教育方法があるけれど、実際のデータで見るかぎり、このDIが最も効果的であるということになっているらしい。本当だろうか? アメリカでも随分否定的な意見が多いのだそうだが、本書はこれも専門家がデータを否定する例だと主張している。
この章では絶対計算の先に待ち受ける多くの問題点も提示されている。従来は判断を下す立場にいた人たちの仕事が奪われる、様々な差別のきっかけとなる可能性、プライバシーの侵害は起こらないのか、あるいは間違った絶対計算により間違った判断が下されるような副作用など。
そして最後の第8章では、我々は普段からもっと統計的にものごとを理解する習慣を付ける必要があるという提言。それには、標準偏差(SD)を理解し、平均値±2SDの中に95%が含まれるという2SDルール、および事前確率に新たな条件を組み込んで事後確率を求めるベイズの理論を理解することが有効であるとしており、これらの概念の簡単な理解のしかたを紹介している。
---------------------------------------------------------------------------------
長々と本書の内容を紹介してきたが、なかなか面白かった。絶対計算をあまりにも万能であるかのように持ち上げすぎという気がするが、こういう動きが世の中で起こっていることはもっと広く知られるべきだろう。日本の現状はどうなのか、というのが気になるところだが、訳者のあとがきでは、日本の場合には専門家の抵抗はアメリカ以上のようだし、個人情報保護法のおかげ(?)もあって、今後の発展にもかなりの制約があるだろうと書かれている。
それでも日本でも、この分野は今後どんどん発展していくだろうし、確かに有益な面も多いけれど、倫理面を含めて憂慮すべき問題点もたくさんある。この分野の具体的な現状や将来像がもっと表に出てきて、いろいろな立場(推進する側や抑制する側)から議論される必要があるように思える。
最近のコメント