「ビッグデータ」という言葉は、様々なビジネスを色めき立たせるマジックワードとしてあちこちで持ち出されている。企業の戦略を練る上ではもちろん、個々の店舗の顧客動向から行政の指針作りまでその汎用性が高い。しかし、そのビッグデータは、否応無しに翻弄される危険性をはらんでもいる。
ビッグデータが組み込むことができない行動
カイザー・ファング『ナンバーセンス』は、あちこちでもてはやされる「ビッグデータ信仰」に警鐘を鳴らす。「ビッグデータは基本的に、因果関係について何かを語るものではない。データの洪水が、隠れていた因果関係をさらけ出すというのは、ありがちな誤解」であるとする。たとえばネット書店で一冊の本を買うと、別の本を薦めてくる。その本を素直にクリックして購入するのではなく、その本の存在をお薦めされたことでその本をひとまず認知し、いわゆるリアル書店で購入した場合、ビッグデータはこれを組み込むことが出来ない。
或いは著者が挙げるのはこんな例。「あるサイトでサムスンのギャラクシーのバナー広告をクリックした」が、「しかし結局、買い物かごに入れたままログオフ」した。「7日後、私はサムスンがアップルを揶揄するCMを見て気に入った」ので「購入する手続きを済ませた」。この場合、著者のパソコンの履歴にはバナー広告をクリックしたことしか分からない。ここでバナー広告と購入履歴の「間違った陽性(偽陽性)」判定が生まれてしまうのだ。
「特大のバッグを買った人の多くが、のちにベビーベッドを買っている」
著者は、統計のリテラシー「ナンバーセンス」を身につける必要があると説く。例えば、クーポン券を配ることでお店の利益を最大化させるためにはどういう判断が必要か。客全体の何%がクーポンを使用しているかを導き出すだけでは足りない。新規客と常連客を分け、それぞれをクーポンがある場合とない場合に分ける。そのデータ解析により、「クーポン利用の常連客が増えすぎると総収入が減る」という事実が導き出される。クーポンにつられて客がやって来た、という集積だけでは、店側が苦しむことにもなる。大げさに言えば、「客が入りすぎて倒産するレストランがある」ということなのだ。
ビッグデータビジネスが急速に広まることで、顧客は自分が見張られていると感じるのを嫌がるようになり、一方で企業は見張っていると思わせないデータ収集と宣伝を心がけるようになる。人を選んでピンポイントで効果的な広告を打つターゲティングにおいて頻繁に使われる手法に「マーケットバスケット分析」がある。これは、その名の通り、「買い物かごの中身を写真に撮っている」ような分析。Aを閲覧してBを買いました、ではなく、その購入行動の全体で見ることで新たな関連づけを読み取る手法。その全体から例えば「特大のバッグを買った人の多くが、のちにベビーベッドを買っている」という関連づけが抽出できれば、新たな顧客開拓に繋がる。
ビッグデータを闇雲に礼讃するだけはいけない
ちっとも国民の理解が深まらないままだが、今年10月にマイナンバー法が施行される。住基ネットの住民票コードとは異なる番号をつけ、「社会保障、税、災害対策の分野で効率的に情報を管理し、複数の機関に存在する個人の情報が同一人の情報であることを確認する」(内閣官房HP)という。行政手続きが簡略されますと謳ってくるが、国家最大のビッグデータがどのように使われるかは未知数であり、問題点も多く残されている。マイナンバー法改正案では乳児の医療分野への広がりが提議され、個人情報保護法改正案には、匿名化された個人情報ならば本人の同意なくして第三者に提供できる、という方針も打ち出されている。
震災以降、さらに注目を集めている「ビッグデータ」だが、漠然としたまま効能だけがもてはやされている現在にある。少なくとも闇雲に礼讃するだけではいけない。ビッグデータは個人の振る舞いを規定しにかかる働きかけでもある。便利かもしれないが、誘導されもする。本書はその利害を冷静に告発している。
(文:武田砂鉄)
【文献紹介】
ナンバーセンス ビッグデータの嘘を見抜く「統計リテラシー」の身につけ方
著者:カイザー・ファング
出版社:CCCメディアハウス
『ヤバい統計学』著者が放つ、データ過多の時代の基本スキル。正しい分析と間違った分析をどう見分けるか? 大学ランキングから肥満、個人情報、失業問題、スポーツまで。今回も“世の中”を題材に、数式を極力使わず、エピソードたっぷりに描く。ビッグデータが広まるほど、まちがった解釈・分析も広まる。データの嘘を見抜く「ナンバーセンス(数字リテラシー)」の身につけ方、教えます。