「ビッグデータの正体」ビクター・マイヤー/ケネス・クキエ (講談社)
本書のタイトルにある「ビッグデータ」とは,著者によれば『小規模ではなしえないことを大きな規模で実行し,新たな知の抽出や価値の創出によって,市場,組織,さらには市民と政府の関係などを変えること』である。
そして,ビッグデータは三つの大変化をもたらすという。
第一の変化は「ビッグデータは限りなくすべてのデータを扱う」ということ。
無作為抽出の少ないデータでは察知できなかったものが,デジタル技術の普及により,従来とは比べ物にならないほどの膨大なデータを扱うことができるようになった。
第二の変化は「量さえあれば精度は重要ではない」ということ。
少ないデータでは,なるべく正確な数字で表わす必要があったが,データ量が多くなれば厳格な精度は現実的ではないし,好ましいことでもない。
絶えず変化するデータが大量にある場合,何もおいても完璧な正確さを目指す必要はなくなる。
第三の変化は「因果関係ではなく相関関係が重要になる」ということ。
人間は因果関係に執着するが,因果関係に執着しないのがビッグデータの世界,重要なのは「理由」ではなく「結論」,データ同士に何らかの相関関係が見つかれば新たなひらめきが生まれる。
本書は全十章からなる。
第一章では,そもそもビッグデータとは何か,どのような変化をもたらすものか,本書の構成はどのようになっているかを解説。
第二章「すべてのデータを扱う」では第一の変化を,第三章「精度は重要ではない」では第二の変化を,第三章「因果から相関の世界へ」では第三の変化を詳述している。
第二章では「N=全部」の出番の具体例として,日本の国技相撲が取り上げられている。
千秋楽で7勝7敗の力士と8勝6敗の力士が当たった場合,7勝7敗の力士が勝つ可能性がおよそ25%高くなっていた。さらに,問題の取り組み後,再び同じ顔合わせを迎えたとき,1回目に負けた力士が勝つ可能性が,3回目,4回目の同じ顔合わせのときよりも3〜4倍高くなっていることが判明したという。
第三章では正確さから乱雑さへと軸足を移す動きが強まっている例として,写真投稿サイト「フリッカー」を取り上げている。
「フリッカー」には2011年現在60億枚の写真が蓄積されているが,固定された分類や事前のカテゴリー分けはされていない。そのかわりに,写真をアップロードするときに「タグ」を付けることになっている。タグは誰でも自由に作成して付けることができ,このタグのおかげでUウェブ上の膨大なコンテンツが簡単に閲覧できるようになった。
第五章では相関分析の有効性実証例として,世界最大の小売りチェーン店「ウォルマート」での実話をあげている。
一人の客がどの商品を購入し,いくら使ったのかだけでなく,買い物カゴに一緒に入っていたものは何か,来店したのは何時か,その日の天気はどうだったかまで徹底的に調べ上げた結果,ハリケーンの到来が近づくと,懐中電灯の売り上げが伸びただけでなく「ポップターツ(朝食によく食べるお菓子)」の売り上げも増加しているという事実が判明,そこで,嵐が近づいた際には,店頭のハリケーン対策用品コーナーにポップターツも大量に陳列,売上増大につながった。
以下,第五章「データフィケーション−「すべてのもの」がデータ化され,ビジネスになる時代」第六章「ただのデータに新たな価値が宿る−ビジネスモデルの大変化 その1」第七章「データを自由に利用する企業−ビジネスモデルの大変化 その2」と続き,第八章「リスク−ビッグデータのマイナス面−『1984』の悪夢は実現するか」では,ビッグデータによってプライバシーのリスクが高まる実例として,AOLが過去の膨大な検索データをユーザー名やIPアドレスといった個人情報は数字だけの識別子に置き換えて一般公開した結果,ニューヨークタイムズは「60代の男性」「健康にいいお茶」「ジョージア州リルバーン」「造園業」といった検索語を組み合わせて,ユーザー番号「4417749」がジョージア州リルバーン在住の未亡人テルマ・アーノルドさんであることを突き止めてしまい,この記事をきっかけに激しい抗議が巻き起こり,AOLの関係者が処分される事態にまで発展したという。
新しいテクノロジーには必ず陽と陰がある。
著者は第九章「情報洪水時代のルール−ビッグデータ時代のガバナンスとは」で,その問題について言及する。
最後に,第十章「ビッグデータの未来−ここまで述べてきたことの「まとめ」」で著者は言う。
『人間の素晴らしいところをアルゴリズムやコンピュータチップに訊いても無駄だ。絶対に答えられない。なぜならそれはデータとして取りこめないものだからだ。それは「そこにあるもの」ではなく「そこにないもの」なので。空白だったり,歩道の亀裂だったり,暗黙だったり,まだ考えてもいないことだったりする。ビッグデータのおかげで実験は速くなったし,多くの手掛かりを採ることが可能になった。これだけ利点がそろっていればイノベーションも多く生まれそうだ。ところが発明のひらめきはデータには語れない。まだ存在していないのだから,いくらデータ量を増やしたからといって,裏付けや確証が得られるものではないのだ。発明の才が人類進歩の源泉である以上,ビッグデータの世界であろうと,独創性,直感,知的野心といった最も人間らしい特質を育むことが大切である』

そして,ビッグデータは三つの大変化をもたらすという。
第一の変化は「ビッグデータは限りなくすべてのデータを扱う」ということ。
無作為抽出の少ないデータでは察知できなかったものが,デジタル技術の普及により,従来とは比べ物にならないほどの膨大なデータを扱うことができるようになった。
第二の変化は「量さえあれば精度は重要ではない」ということ。
少ないデータでは,なるべく正確な数字で表わす必要があったが,データ量が多くなれば厳格な精度は現実的ではないし,好ましいことでもない。
絶えず変化するデータが大量にある場合,何もおいても完璧な正確さを目指す必要はなくなる。
第三の変化は「因果関係ではなく相関関係が重要になる」ということ。
人間は因果関係に執着するが,因果関係に執着しないのがビッグデータの世界,重要なのは「理由」ではなく「結論」,データ同士に何らかの相関関係が見つかれば新たなひらめきが生まれる。
本書は全十章からなる。
第一章では,そもそもビッグデータとは何か,どのような変化をもたらすものか,本書の構成はどのようになっているかを解説。
第二章「すべてのデータを扱う」では第一の変化を,第三章「精度は重要ではない」では第二の変化を,第三章「因果から相関の世界へ」では第三の変化を詳述している。
第二章では「N=全部」の出番の具体例として,日本の国技相撲が取り上げられている。
千秋楽で7勝7敗の力士と8勝6敗の力士が当たった場合,7勝7敗の力士が勝つ可能性がおよそ25%高くなっていた。さらに,問題の取り組み後,再び同じ顔合わせを迎えたとき,1回目に負けた力士が勝つ可能性が,3回目,4回目の同じ顔合わせのときよりも3〜4倍高くなっていることが判明したという。
第三章では正確さから乱雑さへと軸足を移す動きが強まっている例として,写真投稿サイト「フリッカー」を取り上げている。
「フリッカー」には2011年現在60億枚の写真が蓄積されているが,固定された分類や事前のカテゴリー分けはされていない。そのかわりに,写真をアップロードするときに「タグ」を付けることになっている。タグは誰でも自由に作成して付けることができ,このタグのおかげでUウェブ上の膨大なコンテンツが簡単に閲覧できるようになった。
第五章では相関分析の有効性実証例として,世界最大の小売りチェーン店「ウォルマート」での実話をあげている。
一人の客がどの商品を購入し,いくら使ったのかだけでなく,買い物カゴに一緒に入っていたものは何か,来店したのは何時か,その日の天気はどうだったかまで徹底的に調べ上げた結果,ハリケーンの到来が近づくと,懐中電灯の売り上げが伸びただけでなく「ポップターツ(朝食によく食べるお菓子)」の売り上げも増加しているという事実が判明,そこで,嵐が近づいた際には,店頭のハリケーン対策用品コーナーにポップターツも大量に陳列,売上増大につながった。
以下,第五章「データフィケーション−「すべてのもの」がデータ化され,ビジネスになる時代」第六章「ただのデータに新たな価値が宿る−ビジネスモデルの大変化 その1」第七章「データを自由に利用する企業−ビジネスモデルの大変化 その2」と続き,第八章「リスク−ビッグデータのマイナス面−『1984』の悪夢は実現するか」では,ビッグデータによってプライバシーのリスクが高まる実例として,AOLが過去の膨大な検索データをユーザー名やIPアドレスといった個人情報は数字だけの識別子に置き換えて一般公開した結果,ニューヨークタイムズは「60代の男性」「健康にいいお茶」「ジョージア州リルバーン」「造園業」といった検索語を組み合わせて,ユーザー番号「4417749」がジョージア州リルバーン在住の未亡人テルマ・アーノルドさんであることを突き止めてしまい,この記事をきっかけに激しい抗議が巻き起こり,AOLの関係者が処分される事態にまで発展したという。
新しいテクノロジーには必ず陽と陰がある。
著者は第九章「情報洪水時代のルール−ビッグデータ時代のガバナンスとは」で,その問題について言及する。
最後に,第十章「ビッグデータの未来−ここまで述べてきたことの「まとめ」」で著者は言う。
『人間の素晴らしいところをアルゴリズムやコンピュータチップに訊いても無駄だ。絶対に答えられない。なぜならそれはデータとして取りこめないものだからだ。それは「そこにあるもの」ではなく「そこにないもの」なので。空白だったり,歩道の亀裂だったり,暗黙だったり,まだ考えてもいないことだったりする。ビッグデータのおかげで実験は速くなったし,多くの手掛かりを採ることが可能になった。これだけ利点がそろっていればイノベーションも多く生まれそうだ。ところが発明のひらめきはデータには語れない。まだ存在していないのだから,いくらデータ量を増やしたからといって,裏付けや確証が得られるものではないのだ。発明の才が人類進歩の源泉である以上,ビッグデータの世界であろうと,独創性,直感,知的野心といった最も人間らしい特質を育むことが大切である』
