検索はIT技術において基本中の基本だったりします。
いわゆる検索窓にキーワードを入力して検索することだけでなく、ごく一般的なニュース記事のスポーツの最新記事一覧ページであっても、実はシステム内部ではニュース記事データベースに対して、スポーツのジャンルの最新記事という検索をかけて表示をしています。
逆に日常生活利用の観点で言えば、Googleを初めてとする、WEBページを探す「WEB検索」が検索という行為の代名詞となっていると思います。
しかしながらこの「WEB検索」というビジネスほど聖域かつ難しい問題を持つITビジネスはないんじゃないかと最近感じています。
この記事ではWEB業界で働く一人のWEBエンジニアの視点でWEB検索ビジネスの現状を考察してみました。
目次
データ量の問題
実際に成功する成功しないを考慮しなければ、ほとんどのITビジネスは小規模スタートが可能と思います。
しかしながら、WEB検索ビジネスはそもそも小規模スタートという概念が存在しません。
GoogleやMicrosoftといったWEB検索事業者は、クローラーというシステムを使って世にあるWEBページを組まなく収集してデータベース化し、そのデータベースのリストを検索結果として提供します。
インターネットの発展により世にあるネット上のウェブページの量は日進月歩で爆増しています。
以下の日本貿易振興機構の記事によると、「世界のデータ流通量(IPトラフィック)は、1984年の毎月17ギガバイトから、2017年には1217億ギガバイト(=122エクサバイト、DVD304億枚相当)にまで増加した。2021年には、2017年の2.3倍の278エクサバイトまで増加すると予測されている」と述べています。
厳密にはインターネット全体では会員専用ページやダークウェブなどの検索結果対象とならない領域が半分以上占めますが、それでも尋常ではないWEBページのデータを集める必要があります。
非常にこのような莫大なデータ量を収集するには非常に大規模なサーバインフラが必要です。
この時点でスタートアップベンチャーなどがチャレンジすることが不可能になってしまいます。
技術的問題
もしも仮にお金持ち企業が独自のWEB検索エンジンを作ろうとして莫大なインフラ費用をかけてWEBデータを収集するインフラを作ったとします。
ところが次にこの膨大なデータをいかに良質なWEBページランキングリストとしてユーザーにとどけられる表示順位アルゴリズムをつくれるかという課題が存在します。
日本の記事だと、「ページランク」というGoogleが特許を持つアルゴリズムの紹介ばかりされていますが、実際は以下の英語の記事のように200以上のさまざまなアルゴリズムのチューニングによって提供されています。
これらのページチューニングの技術は日々データサイエンティストたちの努力によって更新され続けており、Googleはその研究の最先端研究企業でもあります。
インフラをクリアしたあとに次に出てくるのがこのアルゴリズム面での技術的なハードルです。
この結果、単にインフラ費用をかけたからといって、ビジネス観点で検索事業を積極的にやろうというメリットが落ちてしまいます。
寡占化の問題
データインフラの問題と、アルゴリズムの技術力の問題を述べました。
この2つは実は車輪のように相関しています。
検索表示順位の向上にあたって改良されるアルゴリズムにはユーザーの興味関心などが含まれます。
これらはすでにGoogle検索に対するクリック結果、GoogleアナリティクスなどのWEB解析ビジネスなどで得られたデータが用いられています。
つまり、Googleは長年の検索サービスのユーザー利用ログ、ビジネスの拡大によって検索以外での人々のWEBページ利用ログのデータを持っており、このデータを活用して検索結果の精度向上という、ビジネス発展サイクルを繰り返しています。
こうなってしまうとますますWEB検索ビジネスにおける参入障壁が上がります。
この結果として発生しているのがビジネスの寡占化です。
ほぼ世界市場のほとんどをGoogleが占めています。次に来るのはMicrosoftのBingですがそれでも規模はGoogleには及びません。
以下の記事のように世界ではさまざまな検索エンジンがあるようです。しかしながら、ベースのエンジンはGoogleやBingであったりで独自のエンジンを持つのは少数派です。
世界でも、最も寡占化問題が深刻であるのは日本ではないかと思います。
上に上げたページのリストに日本の企業は一つも存在しません。またページにはありませんが、韓国もNaverが独自のWEB検索エンジンを開発しています。
ポータルサイトとしてはYahoo!JAPANや楽天Infoseek、Gooなどの国産企業がありますが、どれも採用WEB検索エンジンはGoogleです。日本のWEB検索エンジンはありません。
この問題に危機感を感じている法学・経済学の社会学者、実業家は多いようで、GAFA問題の一つとしてあげられています。(ご興味あるかたは以下の本などを手に取ってみることをお勧めします。)
ちなみに、Yahoo!や楽天がGoogleのエンジンを採用するように、Google、Microsoftは自社のエンジンを有料提供しています。
しかしながら、APIが出力する検索結果の順位や表示内容を加工してはいけない。独自検索アルゴリズム開発のために利用してはいけない。料金計算はAPIアクセス回数単位とする。検索結果をキャッシュしてAPIアクセス回数を減らしてはいけないなど非常に厳しいレギュレーションがあります。(詳細は各企業のAPIの利用規約ページをみてください)
そのため、Yahooや楽天も基本的に表示結果を忠実にだすのみで、なかなかGoogleやMicrosoftのエンジンをベースに新たな検索ビジネスをつくるということも厳しかったりしています。
今、アメリカにおいて、Googleの独占禁止法違反の裁判が行われています。
元より、単なるブランド力やビジネス的な囲い込みにとどまらないインフラコスト・技術観点で非常に高いハードルがあります。そのため安直な罰金・規制を設けたところでこのような構図は解決されないと思います。
私の考察も安直ですが、例えば、データベースだけ提供し表示順位づけは自由化する事業者、逆に検索ロジックだけで勝負する事業者など、分散される業界構造にならないと簡単には寡占化の解決はしないのではないかと思います。
法的課題
この事業ハードルの高さ、寡占化の問題に振り回されているのが法的問題ではないかと思います。
検索事業の寡占化によりWEB検索事業は、人々のインターネット上の知る権利のインフラとして非常に高い中立性を求められてしまっています。
元からSEOなどでいかに検索順位を上げるかというのがビジネス化していましたが、最近では表示結果のアルゴリズムの透明性なども求められ始めています。
逆に検索結果の表示削除も中立性という問題に強い影響を受けています。
以下の記事の裁判例を代表するように、検索結果の削除請求は簡単に認められません。
寡占事業故にあまり判例がないというのも実情ですが、最高裁の判断として、一般的なWEBページの違法情報表示よりも厳しい削除基準を最高裁が示して判断しています。
誹謗中傷などの違法情報発信に関して、インフラ事業者や発信者が海外の新興国在住であったりして、削除が容易にできないという課題があります。この課題に対処する次善策としてでてくるのが検索結果への表示削除請求になります。
しかしながら記事のように、現在の検索結果の要求される中立性が容易に検索結果削除を最高裁レベルでも認めにくいという現象が生まれています。
発信元インフラの発信停止というそもそものインターネットの仕組み上の課題もありますが、検索事業者の対応を次善策とするのも困難という課題が生まれています。
また、ここまで社会のインフラになっているのに関わらず、そもそも著作権法などの観点で、WEB検索事業はグレーゾーンが非常に多いと言う課題もあります。
ヤフーの元法務執行役員別所さんが書かれた以下の本に、検索事業が著作権法上合法となるためのヤフーの活動における苦労が書かれています。
一応上の本で書かれた取り組みを通じて、著作権法的な整理が進んでいます。しかしながら、私個人、WEB系事業にいる立場としてまだまだ、著作権的にグレーな領域はとても多く感じています。
ビジネスにおけるWEBページスクレイピングと同様、引用などの法的整理を頑張ることはできますが、ここまでアグレッシブにすると引用成立しないんじゃないか。最悪訴えられるんじゃないかと言う不安を持つことは多いと思います。
機械学習やメタバースの領域の要望もあり、著作権のデータベース化など利活用の容易化を政府レベルでも進めていますが、現状の法的グレーゾーンの多さはビジネス上のもう一つのハードルになっているのも事実かと思います。
終わりに
WEBビジネスに携わる身としてのもやもやをまとめただけの記事ですが何か気づきを得られましたら幸いです。
最後まで読んでいただきありがとうございました。
Photo by Andreas Klassen on Unsplash