あけましておめでとうございます
新年最初の記事は「JOYSOUND と DAM の Wikipedia ページのページビューの比較」です。
各カラオケブランドに対する関心度を調べる際の一つの指標として、Wikipediaのページビューは活用できると思われます。
Google Cloud Platform の BigQuery を使用しました。
抽出結果
JOYSOUND: 1673 views
DAM_(カラオケ): 1793 views
わずかにDAMが多いようです。
BigQueryとは
BigQueryはGoogle Cloud Platformが提供するビッグデータ解析サービスです。
BigQueryは数TB(テラバイト)あるいはPB(ペタバイト)に及ぶデータセットに対し、SQLに似たクエリを実行し、数秒あるいは数十秒程度で結果を返すというサービスになっています。
また、クエリ1TBまでは無課金ということで、気軽にビッグデータの解析が行えるので非常に便利です。
今回は、このBigQueryの公開データセット「bigquery-public-data.wikipedia.pageviews_2019」に対して12月1日〜12月31日までの、JOYSOUNDとDAMを含んだページのviewsをページ毎に集計しました。
以前のBigQueryでのWikipediaのページビュー抽出には、
「bigquery-samples.wikipedia_benchmark.Wiki10B」
というデータセットに対して行いましたが、今回は上記の最新の2019年のデータで行いました。
BigQueryでの抽出
BigQueryの画面で公開データセットの中から「wiki」に関するデータセットを表示して、pageviews_2019を表示します。
テーブルに対するSELECT文を書くと右下に、クエリで使われるデータ量が表示されるので、これが1TBを超えないようにSELECT文を調整します。
今回の12月1日〜12月31日までのJOYSOUNDの抽出では、「337.9GB」となっているので、おそらくDAMの抽出でも同じくらいと考えると、合計で1TBを超えそうにないので無課金で行けそうです。
抽出すると以下のような結果がえられました。
(結果を保存すると課金が発生するので、Googleスプレッドシートにコピペしました。)
同様にDAMも実行しました
このような感じで膨大なデータセットの中から、必要なデータの抽出が簡単に、高速に、安価で実行できます。
みなさんも試してみてはいかがでしょうか?