会誌「情報処理」Vol.63 No.2(Feb. 2022)「デジタルプラクティスコーナー」

「ビッグデータのデータサイエンス ~ニューノーマル時代のビッグデータ~」編集にあたって

里 洋平1,2,3  石井一夫4

1(株)Village AI  2nat(株)  3(株)Lupinus  4公立諏訪東京理科大学 

編集にあたって

2020年春から,またたく間に世界中に広がった新型コロナウイルスの蔓延は,我々の生活を大きく変化させた.リモートワークや在宅勤務による新しい勤務形態も拡がり,DX推進が加速化している.本誌で前回ビッグデータ特集号(「ビッグデータ,IoT,AI:最新の事例と人材育成」)を企画したのは,2020年7月であり,ちょうどコロナ禍に突入し,今後の世界の変化と混乱を予感させるときであり,先行きが見えないときであった.以後,新型コロナウイルスの蔓延は,一進一退を繰り返し,依然先が見えない状況が続いている.同時に,世界中で熱波や豪雨など,気候変動による地球温暖化の顕在化が加速化してきており,その危機的状況はもはや見過ごすことのできないほどになっている.国内では,少子高齢化が急速に進み医療や職場を含む社会システムの崩壊が危惧されるようになってきている.

このような社会課題に対し,解決策を模索し提供する手段として,ビッグデータの重要性への認識が高まっている.いわゆるビジネス活動の推進や効率化のためのビッグデータ利活用という観点から,DXの推進を基盤にした社会課題解決の手段としてのビッグデータ利活用という形に,そのありようが少しずつ変化してきている.この中で,ニューノーマル時代のビッグデータを分析するデータサイエンスの在り方を探るという趣旨で,今回1年半ぶりに,「ビッグデータのデータサイエンス ~ニューノーマル時代のビッグデータ~」と題して企画するに至った.

ビッグデータとは何かを,ここで議論するのは野暮であるが,最近再認識し,強調したいことは,ビッグデータ・アナリティクスの強み,あるいは特徴は「悉皆調査」を基本にしているということである.これにより,従来の推計統計学では難しかった社会課題の解決に向けた個別化対応とグローバルな未来予測が可能になってくる.新型コロナウイルスの蔓延の分析や,地球温暖化の影響調査などは,「悉皆調査」であるからこそ,その真髄に迫ることができる.本特集で,社会課題の解決に向けたビッグデータのデータサイエンスについて考えつつ,我々がどこに向かおうとしているのか,何を成さなければならないのか,ヒントとなるようなものを提供できれば幸甚である.

本特集は,5つの招待論文と座談会で構成した.

最初の招待論文は,「Apache ArrowによるRubyのデータ処理対応の可能性」と題し,プログラミング言語Rubyにおけるデータ処理環境の構築である.ご存知のとおり,データ分析で使用されるプログラミング言語は,フリーソフトウェアでは,PythonやRが主流で,新しいものとしてはJuliaが注目されている.Rubyは,PythonやRと同様に学びやすくて書きやすい言語で,Ruby on Railsの基盤がありWebアプリケーションとしては非常にポピュラーであるが,データサイエンスのためのプログラミング言語としては対応が遅れている.しかし,本来,PythonやRと同じような使い方ができるので,環境さえ整えば非常に優れた言語になる可能性がある.本稿では,Rubyで本稿のApache ArrowをはじめとするRubyのデータサイエンス言語環境の整備に尽力している村田賢太((株)Speee)らにその開発の現状を執筆いただいた.

2番目の招待論文は,医療ビッグデータに関するもので,「大阪府の特定健康診査データの因果探索」というタイトルで大山飛鳥(大阪大学キャンパスラ イフ健康支援・相談センター)らによる,国保連合会が管理する国民健康保険のデータベース(KDBデータベース)のデータ分析に関する報告である.レセプトデータ,健診データのデータベースは,巨大で専門性が強く,その処理には特別な配慮と技術が必要であるが,その処理に関するノウハウや知見が語られている.特に,線形回帰モデルの性質を利用した因果推論探索は,医療ビッグデータのデータ分析を行う上で参考になると思われる.

3番目の招待論文は,マーケティングにおけるビッグデータ処理に関するもので,「Account-Based Marketingのためのターゲット企業推薦モデルの改善」というタイトルで新井和弥((株)ユーザベース)らによるものである.本稿では,ターゲット企業推薦モデルにおいて,L2正則化項付きのロジスティック回帰モデルを,ナイーブベイズ拡張モデルなどほかの方法と比較した上で,提案手法として選択したプロセスを示している.機械学習全盛の時代に,あえて古典的手法であるロジスティック回帰モデルを選択したプロセスや考察は,ほかのビッグデータを用いた推薦モデルの検討にも役立てることができるであろう.

4番目の招待論文は,文系大学におけるデータサイエンスの数理リテラシー教育の現状を紹介するので,「人文・社会科学系大学におけるデータサイエンス教育」というタイトルで増川純一(成城大学)らに執筆いただいた.特に,数理系科目に苦手意識を持つ文系学生に対するビッグデータを意識したデータサイエンス教育の整備状況について紹介している.初学者に向けた数理リテラシー教育,統計学を中心としたデータ分析に関する科目,自然言語処理や画像認識を中心とした機械学習と,その範囲を広げて教育環境の整備が進んでいる様子が伺える.

5番目の招待論文は,農業におけるリモートセンシングによる画像解析に関するもので,「ドローンによる作物の表現型計測と機械学習による作物バイオマス・収量の予測」というタイトルで辰己賢一(東京農工大学)氏に執筆いただいた.いわゆる,農作物の背丈などの直接の表現型計測データに加え,ドローンによる画像データから得られる表現型計測データを元に農作物の重量(バイオマスともいわれる)や収穫量を予測する機械学習モデルを作成しようとするものである.今後のスマート農業など,環境計測によるスマート農業への応用推進が期待される.

最後に,「ビッグデータのデータサイエンス ~ニューノーマル時代のビッグデータ~」と題し,本会ビッグデータ解析のビジネス実務利活用(PBD)研究グループ(略称:ビッグデータ研究グループ)の運営委員メンバによる座談会を企画した.本座談会では,ビッグデータに関するデータサイエンスについて最近のトピックを語っていただいた.トピックとして,データと法律,データの流通,データの質,人材育成に関する議論がなされた.

今回の「ビッグデータのデータサイエンス」特集では,データ分析そのものを中心に意識しており,その実務面での活用促進の一面を垣間見れる.本特集が,今後の読者諸氏のニューノーマル時代のビッグデータ利活用推進のためのヒントになれば幸甚である.

  • (2021年11月1日)
里 洋平(正会員)y.sato@villageai.jp

R言語の東京コミュニティTokyo.R創立者.ヤフー(株)で,推薦ロジックや株価の予測モデル構築など分析業務を経て,(株)ディー・エヌ・エーで大規模データマイニングやマーケティング分析業務に従事,その後,(株)ドリコムにて,データ分析環境の構築やソーシャルゲーム,メディア,広告のデータ分析業を経て,DATUM STUDIO(株)を設立.2021年7月に退任し現在は,(株)Village AI 代表取締役, nat(株) 取締役, (株)Lupinus 社外取締役.本会ビッグデータ解析のビジネス実務利活用研究グループ幹事を兼任.

石井一夫(正会員)kazuoishii2014@gmail.com

公立諏訪東京理科大学工学部情報応用工学科教授,久留米大学医学部内科学講座心臓・血管内科講座客員准教授.少子高齢化および地球温暖化問題の克服に向けた医療ビッグデータ,環境・農業ビッグデータの教育研究に従事.本会ビッグデータ解析のビジネス実務利活用研究グループ主査.

会員登録・お問い合わせはこちら

会員種別ごとに入会方法やサービスが異なりますので、該当する会員項目を参照してください。