熊本大学 理学部

Pure Science

データ科学手法の計算科学への応用について

物理学コース 助教 島村 孝平

 私は計算物理学の分子シミュレーション手法を駆使し、材料の物性をミクロな観点から調べるといったことを行っています。そのような私が、同様に計算機を使い分野的にも親和性の高いデータ科学に接近したのは必然だったのかもしれません。データ科学は多変量解析や機械学習などが含まれ、次元削減やパターン解析等によりデータから使用者にとって意味のある情報を抽出することを目的にします。

 データ科学からの恩恵は素晴らしく、その代表たるものが「計算高速化による実行時間短縮」です。シンプルながら計算科学全般に及ぼした効果は絶大でした。例えば我々の属する計算物理学では密度汎関数理論などの量子論に基づく計算手法が良く使われ、精度の良い結果を得ることができます。しかし一方で、扱う原子数をNとすると少なくともN3に比例する計算コストがかかり、計算時間及び系の規模に大きな制限が課されることになります。ですが、高精度を保ったまま計算コストをNに比例するようにできるのであればどうでしょうか。データ科学の分野で多用される万能関数表現能力を備えた人工ニューラルネットワーク(ANN)は、機械学習により密度汎関数理論の複雑な計算パターンを模倣し、高速に演算できる単純な行列計算に置き換えることを可能にしました。この結果、未踏の領域まで手が届くようになり、収束値を得るために膨大な統計量を必要とする物理量(自由エネルギーなど)や、長時間の計算を行わないと発生しない現象(相転移や衝撃波など)も精度良くシミュレートできるようになっています。

 ごく最近では、データ科学から輸入した手法を各自然科学の分野に特化した形に組み直していく傾向が見られます。例えば上記のANNによる機械学習では、学習させるデータが有限であることに起因して、未学習データに対する予測精度が保証されない問題が以前から知られていました。時に致命的な予測結果を示す可能性があります。この対策法として、データが従うべき法則や数理的な関係を制約条件としてANNの構造や最適化アルゴリズムに導入することが行われるようになっています。例として物理学への応用では、物理量同士に不変性、同変性、共変性等の対称性が存在している場合があり、その関係を反映させるため、入力と出力の物理量に特定の対称性が成り立つようにANNが構築されます。導入された対称性の制約下でANNの学習が行われるため、結果として予測精度が著しく改善されることが知られるようになりました。物理学の研究者からするとそのような改善方法に至るのは当然のように思えますが、データ科学の研究者からすると他分野に精通していない限り採れない方法であるという点が重要です。共同研究が活発化している理由でもあり、やはり私も自分の属する分野特有の知識を活かせることに加えて、また未踏の領域を見せてくれるかもしれないと期待し、研究を続けているところです。

img_vol15_1.png

図1:原子数Nの3乗に比例する計算(O(N3))及び比例計算(O(N))の実行時間の模式図