GPUクラスタ上における階層型行列計算の最適化

Satoshi Ohshima, Ichitaro Yamazaki, Akihiro Ida, Rio Yokota

Research output: Contribution to journalArticle

Abstract

階層型行列は小さな密行列と低ランク近似行列から構成される行列である.密行列を階層型行列によって近似することで,大規模な計算をより少ないメモリ量で行うことが可能となる.しかし階層型行列を用いた計算は複雑であるため,最適化が求められている.我々はこれまで階層型行列を用いた境界要素法による静電場解析問題の実装と評価をマルチコア CPU やメニーコアプロセッサにて実施してきた.本稿では,階層型行列を係数行列に持つ線形方程式に対する反復法を対象として,GPU クラスタ上での性能評価や最適化に取り組んだ結果を示す.主要な計算部である階層型行列ベクトル積計算を構成する密行列ベクトル積計算を MAGMA BLAS に行わせることで高速化を目指したところ,GPU カーネル起動のオーバーヘッドにより実行時間が増大したが,BATCHED MAGMA を用いることで大幅に性能が改善した.実験環境としては TSUBAME 2.5 (最大 8 ノード / 1 ノードあたり 1 GPU) および Reedbush-H (最大 8 ノード / 1 ノードあたり 1 GPU) を使用し,それぞれ 8 ノードまで性能向上は得られたが,ノード数を増やした場合には MPI 処理の時間も目立ってきており,さらなる最適化が求められる結果となった.
Original languageJapanese
Pages (from-to)1-8
Number of pages8
Journal研究報告ハイパフォーマンスコンピューティング(HPC)
Volume160
Issue number14
Publication statusPublished - Jul 19 2017

Cite this

GPUクラスタ上における階層型行列計算の最適化. / Ohshima, Satoshi; Yamazaki, Ichitaro; Ida, Akihiro; Yokota, Rio.

In: 研究報告ハイパフォーマンスコンピューティング(HPC), Vol. 160, No. 14, 19.07.2017, p. 1-8.

Research output: Contribution to journalArticle

@article{d4dd75e93ff64d6d8fcd380fefaf9669,
title = "GPUクラスタ上における階層型行列計算の最適化",
abstract = "階層型行列は小さな密行列と低ランク近似行列から構成される行列である.密行列を階層型行列によって近似することで,大規模な計算をより少ないメモリ量で行うことが可能となる.しかし階層型行列を用いた計算は複雑であるため,最適化が求められている.我々はこれまで階層型行列を用いた境界要素法による静電場解析問題の実装と評価をマルチコア CPU やメニーコアプロセッサにて実施してきた.本稿では,階層型行列を係数行列に持つ線形方程式に対する反復法を対象として,GPU クラスタ上での性能評価や最適化に取り組んだ結果を示す.主要な計算部である階層型行列ベクトル積計算を構成する密行列ベクトル積計算を MAGMA BLAS に行わせることで高速化を目指したところ,GPU カーネル起動のオーバーヘッドにより実行時間が増大したが,BATCHED MAGMA を用いることで大幅に性能が改善した.実験環境としては TSUBAME 2.5 (最大 8 ノード / 1 ノードあたり 1 GPU) および Reedbush-H (最大 8 ノード / 1 ノードあたり 1 GPU) を使用し,それぞれ 8 ノードまで性能向上は得られたが,ノード数を増やした場合には MPI 処理の時間も目立ってきており,さらなる最適化が求められる結果となった.",
author = "Satoshi Ohshima and Ichitaro Yamazaki and Akihiro Ida and Rio Yokota",
year = "2017",
month = "7",
day = "19",
language = "Japanese",
volume = "160",
pages = "1--8",
journal = "研究報告ハイパフォーマンスコンピューティング(HPC)",
issn = "2188-8841",
publisher = "一般社団法人情報処理学会",
number = "14",

}

TY - JOUR

T1 - GPUクラスタ上における階層型行列計算の最適化

AU - Ohshima, Satoshi

AU - Yamazaki, Ichitaro

AU - Ida, Akihiro

AU - Yokota, Rio

PY - 2017/7/19

Y1 - 2017/7/19

N2 - 階層型行列は小さな密行列と低ランク近似行列から構成される行列である.密行列を階層型行列によって近似することで,大規模な計算をより少ないメモリ量で行うことが可能となる.しかし階層型行列を用いた計算は複雑であるため,最適化が求められている.我々はこれまで階層型行列を用いた境界要素法による静電場解析問題の実装と評価をマルチコア CPU やメニーコアプロセッサにて実施してきた.本稿では,階層型行列を係数行列に持つ線形方程式に対する反復法を対象として,GPU クラスタ上での性能評価や最適化に取り組んだ結果を示す.主要な計算部である階層型行列ベクトル積計算を構成する密行列ベクトル積計算を MAGMA BLAS に行わせることで高速化を目指したところ,GPU カーネル起動のオーバーヘッドにより実行時間が増大したが,BATCHED MAGMA を用いることで大幅に性能が改善した.実験環境としては TSUBAME 2.5 (最大 8 ノード / 1 ノードあたり 1 GPU) および Reedbush-H (最大 8 ノード / 1 ノードあたり 1 GPU) を使用し,それぞれ 8 ノードまで性能向上は得られたが,ノード数を増やした場合には MPI 処理の時間も目立ってきており,さらなる最適化が求められる結果となった.

AB - 階層型行列は小さな密行列と低ランク近似行列から構成される行列である.密行列を階層型行列によって近似することで,大規模な計算をより少ないメモリ量で行うことが可能となる.しかし階層型行列を用いた計算は複雑であるため,最適化が求められている.我々はこれまで階層型行列を用いた境界要素法による静電場解析問題の実装と評価をマルチコア CPU やメニーコアプロセッサにて実施してきた.本稿では,階層型行列を係数行列に持つ線形方程式に対する反復法を対象として,GPU クラスタ上での性能評価や最適化に取り組んだ結果を示す.主要な計算部である階層型行列ベクトル積計算を構成する密行列ベクトル積計算を MAGMA BLAS に行わせることで高速化を目指したところ,GPU カーネル起動のオーバーヘッドにより実行時間が増大したが,BATCHED MAGMA を用いることで大幅に性能が改善した.実験環境としては TSUBAME 2.5 (最大 8 ノード / 1 ノードあたり 1 GPU) および Reedbush-H (最大 8 ノード / 1 ノードあたり 1 GPU) を使用し,それぞれ 8 ノードまで性能向上は得られたが,ノード数を増やした場合には MPI 処理の時間も目立ってきており,さらなる最適化が求められる結果となった.

M3 - 記事

VL - 160

SP - 1

EP - 8

JO - 研究報告ハイパフォーマンスコンピューティング(HPC)

JF - 研究報告ハイパフォーマンスコンピューティング(HPC)

SN - 2188-8841

IS - 14

ER -