C分野 ハードウェア・アーキテクチャ |
選奨セッション ハードウェア・アーキテクチャ |
9月13日(火) 9:30-12:00 1b会場
座長 土屋 達弘(大阪大学)
鯉渕 道紘(国立情報学研究所) |
CC-001 |
画像認識のためのOptimally Wired Neural Networks
○河野 隆太(国立情報学研究所)・松谷 宏紀(慶應義塾大学)・鯉渕 道紘(国立情報学研究所)・天野 英晴(慶應義塾大学)
×
CC-001画像認識のためのOptimally Wired Neural Networks
○河野 隆太(国立情報学研究所)・松谷 宏紀(慶應義塾大学)・鯉渕 道紘(国立情報学研究所)・天野 英晴(慶應義塾大学)
画像認識のためのニューラルネットワークは、特徴量の演算操作と伝播をそれぞれノードとエッジとしたグラフを基にモデル化されており、ResNetやDenseNetといった高精度のモデルが提案されている。 こうした中、最新の研究において、Watts-Strogatzモデルに基づくランダムグラフを基に構築されたニューラルネットワークが、画像認識の精度を大幅に向上させることができることが示されている。 その一方で、オンチップ・オフチップ向け相互結合網を高性能化するための取り組みとして、Order/Degree Problemと呼ばれるグラフ最適化問題の解法が多数提案されており、それらがランダムグラフと比べ直径や平均距離といったグラフの性能を大幅に改善できることが示されている。 本研究では、この解法の1つである対称トポロジをニューラルネットワークに適用し、モデルの幅と深さのさらなる最適化を行う。 |
CC-002 |
モデル分散深層学習へのApproximate Computing適用時のモデル精度・処理性能の評価
○菅 真樹・中村 太(リトルウイング)
×
CC-002モデル分散深層学習へのApproximate Computing適用時のモデル精度・処理性能の評価
○菅 真樹・中村 太(リトルウイング)
深層学習モデルの大規模化が進んでおり、学習および推論処理の計算コストが課題である。我々はコンピュータシステムの演算器、メモリ、ネットワーク、ストレージなどの構成要素にApproximate Computing(以下、AC)を適用することで、学習や推論の高速・省電力化を目指している。しかし、複数の構成要素へのACを適用した際のモデル精度と学習処理速度への影響は明らかではない。本稿では、モデル分散深層学習システムによる性能評価結果に基づき、構成要素へのAC適用時の性能見積もりモデルを作成し、性能向上効果の見積もりを行う。また、NWなどの構成要素のAC処理を模擬し、モデル精度への影響の評価を行う。 |
CC-003 |
深層学習を利用した零細農園向け除草ロボットの構築
◎吉久 翔悟・堀田 忠義・秋葉 将和(職業能力開発総合大学校)
×
CC-003深層学習を利用した零細農園向け除草ロボットの構築
◎吉久 翔悟・堀田 忠義・秋葉 将和(職業能力開発総合大学校)
除草は農作物栽培の際に必須の作業である. 一般農法で広く行われている除草手段は, 除草剤散布による方法である. 一方で, 除草剤を使用せず作物を損傷することなく雑草だけを機械的な手段で除去するために, 様々な自律型除草ロボットが開発されているが, その大半は大型で高価であるため,零細農園向けとは言えない.本研究では, これよりも小型かつ低価格な自律型除草ロボットを設計及び製作する. |
CC-004 |
Shift-and-Add法を用いた対数変換回路の高精度化
◎比嘉 駿・田中 勇樹・魏 書剛(群馬大学)
×
CC-004Shift-and-Add法を用いた対数変換回路の高精度化
◎比嘉 駿・田中 勇樹・魏 書剛(群馬大学)
本論文では,Shift-and-Add法とLook Up Tableを用いた組合せ論理のみの2進対数変換回路を提案する.従来のShift-and-Add法による対数変換では、入力される仮数の上位数ビットを右シフトし、仮数に加算することで対数近似を行っていた。しかし、今回我々が提案する近似方法では下数ビットを右シフトし、仮数に加算し近似を行う。これにより、先行研究で提案されていた変換回路とほぼ同じ面積と遅延時間で対数変換の精度を向上させ、誤差を約1/6に低減している。 |
CC-005 |
2入力2出力排他制御素子に対するスキャン機能の付与
◎山田 裕隆・岩田 大志・山口 賢一(奈良工業高等専門学校)
×
CC-0052入力2出力排他制御素子に対するスキャン機能の付与
◎山田 裕隆・岩田 大志・山口 賢一(奈良工業高等専門学校)
現在、非同期式回路の需要が高まっている一方で、設計が難しく標準化されたテスト容易化設計手法が存在しない. そこで、排他制御素子(MUTEX)を含む非同期式回路に対するテスト容易化設計手法とスキャンMUTEXを提案する. スキャンMUTEXには、岩田らが提案する同期式回路で標準的に使われているスキャンテスト法を非同期式回路に適応する手法を用いる。これにより、排他制御素子を含む非同期式回路の組合せ回路部分のテストが可能かつ、スキャンMUTEXを用いたMUTEXのテストが可能である。 今後は設計したスキャンMUTEXを入出力ピン数、面積、遅延,テスト実行時間などの観点から有用性を評価する. |
CC-006 |
メルセンヌ・ツイスタのための最小テスト系列組込み法
◎渡邉 未来・山口 賢一・岩田 大志(奈良工業高等専門学校)
×
CC-006メルセンヌ・ツイスタのための最小テスト系列組込み法
◎渡邉 未来・山口 賢一・岩田 大志(奈良工業高等専門学校)
今日では,半導体プロセスの微細化に伴いLSIは大規模化,高性能化が進んでいる.その一方でLSIのテストは困難となっている. LSIの故障を効率よく検出する知見が得られているテスト手法のメルセンヌ・ツイスタ(MT)アルゴリズムに基づく乱数生成器に対し,最小テスト系列を設定し,LFSRによって得たテスト系列との比較、評価を行う. 本論文で提案する最小テスト系列は,MTを構成する回路に対して適切なテスト系列を設定する.またそれが最小であることを故障シミュレーションを実行し確認を行った. さらに最小テスト系列を組込んだ際の面積評価,テスト系列数評価を行い、実装した場合にどのような利点があるのか評価を行った. |
組込みシステム |
9月13日(火) 15:30-17:30 3c会場
座長 眞鍋 雄貴(福知山公立大学) |
C-001 |
自律走行する木の際刈り可能なクローラ型ロボットの開発
◎渡邉 悠人・千葉 慎二(仙台高等専門学校)
×
C-001自律走行する木の際刈り可能なクローラ型ロボットの開発
◎渡邉 悠人・千葉 慎二(仙台高等専門学校)
近年,日本では農業従事者の減少,高齢化,1人当たりの耕地面積増加により,高齢な農業従事者がより広い耕地での農作業を強いられる恐れがある.特に草刈り作業は重労働であり,時にその作業負担は離農の要因ともなっている.この現状に対し,自動草刈りロボット等の農業ロボットの開発による農業支援が行われている.しかし,作物付近の際刈り等の繊細な動作を要する箇所については人間による操縦を必要としており,完全な農業支援の実現には至っていない. 我々はこの問題に対し, 自律走行する木の際刈り可能なクローラ型ロボットを研究開発している. 本件では自律走行による木の際刈り,及びその他農業支援を可能とすることを目的とし, ロボットの製作,GNSSやIMU等のセンサを用いた自律走行システムの構築を行い, 実証実験によりシステムの有効性を示した. |
C-002 |
ROS2-FPGAノード生成による高位合成FPGAモジュール動作検証手法の提案
◎森 隼人(芝浦工業大学)・大川 猛(東海大学)・菅谷 みどり(芝浦工業大学)
×
C-002ROS2-FPGAノード生成による高位合成FPGAモジュール動作検証手法の提案
◎森 隼人(芝浦工業大学)・大川 猛(東海大学)・菅谷 みどり(芝浦工業大学)
高位合成によって生成したFPGAモジュールを動作検証する際には,C言語のテストベンチから,FPGA駆動することが想定される.しかし,システムに統合するにあたり,エッジやクラウドのどこに配置するかを想定した上でのネットワーク接続の実装が必要である.本研究は,ROS2-FPGAノードの自動生成を行うツールFOrESTを活用し,高位合成によるFPGAモジュールをROS2ノード化し,ネットワーク上の配置に制約されずに動作検証及び配置・運用が可能となる手法を提案する.本研究では,白線認識FPGAモジュールの動作検証を題材とした,複数のFPGAボード上でのネットワーク接続における開発事例を示す. |
C-003 |
学習済モデルのパラメータを活用した再学習手法の検討
◎伊原 和美・中西 知嘉子(大阪工業大学)
×
C-003学習済モデルのパラメータを活用した再学習手法の検討
◎伊原 和美・中西 知嘉子(大阪工業大学)
本研究では,エッジデバイス上で動作させる機械学習モデルの精度を保ったままより高速に動作させる手法について検討した. 機械学習モデル高速化の手法として,GhostModuleを既存の機械学習モデルに組み込むことを考えた.また,組み込む際に,学習済機械学習モデルの中間出力を利用して,再学習にかかる時間を削減できないか検討した. 結果として,中間出力を利用して個々のモジュールを学習させる手法では,置き換える層が増加するほど,精度の低下がみられた.置き換えた層をまとめて学習させると,精度の低下は軽微なものだった.わずかな差が,多くの層へ広がると,無視できないほど大きくなることによると思われる. |
AIアクセラレーション |
9月14日(水) 9:30-12:00 4c会場
座長 小林 悠記(NEC) |
C-004 |
動的部分再構成可能なFPGAを用いた複数の入力解像度に対応した超解像CNNの実装
◎宇貞 勇輝・黒木 修隆・沼 昌宏(神戸大学)
×
C-004動的部分再構成可能なFPGAを用いた複数の入力解像度に対応した超解像CNNの実装
◎宇貞 勇輝・黒木 修隆・沼 昌宏(神戸大学)
複数の入力解像度に対応可能な超解像CNNの低消費電力実装を目的として,FPGAの動的部分再構成機能を利用することで,各入力解像度に対応した超解像CNN回路を切り替えて実装する手法を提案する。具体的には,超解像倍率が異なる2種類の超解像CNN回路に対して動的部分再構成を適用することで,複数の入力解像度への対応と,必要な利用リソース数の削減を図る。評価実験の結果,従来手法に対して実装に必要なリソース数を30~50%削減可能であるとともに,DSP利用数を削減した超解像CNN回路を利用することで,動的部分再構成用に割り当てられるリソース利用数を33%削減可能であることを確認した。 |
C-005 |
画像分類CNNのFPGA実装に向けたインクリメンタル量子化手法によるリソース削減
◎山本 晃暉・黒木 修隆・沼 昌宏(神戸大学)
×
C-005画像分類CNNのFPGA実装に向けたインクリメンタル量子化手法によるリソース削減
◎山本 晃暉・黒木 修隆・沼 昌宏(神戸大学)
画像分類CNNのFPGA実装に向けた軽量化を目的として,インクリメンタル量子化手法を提案する。CNNの畳み込み層において,量子化誤差の大きい重みから段階的に2のべき乗への量子化を適用する一方,量子化未適用の重みに対して再学習を行うことで,量子化誤差による精度低下を軽減する。本手法を適用した結果,VGG16ではパラメータ容量を90%以上削減しつつ,精度が1.5pt向上する一方,MobileNetV2ではパラメータ容量を約80%削減しつつ,精度が約1pt低下した。さらに,畳み込み層をFPGAに実装した結果,LUT,FF,DSP,BRAMの各リソース利用数を70%以上削減する効果を確認した。 |
C-006 |
深層学習モデル「RegNet」のエッジデバイスへの実装の検討
◎田嶋 夏己・中西 知嘉子(大阪工業大学)
×
C-006深層学習モデル「RegNet」のエッジデバイスへの実装の検討
◎田嶋 夏己・中西 知嘉子(大阪工業大学)
近年,エッジAIが自動運転などのリアルタイムな処理が必要とされる分野で注目されている.しかし,エッジAIは端末の性能が低く,複雑な処理が必要とされる高精度なAIをリアルタイムに処理させることは難しい. 本研究では,高精度な深層学習モデルである「RegNet」をエッジ端末であるUltra96v2に搭載し,リアルタイムな推論の実現を目的とした. Ultra96v2の特徴であるFPGAによる回路の実装により,CPUで推論を行いつつ推論の1部を回路で行うことで推論の高速化を行った. 回路を使用し,推論を行った結果,CPUのみで推論を行った場合と比較して12.5倍高速に推論を行えた. |
C-007 |
エッジ AI における畳み込み演算処理の高速化の検討
◎川﨑 健太・中西 知嘉子(大阪工業大学)
×
C-007エッジ AI における畳み込み演算処理の高速化の検討
◎川﨑 健太・中西 知嘉子(大阪工業大学)
近年,エッジ端末によるAIの高速化に注目が集まっている.高速化手法として,FPGA回路でアクセラレートする方法がある.一般的に使用される浮動小数点数で回路化を行い処理すると,推論結果の精度が保持されるが高速化の妨げになる.そこで,推論処理のボトルネックである畳み込み処理の積和演算を固定小数点化して演算回路の高速化を図る.しかし,固定小数点数では,桁落ちや桁溢れが発生するため,演算結果に差異が生じでしまいAIの推論の精度が高確率で悪化する.そのため,畳み込み処理の積和演算部のみを固定小数点化して,小数部のビット数を調整することによりエッジ端末でのAIの高速化を検討する. |
C-008 |
エッジ端末による推論処理に必要なデータ転送最適化手段の検討
◎岩本 征弥・中西 知嘉子(大阪工業大学)
×
C-008エッジ端末による推論処理に必要なデータ転送最適化手段の検討
◎岩本 征弥・中西 知嘉子(大阪工業大学)
近年飛躍的に進化している深層学習などのAI技術は一般に計算量が大きく,CPU上で動作するには要求性能が非常に高くなる.エッジ端末で推論処理を行う「エッジAI」を実現するために,SoC FPGAを用いて低リソースで実装する手法を提案する.今回はEfficientNetを例として,処理時間の大半を占めていた処理をアクセラレートする回路を作成した.処理時間を計測し,回路の各セグメントの処理を分析し,高速化を実現できた箇所を検証した.その後,さらなる高速化を図るため,データ転送手段の最適化を考案・実装する.実装したのちに再計測を行うことで,処理時間削減に必要な手段を調査し,効果的な削減手法を考察した. |
C-009 |
SoC FPGAにおける推論処理の高速化に最適なデータ処理の検討
◎川上 智也・中西 知嘉子(大阪工業大学)
×
C-009SoC FPGAにおける推論処理の高速化に最適なデータ処理の検討
◎川上 智也・中西 知嘉子(大阪工業大学)
近年,飛躍的に進化を続けるAIをエッジ端末上で動作させる「エッジAI」が注目されている.しかしエッジ端末上では高速に推論処理を行うことが困難な問題がある.そこで,画像認識AIの一つであるEfficientNetをSoC FPGAで高速に推論処理を行うために,推論処理の約9割を占めている畳み込み演算をアクセラレートする回路を作成した.作成した回路を用いて処理時間を計測し評価を行った.さらに詳細に計測を行った結果,ソフト-回路間のデータ転送に時間がかかっていることが分かった.さらなる高速化のために,データ転送の最適化を考案・実装する.実装したのち,再び処理時間を計測し評価を行うことで,処理時間の削減に効果的な手段を調査した. |
FPGA応用および回路設計 |
9月14日(水) 15:30-17:30 5c会場
座長 土屋 秀和(東海大学) |
C-010 |
FPGAによるホログラム高速イメージングシステムの開発
◎谷口 甲斐・増田 信之(東京理科大学)
×
C-010FPGAによるホログラム高速イメージングシステムの開発
◎谷口 甲斐・増田 信之(東京理科大学)
3次元計測技術として知られるデジタルホログラフィでは,フレネル・キルヒホッフの回折積分に代表されるような,ある面からある面への光の伝搬を計算する必要がある.この時これら回折計算は,計算時間の観点から2次元高速フーリエ変換を使用した計算を使用するのが一般的であるが,それでもなお計算には大きな負荷を要する.本研究では,2次元高速フーリエ変換のFPGAでの効率的な実装手法を検討するとともに,CPUやGPUなどの市販のプロセッサに対する優位性についも検討する. |
C-011 |
FPGAを用いたLRPC復号器の試作
◎坂本 翔太・黒川 恭一・松原 隆・岩井 啓輔(防衛大学校)
×
C-011FPGAを用いたLRPC復号器の試作
◎坂本 翔太・黒川 恭一・松原 隆・岩井 啓輔(防衛大学校)
LRPC符号(Low Rank Parity Check Codes)は2013年に発表されて以来、耐量子計算機暗号やネットワーク符号への応用が研究されている符号である。現在、C言語によるライブラリは開発されているが、FPGAによる実装の論文等はなく符号化及び復号速度は明確でない。そこで、本研究ではLRPC復号器のFPGA実装を行った。FPGAによる復号速度とCPUとの復号速度を比較した結果、FPGA実装の優位性がわかった。今後、他のパラメータにおける復号器の実装および、パイプライン化や並列化の実装を行い、さらなる高速復号器の開発を目指していく。 |
C-012 |
マルチFPGAによる位相型電子ホログラフィ専用計算機の開発
◎山本 洋太(東京理科大学)
×
C-012マルチFPGAによる位相型電子ホログラフィ専用計算機の開発
◎山本 洋太(東京理科大学)
電子ホログラフィは,人間が3次元物体を認識するために必要な奥行き手がかりをすべて再現でき,理想的な3次元提示手法として注目を集めている.一方で,その実用化には膨大な計算能力を必要とし,既存の計算機ではリアルタイム処理に不十分である.本発表では,電子ホログラフィ向け専用計算回路を実装したマルチFPGAシステムを構築し,40万点の点群をリアルタイムに表示することに成功した.開発したシステムのアーキテクチャについて紹介する. |
C-013 |
非明示的集合表現に基づく修正箇所シミュレーションによる論理診断処理の効率化
◎津山 勲貴・黒木 修隆・沼 昌宏(神戸大学)
×
C-013非明示的集合表現に基づく修正箇所シミュレーションによる論理診断処理の効率化
◎津山 勲貴・黒木 修隆・沼 昌宏(神戸大学)
論理回路に含まれる設計誤りを自動的に修正する論理診断の処理時間短縮を目的として,修正すべき箇所を論理値で表す修正箇所変数を用いた非明示的集合表現に基づく修正箇所シミュレーションを用いた論理診断手法を提案する。一つのブール変数Xを含む誤り追跡入力に対して各信号線が取り得る4種類の値の可能性について,修正箇所変数を用いた論理関数で表現する。不一致外部出力値を機能仕様と一致させるために修正すべき箇所の集合を,二分決定グラフに基づく非明示的な表現によって求めることで処理効率化を図る。提案手法を実装・評価した結果,5箇所の機能誤りを含む回路に対して,処理時間を約95% 短縮する効果を確認した。 |
C-014 |
ディープニューラルネットワークを利用したシステムに対する高効率な検証法
○白石 忠明(三菱電機ソフトウエア)・高橋 寛・王 シンレイ(愛媛大学)
×
C-014ディープニューラルネットワークを利用したシステムに対する高効率な検証法
○白石 忠明(三菱電機ソフトウエア)・高橋 寛・王 シンレイ(愛媛大学)
AIシステムの信頼性確保は喫緊の課題であるが,現状の判別精度の検証においては,膨大テストケースによって長い検証時間が必要で,さらに,判別精度が悪い場合に,その理由を説明するために必要な情報も得られない。本稿では,ディープニューラルネットワーク層と等価な回路をFPGA上に実現し,高効率・高精度に検証できる検証システムを提案する。評価実験では,物体検出アルゴリズムのYOLOを実装したAIシステムの検証を実施し,HDLシミュレータにてYOLO回路を検証する時間のおよそ500分の1以下の検証時間に短縮できることを明らかにした。さらに,誤った判定結果を得た時に,許容範囲を超えた計算結果を有する層を指摘できることを示した。 |
C-015 |
光線情報に基づくホログラフィ専用計算機における高速処理の実装
◎丸山 達也(千葉大学/情報通信研究機構)・市橋 保之(情報通信研究機構)・星 郁雄(千葉大学/情報通信研究機構)・角江 崇・下馬場 朋禄・伊藤 智義(千葉大学)
×
C-015光線情報に基づくホログラフィ専用計算機における高速処理の実装
◎丸山 達也(千葉大学/情報通信研究機構)・市橋 保之(情報通信研究機構)・星 郁雄(千葉大学/情報通信研究機構)・角江 崇・下馬場 朋禄・伊藤 智義(千葉大学)
電子ホログラフィは,コンピュータ上で光の伝搬と干渉をシミュレーションすることで,計算機合成ホログラム(CGH)を作成し,空間光変調器(SLM)に表示することで,3 次元像の再生を行うことができる.電子ホログラフィの課題として,CGHの生成に膨大な計算量を必要とすることがあげられる.そこで,膨大な通信を必要とせずに高速なCGH生成を行う計算機システムを構築することを目的とした.本研究では,光線情報を波面情報に変換してCGHを生成する手法を採用し,FPGAにおける高速な処理の実現に向けたパイプライン処理やメモリアドレス管理を行った. |
ストレージシステム |
9月15日(木) 13:10-15:40 7b会場
座長 林 英里香(富士通) |
C-016 |
SSDを活用したHDDベース分散ストレージの評価
○天野 隆(日立製作所)
×
C-016SSDを活用したHDDベース分散ストレージの評価
○天野 隆(日立製作所)
画像処理用などの大容量ストレージのアクセス性能高速化が求められている。HDDベースストレージは安価で大容量であるがアクセス性能が低速である。HDDと比較すると,SSDベースストレージは高価で小容量であるがアクセス性能が高速であるという特徴がある。これらの特徴などを考慮して大容量でアクセス性能が高速なストレージの実現が課題である。HDDベース分散ストレージの一部にSSDを活用することでアクセス性能の高速化を図り,その分散ストレージのアクセス性能を評価した。評価の結果,SSDを活用したHDDベース分散ストレージのアクセス性能高速化を確認した。 |
C-017 |
ストレージシステムにおけるボリューム稼働情報送信性能改善の検討
◎東郷 一輝・鈴木 貴敦・佐藤 賢太・柴山 司・出口 彰(日立製作所)
×
C-017ストレージシステムにおけるボリューム稼働情報送信性能改善の検討
◎東郷 一輝・鈴木 貴敦・佐藤 賢太・柴山 司・出口 彰(日立製作所)
ストレージ装置のボリューム(記憶領域)の稼働情報をクラウドへ送信し、クラウドで分析することで、トラブルの予防をするなどの管理者を支援する管理ソフトウェアが求められている。稼働情報送信性能改善により、多くのデータを高頻度で送れるため、より高度な分析が可能になる。そこで、ボリューム稼働情報送信性能改善をめざす。管理モジュールの限られたメモリサイズの中で稼働情報送信性能を高速化することが課題である。対象ストレージ装置は、稼働情報へのデータアクセスのために、ボリューム定義情報を参照している。ボリューム稼働情報データと比べ、ボリューム定義情報の更新頻度が低く、サイズが小さいという特徴を活かし、I/O処理を行うコントローラに格納しているボリューム定義情報を管理モジュールにキャッシュすることで稼働情報送信性能を高速化する方式を提案する。実機評価の結果、キャッシュサイズは単純に稼働情報データをキャッシュする場合と比べ約92%少ない容量にしつつ、性能はキャッシュ方式適用前から約1.8倍の性能向上の見込みを得た。 |
C-018 |
書換え耐性が低いNAND flashメモリ向けのキャッシュアルゴリズムの提案
○松田 慎平(所属なし)
×
C-018書換え耐性が低いNAND flashメモリ向けのキャッシュアルゴリズムの提案
○松田 慎平(所属なし)
NAND Flashメモリの多Bit化技術は、記憶容量の高密度化に大きく寄与したものの、メモリセルの書き換え回数が低下する点が問題となっている。この問題に対処するため、複数の異なる記憶密度のNAND Flashメモリを組み合わせた階層型ストレージを如何に構成すべきかの戦略を議論する。本報告では、2階層よりも3階層の構成とした方が、低書き換え耐性メモリを用いる階層型ストレージ適していることを主張する。また、3階層のメモリ間でのデータのやり取りを如何に行うべきかを考察し、一例として、LRU-kキャッシュ置換アルゴリズムを適用することを提案する。 |