画像AIを備えた訪日外国人向け観光案内チャットボットの開発と実証実験

トランザクションデジタルプラクティス　Vol.2 No.1(Jan. 2021)

画像AIを備えた訪日外国人向け観光案内チャットボットの開発と実証実験

伊藤達明¹ 村山卓弥² 中村泰治¹ 島田有理子³ 長谷場隆之³ 溝口雄斗⁴ 北側真由佳⁴ 伊東剛志⁴ 藤井秀夫⁴

¹日本電信電話株式会社NTTサービスエボリューション研究所 ²日本電信電話株式会社研究企画部門 ³西日本電信電話株式会社 ⁴近畿日本鉄道株式会社

訪日外国人が急増する中，旅客施設における問い合わせ応対業務の一部を代替するため，利用客自身によって移動に伴う困り事を解決できるツールの提供が急務である．そこで，画像AIを備えたチャットボットによる，スマートフォン上で動作する観光案内サービスを実現した．そして，その有用性を評価するため，鉄道駅にて観光に訪れた外国人を対象として評価実験を行った．アンケートを通じてサービスの受容性および入力手段の利便性の両観点から評価した結果，いずれも肯定的な反応が顕著であり，実現したサービスの有用性を確認した．

スマートフォン，チャットボット，画像認識，インバウンド，観光案内

★2019年7月4日のDICOMO2019シンポジウムにて報告され，MBL研究会主査により論文誌トランザクションデジタルプラクティスへの掲載が推薦された論文である．

Development and Field Test of a Tourist Information Chatbot with Image AI for Inbound Tourists

Tatsuaki Ito¹ Takuya Murayama² Taiji Nakamura¹ Yuriko Shimada³ Takayuki Haseba³ Yuto Mizoguchi⁴ Mayuka Kitagawa⁴ Takashi Ito⁴ Hideo Fujii⁴

¹NTT Service Evolution Laboratories, NTT, Yokosuka, Kanagawa 239–0847, Japan ²Research and Development Planning Department, NTT, Chiyoda, Tokyo 100–1004, Japan ³NTT West Corporation, Osaka, Osaka 530–6691, Japan ⁴Kintetsu Railway Co., Ltd., Nara, Nara 630–8025, Japan

In recent years, the number of foreign visitors in Japan is increasing rapidly. It is urgent to provide a tourist information tool which can substitute with a part of concierge's work. We developed a tourist information chatbot with image AI which works on a smartphone. We also conducted a field test at a railway station for foreign tourists to evaluate usefulness of the chatbot. As a result of a questionnaire from viewpoints of service acceptability and convenience of input method, we confirmed the usefulness of the chatbot with image AI because positive reaction from subjects was remarkable.

smart phone, chatbot, image recognition, inbound, tourist information

1.　はじめに

ビジット・ジャパン・キャンペーンが官民協力の下2003年に開始されてから，日本を訪れる外国人は，2003年の約521万人から2018年には約3,119万人と，およそ6.0倍に急増しており[1]，今後も一層の増加が見込まれる．訪日目的別にみると，観光目的の客が全体の89.0%（約2,777万人）であり，訪日外国人のほとんどを占めている．

訪日外国人を受け入れる側である鉄道駅等の旅客施設では，急増する訪日外国人の移動等円滑化のため，これまで様々な対策を行ってきた．訪日外国人の利用が多い旅客施設を中心に，訪日外国人を含む利用客からの問い合わせ対応を主な業務とする係員（以下，コンシェルジュ）を設けて人的に対応することは，対応策の代表的な例である．また，案内対象の位置や方向を視覚的に提示するサインシステムの設置・更新が，国土交通省の定めるバリアフリー整備ガイドライン[2]に則って進められており，日本語の理解が不得手な者でも直感的に案内を理解できるよう，設備側の改良を行っている．

ここで，訪日外国人が旅行中困ったことは，2018年に観光庁が実施した多言語表示・コミュニケーションの受け入れ環境に関する調査[3]によれば，「施設等のスタッフとのコミュニケーション」（26.1%）が最も多い．続いて「多言語表示の少なさ・わかりにくさ」（21.8%）である．すなわち，旅客施設において，訪日外国人利用客の受け入れ態勢は，十分に整っているとは言い難いのが現状である．訪日外国人に対する問い合わせ対応では，多様な外国人利用客の母国語で対話可能な優れた言語能力や，旅客施設内外の諸案内対象に関する十分な知識を必要とするなど，コンシェルジュに対しては一定水準の応対能力が求められる．しかしながら，このような高い能力を有する人材を確保するのは容易ではない．すなわち，今後もさらに増加すると見込まれる訪日外国人からの問い合わせに対応するためには，人的対応力の増加による解決のみでは限界がある．そこで人的対応に加えて，困り事を解決できる新たなツールの実現が急務である．

このような背景の下，近年，対話型AIを用いた新たな訪日外国人向け案内サービスを提供する動きが活発化している．たとえば，スマートフォンやPCのアプリやWebブラウザから，チャット形式で問い合わせ対応を自動的に行うチャットボット型のサービス[4], [5], [6]はその代表的なものである．また，音声による会話機能を備えたコミュニケーションロボットやデジタルサイネージを鉄道駅構内に設置し，駅を訪れた旅客の案内対応を試みる取り組み[7], [8], [9]も行われている．いずれも，これまでコンシェルジュが担ってきた案内業務の一部を，対話型AIによって代替するものとして期待される．しかしながら，旅客施設における対話型AIの有用性については明らかにされているとは言い難い．

ところで，訪日外国人が出発前に得た旅行情報源で役に立ったもの[10]は，「個人のブログ」（29.7%），「SNS」（23.0%）等のオンライン上の情報や，「旅行ガイドブック」（13.1%）「旅行専門誌」（7.9%）などの印刷物が上位を占めている．この種の情報は，テキストで記述された情報に加え，写真や動画等ビジュアル情報で構成されるものが通例である．ビジュアル情報はテキスト情報単独の場合よりも，しばしば強い印象を与える[11]．そのため，ビジュアル情報は訪日外国人の観光行動に対して，少なからず影響を与えているものと考えられる．

一方，チャットボットやコミュニケーションロボット等の対話型AIでは，困り事を解決するためには，テキスト入力が求められる．そのため，ユーザ自身がこれら言語化が難しいビジュアル情報をテキスト化した上で入力する必要があり，迅速かつ円滑な問い合わせが困難である．このため，画像を入力として，画像認識技術を用いて入力画像に写っているものを識別する処理系（本稿では画像AIと称する）が必要である．しかしながら，テキストおよび画像両入力手段を同時に備える対話型AIは皆無である．

本稿では，鉄道駅をはじめとする旅客施設において，旅客施設を訪れた外国人観光客に対し，利用客自身によって問い合わせ事項を解決できるツールの提供を実現するため，テキストによる問い合わせに加えて，画像による問い合わせに対して画像認識結果に基づいて回答を行うことが可能な，画像AIを備えた観光案内チャットボットの有用性を検証する．

以下，本稿の構成を示す．第2章では，鉄道駅における訪日外国人の移動に関する状況を整理し，提案システムについて述べる．第3章では，提案システムの有用性を評価するために実施した実験の概要および結果について述べる．第4章では，評価実験の結果に対する考察を述べ，第5章でまとめと今後の課題を示す．

2.　提案システム

2.1　近鉄奈良駅の状況と課題

鉄道駅における訪日外国人の移動に関する現状を理解するため，近鉄奈良駅において，対応にあたるコンシェルジュへのヒアリング調査および訪日外国人の行動観察を行った．近鉄奈良駅は，駅周辺に著名な神社仏閣や公園などの観光地を多数有しており，近年観光需要を中心とした訪日外国人の利用が顕著な駅である．そのため，外国人観光客に対する案内を円滑に行うことができるように，観光客の多い日中時間帯を中心に，多言語対応が可能なコンシェルジュを数名程度配置して対応している．

まず，コンシェルジュへのヒアリングの結果，電車で近鉄奈良駅に到着した訪日外国人からの問い合わせは，駅から著名な観光スポット（奈良公園・東大寺・興福寺等）への行き方（37.2%）もしくは駅構内の各種設備（トイレ・コインロッカー等）の設置場所（40.9%）のいずれかに大別されることが分かった．その他，お薦めの食事処に関する問い合わせ等が21.9%であった．問い合わせ時には，単に言葉で聞くだけではなく，ガイドブックの写真や絵，さらにはスマートフォンの画面などをコンシェルジュに直接見せて，目的地への行き方を問い合わせるケースが少なくないことが分かった．問い合わせ件数については，訪日外国人客の増加に応じて年々増加していた．駅に到着した訪日観光客からの問い合わせは午前中に多く，特に10～11時頃に利用が多かった．

続いて，訪日外国人の行動観察について記すが，現地は雑然としていて厳密な計測は困難なため，規模感が分かる程度に概略を示すにとどめる．近鉄奈良駅では，応対にあたるコンシェルジュの配置人数は，時間帯ごとの駅の利用客数に応じて決められている．しかしながら，電車が駅に到着する際などには一時的に利用客が集中し，応対を求める利用客の待ち行列がしばしば発生することが分かった．待ち行列の長さは，おおよそ2～3グループ程度であった．問い合わせ1件あたりの所用時間はおおむね3分程度を要するため，時間にして5～10分程度の長さである．このような場合，利用客はコンシェルジュの対応が可能になるまで待つか，もしくは案内を断念して自ら別の方法で解決する必要がある．

このような状況を鑑みると，案内に関する利用客の不便を解消するためには，人的対応による解決だけではなく，利用客自身によって，観光スポットへの行き方および駅構内の各種設備を中心とした問い合わせ事項を解決できるツールの提供が必要であると考える．

2.2　画像AIを備えたチャットボット

鉄道駅において，コンシェルジュ業務の代替を狙った様々な対話型AIサービスが提案されているが，入力手段が単一（主にテキストのみ）のものがほとんどであった．そのため一つのAIサービスで困り事を解決できなかった場合，他のサービスを起動したり，切り替えたりと，ユーザの更なる操作を要求するものであった．

このような課題を解決するためには，1章および2.1節における検討を踏まえると，テキストおよび画像両入力手段を持つ対話型AIが望ましいものと考える．そのイメージを図1に示す．ユーザからの質問に対して特定のAI，ここではテキスト形式による対話を行うAI（対話AI）が対応できない場合には，他の適したAI，ここでは画像AIに質問対応を切り替えることで，ユーザの操作の手間を減らすとともにタイムリーな情報提供を実現する．

テキストおよび画像両入力手段を持つ対話型AIのイメージ　Outline of interactive AI with text input and image input. — 図1　テキストおよび画像両入力手段を持つ対話型AIのイメージ
Fig. 1　Outline of interactive AI with text input and image input.

その提供においては，ユーザ自身が必要なタイミングで操作可能であることが望ましい．2.1節における検討を踏まえると，コンシェルジュと同様，案内リソースの占有に伴う待ち状態の発生の懸念を有するコミュニケーションロボット型よりも，ユーザ個人の所持するデバイス上でサービス提供可能なチャットボット型が優れていると考える．

以上の検討を踏まえると，旅客施設における観光案内においては，対話型AIはチャットボット形式で実現し，さらには2.1節における現状分析に基づき，問い合わせ入力についてはテキスト入力に加えて画像入力を備える形態が望ましいものと考える．

2.3　奈良ガイドボット

前節までの検討結果に基づき，テキストおよび画像両形式による問い合わせが可能な，チャットボットをベースとした観光案内サービスである奈良ガイドボットを開発した．ユーザが質問する際，テキスト形式に加え，ユーザが知りたい物体等をスマートフォン上のカメラで撮影して画像を送ることにより質問できるようにした．

2.3.1　システム構成と処理フロー

システム構成を図2に示す．奈良ガイドボットサーバは，画像AIおよび，テキスト形式による対話処理を行うテキストAIの両モジュールで構成される．画像AIには，かざして案内を用いた．かざして案内は，案内看板や建物，商品などにスマートフォンをかざすことにより，経路案内や観光の詳細情報などをスマートフォンに設定された言語で表示するサービスである[12], [13]．かざして案内では様々な画像認識技術を適用した画像認識が可能であるが，奈良ガイドボットではアングルフリー物体検索技術[14]を用いた．そのため，斜めからかざしても遮蔽物があっても，対象物を高精度に認識可能である．

奈良ガイドボットの構成　Configuration of Nara Guidebot. — 図2　奈良ガイドボットの構成
Fig. 2　Configuration of Nara Guidebot.

また，テキストAIであるチャットボットモジュールは，株式会社NTTドコモとインターメディアプランニング株式会社が提供するRepl-AIをもとに開発した．Repl-AIは外部接続インタフェースを有し，外部に対してはHTTPプロトコルによる画像等の送受信が可能である．そこで，かざして案内との連携が容易に実現可能であることを重視してRepl-AIを採用した．

ユーザからの問い合わせの処理について述べる．ユーザはスマートフォンを用いて，テキストまたは画像入力を行う．両入力はそれぞれRepl-AIのWebサーバに送られる．テキスト入力の場合には，Repl-AIのテキスト言語処理部にて，入力されたテキストを言語解析して問い合わせの意図を分析し，続いて対話シナリオ処理部にてQ&A集データベースと問い合わせ内容とを照合してユーザに回答を返す．一方，画像入力の場合には，入力画像はRepl-AIの外部接続インタフェースを介してかざして案内に転送される．かざして案内では，内部に有する画像認識モジュールにて画像を解析し，入力画像に写っているものと画像データベースとを照合して，その名称をテキストとして取得する．そして，当該名称をRepl-AIのテキスト言語処理部に渡し，以降テキスト入力の場合と同様，対話シナリオ処理部を通じてユーザに返答する．

2.3.2　UI設計

画面構成は，初めて使用するユーザが違和感を抱かないよう，メッセージングアプリに類する構成を採用した．図1に示すとおり，画面中央部にメッセージのやりとりを表示する欄を配置し，画面下部に入力欄を配置した．入力欄については，テキスト入力欄に加え，テキスト入力欄の横にカメラ起動用のボタンを並べて配置した．これは，ユーザが自発的かつ容易に入力を切り替えて使用することができるようにするためである．カメラ起動用ボタンは，画像撮影用の機能であることを直感的に理解できるようにするため，カメラを模したアイコンとした．

2.3.3　データベースの構築

問い合わせに対してより適切に回答するためには，画像AI用の画像データベース（本事例ではかざして案内の画像データベース）およびテキストAI用の対話用データベース（同Repl-AIのQ&A集）の構築が重要である．これらの設計にあたっては，まずは2.1節の分析に基づき，駅から著名な観光地への行き方および駅構内の各種設備の案内それぞれに対して，想定される問い合わせをリストアップした．そして，それらをテキスト化しやすいものとテキスト化しにくいものに分けた．テキスト化しやすいものとは，システムのユーザが問い合わせの際に問い合わせ対象を容易に言語化可能なものであり，具体的には「トイレ」「コインロッカー」「両替機」などの駅構内の各種設備全般と，「奈良公園」「東大寺」「興福寺」など観光地の名称とした．一方，著名な観光地のうち代表的な建造物（東大寺「大仏殿」「南大門」等）の外観や，著名な仏像（東大寺「廬舎那仏（奈良の大仏）」や興福寺「阿修羅像」等）の像容等については，テキスト化しにくいものに分類して，画像による問い合わせ対処とした．

テキストAIの対話シナリオ処理部のQ&A集データベースでは，上記テキスト化しやすい問い合わせ用データを格納するが，その構築においては通常のチャットボットの構築と同様である．一方，画像AI用の画像データベースの構築については本研究の特徴的な点であるので，ここで説明する．画像AIによる問い合わせの対象は駅近郊の著名な観光地であるが，その観光地として15地点を選定した．また，各観光地にはそれぞれ複数の観光対象（東大寺に対しては「廬舎那仏（奈良の大仏）」「大仏殿」「南大門」等）があるため，各観光地ごとに複数の観光対象を選定した．選定した観光対象は総計103種類（1観光地あたり6.9種類）であった．そして，各観光対象についてリファレンスとなる画像を用意し，かざして案内にて学習させた．用いたリファレンス画像は全部で492枚（1観光対象あたり4.8枚）であった．これらのリファレンス画像は評価実験前にすべて用意のうえ，学習を行った．リファレンス画像の中には，3.1節にて説明するチラシやポスターに掲載される写真を近鉄奈良駅構内にて撮影した画像が含まれる．リファレンス画像のサイズは長辺を480ピクセルに統一した．1観光対象に対して用いたリファレンス画像は，撮影された角度が，正面から・左右から・下方向からなど，それぞれが異なるように選定した．

2.3.4　入力画像のサイズ設定

筆者らによる事前の動作確認において，チラシやポスターの写真をスマートフォンのカメラで撮影する際，画面中央部にて小さめに撮影する傾向がみられた．そこでカメラで撮影された画像に対して，画面全体のうち中央を基準として4分の3の大きさの領域を切り出すようにした．そして，サーバ上のリファレンス画像と同様，長辺が480ピクセルになるように画像サイズを変更した．

2.3.5　Webアプリ形式による実現

奈良ガイドボットサービスの実現形式については，スマートフォンのブラウザ上で動作するWebアプリ形式とした．サービスの開始URLが記されたQRコードをQRコードリーダで読み込むことで，奈良ガイドボットにアクセスする．ダウンロードアプリ形式ではなくWebアプリ形式としたのは，当該サービスの主な利用シーンを鑑みて，あらかじめダウンロードすることなく必要となったその場で迅速にサービス提供可能とするためである．なおWebアプリ形式の場合，画像認識処理をスマートフォン内にて行うことができないので，サーバ上に入力画像を送信して認識結果を返す必要があるため相応のレスポンス時間を要する．そこでレスポンス時間を極力短くするため，サーバに送信する画像サイズを小さくして画像の伝送時間を低減するようにした．

3.　評価実験

3.1　実験概要

奈良ガイドボットの有用性を評価するため，外国人観光客を対象として，近鉄奈良駅において評価実験を行った．実験の概要を図3に示す．本実験では，近鉄奈良駅東改札外コンコースにおいて，当駅を訪れた外国人観光客に対してチラシを配布した．チラシには，奈良ガイドボットのサービス概要・開始URLが記されたQRコード・近鉄奈良駅近郊の著名な観光地の写真等を記載した．チラシの説明文は，日本語・英語・中国語（簡体字・繁体字）の3か国語4言語で記載した．また，実験中であることを周囲に明示するため，駅構内にポスターを掲示した．ポスターの記載内容は，基本的にチラシと同様であった．

実験の概要　Outline of the field test. — 図3　実験の概要
Fig. 3　Outline of the field test.

被験者は，本実験に興味を示した外国人観光客とした．実験の説明等にあたっては，日・英・中3か国語の会話が可能なスタッフが同行し，それぞれの被験者の望む言語にて対応した．

実験参加に対する本人同意の後，原則として被験者自身の所持するスマートフォンからQRコードの読み取りを介して奈良ガイドボットにアクセスさせた．奈良ガイドボットの対応言語は，日本語・英語・中国語（簡体字・繁体字）の3か国語4言語とした（図1，3の画面イメージはいずれも英語の例）．言語の選択は，被験者のスマートフォンのOSの言語設定に応じて自動的に行われるものとした．

本実験では，テキスト入力および画像入力を通じて，近鉄奈良駅近隣の著名な観光地へのルートおよび駅構内の各種設備に関する両案内機能を提供しており，被験者には実験説明時にその旨説明した．続いて，テキスト入力および画像入力の手段を用いて，被験者本人の望む近隣の観光地へのルートを調べるよう，被験者に指示した．また，駅構内の各種設備やその他の観光地を含む問い合わせを任意で自由に行うよう依頼した．そして，それらの操作中の様子を観察した．

実験中は，原則として被験者単独で奈良ガイドボットを操作させたが，操作方法が不明な場合等については，同行するスタッフに問い合わせることを許した．本体験の被験者一人あたりの所用時間は，おおむね5～10分程度であった．

一連の操作体験の後，被験者に対してアンケートに回答させた．アンケートでは，表1に示す6項目の質問をそれぞれの言語で提示し，選択肢の中から一つ選択して回答させた．各質問に対する選択肢は，「1．非常に違う」から「7．非常にそうだ」の7段階とした．また，これらに加えて，被験者自身の年齢層についても回答させた．アンケート実施後には，任意でヒアリングを行った．ヒアリングでは，被験者本人の出身地や，奈良ガイドボット使用に伴う各種意見を聴取した．

アンケート項目　Questionnaire items. — 表1　アンケート項目
Table 1　Questionnaire items.

奈良ガイドボットの有用性の評価にあたっては，アンケート結果に対して，サービスがターゲットユーザに受け入れられることを示す受容性（Q.1–4）および入力手段に対する利便性（Q.5，6）の二つの観点から評価した．さらには，ヒアリング結果やシステムログに基づき，今後の改善点等を明らかにするようにした．システムログについては，被験者から問い合わせとして入力された画像およびテキストを記録し，結果分析に用いた．

3.2　実験結果

実験に参加した被験者は428人であった．被験者の年齢分布については，自身の年代について回答が得られた411名のうち，図4に示すとおり，76.4%の被験者が39歳以下であった．出身地の内訳については，中華圏出身者が75.5%であった．それ以外では，韓国・マレーシア等のアジア圏出身者が多く，日本人（1.2%）を除くアジア圏出身者で全体の92.1%を占めた．奈良ガイドボットで使用された言語は，中国語（簡体字・繁体字計）72.9%，英語26.2%，日本語0.9%の割合であった．

被験者の年齢層　Age group of the subjects. — 図4　被験者の年齢層
Fig. 4　Age group of the subjects.

アンケートに対する回答結果を図5–10に示す．いずれの設問に対しても，もっとも肯定的な選択肢「7．非常にそうだ」が過半数を超え，2番目に肯定的な選択肢「6．かなりそうだ」を加えると，肯定的な反応がいずれも90%前後（Q.1: 92.5%，Q.2: 95.6%，Q.3: 91.6%，Q.4: 89.2%，Q.5: 92.7%，Q.6: 89.1%）を占める結果であった．

アンケートQ.1回答結果　Result of Questionnaire Q.1. — 図5　アンケートQ.1回答結果
Fig. 5　Result of Questionnaire Q.1.

アンケートQ.2回答結果　Result of Questionnaire Q.2. — 図6　アンケートQ.2回答結果
Fig. 6　Result of Questionnaire Q.2.

アンケートQ.3回答結果　Result of Questionnaire Q.3. — 図7　アンケートQ.3回答結果
Fig. 7　Result of Questionnaire Q.3.

アンケートQ.4回答結果　Result of Questionnaire Q.4. — 図8　アンケートQ.4回答結果
Fig. 8　Result of Questionnaire Q.4.

アンケートQ.5回答結果　Result of Questionnaire Q.5. — 図9　アンケートQ.5回答結果
Fig. 9　Result of Questionnaire Q.5.

アンケートQ.6回答結果　Result of Questionnaire Q.6. — 図10　アンケートQ.6回答結果
Fig. 10　Result of Questionnaire Q.6.

ヒアリングでは，「言葉が通じないので人と話すのが難しい」との理由で，このような案内サービスを歓迎する声が34名から挙がった．同じく，「システムのほうが簡単で，スピーディ」（13名）・「人に面倒かけなくてよい」（7名）・「聞ける人を探す手間が省ける」（4名）として，人に聞くよりもスマートフォンを用いた案内サービスを支持する意見が目立った．また，サービス利用にあたって「ダウンロードが必要ならやめようと思っていたがそうではなかったので使った」との，Webアプリ形式を支持する意見もあった．入力手段に対しては，画像入力に対して「サービスを簡単に使える」「先進的なサービスであると感じる」など，好意的な意見が20名から挙がったのに対し，画像入力に対して否定的な意見はなかった．一方，テキスト入力から調べられる点が好ましいとした者は1名であった．アプリ操作については，ほとんどの被験者がテキスト入力および画像入力ともに的確かつ円滑に行うことができていたが，画面遷移やボタン配置などUI設計について改良を求める意見もあった．

問い合わせに用いられた入力画像については，観光地に対する問い合わせが1,242件（1人あたり2.9件）あった．観光地に対する問い合わせの内訳を多い順に列挙すると，奈良公園35.0%，東大寺24.6%，興福寺11.7%，春日大社8.0%，奈良町および依水園いずれも3.8%，その他（元興寺・新薬師寺等）13.1%であった．

入力画像の参照元，すなわち被験者が問い合わせを行う際に撮影した媒体については，その判別が不明確であるため詳細な分析は行っていないが，配布チラシおよびポスターに掲載された写真を撮影したものが多い傾向であった．これら配布チラシおよびポスターに掲載された写真を撮影したと思われる画像に対しては，撮影対象を正しく認識できたと考えられる割合は95.5%であった．正しく認識できなかった事例では，撮影時にカメラのピントが合っておらず不鮮明な画像である・照明等の外光が大きく映り込んで白飛びが広範囲に発生している・手に持ったものなどの影が大きく映り込んで広範囲が黒くつぶれてしまっているなどが認識失敗の原因であった．配布チラシおよびポスターに掲載された写真以外を撮影した画像としては，被験者が持参したガイドブックの写真やスマートフォン上に表示された写真を撮影したと思われるものが散見された．入力画像は，事前検討のとおり，問い合わせ対象の写真を画面中央部に小さめに撮影したものが多い傾向であった．

チャットボットで入力された語句は，総計2,043件（1人あたり4.8件）であった．各言語ともに，「奈良公園」「東大寺」「春日大社」などの周辺観光地を示す語句が，すべての入力語句中70.7%（全言語合計，以下同様）と多くを占めた．特定の観光地の名称だけではなく，「ランチ」等，周辺の食事処等のおすすめを求める入力も散見（2.3%）された．駅構内の設備に関する語句については，「コインロッカー」「トイレ」があった（8.3%）が，周辺観光地に関する問い合わせに比べると少数であった．その他，「大阪難波駅」など，復路の行先と思われる入力も6.1%みられた．復路に対する交通案内の機能は提供していなかったが，ニーズが相応にあることを示唆している結果であると思われる．

なお，チャットボットとして用いたRepl-AIの，クエリに対する応答の正確性については厳密な評価は行っていないが，筆者らの体感としては，他のチャットボットの性能と比べて著しい差があるものではなく，一般的な水準の性能を有するものと考える．

4.　考察

アンケートQ.1からQ.4は，奈良ガイドボットにおけるサービスの受容性に関する質問である．この評価にあたっては，Davisらの技術受容モデル（Technology Acceptance Model；以下TAM）[15]を用いる．TAMは，新たな情報システムの導入に際して，当該システムがユーザに使用されるに至る様々な要因をモデル化したものである．図11にTAMの概要を示す．TAMでは，情報システムの使用行動において重要なのは「知覚された容易性」と「知覚された有用性」の二つの要因であるとし，これらの要因が「利用への態度」および「利用への行動意図」に影響を与え，結果として情報システムの実利用に至ることを示している．すなわち，「知覚された容易性」および「知覚された有用性」，さらには「利用への態度」および「利用への行動意図」が高ければ，新たなサービスがユーザに受け入れられることを意味する．「外部変数」については，たとえばメニューやアイコン等のユーザインタフェース設計や，ユーザへのサポート体制等，情報システムの使用に影響を与えるすべての要因を意味する．しかしながら「知覚された容易性」および「知覚された有用性」の評価があれば「外部変数」については評価不要であるため，本実験では考慮しないものとした．

TAMの概要　Outline of TAM. — 図11　TAMの概要
Fig. 11　Outline of TAM.

以上の観点に基づき，本実験では，潜在的なユーザ層である本実験の被験者に対して，アンケートのQ.1からQ.4において，それぞれ「知覚された容易性」（Q.1）・「知覚された有用性」（Q.2）・「利用への態度」（Q.3）・「利用への行動意図」（Q.4）を意図した質問を行っている．その結果，いずれの回答においても，高い肯定感を表した，「7．非常にそうだ」および「6．かなりそうだ」を合わせた回答が90%前後であった．特に重要である二つの要因「知覚された容易性」「知覚された有用性」を示すQ.1およびQ.2の結果については，それぞれ92.5%，95.6%であった．TAMの評価にあたっては，一般的には具体的な数値目標は定められていないものの，本実験で得られた結果はいずれも肯定的な反応が顕著であるため，奈良ガイドボットはターゲットユーザに受け入れられる，すなわち利用客自身によって問い合わせ事項を解決するためのツールとして使われる可能性が高いことを示唆する結果であると考える．

次に，アンケートQ.5およびQ.6は，奈良ガイドボットにおける入力手段の利便性に関する質問である．アンケートの結果，チャットボット機能における入力「会話形式で質問できる」ことに対する利便性については，強い肯定感を表した，「7．非常にそうだ」および「6．かなりそうだ」を合わせた回答が89.1%，であった．また，画像検索機能における入力「写真で質問できる」ことに対する利便性については，同じく92.7%であった．すなわち，いずれの入力手段に対しても高い利便性を示している．さらには，それらの操作中の様子についてもほとんどの被験者が的確かつ円滑に操作できていることを踏まえると，従来のチャットボットが備えるテキスト入力に加え，言語化が難しいビジュアル情報を入力可能とする画像入力手段を備えたチャットボットによるサービス提供は，ユーザにとって入力における利便性が高く，好ましいことを示唆する結果であると考える．

さらには，画像入力に対しては，ヒアリングにて肯定的な意見が複数寄せられたのに対して否定的な意見は皆無であったことから，チャットボットにおいてはテキスト入力単独よりも，画像入力を備えることで，一層サービスの利用促進に資する可能性を有することを示唆するものであると考える．アンケートQ.1からQ.4の結果に対する画像入力の影響は不明確であるが，被験者に対して高い肯定感を与えた一要因となった可能性がある．

また，配布チラシおよびポスターに掲載された写真を撮影したと思われる画像に対する認識精度は95.5%と高い値であったことも，サービス受容性や画像入力の利便性に対する高い肯定感の一因であると考える．奈良ガイドボットのような画像AIを備えた案内サービスの提供においては，画像入力に対する応対精度は重要な要素である．本実験のように，ユーザから入力として用いられる可能性のある画像やその撮影状況を事前に絞り込むことができれば，画像データベースにおける学習を事前に的確に行い，高い応対精度を実現できる可能性を高めることができる．事前の絞り込みが困難な場合には，ユーザからの入力画像をリファレンス画像として適宜学習を行う仕組み等を設けて応対精度を高める必要がある．

なお，本実験の被験者は，実験実施期間中に近鉄奈良駅を訪れた外国人観光客のうち，本実験で提供する観光案内サービスに興味を示した者である．その被験者選定過程を踏まえると，本実験の被験者はサービスを実際に使う可能性が高い訪日外国人であり，本実験結果はそのようなターゲットユーザ相当の者による評価結果と考えられる．

以上，サービスの受容性および入力手段の利便性双方の結果から，チャットボットをベースとして，画像による問い合わせ入力手段を備えた奈良ガイドボットは有用であり，鉄道駅に到着した訪日外国人の困り事の解決に寄与するものであると考える．また，鉄道事業者等旅客施設側にとっては，人的対応の有力な代替手段として活用できるものと考える．コンシェルジュやブログ・旅行ガイドブック・旅行専門誌等の既存の情報提供手段との役割分担については更なる調査が必要であるが，本実験を通じて，人に聞くよりもスマートフォンを用いた案内サービスを支持する者が比較的若い年齢層を中心として少なからず存在することが分かった．そのため，コンシェルジュが担っている応対業務の一部をスマートフォン上のサービスで代替できること，さらには言葉の問題や煩わしさなどの理由でこれまで人に対する問い合わせをためらっていた旅行者への応対を新たに担うことができるものと期待される．

なお本実験では，原則として被験者自身の所持するスマートフォンを用いて，QRコードを読み取って奈良ガイドボットサービスを起動するようにしたが，サービスを起動できない事例が少なからず発生した．それらの事例は，QRコード読み取り後にWebブラウザに遷移する際，WeChatやLineなどのQRコード読取機能を有するアプリ内のブラウザが選択される際に生じた．不特定の訪日外国人を対象とする場合，ユーザのスマートフォン環境は，OSや各アプリなどのバージョンが様々である．そのため，Webアプリ形式によるサービス提供にあたっては，これらの動作環境の問題に特に注意する必要がある．

また，入力手段については，本研究では2.1節記載の現状分析の結果に基づきテキスト入力および画像入力を用いたが，これら以外にも，利用シーンによっては，たとえば音声入力なども有用であろう．さらには，本研究で扱ったテキスト入力および画像入力は，基本的に互いに独立した入力として処理されている．これに対し，音声入力等も含め，複数の入力データを組み合わせて更なる効果を創出することを狙ったマルチモーダルAI的なアプローチについても今後検討の余地がある．

5.　おわりに

急増する訪日外国人に対し，鉄道駅をはじめとする旅客施設においては，問い合わせ対応力の増強が求められているが，人的対応力の増強には限界がある．そこで，利用客自身によって問い合わせ事項を解決できるツールを提供するため，画像AIを備えた訪日外国人向け観光案内チャットボットを開発した．

また，開発したシステムの有用性を評価するため，近鉄奈良駅にて実施した評価実験について述べた．実験では，画像AIを備えたチャットボットである奈良ガイドボットを訪日外国人に使用させ，アンケートを通じて，サービスの受容性および入力手段の利便性の二つの観点から評価した．その結果，受容性および利便性のいずれも，被験者から肯定的な回答の割合が顕著であることが分かった．サービスの受容性は，新たなサービスがターゲットユーザに受け入れられて使用される可能性を示す指標である．そのため本結果は，奈良ガイドボットが利用客自身によって問い合わせ事項を解決するためのツールとして使われる可能性が高いことを示唆している．また，入力手段の利便性に対する結果より，従来のチャットボットが備えるテキスト入力に加えて，本提案手法により実現した，写真等の言語化が難しいビジュアル情報を画像形式で問い合わせ入力できる点についても利便性が高いことが示された．本結果は，チャットボットにおいてはテキスト入力単独よりも，画像入力を備えることで，サービス利用に至る可能性が一層高まることが示唆されたものと考える．そのため，チャットボットに画像入力機能を付加したスマートフォン上で動作する観光案内サービスは，訪日外国人に対しては旅客施設利用における困り事について人に頼ることなく解決できるツールとなりうるものであり，一方，旅客施設においてはこれまでコンシェルジュによる人的対応に頼っていた応対業務の一部を代替して応対能力の増強に資するものと期待される．

一方，実験を通じて，様々な課題や改善点が明らかになった．奈良ガイドボットの操作についてはおおむね的確かつ円滑に行われたものの，操作を体験した者からは，さらに操作性を高めるため，画面遷移やボタン配置など，UI設計の改良の必要性が指摘された．また，訪日外国人の使用するQRコードリーダやWebブラウザが筆者らの想定と異なり，サービスを起動できない例が少なからず発生した．これらの事例は，様々な訪日外国人の持つスマートフォン環境について事前によく調査したうえでサービスを実現する必要があることを示唆している．さらには，本実験では電車で駅に到着した者を対象としたが，これから電車に乗って駅を出発する者に対する案内サービスの検討についても必要である．また，鉄道事業者がこのようなサービスを事業導入するためには，コンシェルジュを含めた他の情報提供手段との詳細な比較も重要である．今後は，これらの課題等への対応を進め，訪日外国人がより快適に日本を観光できるようにするための一助としたい．

参考文献

[1] 日本政府観光局：統計データ（訪日外国人・出国日本人）|統計・データ|日本政府観光局（JNTO），<https://www.jnto.go.jp/jpn/statistics/visitor_trends/>（参照2020-8-12）.
[2] 国土交通省総合政策局安心生活政策課監修：バリアフリー整備ガイドライン（旅客施設編），交通エコロジー・モビリティ財団(2013).
[3] 観光庁：旅行の場面ごとの多言語表示・コミュニケーションの課題が明らかになりました　～多言語表示・コミュニケーションの受入環境について訪日外国人旅行者にアンケート調査を実施～ | 2018年 | 報道発表 | 報道・会見 | 観光庁，<http://www.mlit.go.jp/kankocho/news08_000239.html>（参照2020-8-12）.
[4] 横浜高速鉄道株式会社：人工知能（AI）を活用したご案内サービスを開始します! | お知らせ | みなとみらい線 | 横浜高速鉄道株式会社，<http://www.mm21railway.co.jp/info/news/2018/01/ai.html>（参照2020-8-12）.
[5] 相鉄グループ：「相鉄線アプリ」をリニューアル - 相鉄グループ，<https://www.sotetsu.co.jp/news_release/pdf/181126_01.pdf>（参照2020-8-12）.
[6] 西武鉄道：triplaチャットボットサービス - 西武鉄道，<https://www.seiburailway.jp/news/news-release/2018/20190109_triplaChatbot.pdf>（参照2020-8-12）.
[7] 東武鉄道：凸版印刷と東武鉄道，AIサムライで観光案内を検証，<http://www.tobu.co.jp/file/pdf/5b51d9a908c5b90f7455b3c342be5fbf/170721_2.pdf>（参照2020-8-12）.
[8] 東京都交通局：駅案内ロボットの実証実験を行います | 東京都交通局，<https://www.kotsu.metro.tokyo.jp/pickup_information/news/subway/2018/sub_p_201803157839_h.html>（参照2020-8-12）.
[9] 東日本旅客鉄道株式会社：「案内AIみんなで育てようプロジェクト」共同実証実験開始について，<https://www.jreast.co.jp/press/2018/tokyo/20181118_t01-.pdf>（参照2020-8-12）.
[10] 観光庁：訪日外国人消費動向調査 | 統計情報 | 統計情報・白書 | 観光庁，<http://www.mlit.go.jp/kankocho/siryou/toukei/syouhityousa.html>（参照2020-8-12）.
[11] 内山祭：インターネットニュースにおける視覚情報の受容に関する調査研究，国際日本研究，Vol.2, pp.139–181 (2010).
[12] 久原勇作，山下慎一郎，木下慎吾，手塚博久，市川裕介，深田聡：空港の情報ユニバーサルデザイン高度化の共同実験，NTT技術ジャーナル，Vol.28, No.5, pp.9–12 (2016).
[13] 伊藤達明，岩本秀明，中村泰治，中村幸博，手塚博久，山下慎一郎，藤波清孝：旅客施設におけるスマートフォンを用いた訪日外国人向け移動案内システムの提案および評価，電子情報通信学会技術研究報告，LOIS2018-9 (2018).
[14] Focus on the News: 3次元物体をどんな方向から撮影しても高精度に認識・検索し，関連情報を提示する「アングルフリー物体検索技術」を開発―スマホなどを看板や建物にかざすだけで，観光ナビゲーションサービスを実現，NTT技術ジャーナル，Vol.27, No.5, pp.67–68 (2015).
[15] Davis, F. D., Bagozzi, R. P. and Warshaw, P. R.: User Acceptance of Computer Technology: A Comparison of Two Theoretical Models, Management Science, Vol.35, No.8, pp.982–1003 (1989).

伊藤達明（非会員）tatsuaki.itou.wk@hco.ntt.co.jp

1995年NTT入社．以来，医療・介護・福祉等のICT化に関する研究開発に従事．2017年電子情報通信学会LOIS研究賞受賞．

村山卓弥（非会員）

2007年NTT入社．以来，ライフログシステムやサービスデザインの研究開発に従事．現在，NTT研究企画部門担当課長．電子情報通信学会会員．

中村泰治（非会員）

NTTサービスエボリューション研究所2020エポックメイキングプロジェクト主任研究員．1991年NTTデータ通信（現在はNTTデータ）に入社し，公共分野の情報システム開発に従事．2016年より現職．

島田有理子（非会員）

2004年西日本電信電話株式会社入社．営業担当．ICTを活用して，お客様とともに社会の課題を解決することを目的としている．現在は主に関西の大手運輸業を担当．

長谷場隆之（非会員）

1999年日本電信電話株式会社入社．同年西日本電信電話株式会社配属．サービス開発（Business development）業務を経て，2017年より現職．主に関西の大手運輸業を担当．

溝口雄斗（非会員）

2016年近鉄グループホールディングス株式会社入社．近鉄情報システム株式会社出向を経て2017年より現職．ICTを用いた案内支援および社内ビッグデータ活用の検討・調査研究を担当．

北側真由佳（非会員）

2010年近畿日本鉄道株式会社（現近鉄グループホールディングス株式会社）入社．車掌，運転士を経て2018年より現職．列車の自動運転およびICTを用いた案内支援の検討・調査研究を担当．

伊東剛志（非会員）

2002年近畿日本鉄道株式会社（現近鉄グループホールディングス株式会社）入社．近鉄情報システム株式会社出向を経て，2017年より現職．グループ内のIT統括業務およびITを使った新規事業，新技術の調査研究・導入を担当．

藤井秀夫（非会員）

1986年近畿日本鉄道株式会社（現近鉄グループホールディングス株式会社）入社．近鉄電気エンジニアリング株式会社や近鉄情報システム株式会社への出向を経て，2016年より現職．グループ内のIT統括業務およびITを使った新規事業，新技術の調査研究・導入を担当．

受付日2020年04月22日
再受付日 2020年6月22日/2020年8月12日
採録日 2020年09月11日