D分野 データベース |
選奨セッション データベース |
9月13日(火) 9:30-12:00 1c会場
座長 本多 賢(駒澤大学)
福田 悟志(中央大学) |
CD-001 |
高速・高精度なk最近傍距離推定
新井 悠介・○天方 大地(大阪大学)・藤田 澄男(ヤフー)・原 隆浩(大阪大学)
×
CD-001高速・高精度なk最近傍距離推定
新井 悠介・○天方 大地(大阪大学)・藤田 澄男(ヤフー)・原 隆浩(大阪大学)
ビッグデータマイニングはデータサイエンスにおける重要なタスクであり,ビッグデータに隠れた新たな知識の獲得等が期待できる. 特にデータ間の類似性を利用したデータ分析は多くのアプリケーションで利用されており,k最近傍までの距離を利用するものが多い. この時,この距離を計算する操作が分析の際にボトルネックとなる. 既存研究ではこの操作の効率性を向上する方法が提案されているが,多くのデータアクセスを要するため,大量のデータにスケールしない. そこで本研究では,全結合ニューラルネットワークとピボットを用いたk最近傍距離を高速かつ高精度で推定する機械学習モデルを提案する. このモデルは,最近傍からk最近傍までの距離を同時かつO(1) 時間で推定することができるという特長がある. 実データを用いた実験およびケーススタディから,提案モデルの有効性を示す. |
CD-002 |
多様性を考慮した最大内積探索
◎平田 皓平(大阪大学)・天方 大地(大阪大学/JSTさきがけ)・原 隆浩(大阪大学)・藤田 澄男(ヤフー)
×
CD-002多様性を考慮した最大内積探索
◎平田 皓平(大阪大学)・天方 大地(大阪大学/JSTさきがけ)・原 隆浩(大阪大学)・藤田 澄男(ヤフー)
最大内積探索(または 𝑘 -MIPS)は,ユーザに対して好ましいアイテムを推測し,推薦システムにおける基本的な操作である.多様なアイテムを推薦することはユーザ満足度を向上させるにも関わらず,𝑘 -MIPSの既存研究では多様性について考慮されていない.そこで,我々は新しい問題である,多様性を考慮した 𝑘-MIPS を定式化する.この問題では,ユーザは推薦リストの多様性をパラメータで制御可能である.しかし,この問題を正確に解くことは NP困難であり,多様性を考慮した 𝑘-MIPS に対する効率的,効果的,および実用的に解くアルゴリズムを考案することは挑戦的である.本論文では,この課題を克服し,新しい早期終了およびスキップ技術を貪欲アルゴリズムに組み込んだ IP-Greedy を提案する.実データを用いた大規模な実験およびケーススタディを行い,本アルゴリズムの効率性および有効性を実証する. |
CD-003 |
(講演取消) |
CD-004 |
出現分布に基づく知識グラフの例外検出
◎加藤 遼・堀内 美聡・松田 光司・佐々木 勇和・鬼塚 真(大阪大学)
×
CD-004出現分布に基づく知識グラフの例外検出
◎加藤 遼・堀内 美聡・松田 光司・佐々木 勇和・鬼塚 真(大阪大学)
知識グラフの例外検出は,知識グラフから通常と異なる傾向の事柄を例外として検出する技術であり,誤り検出や知識抽出に役立てることができる. 既存研究は,検出する例外の種類が少ない,および出現分布の特性を反映しないという課題がある.本研究では,多様な例外を検出する例外検出手法を提案する. 提案手法では,知識グラフのサブグラフであるパターンにあてはまる各エンティティの隣接要素に基づいて,隣接要素の出現分布の特性を反映可能な例外スコアを定義する. さらに,パターンの探索効率化のため,例外スコアの上界によりパターンの枝刈りを行う. 評価実験において,枝刈りにより検出の効率性と例外的事実の有用性を評価する. |
CD-005 |
LSTNetに基づく注目区間情報を強調する多変量時系列予測
◎佐野 隼乙・六井 淳(静岡県立大学)
×
CD-005LSTNetに基づく注目区間情報を強調する多変量時系列予測
◎佐野 隼乙・六井 淳(静岡県立大学)
多変量時系列予測とは、複数の時系列データの過去を分析し、未来の値を予測する分野であり、様々な手法の提案がなされてきた。近年、Long-and Short-term Time-series Network(LSTNet)と呼ばれる手法について高い予測性能を示す報告がなされている。 本研究では、このLSTNetを改良したアーキテクチャを提案する。LSTNetのRecurrent層で用いられているGated recurrent unit(GRU)は、過去の情報を均一に参照している。しかし、未来予測に過去の情報すべてが影響を与えているのではなく、注目すべきポイントが存在すると考えられる。そのため、複数の過去の情報を強調するAttention機構を有するモデルを提案する。検証実験を通して、提案手法の有効性を確認した。 |
CD-006 |
離散値属性を持つインスタンスに対する尤度比推定法の人工データによる有効性評価
◎菊地 真人(名古屋工業大学)・吉田 光男(筑波大学)・梅村 恭司(豊橋技術科学⼤学)・大囿 忠親(名古屋工業大学)
×
CD-006離散値属性を持つインスタンスに対する尤度比推定法の人工データによる有効性評価
◎菊地 真人(名古屋工業大学)・吉田 光男(筑波大学)・梅村 恭司(豊橋技術科学⼤学)・大囿 忠親(名古屋工業大学)
離散値属性を持つインスタンスからなるデータセットは,分類や回帰でよく用いられる.尤度比は分類タスクで利用される統計量だが,インスタンスに対する尤度比推定は難しい.なぜなら,属性値の出現頻度に基づく素朴な推定法は,しばしば尤度比を過大に見積もるためである.我々は頻度の低さに応じて尤度比を低めに見積もる“保守的な推定法”を確立した.しかし,この推定法はインスタンスの尤度比推定へ単純に適用できない.そこで,インスタンスの尤度比に対する保守的な推定法の適用方法を示す.さらに,推定に不要な属性の悪影響を抑えるための特徴重み付け法の導入方法も示す.属性値の頻度と有用性を制御できる人工データを用いた実験により,提案法が効果的な状況を明らかにする. |
CD-007 |
引用意図を利用した初学者向け学術論文閲覧支援方法の検討
○西海 真祥(岡山大学)・金澤 輝一(国立情報学研究所)・上野 史・太田 学(岡山大学)
×
CD-007引用意図を利用した初学者向け学術論文閲覧支援方法の検討
○西海 真祥(岡山大学)・金澤 輝一(国立情報学研究所)・上野 史・太田 学(岡山大学)
学術論文は一般に多数の論文を引用するため,閲覧論文を読むためだけに,引用論文全てに目を通す労力は大きい.そのため論文閲覧者に引用箇所の内容理解を促す情報を提供できれば,論文閲覧者が効率的に論文を読めるようになる.特に初学者は内容理解の前に,専門用語の内容を把握する時点でつまずきやすいことから,本稿では初学者向けの閲覧支援に合わせた引用意図を定義し,引用論文やWebの情報源から得た文と引用箇所を含む引用文の分散表現を利用して,閲覧支援に用いる文を抽出し,引用意図に合わせて補助情報を生成し,初学者向けの論文閲覧支援に関する被験者実験を行う. |
自然言語と教育 |
9月13日(火) 15:30-17:30 3d会場
座長 牛尼 剛聡(九州大学) |
D-001 |
BERTを用いた分類器によるクラウドソーシングの質の向上
◎太田 奈那・鈴木 優(岐阜大学)
×
D-001BERTを用いた分類器によるクラウドソーシングの質の向上
◎太田 奈那・鈴木 優(岐阜大学)
本研究では,クラウドソーシングの質を向上させるために,BERTにより作業者の代替となる作業結果を得ることを目的としている. クラウドソーシングされたデータを使用し,作業者の作業結果を再現する分類器を,BERTを用いて作成する. この分類器を用いて作業者が回答していないタスクの分類を予測し,基の結果と同一の結果を得ることができれば,作業者の代替をBERTにより実現することが可能であると考えた. データとして我々が構築したセンチメント分析データを利用する. このデータでは,ツイートがネガティブかポジティブかといった質問についての結果がまとめられたものを使用している. |
D-002 |
オンライン授業映像と講義スライドを用いた学生の理解促進のための課題生成方式の提案
◎佐野 逸稀・井上 沙紀(関西学院大学)・河合 由起子(京都産業大学)・王 元元(山口大学)・角谷 和俊(関西学院大学)
×
D-002オンライン授業映像と講義スライドを用いた学生の理解促進のための課題生成方式の提案
◎佐野 逸稀・井上 沙紀(関西学院大学)・河合 由起子(京都産業大学)・王 元元(山口大学)・角谷 和俊(関西学院大学)
教員が映像授業を作成する際、自身の説明が学生にとってわかりづらいものかを気が付くことは難しい。また授業を視聴する学生にとっても、理解度の問いかけがないまま授業が進む為、内容を正しく理解できているかを自覚することは困難である。本研究では、授業動画の中からわかりづらい箇所を抽出し、それに対する課題生成を行うことで学習者の理解向上を支援する。まず理解困難の要因をあらかじめ設定し、授業動画の中から理解困難箇所を特定する。次にその特定箇所に対して、要因ごとに異なる課題作成フォーマットを提案し、課題を自動生成する。学生は作成された課題を学習することにより自身の授業理解度を確認し、知識を深めることができる。 |
D-003 |
レビューテキストを用いた宿泊施設比較のためのアスペクト階層の構築
◎山口 創也・山田 剛一・増田 英孝(東京電機大学)
×
D-003レビューテキストを用いた宿泊施設比較のためのアスペクト階層の構築
◎山口 創也・山田 剛一・増田 英孝(東京電機大学)
消費者はオンラインで宿泊施設を予約する際に, Web上の消費者レビューやプラン情報をもとに吟味し,宿泊施設を選択する.しかし,地域や宿泊施設形態で比較しようとすると,類似点が多く,また特徴となる相違点がわかりにくいという問題がある.そこで本研究では,複数の宿泊施設間の特徴比較を支援するために,宿泊施設に関するアスペクトを階層構造化して扱う.本稿では,宿泊施設検索サイトのレビューテキストから抽出した宿泊施設情報を構造化する手法について述べる. |
D-004 |
病気症状の事実性解析に向けたツイートされる病気症状の多様性の調査
◎安藤 樹・安藤 一秋(香川大学)
×
D-004病気症状の事実性解析に向けたツイートされる病気症状の多様性の調査
◎安藤 樹・安藤 一秋(香川大学)
近年,医療分野に自然言語処理を応用する研究が注目されている.当研究室では,特定の病気や感染症であるか否かを問わず,いつ,どこで,どのような病気・症状がツイートされているのかを収集・分析し,地域別・時系列別に可視化するシステムの構築を進めている.当研究室の先行研究では,一般的な病気症状14種のみを事実性解析の対象に設定していたため,対象外となる病気症状が多数存在していた.そこで本稿では,一般的な表現から専門的な表現,また表記ゆれといった多様な表現に対応できる事実性解析の実現に向け,実際にツイートされる病気症状表現の多様性について調査する. |
D-005 |
リーディング用英語学習教材の難易度推定手法の検討
◎髙橋 里紗・来住 伸子(津田塾大学)
×
D-005リーディング用英語学習教材の難易度推定手法の検討
◎髙橋 里紗・来住 伸子(津田塾大学)
英語を母国語としない英語学習者にとって、適した難易度で興味深い内容のリーディング教材を利用することは非常に重要である。TED Talksは内容も表現も英語の学びにおいて有用だと考えられている。本研究では、このTED Talksの中から、外国語として英語を学ぶ人のために選ばれた40個のスクリプトを対象に、Flesch-Kincaidなどの古典的な手法と機械学習手法で、リーダビリティを推定することを試みた。推定した難易度は、英語学習教材のレベル分けやCEFRレベルと比較検討した。必ずしも推定した難易度と各種のレベル分けは一致しなかった。その原因についても考察する。 |
地理情報 |
9月14日(水) 9:30-12:00 4d会場
座長 伏見 卓恭(東京工科大学) |
D-006 |
地域美化活動支援のための安全で効率の良い路上環境情報取得・分析による可視化システムの提案
◎羽倉 輝・山口 琉太(京都産業大学)・義久 智樹・下條 真司(大阪大学)・河合 由起子(京都産業大学/大阪大学)
×
D-006地域美化活動支援のための安全で効率の良い路上環境情報取得・分析による可視化システムの提案
◎羽倉 輝・山口 琉太(京都産業大学)・義久 智樹・下條 真司(大阪大学)・河合 由起子(京都産業大学/大阪大学)
本研究では,安全かつ効率的な情報収集手段として自転車を活用し,自転車に装備したスマホを走行中に操作することなく路上環境データとして画像を取得し,リアルタイムに分析,可視化するシステムの構築を目指す.提案手法では,タバコやペットボトルといったネガティブな物体を分析するために,撮影されたネガティブ要素に加えてネガティブ要素の周辺にある関連物体を学習のfeatureとして用いる.関連物体は,自動販売機やコンビニ等とし,GoogleStreetViewから抽出する.提案手法により,抽出されたネガティブ物体の分布だけでなく,ゴミの分布の予測も可能となる. |
D-007 |
地域特性を表現する概念と地理的特徴の関係性分析
◎福地 湧(関西学院大学)・牛尼 剛聡(九州大学)・角谷 和俊(関西学院大学)
×
D-007地域特性を表現する概念と地理的特徴の関係性分析
◎福地 湧(関西学院大学)・牛尼 剛聡(九州大学)・角谷 和俊(関西学院大学)
近年、ホテルやアパートなど地物に関するテキストが多数存在する。地物に対するオンラインレビューの中には, 地物間の関係性の中で対象となる地物を評価するものが多い。例えば, ホテルのレビューの場合は, 部屋数や清潔感などホテル自体を評価するものもあるが,「目の前が駅で便利だった」のように, 他の地物との関係性から目的のホテルを評価するレビューも多い。そこで本研究は,オンラインレビュー上で地物同士の関係性を評価するテキストを分析し, その地理的関係性をモデルとして表現する。モデルで表現することにより対象となる地物がどのような性質を持つのか認識することが期待される。 |
D-008 |
地理オブジェクトの表示条件に基づいた略地図生成方式
◎二栢 紫穂(関西学院大学)・北山 大輔(工学院大学)・角谷 和俊(関西学院大学)
×
D-008地理オブジェクトの表示条件に基づいた略地図生成方式
◎二栢 紫穂(関西学院大学)・北山 大輔(工学院大学)・角谷 和俊(関西学院大学)
ユーザが新規生成したい略地図に表示する地理オブジェクトの抽出手法を提案する。 Googleマップ(デジタル地図)上の地理オブジェクト表示縮尺の差異と、既に存在する略地図から抽出した地理オブジェクトの表示条件を入力とし、新規生成略地図に表示する地理オブジェクトを選択する。このように入力として既存略地図を用いることで、ユーザは見本にしたい略地図を選択するだけで新たな領域での略地図を簡単に生成することが可能になる。提案手法の評価のために予備実験を行い、考察を行った。 |
D-009 |
複数メディアの意味・空間距離の検索特性に基づく携帯端末向け検索手法の提案
◎杉橋 真輝・河合 由起子(京都産業大学)・栗 達(福岡大学)・熊本 忠彦(千葉工業大学)
×
D-009複数メディアの意味・空間距離の検索特性に基づく携帯端末向け検索手法の提案
◎杉橋 真輝・河合 由起子(京都産業大学)・栗 達(福岡大学)・熊本 忠彦(千葉工業大学)
スマホの画面制約より,検索結果に対するクリックやスクロールの操作数の軽減に関する研究は広く取り組まれているが,ブラウザやSNS、地図等の各メディアの検索特性を共通利用することは困難である.本研究では,画面や入力操作制約の厳しい携帯端末において、複数メディアの意味類似性や空間距離に基づいた検索特性を共通利用できる、効率的な検索システムの構築を目指す.本稿では,Web検索サイトとして代表的なgoogle,SNSの代表的なtwitter,地図検索としてGoogle Mapを同時に検索提供する.具体的には,取得した上位の検索結果のスニペット,Tweet,レビューをクラスタリングし,各クラスの平均ベクトルと各検索結果のcos類似度を算出し,ユーザの明示的・暗黙的評価を重みとしてリランキング提示する. |
D-010 |
複数経路を地図上で接続して経路を作成する乗換案内インタフェース
◎豊福 純平・小林 亜樹(工学院大学)
×
D-010複数経路を地図上で接続して経路を作成する乗換案内インタフェース
◎豊福 純平・小林 亜樹(工学院大学)
既存の乗換案内サービスの多くは,主な経路検索指標の時間が早い順,料金が安い順,乗り換え回数が少ない順のどれか1つの指標で検索し,目的地までの効率的な経路を利用者に提示するようになっている.しかし,目的地を変えることなく移動時の車窓からの景色を楽しむために多少の遠回りをしたいなどがある場合,既存の乗換案内サービスでは経路検索の行動が複雑になる場合がある.そこで本研究では,地図上で複数経路検索結果をつなぎ合わせて1経路を作成する乗換案内インタフェースを提案する.既存の乗換案内が提案する効率的な経路から利用者自身で利用したい区間と利用しない区間を選択し,利用しない区間において再検索を行い,また区間の選択というのを繰り返すことで1経路を作成するようなインタフェースになっている.提案したインタフェースを実装した乗換案内の試作システムを用いて有用性があるかの評価実験を行う. |
D-011 |
複数のエッジデバイスを用いた混雑率可視化のためのデータ統合方式
○糸賀 千晴・滝田 功平・本多 賢(駒澤大学)
×
D-011複数のエッジデバイスを用いた混雑率可視化のためのデータ統合方式
○糸賀 千晴・滝田 功平・本多 賢(駒澤大学)
駒澤大学では,今年度から原則対面での授業が開始となった.しかし,新型コロナウィルス(COVID-19)の感染は未だ収束せず,特に大学においてはピーク時間帯における学食のような混雑しやすい空間において密を避ける行動・仕組みが求められている. 本方式では,複数のエッジデバイスを用いて,大学の学食内の混雑状況をデータとして収集し,そのデータの統合により混雑率の計算・可視化を行う.本稿では,複数のエッジデバイスから取得したデータの統合方式について提案する.また,システムの有用性,実現可能性を示すため,実際に大学内の学食にデバイスを設置して実証実験を行った. |
データ分析応用 |
9月14日(水) 15:30-17:30 5d会場
座長 六井 淳(静岡県立大学) |
D-012 |
CNNを用いた画像鮮明化システムの実装
◎林 亮佑・大極 康平・河野 浩之(南山大学)
×
D-012CNNを用いた画像鮮明化システムの実装
◎林 亮佑・大極 康平・河野 浩之(南山大学)
Shen らの研究ではハロー効果により晴れた空のような滑らかな領域が歪んでしまう問題や Huang らの研究では結果に影が見られたり,結果画像の全体的な明るさが最適な状態に達していない問題があり,色の復元に課題があった.本研究では,畳み込みオートエンコーダ,反射率改善ネットワークからなる低照度補正ネットワークにより照度補正をし,残差ユニットを用いた色改善ネットワークにより課題である色の復元を行う手法を提案する.実装には Tensorflow,Keras を使用し,訓練用データとして MIT Adobe FiveK,LOL dataset, SICE を使用した.実験には 30 枚の低照度画像を使用し SSIM,PSNR,コサイン類似度,色差,CIQI で計測を行った. |
D-013 |
コスメ推薦におけるメイクパターンの特性分析と視覚化
◎小川 芽来(関西学院大学)・牛尼 剛聡(九州大学)・角谷 和俊(関西学院大学)
×
D-013コスメ推薦におけるメイクパターンの特性分析と視覚化
◎小川 芽来(関西学院大学)・牛尼 剛聡(九州大学)・角谷 和俊(関西学院大学)
世の中には、「韓国メイク」や「ツヤメイク」など、 「○○メイク」と名付けられるメイクパターンが多数存在する。しかし、異なる名称を与えられたメイクパターン間でも、そこで利用されているテクニックや表現の特徴に類似性が存在している場合もある。例えば、「韓国メイク」と「ツヤメイク」の間には、はメイクの手順や方法に類似性が存在する。メイクパターンの関連性を自動的に予測して可視化することができれば、ユーザがそれぞれのメイクパターンの特徴を理解したり、自分が目的とするメイクパターンを見つけるために役立つことが期待できる。本論文では、メイクパターンの特徴を自動的に抽出し、可視化を行うための手法について述べる。 |
D-014 |
製造業におけるデータ管理のためのデータモデリングシステムの検討
○萩原 岳大・石田 仁志・川村 陸・宮本 啓生(日立製作所)
×
D-014製造業におけるデータ管理のためのデータモデリングシステムの検討
○萩原 岳大・石田 仁志・川村 陸・宮本 啓生(日立製作所)
近年、製造業では、顧客ニーズの多様化やデジタル化の進展により、市場環境が急速に変化しており、特に、デジタルデータを活用したデジタルツインの考え方に基づいた高効率な生産システムの構築が注目されている。日立製作所では、製造業における業務プロセスを、業務と4Mデータ(Human, Machine, Material, Method)から構成されるデータモデルで整理し、業務プロセス全体に渡る様々な業務とデータのつながりを可視化することで、業務プロセス全体の最適化に向けたデータ活用を支援するソリューションを開発している。本検討では、業務+4Mデータモデルについて、製造現場で発生する現場データからプロセスマイニング技術により生成する方法を提案する。 |
D-015 |
水分摂取量と栄養成分の記録アプリ作成
◎岡本 真輝・成田 彩夏・来住 伸子(津田塾大学)
×
D-015水分摂取量と栄養成分の記録アプリ作成
◎岡本 真輝・成田 彩夏・来住 伸子(津田塾大学)
健康を考える際に食事の栄養成分は調べることが多いが、水分摂取量は意外と見落としがちである。そこで、体重や性別、気温などに基づいて個人に合った水分摂取を十分に行い、摂取した飲料から得られる栄養成分の過剰摂取や不足を防ぐアプリを作成した。このアプリは、水分摂取量の記録に飲料メーカーの栄養成分表や日本食品標準成分表2020のデータなどを使用して、水分摂取量に加えて水分に含まれる栄養成分4種(エネルギー、炭水化物、食塩相当量、カフェイン)をグラフで可視化する。ユーザー評価実験では、グラフによる可視化に対して一定の評価は得られたが、使用感においては人によって評価が分かれる結果となった。 |
D-016 |
中古車の価格順に基づく車種と年式の偏差値推定
◎井口 皓貴・髙木 寛樹・山岸 祐己(静岡理工科大学)・祝田 龍一・祝田 実(祝田石油)
×
D-016中古車の価格順に基づく車種と年式の偏差値推定
◎井口 皓貴・髙木 寛樹・山岸 祐己(静岡理工科大学)・祝田 龍一・祝田 実(祝田石油)
一般に,中古車価格を精緻に推定するためには,専門家が実物を見る必要があり,事前に顧客が価格を推定することは難しい.さらに,顧客にとってはその推定価格が他の車種やメーカーなどと比較してどの程度の相場なのかが不明瞭なため,中古車の購入や売却の判断材料となる客観的な情報を提供することは重要であると言える.本研究では,中古車データを価格順にソートし,メーカーや車種,年式といった属性をカテゴリとして扱うことによって,それらの偏差値を推定するための新たな統計的指標を提案する. |
検索とマイニング |
9月15日(木) 9:30-12:00 6c会場
座長 太田 学(岡山大学) |
D-017 |
データ仮想化エンジンPGSpiderの二種類の実現方式と性能の比較
○片山 大河・熊谷 宏樹(東芝)
×
D-017データ仮想化エンジンPGSpiderの二種類の実現方式と性能の比較
○片山 大河・熊谷 宏樹(東芝)
CPSの分野では点在するデータを一箇所に集めずにデータソースからオンデマンドに取得するデータ仮想化技術が注目されている。それを実現するPGSpiderは、複数データソースを並列に横断アクセスする機能を持ち、実現方式の違いから二種類がある。ひとつはベースのPostgreSQLの内部実装を改造する方式である。もうひとつはPostgreSQLの拡張機能で実現する方式である。後者は前者よりメンテナンス性が高いが、実現可能な性能向上施策が限られる。 性能検証の結果、全体的に1.5~3.5倍程度前者が高速だったが、少量データ取得ケースで同等となることがあった。性能向上の機能差だけでなくアーキテクチャの違いによる性能差が出ていることもわかった。 |
D-018 |
機械学習を用いた検索エッジ数の推定によるグラフベース近似最近傍探索の高速化
◎菅 寧・陸 可鏡・石川 佳治・杉浦 健人(名古屋大学)
×
D-018機械学習を用いた検索エッジ数の推定によるグラフベース近似最近傍探索の高速化
◎菅 寧・陸 可鏡・石川 佳治・杉浦 健人(名古屋大学)
近年、大規模・高次元のデータに対して、近似最近傍探索という研究が注目されている.最近傍探索は問合せ点と最も近いデータ点を探索するという研究である.近似最近傍探索では、探索精度をある程度犠牲にして、最近傍探索を高速化する.本研究では、近似最近傍探索手法の一種であるグラフベースの手法を着目し、この手法の問題点を指摘と分析する.そして、この問題に対して、提案された改善手法を実装し、元の手法を比較する. |
D-019 |
NDLSHを用いたWeb上の人物探索システム
◎白川 欣岳(大阪公立大学)・下倉 雅行(大阪市立大学)・村上 晴美(大阪公立大学/大阪市立大学)
×
D-019NDLSHを用いたWeb上の人物探索システム
◎白川 欣岳(大阪公立大学)・下倉 雅行(大阪市立大学)・村上 晴美(大阪公立大学/大阪市立大学)
人物検索はWeb検索において重要な課題の一つである。Web上の人物検索においては、同姓同名人物の混在などにより目的の人物にたどりつけないことや、人物を識別できないことがある。人物の検索や識別のために、人物を特徴付けるラベル付けが重要である。本研究では、国立国会図書館の件名標目であるNDLSHをラベルとして人物に付与する。NDLSHを付与することにより、上位語,下位語,関連語を用いた探索的な検索が可能となる。NDLSHを視覚的に探索しながらWeb上の人物を検索するプロトタイプシステムを試作した。 |
D-020 |
長時間エピソードマイニングにおける冗長な重複の回避によるオカレンス作成処理の削減手法
○橋本 一輝・新谷 隆彦・大森 匡・藤田 秀之(電気通信大学)
×
D-020長時間エピソードマイニングにおける冗長な重複の回避によるオカレンス作成処理の削減手法
○橋本 一輝・新谷 隆彦・大森 匡・藤田 秀之(電気通信大学)
近年、小型センサデバイスの普及により、人の生活に関する情報であるライフログの収集が容易になった。 我々は、総継続時間を評価値としてライフログから運動状態のパターンを抽出する、長時間エピソードマイニングの研究を進めている。長時間エピソードマイニングでは、Episode-Weighted Utilization(EWU)と呼ばれるエピソードが最大まで成長したときの評価値の上限を利用して候補エピソードの枝刈りを行うが、単純なEWUは、重複した区間を複数回足し合わせる計算により冗長になる場合がある。本研究では、 区間の重複を考慮した計算により導出される新しい上限値を長時間エピソードマイニングに導入し、探索処理の負荷を低減させることを検討する。 |
D-021 |
カテゴリの出現順序に基づくレビューデータの異常検出
◎増田 大純・佐野 歓基・山岸 祐己(静岡理工科大学)・和泉 舞・高林 貴仁(良品計画)
×
D-021カテゴリの出現順序に基づくレビューデータの異常検出
◎増田 大純・佐野 歓基・山岸 祐己(静岡理工科大学)・和泉 舞・高林 貴仁(良品計画)
レビューデータは,評点をはじめとして,投稿したユーザの性別や年代といった属性など,様々なカテゴリを仮定することができる.本研究では,それらのカテゴリの分布にかかわらず適応可能な,ノンパラメトリック検定に基づく異常検出手法を提案する.提案手法は Mann-Whitney の U 検定を多群に拡張し,時系列データに適応するためにオンライン処理ができるよう変形したものである.現実のレビューデータを用いた実験では,提案手法による異常値を z-score と p 値で可視化することによって,各カテゴリの出現頻度の変化とその異常性が説明できることを示す. |