コミュニケーションとインタラクション (DE&I)

これまで、音楽を聴いて適応的に人とインタラクションを行うロボット，自分自身が作り出す自己動作雑音を抑圧しながら，周囲の音環境を聞き分けることができるロボット，ロボット自身が話している間にユーザから話しかけられても会話を続けることができるロボットなど，ロボット聴覚技術適用した人・ロボットコミュニケーションへ応用していく研究を行ってきました。

2021年4月の講座名変更を機に，コミュニケーションやインタラクションへの将来的な適用を念頭した新しい研究テーマをこれまでの技術を発展させる形で取り組んでいます。

特に近年は、DE&I（ダイバーシティ・エクイティ＆インクルージョン）に関する研究に注力しています。

DE&Iとは、多様性・公平性・包摂性を表す言葉であり、多様な人々がお互いを尊重し、平等に機会を与えられるような環境づくりを目指す考え方です。中臺研では、聴覚の側面からDE&Iに貢献することを目指した研究を進めています。

手話処理

近年中臺研では、聴覚障害支援の一環として、手話処理に取り組んでいます。
手話は手指や口、表情などを組み合わせて視覚的に意味を伝える言語であり、その言語体系は私たちが普段話している自然言語とは大きく異なります。手話処理は、手話の情報を扱うことで聴覚障害者と聴者の間の隔たりをなくすことを目的として設計された技術であり、自然言語処理とコンピュータビジョンを組み合わせた複合的な領域に属します。

手話処理にはタスクが主に3つ存在し、手話の内容を理解することを目的とした手話認識と手話翻訳、そして自然な手話を生成することを目的とした手話生成に分けられます。

手話認識

手話認識では、入力で与えられた手話を、「グロス」と呼ばれる手話における単語表現のようなものへと変換します。
図1は手話認識と手話翻訳を表しており、手話認識は図1における1段目から2段目への変換処理に相当します。グロスは2段目の単語列に相当し、手話に対応する単語を対応する順序通りに並べたものです。
手話は自然言語と全く異なる言語構造を有しているため、手話から自然言語の文までを翻訳するのは困難です。そのため、グロスという中間表現を用いて手話を認識する手話認識が考えられるのです。

手話認識システムでは近年機械学習が一般に用いられますが、その課題の1つとして、未学習の語彙 (OOVグロス) を認識することができないことが挙げられます。そのため中臺研では、再学習などを必要とせずに新たなグロスを効率よく登録できる、カスタマイズ可能な手話認識システムの構築に取り組んでいます。

手話翻訳

手話翻訳では、手話を自然言語の文までへと翻訳します。図1における1段目から3段目への変換処理に相当し、入力として与えられた手話から文を出力します。
手話からグロスを出力する手話認識では、手話に対応する単語列が得られますが、図1の「region cloudy rain snow mountain possible」のように、意味が伝わるような自然な文とは言えません。そのため、自然言語の文へと「翻訳」する翻訳タスクの問題として手話翻訳が考えられます。

手話認識及び手話翻訳は、2つをあわせて手話理解研究とも呼ばれ、異なる言語である手話の内容を聴者が理解するのに役立ちます。聴覚障害者と聴者の間の溝を埋めることで、両者のコミュニケーションを補助することを目指します。

手話生成

手話生成では、自然言語の文から手話を生成し、図2のように、入力として与えられた文から、3Dスケルトン姿勢・画像・動画のいずれかを出力します。

多くの聴覚障害者にとって、筆談など文を用いて意思疎通をすることはしばしば困難です。そのため、聴覚障害者にとって自然でわかりやすい手話を生成することで、聴覚障害者と聴者の間でのコミュニケーションを促進することが期待されます。

エコロケーション

反響（エコー）を用いた周囲環境の再現

音を出したときに返ってくる反響音（エコー）には、周りの環境に存在する物体までの距離や形の情報が含まれます。これを利用し中臺研では、録音したエコーをもとに深層学習や生成モデルを用いて、「センサーからどれくらいの距離に壁や床、障害物があるか」を表す深度マップを作ります。また、「表面法線（サーフェスノーマル）」という、物体の表面の向きを示す情報も利用することで、モデルが立体的な形をより正確に理解できるようにしています。視覚からの情報が限られた場所でも、ロボットや支援機器が音を使って周囲の状況を認識できるようにすることが期待されます。

主要論文