The Golden Rule

AI音声アシスタントのアクセシビリティ ― アクセシビリティの祭典2017『話題の技術とアクセシビリティ（IoT、VR、AR、音声など）』事前の論点整理

2017年5月16日

はじめに

この記事はアクセシビリティの祭典2017『話題の技術とアクセシビリティ（IoT、VR、AR、音声など）』の事前の論点整理として、「AI音声アシスタント」と呼ばれるもののアクセシビリティについて考察したものです。

[イメージ写真]

Photo credit: Samsung Newsroom / Visualhunt.com / CC BY CC BY-NC-SA

製品・サービスの整理

ガートナーによれば、世界のスマートスピーカーの市場規模は、2020年に20億ドルに達すると予想されるなど、 AI音声アシスタントは、まさに「話題の技術」なのだと痛感しています。この調査中にも、いくつものアップデートがあり、情報をまとめる作業に影響しました。

前回のバーチャルリアリティのアクセシビリティと同様、「AI音声アシスタント」についても、まずは製品や関連するサービスの整理から始めたいと思います。

いずれのサービスも、AIにあたる部分はクラウドで提供されているようですが、ユーザーとのインターフェースに関して、ざっと調べた限りでは、以下の2つに分類できそうです。

いわゆる「スマートスピーカー」など、独立したデバイスとしても動作するもの
ハードウェアではなく、スマートフォンのアプリケーションなどとして動作するもの

今回調べたものの一覧を表「AI音声アシスタント製品やサービスの一覧」に示します。

AI音声アシスタント製品やサービスの一覧
名称	ベンダ	提供形態	アプライアンス	ハードウェアSDK	スキルSDK	指示方法
Siri	Apple	iOSの機能 macOS の機能	なし	なし	SiriKit	音声テキスト
Google Assistant	Google	Android、Android Wearの機能 iOSアプリケーション Google Alloチャット	Google Home	Google Assistant SDK	Actions SDK	音声テキスト
Alexa	Amazon	ハードウェア	Amazon Echo Amazon Echo Dot Amazon Echo Show	Alexa Voice Service	Alexa Skills Kit	音声
Cortana	Microsoft	Windows 10その他のOS機能 iOS、Androidのアプリケーションスマートスピーカー	Harman Kardon Invoke	Cortana Devices SDK	Cortana Skills Kit	音声テキスト
Clova	LINE	モバイルアプリケーションスマートスピーカーなど	WAVE FACE	Clova Interface Connect	Clova Extension Kit	音声?

AI音声アシスタントの主要な機能や利点

前掲の表から、現状のAI音声アシスタントの主要な機能や利点は、以下が考えられます。

音声での「呼びかけ」で使える(特定のキーワードを「名前」とし、毎回そのキーワードで呼びかける)
指示語を含む自然言語をある程度柔軟に解釈する
回答ごとにユーザーの好みを記憶し、次回以降の回答への反映
(スピーカーなどの場合)ハンズフリーで操作できる
呼びかけて達成できる機能が豊富
同じ機能をモバイルアプリを起動して呼び出すのに比べ、操作のステップが少ない
(一部のサービスは)呼びかけて達成できる機能を「スキル」と呼び、そのSDKを解放することで、サードパーティの参加を促し裾野を広げる
(一部のサービスは)各種デバイスへの組込もSDKとして開放することで、サードパーティの参加を促す

AI音声アシスタントのアクセシビリティ

では、こうしたAI音声アシスタントのアクセシビリティについては、どのように考えればよいでしょうか。

Webアクセシビリティ基盤委員会は、『Webアクセシビリティ概論』の中で、「多様なユーザー」について下記を挙げています。

特別な配慮を必要としないユーザ

（健康な成年男子など）

感覚機能に配慮すべきユーザ

視覚に頼れないユーザ

視力に配慮すべきユーザ

聴覚に頼れないユーザ

聴力に配慮すべきユーザ

運動機能や体格に配慮すべきユーザ

車椅子利用者

手が使えないユーザ

動作に配慮すべきユーザ

筋力の弱いユーザ

発話に配慮すべきユーザ

左利きユーザ

小さい／大きいユーザ

認知機能に配慮すべきユーザ

初心者／熟練者

理解が苦手なユーザ

日本語・外国語が読めないユーザ

そのほか

デモグラフィック（社会的）や文化的な差異に対して配慮すべき場合

以降、この分類を基に、AI音声アシスタントの利用にメリットがある利用者、そうではない利用者について考察します。

まずは、いわゆる「スマートスピーカー」と呼ばれるアプライアンスでのユースケースで検討します。

特別な配慮を必要としないユーザ: 利用できる機能・サービスは限定的ながら、ハンズフリーで利用できる点はメリットがあると考えられます。
視覚に頼れないユーザ / 視力に配慮すべきユーザ: 支援技術なしで画面が利用できない/困難であるユーザーにとってはメリットがあると考えられます。
聴覚に頼れないユーザ / 聴力に配慮すべきユーザ: 音声以外の入出力チャネルがない場合は、そもそも利用できない/利用が困難と思われます(音量を大きくしてカバーする?)
発話に配慮すべきユーザ: 音声以外の入出力チャネルがない場合は、そもそも利用できない/利用が困難と思われます
運動機能や体格に配慮すべきユーザ(それ以外): キーボード入力やマウス入力に比べ、ハンズフリーで利用できる点がメリットになると考えられます。
認知機能に配慮すべきユーザ: PCやタブレットなどの初心者にとっては、より簡単に機能やサービスが利用できるメリットがあると考えられます。; 理解が苦手なユーザーも、状況によっては、PCやタブレットを利用するよりメリットがあると考えられます。; 言語に関しては、ユーザーの母国語がサポートされている場合は、特に問題にならないと考えられますが、指示文が平易な単語であるかは配慮が必要と思われます。
そのほか: 社会的/文化的な差異に対しては、AI音声アシスタントのスキル側での配慮が求められるケースが考えられます。

「スマートスピーカー」として提供されていないケースにおいては、上記に加え、AI音声アシスタント機能を起動するまでのプロセスが追加になると考えられます。従って、「ハンズフリー」が完全なハンズフリーでなくなったり、機能を起動するまでの間の追加の操作は、PCやスマートフォンなどの支援技術を利用する必要があります。

AI音声アシスタントをよりアクセシブルにするには

それでは、上記を踏まえ、よりアクセシブルなAI音声アシスタントには、何が求められるでしょうか。その点については、当日お話できればと思います。お楽しみに！