Google によるパターン認識の使用方法

Google がパターン認識を使用して画像を認識する方法

コンピュータは、画像や動画を人間と同じように「見る」わけではありません。人間が画像を見るときには、たとえば「親友が家の前に立っている姿」として認識します。コンピュータは、さまざまな形、およびさまざまな色の値に関する情報として解釈できる「単なるデータのかたまり」として同じ画像を認識します。コンピュータが同じ画像を見た人間と同じように反応することはありませんが、特定の色や形のパターンを認識するようコンピュータに学習させることはできます。たとえば、人間の顔のデジタル画像を構成する形と色の共通パターンを認識するよう学習させることが考えられます。このプロセスは顔検出と呼ばれ、Google がストリートビューなどのサービスでユーザーのプライバシー保護に活用しているのがこの技術です。ストリートビュー撮影車が通過したときに道路に立っていて、画像に写り込んだような時に、コンピュータで自動検出し、検出された顔にぼかし処理を施しています。また、Google+ フォトなどのサービスで、顔が写っている可能性があると判断された画像や動画にタグを付けるかどうかをユーザーに尋ねる機能にもこの技術が活用されています。顔検出技術は、「誰の顔か」を判別するものではありませんが、画像に写った「人の顔」を探すのに役立ちます。

さらに一歩進んで、顔検出に使用されているのと同じパターン認識技術を使用すると、検出した顔の特徴をコンピュータが認識することもできます。たとえば、ある一定のパターンから、あごひげがあったり、眼鏡をかけていることが推測できる場合があります。そのような情報を利用して、赤目補正などの機能に役立てたり、ユーザーがハングアウトのときに自分の顔に口ひげや片眼鏡を付けて楽しんだりすることができます。

Google が提供する一部の機能では、顔検出技術に加えて顔認識技術も使用しています。顔認識技術は、その名称から推測されるとおり、コンピュータが既知の顔と新しい顔を比較して、一致または類似の可能性があるかどうかを判断するのに使用します。たとえば、顔認識技術によって、顔識別機能を使用しているユーザーが画像や動画をアップロードしたり、共有しようとしたりしたときに、その画像や動画に写っている人物をタグ付けするかどうかを尋ねるメッセージが表示されるようにすることができます。顔識別機能について詳しくは、Google+ ヘルプセンターのこちらの記事をご覧ください。

音声検索のしくみ

音声検索は、端末上の Google 検索アプリで、手入力の代わりに音声で検索キーワードを入力できる機能です。この機能では、発声した音声の文字変換にパターン認識技術を使用しています。音声検索機能に対して、キーワードを音声で入力すると、その都度その言語、国、発声された音声、および音声から推測した言葉が記録されます。保存される音声データには、ユーザーが指定しない限りユーザーの Google アカウント ID は含まれません。また、ユーザーが音声検索機能を使用するという意思表示(クイック検索バーか仮想キーボードでマイク アイコンをタップするなど音声検索機能を起動)をした場合でない限り、発声した音声は Google に送信されません。この音声は、発声した言葉を認識するために Google のサーバーに送信されます。発声した音声は、システムに学習させて検索キーワードの認識精度向上を図るなど、Google サービスの向上に役立てるために保存されます。