Microsoft Cognitive Services の Computer Vision API で画像の説明情報を取得する。

これは、Web Accessibility Advent Calendar 2016 の15日目の記事です。
この記事では、画像の説明情報をMicrosoft Cognitive ServicesのComputer Vision APIで取得する方法とその結果(一例)を紹介します。
インターネットに散らばる画像には、説明が付与(Webサイトの例だと画像の代替テキストを示すalt属性)されていないことが多く、画像から説明情報を自動で取得できないかなと思っていたところ、先日(JJUG CCC 2016 Fallの寺田佳央さん(日本マイクロソフト株式会社)のセッション「JAX-RS REST ClientでCognitive ServiceやExcelを操作しよう」)、Microsoftが画像の説明情報を抽出するAPIを提供していることを知ったので試してみました。

Microsoft Cognitive Servicesとは

Microsoft がクラウドで提供する、人工知能アルゴリズムを取り入れた視覚、音声、言語および知識に関するサービスです。
Cognitive Servicesの概要は、 Microsoftの以下のサイトをご参考ください。
Microsoft Cognitive Services を始める ~ 全21種のサービス概説と開発準備
Cognitive Services—インテリジェンス アプリケーション | Microsoft

Microsoft Cognitive Services: Introducing the Seeing AI project

寺田さんがセッションで紹介されていた動画です、視覚に障害を持つMicrosoftの開発者の方が街やオフィスで、視覚API(顔、画像、感情認識可能なサービス)や音声API(アプリケーション内で音声言語を処理)を活用されている様子がご覧になれます。


Saqib is a core Microsoft developer living in London, who lost the use of his eyes at age 7. He found inspiration in computing and is helping build Seeing AI, a research project that helps people who are visually impaired or blind to better understand who and what is around them. The project is built using intelligence APIs from Microsoft Cognitive Services (www.microsoft.com/cognitive). Access the audio description version of this video at https://youtu.be/3WP7Id8SxYQ

Computer Vision API で画像の説明情報を取得する

サンプルプログラムを作成してみましたので、後程、追記します。

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です