ストラテジ系 / ビジネスインダストリ
マルチモーダル AI
テキスト、画像、音声、動画、センサ情報など複数種類のデータを組み合わせて扱うAI。
もう少し詳しく
マルチモーダルAIは、文章だけでなく画像や音声など複数の入力を統合して理解・生成します。画像を見て説明文を作る、音声と映像から状況を判断する、といった応用が可能です。単一種類のデータだけを扱うAIより文脈理解の幅が広がります。
試験での見方
画像を入力して「この図を説明して」と指示すると、AIが画像内容を読み取り、関連する文章説明や要約を生成する。
複数のデータ形式を組み合わせる点がキーワードです。生成AI全般と同義ではなく、テキストだけでなく画像や音声も扱う点を見ます。