ChatGPTなどの言語生成AIは確率的なモデルに従って人間が自然に感じるやりとりを生成するもので、特定のデータベースに格納された製品データの型番や属性などを検索して、正確に応答するといった作業は不得手である。生成AIにこうした作業をさせるには、自社が使用するデータベースにAIをつなぐ「グラウンディング」を考慮する必要がある。
このグラウンディングを実現していく上で重要な鍵となるのが、意味情報をベクトルとして表して類似コンテンツを周辺に配置する「エンベディング」と、検索する範囲を絞り込むことで高速化する「ベクトル検索」という2つの技術だ。これらを組み合わせることで、高度な検索機能を自社のデータベースに結び付けることが可能になる。
また、商品画像を人間と同じように理解するAIを組み合わせることで、類似商品の画像を一瞬で検索する「視覚を持ったLLM(大規模言語モデル)」も実現できる。こうした、複数の情報を同時に扱うマルチモーダルAIがビジネスにどのような革新をもたらすのか、技術的な背景とともに本資料で詳しく解説していく。