Vision models · Ollama Blog を見かけました。
2025/4時点で、画像認識に対応したllmは、gemma3 や llava 等があり、 今回、これらを試してみました。 pythonでのサンプルコードは上記urlで公開されている通りです。
import ollama res = ollama.chat( model="gemma3:12b", messages=[ { 'role': 'user', 'content': '画像の内容を日本語で説明してください', 'images': ['./house.png'] } ] ) print(res['message']['content'])
↑こう書くと、↓こう表示されます
この画像は、建物の3Dモデル図です。 特徴は以下の通りです。 * **デザイン:** 箱型のシンプルなデザインで、屋根は切妻屋根です。 * **窓:** 大きな窓が多く、自然光を取り入れやすい構造です。いくつか縦長の窓もあります。 * **バルコニー/テラス:** 建物の正面には、木製のバルコニーまたはテラスがあります。 * **スタイル:** 全体的にモダンでシンプルな建築様式に見えます。 * **描画方法:** 線画で構成されており、構造が分かりやすいようになっています。