ollama vision によるローカルllmでの画像認識

2025/4時点で、画像認識に対応したllmは、gemma3 や llava 等があり、今回、これらを試してみました。 pythonでのサンプルコードは上記urlで公開されている通りです。

import ollama

res = ollama.chat(
    model="gemma3:12b",
    messages=[
        {
            'role': 'user',
            'content': '画像の内容を日本語で説明してください',
            'images': ['./house.png']
        }
    ]
)

print(res['message']['content'])

↑こう書くと、↓こう表示されます

この画像は、建物の3Dモデル図です。

特徴は以下の通りです。

*   **デザイン:** 箱型のシンプルなデザインで、屋根は切妻屋根です。
*   **窓:** 大きな窓が多く、自然光を取り入れやすい構造です。いくつか縦長の窓もあります。
*   **バルコニー/テラス:** 建物の正面には、木製のバルコニーまたはテラスがあります。
*   **スタイル:** 全体的にモダンでシンプルな建築様式に見えます。
*   **描画方法:** 線画で構成されており、構造が分かりやすいようになっています。

end0tknr's kipple - web写経開発

太宰府天満宮の狛犬って、妙にカワイイ