【Dify解説】Dify v1.11.0正式版リリース ─ マルチモーダルナレッジベースとZenモードの全貌

運営会社

サステックス株式会社

元Microsoftエンジニアが立ち上げたAI・システム開発に特化したテクノロジーカンパニー。
機械学習や生成AIを活用したPoC開発や業務効率化、プロダクト構築を支援。

サステックスのエンジニア、鈴木です。

2025年12月11日、オープンソースのAIノーコードアプリ開発プラットフォーム「Dify」の最新バージョン v1.11.0 の正式版がリリースされました。今回の目玉は、テキストと画像の両方をナレッジベースで扱えるようになった「マルチモーダルナレッジベース」 と、集中作業を支援する「Zenモード」 です。

前回のアップデートに関しては、こちらの記事も参考にしてください。

DifyはChatGPTやClaudeなどのLLM（大規模言語モデル）を用いたAIアプリをプログラミング不要で構築できるノーコードツールで、社内チャットボットやFAQシステム、データベース連携型のAIアプリなどをエンジニアでなくても簡単に作成できます。

本記事では、Dify 1.11.0 の新機能とアップデート内容を初心者にもわかりやすく徹底解説し、前バージョンから何が変わったのか整理します。

はじめに ─ Difyとその進化の流れ

DifyはChatGPTやClaudeなど複数のLLMをノーコードで活用できるオープンソースのAI開発プラットフォームです。社内チャットボットやFAQシステム、社内データを活用した検索ツールなどエンジニアでなくても構築できる点が特徴で、急速にコミュニティの支持を集めています。

2025年後半のアップデートでは、v1.8.0でマルチモデル対応やUI改善、v1.9.0でナレッジパイプラインとキュー駆動型グラフエンジン、v1.10.0でイベント駆動型ワークフロー（トリガー機能）と大きな改良が続いてきました。この流れを受け、2025年末に登場したv1.11.0は 「ナレッジベースのマルチモーダル化」と「開発体験の向上」 をテーマとした重要なアップデートです。

Dify v1.11.0 アップデートの概要

v1.11.0では大きく3つのカテゴリに分けてアップデートが行われています。

マルチモーダルナレッジベース ─ テキストだけでなく画像もナレッジに格納・検索できる新機能
Zenモードなど開発体験の向上 ─ 集中作業用UI、ワークフローツールへのショートカット、JSON Schemaサポートなど
パフォーマンス・インフラ改善 ─ GraphEngineの一時停止/再開制御、Redisキャッシュ、ストレージ権限の自動修復など

以下で各機能を詳しく解説します。

マルチモーダルナレッジベース ─ テキスト×画像の統合検索

機能概要

今回の最大の目玉です。Difyのナレッジベースが、テキストだけでなく画像も理解できるようになりました。

これまでのナレッジベースでは、ドキュメントからテキストを抽出してベクトル化（エンベディング）し、類似性検索を行う仕組みでした。しかし実際の業務文書にはスクリーンショット、図表、フローチャートなどの画像が多く含まれており、テキストだけでは情報の一部しか活用できていませんでした。

v1.11.0では、この課題を根本的に解決しています。

マルチモーダル検索のデモ。画像をクエリとして入力し、類似画像を含むチャンクが検索結果として返されている

主な機能と改良点

画像の自動抽出

Markdownドキュメント中の画像（![alt](url) 形式）をDifyが自動的に検出・取得します。対応フォーマットはJPG、PNG、GIFで、1ファイルあたり2MBまでのサイズ制限があります。

テキストチャンクとの紐付け

抽出された画像は対応するテキストチャンクに関連付けられるため、文脈の整合性が保たれます。「この図表が何を説明しているか」をAIが正しく理解できるようになります。

ナレッジベースのチャンク一覧。テキストチャンクの中に画像が自動的に紐付けられている様子

下記のスクリーンショットでは、チャンク編集画面で画像がテキストと共に管理されている様子が確認できます。画像のドラッグ＆ドロップによる追加にも対応しています。

チャンク編集画面。画像がテキストチャンクに添付され、編集・管理できる

マルチモーダルエンベディング対応

マルチモーダル対応のエンベディングモデルを使用すると、テキストと画像の双方がベクトル化されます。これにより以下の検索が可能になります。

テキストから画像を検索
画像から画像を検索
画像からテキストを検索

テキスト専用のエンベディングモデルを使用している場合でも、画像はチャンクに付随して保持され、Vision対応のLLM使用時にプロンプトに含められます。

下記はドキュメント処理設定の画面です。エンベディングモデルとしてマルチモーダル対応の jina-clip-v1 が選択されており、VISION タグが表示されているのが確認できます。

ドキュメント処理設定画面。マルチモーダルエンベディングモデル（jina-clip-v1）のVISIONタグが表示されている

ナレッジパイプラインとの統合

v1.9.0で導入されたナレッジパイプラインの KnowledgeBase ノードに、新たに multimodal-Parent-Child と multimodal-General の2つのモードが追加されました。プラグイン開発者が構造化されたマルチモーダルデータをDifyに取り込む際に活用できます。

対応マルチモーダルモデル

以下のマルチモーダルエンベディングモデルに対応しています（プラグインを最新版に更新する必要があります）。

プロバイダー	モデル名
AWS Bedrock	`nova-2-multimodal-embeddings-v1:0`
Google Vertex AI	`multimodalembedding@001`
Jina	`jina-embedding-v4`, `jina-clip-v1`, `jina-clip-v2`, `jina-reranker-m0`
Tongyi (Qwen)	`multimodal-embedding-v1`

下記はAmazon Bedrockのモデル一覧画面です。リスト最下部に amazon.nova-2-multimodal-embeddings-v1:0 がVISION対応として表示されています。

Amazon Bedrockモデル一覧。multimodal-embeddings-v1

マルチモーダル対応のナレッジベースには、UI上に 「Multimodal」タグ が表示されるようになります。

使ってみた感想と活用例

以前から、クライアントの方から「PDFに含まれる図表の情報がナレッジベースに反映されない」という相談を受けることがありました。今回のアップデートにより、製品マニュアルの図解や設計書のフローチャートといったビジュアル情報もAIが参照できるようになり、RAGの回答精度が大幅に向上する可能性があります。

特にマルチモーダルエンベディングを使えば「この画面のエラーメッセージに似た事例を探して」といったビジュアルベースの検索も実現でき、ヘルプデスクやカスタマーサポート領域での活用が期待できます。

下記は実際にワークフローでマルチモーダルナレッジベースを活用した例です。ユーザーが画像とテキストを入力し、Knowledge Retrievalノードが画像を含むチャンクを検索、LLMが画像とテキストの両方を考慮して回答を生成しています。

ワークフローでのマルチモーダル活用例。画像入力を受け取り、Knowledge RetrievalからLLMへの一連の処理が実行されている

ワークフローの実行結果。画像を含むナレッジベースから関連情報を検索し、具体的な回答が生成されている

Zenモードと開発体験の向上

Zenモード

ワークフロー編集画面に Zenモード が追加されました。Cmd + K（Macの場合）で呼び出し可能で、余計なUI要素を非表示にして作業に集中できるモードです。複雑なワークフローの編集時に画面を広く使いたい場面で重宝します。

ワークフローツールへのショートカット

ワークフローツールのサイドパネルに 「Open Workflow」リンク が追加されました。ワークフローをツールとして利用している場合に、直接ワークフロー編集画面にジャンプできるため、作業効率が向上します。

ワークフローツールのサイドパネル。右クリックメニューに「打开工作流（Open Workflow）」オプションが表示されている

Startノードの JSON Schemaサポート

ワークフローの開始ノードでJSON Schemaによる入力バリデーションが使えるようになりました。これにより、ワークフローに渡されるデータの型や構造を厳密に定義でき、実行時のエラーを未然に防げます。

Admin APIキーのCSRFバイパス

Admin APIキーを使用したリクエストがCSRF（クロスサイトリクエストフォージェリ）バリデーションをバイパスできるようになりました。自動化スクリプトやCI/CDパイプラインからDifyのAPIを呼び出す際に、不要なCSRFトークンの取得処理が不要になり、連携がスムーズになります。

ダークモード対応アイコン・UIの改善

ダークモード用のアイコンセットが追加されたほか、ReactScanによるレンダリング分析ツールが導入され、UI全体の色味やコントラストが改善されています。

パフォーマンスとインフラの改善

v1.11.0では裏側のエンジンやインフラにも多くの改良が加えられています。

GraphEngineの一時停止/再開制御の改善

v1.9.0で導入されたキュー駆動型グラフエンジンの一時停止・再開処理が安定化しました。ワークフロー実行中に一時停止しても、意図しない状態遷移が起きにくくなっています。

ストレージ権限の自動修復

Docker Compose環境でDifyをデプロイする際、initコンテナ がファイルシステムのパーミッションを起動時に自動修復するようになりました。異なるストレージバックエンドを使っている場合でも、手動でパーミッション修正を行う必要がなくなります。

Redisキャッシュによるツールプロバイダー一覧の高速化

ツールプロバイダーの一覧取得APIにRedisキャッシュが導入され、レスポンス速度が大幅に向上しました。プラグインやツールを多数利用している環境では体感できる改善です。

Milvus 2.6.0へのアップグレード

Docker Compose環境でのMilvusバージョンが2.6.0に更新されました。インストール時のエラーが減少し、ベクターデータベースのセットアップがスムーズになっています。

Pydanticアップグレードによるコード品質向上

内部のデータバリデーションにPydanticモデルが積極的に導入され、ノードデータの整合性チェックやAPI入力のバリデーションが強化されています。

UI再レンダリングの削減

ワークフロー編集画面とマーケットプレイスで不要な再レンダリングが削減され、UIのレスポンスが向上しています。

主なバグ修正

v1.11.0では多数のバグ修正も行われています。主なものを紹介します。

Webhookノードの変換エラー修正

既存のノードをWebhookノードに変換する際に404エラーが発生する問題が修正されました。

チャット自動スクロールの安定化

チャットインターフェースで会話中に自動スクロールが停止してしまう問題が解消されました。

OceanBaseベクター検索の精度向上

OceanBaseをベクターデータベースとして使用している場合、score_threshold パラメータが正しく処理されるようになり、検索結果の精度が向上しました。

ダークテーマの表示修正

ダークモードでのツールチップ表示やテキスト色の不整合が修正され、視認性が改善されています。

MySQLクエリ互換性の修正

MySQLドライバー使用時のUUIDクエリや returning 文の非対応に起因するエラーが解消されました。

データベースセッション管理の修正

ワークフロー実行中にデータベースセッションが複数回初期化されるとエラーが発生する問題が修正されました。

アップグレード時の注意点

Docker Compose環境でのアップグレード手順は以下の通りです。

カスタマイズしたdocker-compose YAMLファイルをバックアップ
mainブランチから最新コードを取得
docker compose down でサービスを停止
ボリュームデータをバックアップ
docker compose up -d でサービスを再起動

なお、今回のリリースではイメージが再リリースされているため、リリース前にイメージをプルしていた場合は削除して再取得する必要があります。 また、起動時にPostgreSQLへの接続エラーが発生する場合は、docker compose --profile postgresql up -d を使用してください。

ソースコードからのデプロイの場合は、git checkout 1.11.0 でコードを取得し、uv sync で依存関係を更新、uv run flask db upgrade でDBマイグレーションを実行してください。

まとめ

Dify v1.11.0は、マルチモーダルナレッジベース という大きな機能追加により、RAGの活用範囲を大幅に拡張するアップデートでした。テキストだけでなく画像もナレッジベースに取り込めるようになったことで、実務文書を扱うAIアプリの回答品質が飛躍的に向上する可能性があります。

加えて、Zenモードやワークフローショートカット、JSON Schemaバリデーションなど開発者体験の向上も図られ、GraphEngineの安定化やRedisキャッシュ導入などインフラ面の改善も充実しています。

RAGアプリの精度向上やマルチモーダルAIの活用に興味がある方は、ぜひv1.11.0を試してみてください。今後もDifyのアップデート情報を追いかけていきますので、お楽しみに。

この記事の監修者

鈴木

北海道大学情報科学研究院卒業。
フリーランスとして大手の開発プロジェクトを経験。
サステックスではバックエンドエンジニアの専門家として活動。愛猫家。

技術記事