マルチモーダルな自律型AIエージェントシステム。複数のAIエージェントが協調して動作し、デスクトップ操作の自動化と支援を行います。 音声認識とAI駆動のブラウザ制御により、自然な対話を通じてブラウザ操作や様々なタスクの自動化を実現します。
- browser-useパッケージによるインテリジェントなウェブ自動化
- 自然言語指示によるウェブサイト操作(「YouTubeで猫の動画を再生して」など)
- 要素の探索とクリック、フォーム入力、スクリーンショット撮影機能
- Playwrightを活用した高レベルなブラウザ制御
- 音声コマンドによるブラウザ操作とシステム制御
- Whisperモデルによるローカルでのオフライン音声認識
- GPU加速による高速かつ正確な認識
- 複数言語対応(日本語・英語)
- 複数の子エージェントによる並行処理
- エージェント間の自律的な通信と協調
- リソース使用の最適化と負荷分散
- Google AI Studio(デフォルト)
- OpenAI(オプション)
- Anthropic(オプション)
- 自動フォールバックとロードバランシング
- CPUやGPUの使用率、温度監視
- メモリ使用状況のリアルタイムモニタリング
- システム操作の自動化(音量調整など)
- OpenHardwareMonitorによる詳細な温度監視(オプション)
- リソース使用率の時系列データ収集と分析機能
- 異常値検出と自動アラート通知
- PyQt6ベースのモダンなインターフェース
- タスク管理とポモドーロタイマー
- SQLiteによるデータの永続化
- 構造化されたログ管理
- Python 3.10以上
- CUDA対応GPU(音声認識と高度な機能に推奨)
- Windows 10/11
- 必要なPythonパッケージ:
- PyQt6とPyQt6-WebEngine
- browser-use
- Playwright
- Torch (CUDA対応)
- Transformers
- その他(requirements.txtを参照)
- リポジトリのクローンと依存関係インストール:
git clone https://github.com/zapabob/DesktopAgent.git
cd DesktopAgent
python -m pip install -r requirements.txt
- Playwrightブラウザドライバーのインストール:
python -m playwright install
- 設定ファイルの作成:
cp config.example.yaml config.yaml
# 使用するAIプロバイダーのAPIキーを設定
- アプリケーションの実行:
# Windowsの場合
start.bat
# または
python src/main.py
config.yaml
で使用するAIプロバイダーを設定できます:
ai_providers:
use_vertexai: true # Google AI Studio
use_openai: false # OpenAI (オプション)
use_anthropic: false # Anthropic (オプション)
browser_paths:
chrome: "C:/Program Files/Google/Chrome/Application/chrome.exe"
edge: "C:/Program Files (x86)/Microsoft/Edge/Application/msedge.exe"
firefox: "C:/Program Files/Mozilla Firefox/firefox.exe"
system_settings:
cpu_threshold: 80 # CPU使用率の閾値
memory_threshold: 85 # メモリ使用率の閾値
voice_recognition:
enabled: true
model: "tiny" # tiny, base, small, medium
device: "cuda" # cuda, cpu
-
アプリケーションの起動:
start.bat
をダブルクリック- または、コマンドラインで
start.bat
を実行
-
メインウィンドウの操作:
- ブラウザ操作タブでウェブ自動化
- 音声認識ボタンで音声コマンドの開始/停止
- システムモニタリングとタスク管理
- 「YouTubeで猫の動画を再生して」
- 「ブラウザでGoogleを開いて」
- 「Gmailを開いて」
- 「音量を上げて」
- 「ブラウザでYahooを開いて」
- 「ブラウザで要素ログインボタンをクリック」
- 「ブラウザでスクリーンショットを撮る」
- 「Googleでデスクトップエージェントを検索」
src/
├── agent/ # エージェント関連
│ ├── command_interpreter.py # コマンド解釈
│ ├── voice_recognizer.py # 音声認識
│ └── keyboard_monitor.py # キーボード監視
├── desktop/ # デスクトップ制御
│ ├── browser_controller.py # 基本ブラウザ制御
│ └── advanced_browser_controller.py # 高度ブラウザ制御
├── db/ # データベース
│ └── models.py # データモデル
├── gui/ # GUI
│ └── main_window.py # メインウィンドウ
├── models/ # 機械学習モデル
├── main.py # エントリーポイント
└── config.yaml # 設定ファイル
-
新しいコマンドの追加:
command_interpreter.py
にコマンドパターンとハンドラを追加
-
ブラウザ機能の拡張:
advanced_browser_controller.py
に新しいブラウザ操作メソッドを追加
-
音声認識の調整:
voice_recognizer.py
でモデルサイズや設定をカスタマイズ
MIT License
- Forkを作成
- 機能ブランチを作成
- 変更をコミット
- ブランチをPush
- Pull Requestを作成
問題が発生した場合は、以下を確認してください:
- ログファイル(
logs/
ディレクトリ) - GPUドライバが最新かどうか確認
- AIプロバイダーの設定とAPIキーの有効性
詳細なトラブルシューティングはWikiを参照してください。
以下の問題が発生した場合の対処法です:
- OpenHardwareMonitorがインストールされていない場合、システム監視の温度表示機能は制限されます
- OpenHardwareMonitorをインストールすることで解決できます
- アプリケーションは管理者権限で実行する必要があります
- CUDA対応GPUが必要です
- PyTorch CUDAバージョンが正しくインストールされていることを確認してください
- CPUモードで実行する場合は、
config.yaml
でdevice: "cpu"
に設定してください
- Playwrightの最新バージョンがインストールされていることを確認してください
- ブラウザパスが正しく設定されていることを確認してください
- 必要に応じて
browser-use
パッケージを更新してください:pip install -U browser-use