Max Nardit
Beetroot

Beetroot v1.6.5:クリップボードが画像を読めるようになりました

Beetroot v1.6.5: AI Vision でクリップボードが画像を読めます (OCR、説明、抽出、翻訳)。バックグラウンド AI ジョブキュー。すべてのプロバイダがネイティブ Rust に。

これは大型リリースです。クリップボードが画像を読めるようになりました。スクリーンショット、写真、スキャンを右クリックして、AI にテキストを抽出させたり、見えるものを説明させたり、構造化データを引き出させたり、翻訳させたりできます。AI 変換はバックグラウンドで実行されるので、待っている間に何もフリーズしません。

ひと目で:

  • AI Vision 変換:5 つの組み込みプロンプト + カスタムで画像を分析
  • バックグラウンド AI ジョブキュー:変換が UI をフリーズさせなくなる
  • すべての AI プロバイダがネイティブ Rust:より速く、より信頼性が高く、CORS の問題なし
  • ネイティブ Windows 通知:Beetroot が非表示でも結果がポップアップ
  • 11 のバグ修正

AI Vision 変換

クリップボード履歴の任意の画像を選択し、右クリック → AI、そして Vision プロンプトを選びます。画像が AI プロバイダに送られ、結果がクリップボードに届き、貼り付け可能になります。

5 つの組み込み Vision プロンプト:

プロンプト内容
Read Text写真、スクリーンショット、手書きメモから OCR
Describe Image画像に何があるかのテキスト説明を取得
Extract Data表、レシート、処方箋から構造化データを抽出
Summarize Imageビジュアルコンテンツの簡単な要約
Translate Image Text画像内のテキストを翻訳

Settings で独自の Vision プロンプトを作成することもできます。

すべてのプロバイダで動作:

  • クラウド: OpenAI GPT-5.4、Anthropic Claude (Haiku/Sonnet)、Google Gemini 2.5、DeepSeek
  • ローカル: Ollama (llava、bakllava、moondream)、LM Studio

自前のハードウェアで動作する 4B のローカルモデルでも、手書きの処方箋を読めます。クラウドなし、API キーなし、データはマシンを離れません。

実世界テスト: 医師の手書き

AI Vision をテストするため、Google Images からランダムな手書きの医療処方箋、つまり筆記体と医療略語が書かれた歯科医院のメモを取ってきました。人間にとっても読みづらいたぐいのものです。

歯科医院からの元の手書き処方箋

これを 5 つの異なるモデルで実行しました。結果はこちら。

モデルタイプ速度品質
GPT 5.4 miniクラウド速い優秀 — 筆記体の正確な読み取り、良好なフォーマット
Gemini 2.5 Flashクラウド非常に速い優秀 — よく構造化された出力、レイアウトを保持
Claude Haiku 4.5クラウド速い優秀 — クリーンな出力、正確
LM Studio Qwen 3.5 4Bローカル中程度非常に良い — 最良のローカルモデル、良好なフォーマット
Ollama Qwen 3 4Bローカル中程度良好 — 確かな OCR、フォーマットは控えめ

5 つすべてが、薬 (Augmentin 625mg、Enzoflam、Pan-D 40mg)、用量、指示を正しく読み取りました。紙の上の筆記体から。

GPT 5.4 mini、クリーンで、よくフォーマットされた出力

Gemini 2.5 Flash、よく構造化され、元のレイアウトを保持

Claude Haiku 4.5、クリーンで正確

LM Studio Qwen 3.5 4B、最良のローカルモデル、完全に自分のマシンで実行

Ollama Qwen 3 4B、完全ローカルモデルからの確かな OCR

これで何ができるかのアイデア:

  • 手書きメモ、ホワイトボード、付箋を読む
  • レシート、請求書、名刺からデータを抽出
  • 外国語アプリのスクリーンショットを OCR
  • チャート、図、技術図面を説明
  • 写真から看板、メニュー、書類を翻訳

バックグラウンド AI ジョブキュー

AI 変換は以前、応答を待つ間 UI を 5〜30 秒フリーズさせていました。今はバックグラウンドで実行されます。

以前: AI プロンプトをクリック → UI フリーズ → 結果が表示

以後: AI プロンプトをクリック → メニューが瞬時に閉じる → 作業を続ける → 結果の通知がポップアップ

複数の変換をキューに入れると、1 つずつ実行されます。Beetroot のウィンドウが非表示の場合、ネイティブ Windows 通知が届きます。クリックすると Beetroot が前面に来ます。

すべての AI プロバイダがネイティブ Rust

すべてのクラウド API 呼び出し (OpenAI、Anthropic、Gemini、DeepSeek、Ollama) が、ブラウザの JavaScript からネイティブ Rust コードに移行しました。

  • CORS エラーがなくなる
  • ウィンドウが非表示でも動作 (バックグラウンド変換に必要)
  • 一貫したエラーハンドリングでより信頼性が高い
  • より速い

バグ修正

  • エラー後に AI メニューが時々動かなくなる問題を修正
  • Settings がキャンセル時にフォント変更を巻き戻さない問題を修正
  • ダークテーマでエラートーストが読めない問題を修正
  • レガシーモデル名が正しく移行されない問題を修正
  • Vision 変換のエッジケースに対する 6 つの修正

アップデート方法

Beetroot は自動でアップデートを提案します。または GitHub から v1.6.5 をダウンロード してください。

ディスカッション

コメント欄はありません。議論は X で行っています。

Max Nardit

Max Nardit

@mnardit

ほかの記事

Beetroot v1.6.6:Office 修正

Excel と Word のセルが値ではなくスクリーンショットとしてキャプチャされていました。Microsoft Store の自動起動が密かに壊れていました。画像サムネイルがギガバイト単位の RAM を消費していました。v1.6.6 はこの 3 つに加え、大型の 1.6.5 AI Vision リリース後のセキュリティと信頼性の作業を修正します。

Beetroot v1.6.5:クリップボード用 AI Vision、OCR、ネイティブ Rust