Skip to content

Googleレンズが便利:官公庁サイトによくある画像内の文字を手軽にOCR

Published:

Googleレンズとは

Googleレンズは、Androidスマートフォンのカメラを使って目の前の物を写真に撮ることで検索できるツールです。

スマートフォンのカメラをかざすだけで、GoogleのAIが物体や場所、テキスト、バーコード、QRコードなどを認識し、その情報を元に検索結果やアクションを提供します。

PC版のChromeにも搭載され、次の機能があります。

中でもテキスト検索である、OCRが便利だったので、実例とともに使い方を説明します。

データの整形はChatGPTを活用します。

使い方:経済産業省のHPの実例

  1. Webサイトを開く

例として、デジタルトランスフォーメーション銘柄(DX銘柄) - 経済産業省を使います。

経済産業省HP

  1. 画像の上で右クリックし、「Google レンズで検索」を選択

EXCELで作成した(させた)と思われる画像の上で右クリック。

Googleレンズ起動

  1. Googleレンズの画面になるので、「テキストを選択」→「コピー」を選ぶ

右側に選択した画像に関連する検索結果が表示されます。

Googleレンズ使い方

  1. クリップボードから貼り付けられます。

結果

DXグランプリ2024 証券コード 5938 7011 法人名 株式会社LIXIL 三菱重工業株式会社 7936 株式会社アシックス DX銘柄2024 法人名 証券コード 2871 株式会社ニチレイ 3591 株式会社ワコールホールディングス 3407 旭化成株式会社 4568 第一三共株式会社 5108 株式会社ブリヂストン 5201 AGC株式会社 5411 JFEホールディングス株式会社 6367 ダイキン工業株式会社 6645 オムロン株式会社 7259 6841 横河電機株式会社 株式会社アイシン 9143 SGホールディングス株式会社 9101 日本郵船株式会社 9201 日本航空株式会社 9301 三菱倉庫株式会社 9434 ソフトバンク株式会社 3132 マクーカホールディングス株式会社 業種 金属製品 機械 その他製品
  1. 【コツ】ChatGPTに貼り付けてテーブル化を指示。

テーブルが崩れて、文字のみがコピーされてしまうので、ChatGPTにテーブルデータに変換してもらいます。

CSVで出力もできるようになります。

ChatGPTの使い方

プロンプト

テーブルデータをコピペしたら、崩れてしまいました。整形してもらえますか。

```

(コピーしたデータを貼り付け)

```

※```は半角にする

  1. データが取得できました。
法人名証券コード業種
株式会社LIXIL5938金属製品
三菱重工業株式会社7011機械
株式会社アシックス7936その他製品
株式会社ニチレイ2871食料品
株式会社ワコールホールディングス3591繊維製品
旭化成株式会社3407化学
第一三共株式会社4568医薬品
株式会社ブリヂストン5108ゴム製品
AGC株式会社5201ガラス・土石製品
JFEホールディングス株式会社5411鉄鋼
ダイキン工業株式会社6367機械
オムロン株式会社6645電気機器
横河電機株式会社6841電気機器
株式会社アイシン7259輸送用機器
SGホールディングス株式会社9143陸運業
日本郵船株式会社9101海運業
日本航空株式会社9201空運業
三菱倉庫株式会社9301倉庫・運輸関連業
ソフトバンク株式会社9434情報・通信業
マクーカホールディングス株式会社3132小売業

1枚の画像というより、表示範囲でコピーされました。

まとめ

GoogleレンズとChatGPTを活用することで、アナログデータをデジタルデータに変換することができました。

うまくシステム化できれば、活用されずに眠っているデータをデジタル化して、データベースが構築できるかもしれないですね。