◎contents

column

Web版Gemini(自称 1.0 Pro)がOCRとしてが異常に優秀な点について

‎Gemini と話してアイデアを広げよう

以前からgeminiのOCRがかなり優秀である事は知っていた。しかしながら、new ver.と比べてもOCRの精度が以上にいい。今日はその検証を行う。だれか、理由を知っていたら教えてほしい。

APIから呼べるモデルは以下の3つになる。そのどれもが、とても優秀とは呼べない結果だった。

gemini公式

Google AI chat models | 🦜️🔗 LangChain

Gemini  |  Google AI for Developers  |  Google for Developers

langchain

google.generativeai.GenerativeModel  |  Google AI for Developers  |  Google for Developers

information

光学文字認識

pre-knowledge

LLMに聞いてみた: Q. OCRを簡単に説明して

A. (NoLang)

https://youtu.be/ljBeDevhwYg

A. (perplexity)

OCR (Optical Character Recognition、光学的文字認識) は、印刷されたテキストや手書き文字の画像をコンピューターが読み取り可能なデジタルテキストに変換する技術です。

OCRの基本的な仕組みは以下の通りです: