◎contents
Web版Gemini(自称 1.0 Pro)がOCRとしてが異常に優秀な点について
以前からgeminiのOCRがかなり優秀である事は知っていた。しかしながら、new ver.と比べてもOCRの精度が以上にいい。今日はその検証を行う。だれか、理由を知っていたら教えてほしい。
APIから呼べるモデルは以下の3つになる。そのどれもが、とても優秀とは呼べない結果だった。
gemini公式
Google AI chat models | 🦜️🔗 LangChain
Gemini | Google AI for Developers | Google for Developers
langchain
google.generativeai.GenerativeModel | Google AI for Developers | Google for Developers
OCR (Optical Character Recognition、光学的文字認識) は、印刷されたテキストや手書き文字の画像をコンピューターが読み取り可能なデジタルテキストに変換する技術です。
OCRの基本的な仕組みは以下の通りです: