googleOCRでテキスト化
原稿用紙に手書きで書いた文字 を文字起こしして テキストデータに できないか、と相談されて、はた!と悩みました。 手書きから、まずは画像にでもデジタル化して、そこからナニかしないといけないだろなぁ~~くらいまでは想像の範囲内でしたが、実際にはど~すればいいのやら、とんとワカラない。 GoogleドライブOCRで変換完了した様子 で「画像からテキスト」とぐぐって出てきたのがgoogle様の「Online OCR」しかも無料!となっ

「Online OCR」とはどんなものか

OCRとはOptical Character Recognition:光学的文字認識の略で、手書き・印刷を問わず「画像ファイルから文字を読みとる技術」のこと。まんまですね。 Googleドキュメントは、画像ファイルから、文字を認識して抜き出す、なんてことを誰にでも使えるようにしてくれてたのか!やであじがたや(ノ_ _)ノ

手順

手順は簡単ですが大前提としてGmailやGooglePhoto等、なんらかのカタチで googl に登録している必要があります。 Googleマイドライブ Gmail が一番利便性がたかく、かつ簡単なので、もしGoogle関係で何もなければ、Gmailがお勧めです。 そうなるとGmail に登録するところから、になりますが、さすがにそこまで書いてると煩雑なので割愛させていただきますが、スマホの予備メールにも使えるので、持っていない人はこの際作っておくと便利です。 Google Drive があると、スマホを乗り換えるときの大問題のひとつ「LINEトーク」の引継ぎにも使えます(^-^) Gmailにログインした状態であれば、特になにもしなくても Google Drive が自動的に使えるようになっています。 ①自分の Google Drive に行き、画像をアップ。 「新規」を右クリック⇒「ファイルのアップロード」から、アップロードします。 Googleドライブ・マイ・ドライブへ画像をアップロードする 完了したらマイ・ドライブにテキストの画像が追加されているはずです。 ↓↓↓↓説明サンプルは手書き原稿ではないんですが、手順は同じです。 マイ・ドライブに保存されたところ ②右クリックで「アプリで開く⇒ Googleドキュメント」を選択 「Googleドキュメントで開く」を選ぶ Googleドキュメントで開いている間は↓↓↓↓アイコンが出てきます。google様がonline OCRで画像から文字を認識・抽出⇒テキストにしてくれている証です。 googleドキュメントで開いているところ 「Online OCR」で文字の抽出が完了するとアイコンが消えます。 ④アイコンが消えると、こんなように、先ほどの画像の下にテキストが出てきています。 GoogleドライブOCRで変換完了した様子 画像下のテキストをコピーし、適当なテキストエディタに張り付ければ、文字起こしされたテキストファイルの完成です。 ①アップロードして②ワンクリック③ちょっと待つ、というたった3ステップで「手書きメモ」だったものが、ワードやエクセル・ブログなどに張り付けられるテキストデータとして保存できました。

縦書きもOK

このGoogle online OCR のなにが凄いと言って、縦書きの文章を読み込んで、認識してくれるところです。日本語には「縦書き」文献のほうが圧倒的に多いことを考えると涙モノです。 縦書きの画像からもOCR可能 しかもテストケースでは、なんとっ顔文字は縦書きのほうが正しく認識されるという結果に・・・・ テキストの出力は横書きになりますが、次に何かに使うにしてもテキストデータとしては横書きがベストな現状では文句なく完璧です。 抽出されたテキストをコピーする 縦書きのテキストデータでは、使用時にまたひと手間増えちゃうものね(^o^;)

画像化する際の注意点

★行数・ルーラーなど余分な数字が写りこんでいると混乱するみたい。 ★一枚の画像ファイルサイズは2MB以下 ★テキスト文字の大きさは10px以上の大きさ(それ以下だと無視される可能性あり)画像になった時に10px以下の小さい文字は割愛される可能性があるので、注釈などが多い時はチェックが必要かもしれませんね。 というように注意事項はありますがGoogleドライブを使うだけで「テキストデータへの変換」が一発でできるなら、この程度の前準備は喜んでさせていただきます。ヘコヘコ 無料ソフトを使って同じことをしようとすると、ソフトを3つほど経由させないと無理ですからねぇ 手書き文字はどうしても不ぞろいなので、読みとり精度は少し落ちるだろうことは容易に想像できます。 手書き原稿の場合は、変換後スグに突き合わせて修正しておくほうが、いいですね(^-^) 手書き文字に関しては、事務所・お役所など有料でも使う意味があるようなビジネス用には、すでにNTT東日本「AIよみと~る」など、もっと精度の高いソフトが開発・実用化されていますので、数年ののちには無料のソフトの精度も上がってくれるかもしれない(^-^)ちょっと期待しちゃうな。

その他気づいたこと

まだそんなに沢山の文章を試したわけではないけれど、ざっとみたところでは記号に弱い感じでした。 googleOCRでテキスト化 文頭や文末に記号・鍵かっこなどがあると、AI様が悩まれるようですね。 顔文字などにも苦心の跡が見えます(^o^;) これは今後のためのメモですが、原稿用紙など罫線のある紙を使う時は赤・緑・青の三原色画像ソフトで消しやすい、といわれています。 使うペンの文字色にもよるし使う画像ソフトにもよるかと思いますが、罫線の類は文字色と被らないようにしなきゃ!ですね。 グレーなどは、文字と被るので使うのは止めたほうがいいでしょうね。 手書きのモノはパソコンで手入力しなおすしかない、と諦めず、画像で保存しておけば、近々にもっと楽に自動化されるかもしれません。 とりあえず「画像化」がいま現在、最低限しておくべきベストな対応かと思います。 ※OCR:Optical Character Recognition:光学的文字認識に関する資料