仕事などで情報収集を行って、社内向け資料として画像やPDFのファイルに入っている文字を引用したいという場面が出てくると思います。
そのまま画像を画面ショットとして使える状況なら問題ないでしょうが、部分的にテキストで利用したいシーンが出てきます。
数行ならそのまま画面を見ながらタイピングすればそこまで手間はかかりませんが、数ページ規模になるとかなり手間です。また、以下のケースだと画像の画面ショットは使えませんので工夫が必要になってきます。
- 文章を社内向けの言葉に変えたい
- 状況に応じて言い回しを変えたい
- 画像ファイルにある文字を一部抜粋して、組み合わせて文章の構成が必要
このような時、Google ドライブ(Google drive)を使えば、画像やPDFファイルの文字をテキスト形式に変換(OCR)することができます。テキストにすれば文字の加工が可能になり、状況に合わせた文字のカスタマイズが可能になります。『画像・PDFファイル』から『テキスト』に変換することはとても簡単なので、その方法をご紹介したいと思います。
OCR(オーシーアール、光学的文字認識)とは
手書きや印刷された文字をイメージスキャナなどで読みとり、デジタル化してコンピュータが利用できる文字コードに変換する技術です。
引用:光学文字認識(ウィキペディア)
Google ドライブ(Google drive)でテキスト変換
①Googleドライブ(Google drive)にアクセスして、テキスト文字に変換したい画像またはPDFをアップロードします。(ドラッグ&ドロップで可能)
②アップロードした画像を右クリックして、以下順番で選択します。
アプリで開く
>Google ドキュメント
③読込み中。解析されるのをしばらく待ちます。
④解析が完了するとGoogle ドキュメントが自動的に開き、元の画像とテキスト化された文章が表示されます。
1ページ目:元の画像
2ページ目:テキスト化された文書
⑤完成です。簡単ですね。
ただ、カッコのような【記号】や漢数字とカタカタなど似た文字列は誤変換されている可能性もあるので正しく変換されてるか確認することをお勧めします。
また、改行はスペースに変換されているので、一括で削除(置換)します。削除(置換)する方法は編集メニューの「検索と置換(Ctrl + H)」で「検索」に半角スペース、「次に変更」は空(NULL)にして「すべて置換」をクリックすると全ての半角スペースが空の状態(NULLに置換)されて削除されます。
■記号などが入っており、うまく変換できなかったケース
このような場合のありますので、正しく変換されているか確認して変換できなかった項目は手作業で修正しましょう。
【豆知識】OCR(光学的文字認識)の精度向上について
Googleなどのベンダーは「数字」や「ひらがな・カタカナ」の画像データから「テキスト文字」に変換する技術の精度を常日頃から向上させようとしています。みなさまも「Google Analytics」や「Search Console」などを利用している時に画像の読みづらい文字を見て「数字・ひらがな・カタカナ」を入力しないと先に進めない画面をみたことはないでしょうか。あれです。あとは動画などをダウンロードしようとするときにも出てきます。このようなに画像に埋め込まれている文字列を人に読ませて統計データを取得、データ解析の精度をあげるための情報をデータベースに蓄積していっているのです。
また、この文字の読み込みの精度があがれば古い文献の解読にも役立ちます。大昔の文献の中には文字が擦れていたりして、現在の人間には読めずに解釈できずに眠っているものが多くあります。毎日、世界各国の多種多様な人間がOCR(光学的文字認識)をあらゆる角度から実施し(知らずに実施させられ)膨大なデータが集まれば人間には解読できなかった文字も解読できるようになる日がくるかもしれません。
最後に上記の行為をGoogleは意図的に行っていると言われています。そうなると世界中の人間に知らないうちに内職をさせられていることになるのです。この文字をいれさせる行為は1日に200万~300万回程度の回数が世界中で行われているようで、これは10人程度の人間が丸一ヶ月(24時間×30日ぶっ通し)の作業量と同じぐらいの量です。Googleはさりげなくこの行為をして人件費をほぼ0で文字データの解析情報を収集しているのです。
非常に効率的ですね。Googleは世界征服でも考えているのでしょうか。
最後に
Google ドライブ(Google drive)のテキスト変換機能は大変便利です。マウス操作だけでテキスト情報の変換してくれます。限りある時間を有効活用するために便利な機能、ツールは使いこなすべきですね。
ただ、ファイルが複数ある時には一括で変換作業が行えませんでした。1個1個マウス操作が必要です。複数ファイルを選択して、一括で変換できるようになることを期待しましょう。