つまらない仕事はプログラムにやらせよう

ONE HUMAN UNIT

【RPA】Blue PrismでPDFからデータを読み取ってみよう

RPAでPDFを読んでみる

PDFからデータを読むにはいくつか手段があります。

まともなPDFならコピペで読めたり、予算のある会社ならAPI叩けたりするよね(うらやましい)

Blue PrismでPDFよむ場合にもいくつかパターンがあります。

  • PDF文書をクリップボードにコピー
  • ReadステージでRead Text with OCRする
  • Adobe Acrobat APIを叩く

詳しくは「Guide - Interfacing with PDF Documents (Japanese)」ご参照

【RPA】Blue Prismの資格APD01(Professional Developer認定)受験したら、落ちた……アンチパターンをさらすよ

先日のウェビナーでジャナイホーさんからプロフェッショナルディベロッパとソリューションアーキテクトの日本語化が発表されました。 今日も勉強になった。 ちょっと軌道修正しよう。 そしてソリューションデザイ ...

続きを見る

 

とりあえず、ユーザーへのこんなことできまっせというネタにPDF読んでみたい

はい、社内営業を成功させるには

まずはタダでここまでできる→有料だったらさらにできる→さらに(ryとユーザーの欲望を育てること

まずはPDFの内容をクリップボードコピーからの編集でうまみを伝えたい。

ということで、作ってみた

Blue Prism でPDFファイルの内容をクリップボードに読み取る

ということで、今回はこいつを読み取りましょう

参考:MUFG:経済・産業レポートとマーケット情報

▼MUFGの台湾ドル、マレーシアリンギット

 

――の公示レート。

昔SIで開発しつつ業務改善もちらほら受けてた時、こういうPDF操作の相談受けたけど

VBAでは気軽にはできない案件だったからお茶を濁したことがあったなぁ。

今ならかつる

その子かわいかったんだろ

……

その子、かわいかったんだろ?

めっちゃかわいかった! (そそそ、そんなことございません)

ということでやっていきましょう。

RPAでPDFを読み込む

ということで、MUFGのサーバーに負担をかけると怒られそうなのでダウンロードした状態からやるよ。

▼とりあえず、PDFをアタッチするだけのVBOを用意

▼アプリケーションモデラ―

ウィンドタイトル *pdf
プロセス名 AcroRd32

▼では、ショートカットを送ってデータを取りましょう

▼とれたね。扱いにくいけどちゃんと扱いにくいなりに法則性があっていいね。

RPAで読み込んだ台湾ドルとマレーシアリンギットを取得する

データはとれたので、プロセスサイドで加工していきますよ。

▼PDFを起動して、クリップボードに入れた文字をコレクションに入れてやります。

▼取得したデータを取り出します。

18日

3.59
25.40

該当日付の位置の2つ下にTWD、3つ下にMYRが入ってますね。

▼TWDはこんな感じでとって

▼MYRはこんな感じでGet

……たいしたことしてない

では実行☆

▼終了

 

▼このレートをとれるかなー

▼TWD、MYRがとれました

おわりに

MUFGからPDFダウンロードするところまでプロセスで作ればそこそこ使えそうですな。

でもPDFからコピペで読み取るのって、不安だよね。

オマケに外部Webだから安定稼働に不安あり.......

AI-OCR使ってみたいよォォ……

まずはTesseract OCR試してみようかな。

 

  • B!