Automation Anywhere A2019 トラブルシューティング – OCR結果の先頭にあるゴミは何?

Automation Anywhere

今回の内容は、実行時エラーのトラブルシューティングではありませんが、OCR機能を使うときに知っていると悩まなくて済む情報ですので紹介します。

OCR結果の先頭にあるゴミは何?

■現象

OCR機能を使ってキャプチャした文字をメッセージボックスで確認したところ、先頭文字が「□」で表示されました。キャプチャ領域としては、下記のような枠内に印字された数字の範囲を指定しています。

【補足】『文字数:』の値は、OCR機能のキャプチャ結果に「文字列」パッケージの「長さ」アクションを使った結果で、『内容:[』と『]』の中が、OCR機能のキャプチャ結果の文字列です。

 

■調査結果

「□」に見えたところは、BOM(Byte Order Mark)で、UTF-16のビッグエンディアンを示すBOM(内容は16進数で0xFEFF)でした。

 

■対策

Pythonスクリプトを使って、0xFEFF文字を削除しました。

 

【余談】

OCR機能のキャプチャ結果にBOMを付けない方法が選択できると良いんですけどね~。
メッセージボックスで文字列を表示したとき、数字と数字の間隔が空いている箇所がある原因は分からずじまいですが、BOMを削除したら間隔が空かないで表示するようになりました。m(__)m