PDF分割|Step.2 分割ルールの設定

Step.2では、ファイルをどのように分割するかの設定を行います。
Step.1で抽出したキーワードを利用して取引先ごとにファイルを分割するように設定します。

用語説明

このステップで登場する用語です。

  • 特殊文字
    このページでは、空値や値のマスキングのために「*****」のように特定の文字のみで構成された値の文字を特殊文字と呼ぶ。この特殊文字をそのままの値とみなすか、マスキング前の値とみなすかを設定することができる。

 

分割ルールを設定する

分割ルールの設定に従ってファイルを自動で分割します。
「右パネル」の [分割ルール] から作業します。

 

取引先ごとに分割する

今回は取引先ごとにファイルを分割したいので、「取引先名称」の値を利用してキーワードでファイルを分割します。

  1. [分割ルール] のプルダウンリストから「キーワードで分割」を選択
  2. [分割に利用するキーワード] が表示されるので、クリックして開く
  3. 「[項目2] 取引先名称」以外のチェックを外す

(設定後の状態)

「左パネル」を見るとファイルの分割位置がわかります。

 

ページ数で分割したい場合

ページ数で分割したい場合は [分割ルール] を「ページ数で分割」にすると指定したページ数ごとにファイルを分割できます。

 

特殊文字の処理方法を設定する

例えば1〜3ページ目は同じ『株式会社RaaS Partners』の請求書ですが、2ページ目以降の取引先名称が「*」でマスキングされています。

そのため、1ページ目は『株式会社RaaS Partners』、2・3ページ目は『**********』と別の値が取得されるため、別の取引先だと判定されて分割されてしまっています。
(同様に6・7ページ、8・9ページも同一取引先の請求書が分割されてしまっています。)

『**********』となっている値を『株式会社RaaS Partners』とみなすように「空白とマスキング」の設定を行います。

 

空白とマスキングの設定

  1. 「右パネル」で [キーワードの抽出] の下部にある [抽出したキーワードの確認] をクリック
  2. 「抽出されたデータ」のダイアログが開く
  3. 右上の [オプション] というボタンをクリック
  4. 「オプション」のダイアログが開く
  5. 「空白とマスキング」 タブをクリックし、開く
  6. 設定を変更する
     1. [* / *] にチェックを入れる
     2. [値の扱い] は [前のページと同じ値とみなす] のままにする
  7. [閉じる] ボタンをクリック

こうすることで「*」のみの値が前のページと同じ値だとみなされるようになり、2・3ページ目の取引先の値が『株式会社RaaS Partners』とみなされるようになります。
結果、分割位置が意図した3ページ目と4ページ目の間になりました。

 

各ページの値について

設定の変更後、抽出した値がどのようにみなされているのかは以下で確認できます。

  1. 右パネルで [キーワードの抽出] の下部にある「抽出したキーワードの確認」をクリック
  2. 「抽出されたデータ」のダイアログが開く
  3. 右上の [表示:] で「加工した値」を選択

上が抽出した値(=ファイル上の値)、下が設定後の値です。
置き換わっている(=みなされている)値はグレーの文字になっています。


 
これで取引先ごとに分割位置を区切ることができました。
続いて、分割後のファイルの命名規則を設定するため Step.3 ファイル名の指定 へ進みましょう。

TOP