PDF文字抽出とは
PDF内部に埋め込まれた文字情報を読み出し、コピー可能なテキストとして取り出す処理です。テキストレイヤーのあるPDFに向いています。
PDFをアップロードせず、ブラウザだけで文字を抽出できます。
このツールはPDFをサーバーに送信しません。
画像だけのPDFには対応していません。
PDF.jsを使って、ブラウザ内でテキストレイヤーを読み取ります。画像だけで構成されたPDFには対応していません。
PDFを選択してください。
PDF内部に埋め込まれた文字情報を読み出し、コピー可能なテキストとして取り出す処理です。テキストレイヤーのあるPDFに向いています。
紙書類をスキャンしたPDFや画像だけで構成されたPDFは、見た目に文字があっても内部にコピー用の文字情報がないため、このツールでは抽出できません。
ブラウザ内処理に限定することで、機密文書や個人情報を含むPDFでも外部送信を避けやすくし、運用コストも抑えます。
文字化けや抽出漏れはPDFの作りに左右されます。画像PDFやセキュリティ制限付きPDFでは期待どおりに抽出できないことがあります。