パスワードを忘れた? アカウント作成
この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。

注文履歴などの誤表示でAmazon.co.jpに行政指導、被害件数は11万件」記事へのコメント

  • by Anonymous Coward

    「止」と「用」と「行」だけフォントが違うようなんだけどどうして?

    • by Anonymous Coward on 2019年10月16日 22時21分 (#3702096)

      フォントが違うというか、CJK部首補助(U+2F00~)を使っているようですね。
      OCRでキャプチャして目視チェックでネットにペタリ、ってところでしょうか。
      ふぉんとにもう。

      親コメント
      • by ktmizugaki (46208) on 2019年10月17日 10時35分 (#3702273) 日記

        OCR ではなく、 PDF からのコピペですね。(リンク先にPDFが掲載されています)
        PDFのタイトルからすると、 Word 文書から作成されたPDFのようです。

        自分の環境でも、Wordで普通の字を使ったはずなのに、PDFにしたら、同じ見た目の違う文字コードの字になっていたことがあって、理由(回避方法)があるなら知りたい。

        --
        svn-init() {
          svnadmin create .svnrepo
          svn checkout file://$PWD/.svnrepo .
        }
        親コメント
        • by Anonymous Coward on 2019年10月18日 1時29分 (#3702806)

          (1) 「フォントを埋め込まずビットマップに変換」的なオプションでPDFに保存
          (2) ビューアにより「ビットマップを文字コードに変換」的なオプションでOCR処理
          (3) Unicode順で単純な漢字よりも部首が優先される。たとえば 人(U+4EBA) が ⼈(U+2F08) に。

          ここで言うOCRはいわゆるデジタル文字認識です。

          親コメント

物事のやり方は一つではない -- Perlな人

処理中...