Googleの有害コメント判定ツールを混乱させる方法 47
ストーリー by headless
混乱 部門より
混乱 部門より
機械学習により有害コメントを判定するGoogle/JigsawのPerspectiveだが、人間が元の意味を認識できる程度に微妙な改変を加えたadversarial exampleを使用することで、判定を混乱させる攻撃に関する研究結果が発表された(論文: PDF、
Ars Technicaの記事、
The Registerの記事)。
現在のところ、Perspectiveは研究開発初期の段階だが、入力した文と人々が有害と考えるコメントの類似性をパーセンテージ(以降、有害率スコア)で表示する実験的なツールがWebサイトで公開されている。研究グループは同サイトでリストアップされている有害なコメント例を用い、改変による有害判定の変化を調べている。
Perspectiveの判定に大きく影響するのは単語だ。特に「idiot」「stupid」といった単語を含むコメントは有害率スコアが高くなる。しかし、これらの単語にミススペルを加えたり、途中に「.」「-」「/」といった記号やスペースを挿入したりすると(idiiot、stu.pidなど)、人間の目には元の単語が認識できるのにもかかわらず、有害率スコアは大きく低下する。例文の多くは有害率スコアが80%台で、改変により10%台まで低下するが、中には86%(※)から2%に低下するものもある。
現在のところ、Perspectiveは研究開発初期の段階だが、入力した文と人々が有害と考えるコメントの類似性をパーセンテージ(以降、有害率スコア)で表示する実験的なツールがWebサイトで公開されている。研究グループは同サイトでリストアップされている有害なコメント例を用い、改変による有害判定の変化を調べている。
Perspectiveの判定に大きく影響するのは単語だ。特に「idiot」「stupid」といった単語を含むコメントは有害率スコアが高くなる。しかし、これらの単語にミススペルを加えたり、途中に「.」「-」「/」といった記号やスペースを挿入したりすると(idiiot、stu.pidなど)、人間の目には元の単語が認識できるのにもかかわらず、有害率スコアは大きく低下する。例文の多くは有害率スコアが80%台で、改変により10%台まで低下するが、中には86%(※)から2%に低下するものもある。