パスワードを忘れた? アカウント作成
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31
2017年3月5日のセキュリティ記事一覧(全1件)
13177681 story
人工知能

Googleの有害コメント判定ツールを混乱させる方法 47

ストーリー by headless
混乱 部門より
機械学習により有害コメントを判定するGoogle/JigsawのPerspectiveだが、人間が元の意味を認識できる程度に微妙な改変を加えたadversarial exampleを使用することで、判定を混乱させる攻撃に関する研究結果が発表された(論文: PDFArs Technicaの記事The Registerの記事)。

現在のところ、Perspectiveは研究開発初期の段階だが、入力した文と人々が有害と考えるコメントの類似性をパーセンテージ(以降、有害率スコア)で表示する実験的なツールがWebサイトで公開されている。研究グループは同サイトでリストアップされている有害なコメント例を用い、改変による有害判定の変化を調べている。

Perspectiveの判定に大きく影響するのは単語だ。特に「idiot」「stupid」といった単語を含むコメントは有害率スコアが高くなる。しかし、これらの単語にミススペルを加えたり、途中に「.」「-」「/」といった記号やスペースを挿入したりすると(idiiot、stu.pidなど)、人間の目には元の単語が認識できるのにもかかわらず、有害率スコアは大きく低下する。例文の多くは有害率スコアが80%台で、改変により10%台まで低下するが、中には86%(※)から2%に低下するものもある。
typodupeerror

にわかな奴ほど語りたがる -- あるハッカー

読み込み中...