2017年3月5日の記事 | セキュリティ

水

木

金

土

日

月

火

水

木

金

土

日

月

火

水

木

金

土

日

月

火

水

木

金

土

日

月

火

水

木

金

Googleの有害コメント判定ツールを混乱させる方法 47

ストーリー by headless 2017年03月05日 13時34分
混乱部門より

機械学習により有害コメントを判定するGoogle/JigsawのPerspectiveだが、人間が元の意味を認識できる程度に微妙な改変を加えたadversarial exampleを使用することで、判定を混乱させる攻撃に関する研究結果が発表された(論文: PDF、 Ars Technicaの記事、 The Registerの記事)。

現在のところ、Perspectiveは研究開発初期の段階だが、入力した文と人々が有害と考えるコメントの類似性をパーセンテージ(以降、有害率スコア)で表示する実験的なツールがWebサイトで公開されている。研究グループは同サイトでリストアップされている有害なコメント例を用い、改変による有害判定の変化を調べている。

Perspectiveの判定に大きく影響するのは単語だ。特に「idiot」「stupid」といった単語を含むコメントは有害率スコアが高くなる。しかし、これらの単語にミススペルを加えたり、途中に「.」「-」「/」といった記号やスペースを挿入したりすると(idiiot、stu.pidなど)、人間の目には元の単語が認識できるのにもかかわらず、有害率スコアは大きく低下する。例文の多くは有害率スコアが80%台で、改変により10%台まで低下するが、中には86%(※)から2%に低下するものもある。

2021 162	消費者庁、洗剤を使わずに洗濯しても十分に洗浄できると表示していた「洗たくマグちゃん」に措置命令
2013 174	鉄道運賃が１円刻みになる？
2010 217	偉い順にIPを割り当てろという上司にはどう答える?
2006 252	金子氏、「Winnyから情報漏えいを防ぐのは技術的に容易」と語る
2005 221	GPLは価格操作のための陰謀(！)という訴訟