Googleの有害コメント判定ツールを混乱させる方法 47
ストーリー by headless
混乱 部門より
混乱 部門より
機械学習により有害コメントを判定するGoogle/JigsawのPerspectiveだが、人間が元の意味を認識できる程度に微妙な改変を加えたadversarial exampleを使用することで、判定を混乱させる攻撃に関する研究結果が発表された(論文: PDF、
Ars Technicaの記事、
The Registerの記事)。
現在のところ、Perspectiveは研究開発初期の段階だが、入力した文と人々が有害と考えるコメントの類似性をパーセンテージ(以降、有害率スコア)で表示する実験的なツールがWebサイトで公開されている。研究グループは同サイトでリストアップされている有害なコメント例を用い、改変による有害判定の変化を調べている。
Perspectiveの判定に大きく影響するのは単語だ。特に「idiot」「stupid」といった単語を含むコメントは有害率スコアが高くなる。しかし、これらの単語にミススペルを加えたり、途中に「.」「-」「/」といった記号やスペースを挿入したりすると(idiiot、stu.pidなど)、人間の目には元の単語が認識できるのにもかかわらず、有害率スコアは大きく低下する。例文の多くは有害率スコアが80%台で、改変により10%台まで低下するが、中には86%(※)から2%に低下するものもある。
現在のところ、Perspectiveは研究開発初期の段階だが、入力した文と人々が有害と考えるコメントの類似性をパーセンテージ(以降、有害率スコア)で表示する実験的なツールがWebサイトで公開されている。研究グループは同サイトでリストアップされている有害なコメント例を用い、改変による有害判定の変化を調べている。
Perspectiveの判定に大きく影響するのは単語だ。特に「idiot」「stupid」といった単語を含むコメントは有害率スコアが高くなる。しかし、これらの単語にミススペルを加えたり、途中に「.」「-」「/」といった記号やスペースを挿入したりすると(idiiot、stu.pidなど)、人間の目には元の単語が認識できるのにもかかわらず、有害率スコアは大きく低下する。例文の多くは有害率スコアが80%台で、改変により10%台まで低下するが、中には86%(※)から2%に低下するものもある。
ただし、元の単語の意味にかかわらず、ミススペルを含む単語の多くには34%の有害率スコアが割り当てられることから、ミススペルによる改変にはある程度強いとみられる。一方、例文に「not」を加えて否定表現にしても、有害率スコアの低下は10%前後にとどまる。さらに、テスト用ツールにはフィードバック機能が用意されていることから、これを悪用したポイズニング攻撃が行われる可能性も指摘されている。
論文では対策として、adversarial exampleを使用した学習や、判定前のスペルチェック実行、判定を欺くためにさまざまなパターンを繰り返し試していると思われるユーザーの一定時間ブロックなどを挙げている。ただし、改変単語の全パターンを学習させるのは現実的でなく、スペルチェックは誤判定を増やす可能性もあるとのことだ。
このような研究結果についてJigsawのCJ Adams氏は、正確な判定が可能になるまでにはまだまだ時間がかかるとの認識を示し、研究者の参加を歓迎するコメントをArs Technicaに送っている。
※同じ例文で試したところ、87%となった
結局 (スコア:1)
「有害」なんて主観なんだから、判定基準を全ユーザー共通にする限りスパムフィルタ以上のことはできないんじゃないの?
判定基準にパーソナライズを導入するならいいかもしれないけど、今度はクラスタ間の分断が進む。
Re:嫌な顔されながらおぱんつ見せてもらいたい (スコア:0)
共通価値観という概念が人間には存在するので
細かい部分では主観だけれども有害無害という
のは主観ではなく客観にはいります
Re:嫌な顔されながらおぱんつ見せてもらいたい (スコア:1)
「犬好き」とか「韓国人」ってだけで十分ヘイトスピーチの要件になっているのだから、
共通価値感なんてものは、この問題では無意味。
主観はどうしようもない。
Re: (スコア:0)
そういや「韓国人みたいだな」って言われるとイラッとする日本人は少なくないだろうけど、これを有害と判断するわけにはいかないな
ネット上の表現文化として、そういう言葉が広まるようになるのかも
Re: (スコア:0)
という、根拠のない主観的な御意見。
Re: (スコア:0)
マゾ豚は有害ってはっきり
Re: (スコア:0)
広告ブロッカーみたいなもんでしょう。
自己判断の手間や利便性や運用ポリシーを丸ごと委託できて楽だし、責任ロンダリングできる。
Re: (スコア:0)
国家ならともかく一応は私企業なんだから、運営側の主観で有害かどうかを決めればそれで十分では?
似たような単語で比較 (スコア:1)
福岡空港やばい。アルファベット1文字で試してみたら「f」が突出して高い46%だった(他の字は1桁~10%台)。
Re:似たような単語で比較 (スコア:2)
オーストリア人の怒りが爆発するぞ…と思ったら案の定、Fucking:99%
Fuckより高いとは。
F@U#C%K(ヴァンヘイレンの邦題アルバム名)が78%と高止まりしたのが意外。
例えばf.uckだと47%まで下がるのに。
Re: (スコア:0)
ふっくん [google.co.jp]
やばいじゃん!っておもったけど
fucknは13%だった、辞書登録とかもされてるのかな?
じゃーごん (スコア:0)
いつまでファジィの砦が守られるかが見物ですね。
あんまり早く崩れると、社会の方が対応できずに、そっちで不具合でそうですが。
Re: (スコア:0)
真面目な話怪しいものは人間が確認したりするのでユーザー側から見れば結局なにも変わらない
というかその手の監視サービスを提供する会社は黙って自動化を進めているので
検索のとき (スコア:0)
ややアグレッシブすぎるくらい勝手に訂正してくれたり、「検索避け」として記号を挟んだりしている単語でも平然と検索してくれたりするけど、あの技術は流用してないの?
Re:検索のとき (スコア:1)
単語ごとにスペースで区切られてる言語はある程度対応しやすいだろうけど
日本語みたいに文が繋がってる言語は誤認しやすいだろうしね、簡単には対応できないと思う
IMEとかの挙動見てても、文体まで把握した上での単語抽出(選択)とかは、たぶん一番日本語に特化してるATOKで漸くそれっぽい動きができるようになったのがここ数年で、GoogleとかMSのIMEはまだまだって感じだし
# 尚、上記のコメントには「しね」「くそ」という言葉が入っているので荒らしの可能性があります
Re: (スコア:0)
「アンパンマン」がNGワードになるネトゲがあったっけな
アンパン:ヤンキー言葉でシンナーの隠喩に重なるのでNG
マン:女性器の俗語の略語あつかいなのでNG
Re: (スコア:0)
口の悪いNPCキャラの台詞をそのまま発言しようとするとNGワード扱いされるゲームとかあるからな・・・
# 口が悪いとかでなくてもNGワードになってることもある
# たとえばセガの「ぷよぷよクエスト」は「いじめないで」なんて言ってるキャラがいるが、掲示板では「いじめ」はNGワードだ
不可能でしょ (スコア:0)
未だにバイアグラのスペルを1文字変えただけのスパムメールがフィルタを通り抜けて毎日届くのに
20年前から何も変わってない
Re: (スコア:0)
20年前にバイアグラのスパムメールとは、未来人は言うことが違うな。
#バイアグラの販売開始は1998年
Re: (スコア:0)
十分な日本語力を持つ人なら誰かが二十年前といったときそれが正確に二十年前を指すことは少なく多くの場合約二十年前を指していると知っている。故にこの場合の二十年前を約二十年前と解釈するはずだが。
ああそうか人工知能の性能評価試験中か。
Re:不可能でしょ (スコア:2)
ここはスラドですから。
/* `バイアグラ発売年 (今年 - 20年)` が偽の時にツッコミが入るのはスラドに集まる人間の傾向的にある意味正しい。わたしもそう読む。
(真面目な話、スラドで探せば、そういう風に文脈を読んで気を回したつもりで仕様を切り、それが原因で痛い目をみた人もいるのではないかと。)
*/
Re: (スコア:0)
バイアグラ発売年== (今年 - 20年)が偽のときとおっしゃりたいのですか?
Re:不可能でしょ (スコア:2)
書き間違えました...。
// スラドがどうとか以前。
Re: (スコア:0)
ツッコミどころはそこじゃないだろw
二十年前のスパムフィルターに引っかかってたのがバイアグラじゃなかったからといって、
「何も変わってない」って表現がおかしいと思うんだったら、このGoogleのシステム以下の
文章読解力だわ。
Re: (スコア:0)
いい加減な数字を盛ってドヤ顔でいちゃもんつけるとこだけは、お前さん20年前からなんも変わってねーな
Re: (スコア:0)
会話でたった1年の違いをいい加減な数字と言ってたら何も喋れなくなるわ
Re: (スコア:0)
いや、1年よりもっと開きがあるんじゃないかな。
1998年だと、そもそもスパムはさほど深刻化してなかったはず。
特に、日本語のスパムはほぼ存在しなかったと思います。
Re: (スコア:0)
俺がそん時に盛ったのはバイアグラの数字じゃないからな
残念でした。
Re: (スコア:0)
俺はそん時に盛んだったのでバイアグラは要らなかった。今は残念でした。
Re: (スコア:0)
ネタにマ・・・
Re: (スコア:0)
1つ前の文章の主語が次の文章にも続いているかいないかすら読み取れないなら、普段どうやって人と会話してるんだ?
わざわざ改行してあるのに。
Re: (スコア:0)
簡単ですヨ。ネット以外では会話してないんですヨ。
Re: (スコア:0)
そもそも「20年じゃないよ19年だよ」ってのがだいぶ野暮だけど、本質はそこじゃありませんね。
偶然20と19で近い数字になっている事に引きずられて
主題が「スパムフィルタ」から「バイアグラメール」にすり変わっちゃうあたり
何ともエンジニア的な勇み足だなあと。
Re: (スコア:0)
スパムフィルタは古典的な回避策に未だに対処できていないという点を示すためにバイアグラメールが出てきたんでしょ?
Re: (スコア:0)
バイアグラのやつは余計にムカつくから、体感20年間超でいいぞ
未 承 諾 広 告 ※ (スコア:0)
スコアリングしてるだけまだましでしょ
日本なんて未だに『NGワード』とかいう、大昔のクイズ番組が残した最新技術で運用してるから目もあてられない
チョンをNGワードにしてテョンを流行らせたり、バカとか馬鹿をNGワード設定にするなどという馬鹿馬鹿しい運用はじめたり
未承諾広告※なんていう酷い運用もあった
少なくとも、未承諾広告※であんだけ抜け穴されまくりだったのに、未だにNGワード方式やってる国よりは
英語の有害コメントをスコアリングで判定しようと考えてるだけまだマシ
タレコミのような研究結果をマスコミがきちんと流せるだけでもどれだけ違うか……
そこだけでも見習って欲しいレベル
Re: (スコア:0)
単純に予算が付かないだけ
ストーリーを読む限り大した問題とは思えないが… (スコア:0)
自然言語の表現の揺らぎの問題なんて、大昔からの研究テーマではないか。
そりゃ「完全な」判別は困難だろうが、実用レベルにするのが難しいとは思えない。
Re: (スコア:0)
ちょっとした改変などでフィルタ通過されてしまうし、否定文になっていても否定対象の単語がひっかかって有害認定されてしまうのでは、実用レベルにするのもむずかしいのでは?
むしろこれを難しいと思えない貴方がどのような解決策を考えているのか聞いてみたいものです。
主人がオオアリクイに殺されて1年が過ぎました。 (スコア:0)
数年前にネタとして評判になったスパムメールは
どういうフィルタがつくのだろうか
色々面白いのがあった記憶があるんだけど
罠だ (スコア:0)
そうやって、みんながどう誤魔化そうとするかのデータを集めておいて、後でさくっと一網打尽にするつもりなんだ。
Re: (スコア:0)
結果的にそうなる気がする
Google自体、有害 (スコア:0)
なのではwww