パスワードを忘れた? アカウント作成
13177681 story
人工知能

Googleの有害コメント判定ツールを混乱させる方法 47

ストーリー by headless
混乱 部門より
機械学習により有害コメントを判定するGoogle/JigsawのPerspectiveだが、人間が元の意味を認識できる程度に微妙な改変を加えたadversarial exampleを使用することで、判定を混乱させる攻撃に関する研究結果が発表された(論文: PDFArs Technicaの記事The Registerの記事)。

現在のところ、Perspectiveは研究開発初期の段階だが、入力した文と人々が有害と考えるコメントの類似性をパーセンテージ(以降、有害率スコア)で表示する実験的なツールがWebサイトで公開されている。研究グループは同サイトでリストアップされている有害なコメント例を用い、改変による有害判定の変化を調べている。

Perspectiveの判定に大きく影響するのは単語だ。特に「idiot」「stupid」といった単語を含むコメントは有害率スコアが高くなる。しかし、これらの単語にミススペルを加えたり、途中に「.」「-」「/」といった記号やスペースを挿入したりすると(idiiot、stu.pidなど)、人間の目には元の単語が認識できるのにもかかわらず、有害率スコアは大きく低下する。例文の多くは有害率スコアが80%台で、改変により10%台まで低下するが、中には86%(※)から2%に低下するものもある。

ただし、元の単語の意味にかかわらず、ミススペルを含む単語の多くには34%の有害率スコアが割り当てられることから、ミススペルによる改変にはある程度強いとみられる。一方、例文に「not」を加えて否定表現にしても、有害率スコアの低下は10%前後にとどまる。さらに、テスト用ツールにはフィードバック機能が用意されていることから、これを悪用したポイズニング攻撃が行われる可能性も指摘されている。

論文では対策として、adversarial exampleを使用した学習や、判定前のスペルチェック実行、判定を欺くためにさまざまなパターンを繰り返し試していると思われるユーザーの一定時間ブロックなどを挙げている。ただし、改変単語の全パターンを学習させるのは現実的でなく、スペルチェックは誤判定を増やす可能性もあるとのことだ。

このような研究結果についてJigsawのCJ Adams氏は、正確な判定が可能になるまでにはまだまだ時間がかかるとの認識を示し、研究者の参加を歓迎するコメントをArs Technicaに送っている。

※同じ例文で試したところ、87%となった
この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。
  • by i_i (22332) on 2017年03月05日 13時53分 (#3171108) 日記

    「有害」なんて主観なんだから、判定基準を全ユーザー共通にする限りスパムフィルタ以上のことはできないんじゃないの?

    判定基準にパーソナライズを導入するならいいかもしれないけど、今度はクラスタ間の分断が進む。

    • 共通価値観という概念が人間には存在するので
      細かい部分では主観だけれども有害無害という
      のは主観ではなく客観にはいります

      • by Anonymous Coward on 2017年03月05日 17時54分 (#3171151)

        「犬好き」とか「韓国人」ってだけで十分ヘイトスピーチの要件になっているのだから、
        共通価値感なんてものは、この問題では無意味。
        主観はどうしようもない。

        親コメント
        • by Anonymous Coward

          そういや「韓国人みたいだな」って言われるとイラッとする日本人は少なくないだろうけど、これを有害と判断するわけにはいかないな
          ネット上の表現文化として、そういう言葉が広まるようになるのかも

      • by Anonymous Coward

        という、根拠のない主観的な御意見。

      • by Anonymous Coward

        マゾ豚は有害ってはっきり

    • by Anonymous Coward

      広告ブロッカーみたいなもんでしょう。
      自己判断の手間や利便性や運用ポリシーを丸ごと委託できて楽だし、責任ロンダリングできる。

    • by Anonymous Coward

      国家ならともかく一応は私企業なんだから、運営側の主観で有害かどうかを決めればそれで十分では?

  • by headless (41064) on 2017年03月05日 22時07分 (#3171218)
    • fuck : 98%
    • fsck : 34% … file system consistency check
    • fcuk : 76% … 英ファッションブランドFrench Connection
    • FUK : 94% … 福岡空港

    福岡空港やばい。アルファベット1文字で試してみたら「f」が突出して高い46%だった(他の字は1桁~10%台)。

  • by Anonymous Coward on 2017年03月05日 13時40分 (#3171101)

    いつまでファジィの砦が守られるかが見物ですね。
    あんまり早く崩れると、社会の方が対応できずに、そっちで不具合でそうですが。

    • by Anonymous Coward

      真面目な話怪しいものは人間が確認したりするのでユーザー側から見れば結局なにも変わらない
      というかその手の監視サービスを提供する会社は黙って自動化を進めているので

  • by Anonymous Coward on 2017年03月05日 14時07分 (#3171111)

    ややアグレッシブすぎるくらい勝手に訂正してくれたり、「検索避け」として記号を挟んだりしている単語でも平然と検索してくれたりするけど、あの技術は流用してないの?

    • by Anonymous Coward on 2017年03月05日 15時02分 (#3171122)

      単語ごとにスペースで区切られてる言語はある程度対応しやすいだろうけど
      日本語みたいに文が繋がってる言語は誤認しやすいだろうしね、簡単には対応できないと思う

      IMEとかの挙動見てても、文体まで把握した上での単語抽出(選択)とかは、たぶん一番日本語に特化してるATOKで漸くそれっぽい動きができるようになったのがここ数年で、GoogleとかMSのIMEはまだまだって感じだし

      # 尚、上記のコメントには「しね」「くそ」という言葉が入っているので荒らしの可能性があります

      親コメント
      • by Anonymous Coward

        「アンパンマン」がNGワードになるネトゲがあったっけな
        アンパン:ヤンキー言葉でシンナーの隠喩に重なるのでNG
        マン:女性器の俗語の略語あつかいなのでNG

        • by Anonymous Coward

          口の悪いNPCキャラの台詞をそのまま発言しようとするとNGワード扱いされるゲームとかあるからな・・・

          # 口が悪いとかでなくてもNGワードになってることもある
          # たとえばセガの「ぷよぷよクエスト」は「いじめないで」なんて言ってるキャラがいるが、掲示板では「いじめ」はNGワードだ

  • by Anonymous Coward on 2017年03月05日 14時17分 (#3171114)

    未だにバイアグラのスペルを1文字変えただけのスパムメールがフィルタを通り抜けて毎日届くのに
    20年前から何も変わってない

    • by Anonymous Coward

      20年前にバイアグラのスパムメールとは、未来人は言うことが違うな。

      #バイアグラの販売開始は1998年

      • by Anonymous Coward

        十分な日本語力を持つ人なら誰かが二十年前といったときそれが正確に二十年前を指すことは少なく多くの場合約二十年前を指していると知っている。故にこの場合の二十年前を約二十年前と解釈するはずだが。
        ああそうか人工知能の性能評価試験中か。

        • ここはスラドですから。

          /* `バイアグラ発売年 (今年 - 20年)` が偽の時にツッコミが入るのはスラドに集まる人間の傾向的にある意味正しい。わたしもそう読む。
          (真面目な話、スラドで探せば、そういう風に文脈を読んで気を回したつもりで仕様を切り、それが原因で痛い目をみた人もいるのではないかと。)
          */

          親コメント
        • by Anonymous Coward

          ツッコミどころはそこじゃないだろw

          二十年前のスパムフィルターに引っかかってたのがバイアグラじゃなかったからといって、
          「何も変わってない」って表現がおかしいと思うんだったら、このGoogleのシステム以下の
          文章読解力だわ。

          • by Anonymous Coward

            いい加減な数字を盛ってドヤ顔でいちゃもんつけるとこだけは、お前さん20年前からなんも変わってねーな

            • by Anonymous Coward

              会話でたった1年の違いをいい加減な数字と言ってたら何も喋れなくなるわ

              • by Anonymous Coward

                いや、1年よりもっと開きがあるんじゃないかな。
                1998年だと、そもそもスパムはさほど深刻化してなかったはず。
                特に、日本語のスパムはほぼ存在しなかったと思います。

            • by Anonymous Coward

              俺がそん時に盛ったのはバイアグラの数字じゃないからな
              残念でした。

              • by Anonymous Coward

                俺はそん時に盛んだったのでバイアグラは要らなかった。今は残念でした。

        • by Anonymous Coward

          ネタにマ・・・

      • by Anonymous Coward

        1つ前の文章の主語が次の文章にも続いているかいないかすら読み取れないなら、普段どうやって人と会話してるんだ?
        わざわざ改行してあるのに。

        • by Anonymous Coward

          簡単ですヨ。ネット以外では会話してないんですヨ。

      • by Anonymous Coward

        そもそも「20年じゃないよ19年だよ」ってのがだいぶ野暮だけど、本質はそこじゃありませんね。

        偶然20と19で近い数字になっている事に引きずられて
        主題が「スパムフィルタ」から「バイアグラメール」にすり変わっちゃうあたり
        何ともエンジニア的な勇み足だなあと。

        • by Anonymous Coward

          スパムフィルタは古典的な回避策に未だに対処できていないという点を示すためにバイアグラメールが出てきたんでしょ?

      • by Anonymous Coward

        バイアグラのやつは余計にムカつくから、体感20年間超でいいぞ

  • by Anonymous Coward on 2017年03月05日 15時15分 (#3171125)

    スコアリングしてるだけまだましでしょ
    日本なんて未だに『NGワード』とかいう、大昔のクイズ番組が残した最新技術で運用してるから目もあてられない

    チョンをNGワードにしてテョンを流行らせたり、バカとか馬鹿をNGワード設定にするなどという馬鹿馬鹿しい運用はじめたり
    未承諾広告※なんていう酷い運用もあった

    少なくとも、未承諾広告※であんだけ抜け穴されまくりだったのに、未だにNGワード方式やってる国よりは
    英語の有害コメントをスコアリングで判定しようと考えてるだけまだマシ

    タレコミのような研究結果をマスコミがきちんと流せるだけでもどれだけ違うか……
    そこだけでも見習って欲しいレベル

    • by Anonymous Coward

      単純に予算が付かないだけ

  • by Anonymous Coward on 2017年03月05日 18時12分 (#3171156)

    自然言語の表現の揺らぎの問題なんて、大昔からの研究テーマではないか。
    そりゃ「完全な」判別は困難だろうが、実用レベルにするのが難しいとは思えない。

    • by Anonymous Coward

      ちょっとした改変などでフィルタ通過されてしまうし、否定文になっていても否定対象の単語がひっかかって有害認定されてしまうのでは、実用レベルにするのもむずかしいのでは?

      むしろこれを難しいと思えない貴方がどのような解決策を考えているのか聞いてみたいものです。

  • by Anonymous Coward on 2017年03月05日 18時43分 (#3171162)

    数年前にネタとして評判になったスパムメールは
    どういうフィルタがつくのだろうか

    色々面白いのがあった記憶があるんだけど

  • by Anonymous Coward on 2017年03月05日 20時59分 (#3171204)

    そうやって、みんながどう誤魔化そうとするかのデータを集めておいて、後でさくっと一網打尽にするつもりなんだ。

    • by Anonymous Coward

      結果的にそうなる気がする

  • by Anonymous Coward on 2017年03月09日 19時25分 (#3173507)

    なのではwww

typodupeerror

長期的な見通しやビジョンはあえて持たないようにしてる -- Linus Torvalds

読み込み中...