
KDDIが個人情報を自動で伏せ字にするソフトを開発 47
ストーリー by hylom
日時もアウトなのか 部門より
日時もアウトなのか 部門より
Hamo73 曰く、
KDDI研究所は2月4日、SNSなどの書き込みから個人情報を自動検出するツールを開発したと発表した。ツールには検出した個人情報部分を自動的に伏せ字化する機能もあり、サイト運営者の管理業務の効率化に役立つとしている。ツールは月内にも販売を開始し、価格はカスタマイズ内容により応相談だが約80万円とのこと(プレスリリースPDF、ITmedia、日経新聞)。
識別対象は電話番号、人名、氏名、メールアドレス、日時の5種。ツールに書き込みのテキストを入力すると、Webブラウザ上に検出結果と伏せ字処理結果を1件ずつ表示する。処理速度は毎分1200件。検出精度は約94%。管理者による最終確認は必要だが、従来の目視確認で1件あたり約30秒かかっていた作業が3分の1の10秒まで短縮可能という。また、単語を登録することで、個人情報以外のキーワードの検出も可能。
なお、人名については「一般的」と注釈がある。ハンドルやアカウント、珍名などは検出困難なのだろう。
キラキラネームは (スコア:3)
検出できるのかな?
Re:キラキラネームは (スコア:1)
キラキラネームは検出できない
↓
でもみんな個人情報守りたい
↓
一般的な名前ブーム到来
Re:キラキラネームは (スコア:1)
キラキラネームというかドキュンネームは目立ってこそ華であり、一般化するなど言語道断なので一切伏字不可。
#そして読み仮名も付けたらアカン
Re:キラキラネームは (スコア:1)
「一般的なキラキラ」のみ対応。
「2013年トレンドキラキラ」については専用パッチ(有償)にて対応。
→ 毎年毎年ビジネスチャンス!ついにキラキラネームでメシウマ状態
#ないわ
Re:キラキラネームは (スコア:1)
検出しちゃったら、天文学系の記事が伏字だらけになる予感
Re: (スコア:0)
あとアニメ系もな!
Re: (スコア:0)
むしろ人名っぽいのを全部キラキラネーム化すると
使い方 (スコア:2)
伏字済みのテキストを監視オペレータに渡す方が楽そうな。
Re: (スコア:0)
その監視オペレータが使うんじゃね?
識別対象 (スコア:2)
> 識別対象は電話番号、人名、氏名、メールアドレス、日時の5種。
元には 電話番号、住所、人名(一般的)、メールアドレス、日時(契約日等) と書いてある。
なぜ住所がなかったり、氏名があったりするの?
個人情報を扱う業種のシステム開発では「あれば」重宝するかも (スコア:2)
値段&使いまわしがどこまで可能かによるけれど、個人情報を扱う金融、保険や物流系の
システム開発では、実際
開発「調査用データがないと…」
顧客「伏字にするので時間くださいね」
なんてやり取りがありました。結構大変な作業だったので、ああいうのが軽減されたら
お互い楽だな、とかまじめに思ってしまいました。
Re:個人情報を扱う業種のシステム開発では「あれば」重宝するかも (スコア:1)
いや, そういう用途の場合, 変更しなければならないフィールドは明確である場合が多いので, むしろ変換先の「非実在個人情報」をらしく作るのが大変なんだと思います.
# テスト用の「非実在個人情報」って売り物になってなかったっけ?
Re: (スコア:0)
売り物じゃないけど、昔の雑誌で「ダミー個人情報を生成するプログラム」みたいなサンプルを見かけた記憶はあるなあ
検出した個人情報が伏字で報告 (スコア:2)
> SNSなどの書き込みから個人情報を自動検出するツールを開発したと発表した。
> ツールには検出した個人情報部分を自動的に伏せ字化する機能もあり
これまんま読んだらだと、検出した個人情報が伏字で報告されるな。
つまりこういうことか (スコア:1)
■■■■■■、■■■■■。
■■■、■■■■■■■■■■■。
Re:つまりこういうことか (スコア:1)
OOOooOOooOooooooOOooooOoOOOoooooOOOoooooOOoOOoooOOooOoOooOoOOOo
OOOoooooOOooOoOoOOoOOOoooOOOOOO
Re: (スコア:0)
幽霊がいるぞー
# 懐かしすぎる
Re: (スコア:0)
やっちゃえ、バーサーカー!
Re: (スコア:0)
禁止ワード (スコア:1)
価格はカスタマイズ内容により応相談だが約80万円とのこと
また、単語を登録することで、個人情報以外のキーワードの検出も可能。
もちろん禁止単語帳は完全受注生産ということは無く、ある程度の分野別リストの用意があるものと推察されますね。(卑語、差別語、特定団体名、犯罪、猥褻…)
アップデート契約とかもあるんでしょうか。
最新の性表現を追加しました! とか、ちょっと気になります。
識別対象 (スコア:0)
人名と氏名が重複してますよ。
>電話番号、住所、人名(一般的)、メールアドレス、日時(契約日等)
ってことですね。
地名と同じ人名 (スコア:0)
地名にも人名にも存在する単語ってあるけど、その辺もうまく処理してくれるのかな?
地名のつもりで渋谷って書いたのが全部伏せ字にされたり、人名のつもりで渋谷って書いたのが伏せ字にされなかったりなど。
Re: (スコア:0)
流石に文から類推するんじゃない?
Re: (スコア:0)
ゆえに「検出精度は約94%。管理者による最終確認は必要」なんじゃないかなあと
Re: (スコア:0)
ただの grep は 80万円じゃ売れないだろ
ソースは? (スコア:0)
> 人名については「一般的」と注釈がある。ハンドルやアカウント、珍名などは検出困難なのだろう。
ソースは?
Re:ソースは? (スコア:2)
何このコメント。自動投稿?
Re:ソースは? (スコア:1)
> 何このコメント。自動投稿?
ソースは?
Re: (スコア:0)
いいえ、私はソース派ではないです。
Re: (スコア:0)
(#2540534) とか(#2540523) とか、ほんっとくだらない。
Re: (スコア:0)
脊髄反射コメントから投稿ボタン押下までに一片の躊躇も無い御仁が増えましたよね。
Re: (スコア:0)
俺が知らないだけで、みんなは2ch専用ブラウザみたいな
至れり尽くせりのクライアントに下書きしてボタン押すだけで書き込める環境にいるのかも
Re: (スコア:0)
どう考えても人名じゃなくて製品名として扱われるんじゃないですかね。
まぁ人名として使った場合は“珍名”に分類されるのがオチでしょう。
ふせ字 (スコア:0)
チャットでよろしくない文言が***に変換される事から「何がよろしくない文言か」を探す遊びがあったりする。
このシステムも「何が個人情報か」を探す事に使われたりして。
Re: (スコア:0)
>このシステムも「何が個人情報か」を探す事に使われたりして。
ダダ漏れなのを隠しているだけなんで、それであってもダダ漏れよりもマシだろう。
流石にその遊びで書かれていない個人情報まで引き出されない限り。
Re: (スコア:0)
伏せ字にすることで別の個人情報が浮かび上がる高度な遊びが出てくるかも。
Re: (スコア:0)
なるほど、アニメ「生徒会役員共*」の最後の文字は個人情報だったのか
Re: (スコア:0)
産
とか。
Re: (スコア:0)
ソビエト式生徒会は勘弁してくれ
頭悪そうな書き込みが増えるな (スコア:0)
これで「某」とか妙な言い換えとかわざとらしい誤変換とかにまみれた、頭悪そうな書き込みだらけになるわけか。
Re: (スコア:0)
もう素手に層だから名にも代わらん
これを2chに仕込めば (スコア:0)
なんJ民のチンフェ絡みの書き込みに伴う大規模規制を回避できるな。もっとも、2ch運営は意図的に大規模規制を発動して●買わせて飯食ってる疑惑があるから甘い期待はできんが。
Re: (スコア:0)
2chが規制回避のために80万費やすとでも?
大規模規制すればむしろ金が入ってくるのに…
Re: (スコア:0)
ちょろい商売だよな
私的な人名と公的な人名を判別できるのだろうか? (スコア:0)
「私の友達の安部」を「私の友達の○○」とする一方で「総理大臣の安部」は伏字にしないように判定するのだろうか?
個人名らしき綴りは一律にすべて伏字にしてしまう検閲システムなのではないか?
本質的に検閲は機械的にできるようなものなのだろうか?
日本式の検閲といえば、性に関する動画や画像などの検閲があるが、極めて機械的で、
西欧で芸術とされるものまで検閲にかかり、仕方なく、著名すぎるもののみを例外的に救済しているのが実情だ。
ただでさえ、マイナス情報が出てきづらいのに、検閲で強制的にマイナス情報を刈り取るべきなのか?
Re:私的な人名と公的な人名を判別できるのだろうか? (スコア:1)
>「総理大臣の安部」は伏字にしないように判定するのだろうか?
確かに、フィクションの話しならなら個人情報として扱う必要はないですね。
Re: (スコア:0)
小説とかをこのツールに掛けるとどんな出力になるのか、ちょっと興味がありますね。
歴史小説とか、SFとか、海外ものの翻訳とか。