本物そっくりの「疑似個人情報」、無償ダウンロード開始 54
ストーリー by hylom
東京都千代田区千代田1-1-1、 部門より
東京都千代田区千代田1-1-1、 部門より
People to People Communicationsから、疑似個人情報の無償ダウンロードサービスがはじまりました。(以前から有償のものはサービスされていたようで、無償サービスは疑似個人情報3000件まで、非営利目的での使用のみ可、とのことです。)
ITmediaの記事によると、架空の名前や住所、生年月日などで構成した個人情報リストを提供する。自治体などが公開している統計データの分布を正確に反映させており、実在の情報ではないものの「本物と区別することができないほど」そっくりだとしている。
とあるので、試しにダウンロードしてみました。
疑似個人情報はCSV形式で、確かにぱっと見ると本物の個人情報のようにも見えますが、家の近くの住所を調べてみた限りでは、疑似個人情報に含まれている住所は実在しない番地になっているようです。
(たとえば○○町3丁目 まである地域だと、4丁目以降になってたり。家の近くの地名しか見ていないので全部がそうとは言い切れませんが。ダウンロード元のFAQのページによると実在の住所はほとんど発生せず、本物の個人情報と同じレコードが含まれる可能性は極端に低いようですね。電話番号もデータ生成時には存在しない電話番号にしてあるそうです。)
テストデータとして使用したり、ダミーデータとして置いておく(不正アクセスした人がこっちを盗んでいくことを期待?)などの使い方が提示されていますが、これを使ったシステムが「外から疑似個人情報データだけが見える」状態になっているのを発見され、先に掲示板で公開されたりすると、変な騒ぎになったりするのかもしれませんね。
擬似個人情報は (スコア:4, 参考になる)
なんちゃって個人情報 [kazina.com] をよく使っていました。
Re:擬似個人情報は (スコア:1)
名前と性別が連動してくれたらと思いますが、今時のイタくて読めない名前も登録されているので、
あんまり支障がないかもしれません。
先日、中学校の在校生一覧を見る機会がありましたが、ふりがなをふってあっても読むのに戸惑う
名前が散見されました。ひらがな表記で「○○ るるる」ってのを見たときはミスプリかと。
名前 (スコア:2, おもしろおかしい)
宮崎県には黒木さんがいっぱいいたり、聖子さんはオリンピックイヤーの生まれだったり、DQNネームは(以下略)
Re:名前 (スコア:2, 参考になる)
疑似個人情報とは? [start-ppd.jp]に書いてありますね。
住所、年齢、性別、性、名ですね。
住所の分布が、自治体の人口比率と同じ比率になっている。
年齢と性別の比率が人口統計に基づいている。
性による性別と年齢の比率が、日本人の姓トップ10000位の人口比率に基づいている。
名前は、生まれた年代別の統計データで決定している。
だそうです。
>宮崎県には黒木さんがいっぱいいたり、聖子さんはオリンピックイヤーの生まれだったり、DQNネームは(以下略)
住所別の性の比率は書いてないので、宮崎県に黒木さんがいっぱいいるかは不明。
年代別に名前は違うらしいので、聖子さんやDQNネームは反映してる可能性が高い。
Re:名前 (スコア:2)
住所、年齢、性別、「姓」、名
ですよね。
念のため修正。
わかった! (スコア:2, おもしろおかしい)
パターンが使えるようになるんですね!!
これで500円払わずにすむよ!!
※すぐバレます
Re:わかった! (スコア:1)
2. お客様は、本データの全部または一部を、不特定多数の第三者に送信し得る状態に置くことはできません。
に違反しちゃうんじゃないだろうか。
# 公開するディレクトリに、csv置いちゃったり。
# しかもそれを置き忘れちゃったりしてダウンロードされるネタがいつか降ってくるとイイナー。
==========================================
投稿処理前プレビュー確認後書込処理検証処理前反映可否確認処理後……
Re:わかった! (スコア:2, 参考になる)
我々の努力 [srad.jp]を打ち破るほどの高度な攻撃でした。
◆IZUMI162i6 [mailto]
Re:わかった! (スコア:1)
Re: (スコア:0)
#少々加工が必要だけどアドミン君がやらされるんだろうなぁ...
ダウンロードしてみました (スコア:2, 参考になる)
Re:ダウンロードしてみました (スコア:2, おもしろおかしい)
Re:ダウンロードしてみました (スコア:2, 参考になる)
ダウンロードファイルはランダムに選ばれるのでしょうか。
郡部(町村)がないのと、かな市名が結構あるのは共通してるようです。
# 「鹿児島県志布志市志布志町志布志・・・」を含むデータをゲットした私はラッキー?
匠気だけでは商機なく、正気なだけでは勝機なし。
Re:ダウンロードしてみました (スコア:1)
15~64歳になるように制限しているようです。
テストデータとして使用かぁ (スコア:2, 興味深い)
本当の本当に本物のデータか、絶対ありえないような極端なデータか
どっちかじゃないですかね。
本物っぽいんだけど、実はギリギリ違うってのは
閾値的なチェックになる可能性はないでもないですか
自分の名前を見つけた人 (スコア:1, 興味深い)
Re:自分の名前を見つけた人 (スコア:5, おもしろおかしい)
#私は見つけられなかったのでとりあえず大丈夫です。
Re:自分の名前を見つけた人 (スコア:1)
同姓同名が推定数百人いますので、仕方ないですね。
# 同い年がいないのは、ほっとするような、寂しいような...
だれが擬似個人情報つかえるの?とコマドリはいいました (スコア:1, 興味深い)
って、あんまり使いどころが思いつかないんだけど・・・
# 非営利団体が使うシステムでも、金払って外注したら使えんし
Re:だれが擬似個人情報つかえるの?とコマドリはいいました (スコア:2, 興味深い)
コイツを売って対価を受け取るのは不可ってのはわかるけど、
対価を受け取って開発しているシステムのテスト用、ってのも、商用に入るのかな。
Re: (スコア:0)
ソフトの試用版みたいな扱いで「買う前のお試し様」という感じで
使う分には非商用と言えるかと。
Re:だれが擬似個人情報つかえるの?とコマドリはいいました (スコア:1)
逆に言うと、営利団体でも金の支払いがなければオッケーなのでは?
Re: (スコア:0)
んなバカな。社内システム開発に使うのは「非営利目的」とはいえないでしょ。
情報漏えい対策 (スコア:1)
・・・とかはだめ?
Re:情報漏えい対策 (スコア:1)
商売として擬似個人情報を扱ってるんだから実在する個人情報が混ざってたらマズいけど、
こっそり実在する住所と適当な名前の組み合わせで嘘データを流して木を森に隠すなんてことは非公式に行われてそう。。。
Re: (スコア:0)
…とか?
逆に (スコア:1)
とあるので、
自分の名前で検索し、仮にそこが実在の住所だったとして、
そこに引っ越して、謝罪と賠償をうんたらかんたらとか起きなければいいですけど。
# ねーよ
example.com (スコア:1)
メールアドレスがすべて例示用ドメインになっていますから、
知ってる人ならすぐ気付くでしょうし、
知らない人でも「なんで全部example.xxxなの?」と思うような気がします。
電話番号は、通信事業者に割り当て済みの番号領域かどうかなんて
パッと見は分からないでしょうが。
実在しない? (スコア:1)
「大量の疑似個人情報の中に、本物の個人情報を紛れ込ませる」「木の葉を隠すなら森の中」 [start-ppd.jp]って言ってるけど、
隠したいものは木の葉じゃなくて小判じゃないの?
オフトピ(-1) (スコア:1)
「木の葉を隠すなら森」と言う有名なフレーズの元ネタになった推理小説 [dti.ne.jp]の話のキモは、
「木の葉を森に隠した」
じゃなくて、
「ある特定の木の葉を隠そうとしてるヤツが、もし、森(みたいな木の葉が、そこら中にある状況)を作り出す事が出来たら……」
って事なんで、「大量の疑似個人情報の中に、本物の個人情報を紛れ込ませる」=「木の葉を隠すなら森の中」でツジツマは合ってる様な……
そう言うやり方の、有効性は、ともかくとして。
Re:オフトピ(-1) (スコア:1)
全然隠れてないんじゃないか、という意味のつもりでした。
わかりにくくてごめんなさい。
木の葉を隠すには森の中。では森が無ければどうする?(オフトピ:-10) (スコア:0)
「木の葉=Aさんの過失で発生した10件の個人情報漏洩」
を隠すために
「森を作る=わざとプログラムにバグを作り込み、『原因不明』の100万件の個人情報漏洩を発生させた」。
のようなものじゃないだろうか。
#ノーガード戦法というか焦土作戦というか。
こんなもの使わなくても (スコア:1, おもしろおかしい)
Re:こんなもの使わなくても (スコア:1, おもしろおかしい)
本当に疑似? (スコア:0)
絶対に本物では無い事を確認する為に、どのような方法で元の個人データを確認したんだろう・・。
確かに、丁目が違うと違いがあると言えるかもしれないけど、郵便物って住所間違えちゃっても、
少々の違いならば、届いちゃいますよね・・。
Re:本当に疑似? (スコア:2, 興味深い)
>少々の違いならば、届いちゃいますよね・・。
うちなんて住所も名前もあってても、間違えて届いちゃいますよ!
配達記録のクレジットカードが郵便受けに入っていたときには、
誘惑に打ち勝つのに苦労しました。
Re:本当に疑似? (スコア:1)
AVG anti-virus data base out of date
Re:本当に疑似? (スコア:1)
存在しない電話番号って聞けば教えてくれるもんなんだろうか?
AVG anti-virus data base out of date
Re:本当に疑似? (スコア:2, 参考になる)
>Q. 生成した電話番号が、実在の電話番号と一致することはありますか?
>A. 生成時時点で一致しないことを確認しております。
>電話番号の生成には、総務省が通信事業者に割り当てていない番号領域を利用していま
す。(以下略)
Re:本当に疑似? (スコア:1)
AVG anti-virus data base out of date
Re: (スコア:0)
それじゃ私の目的のためにはまったく使えないな
給付金詐欺じゃないよ
Re: (スコア:0)
郵送に支障が出ない範囲で住所や名前に特定の文字列を付加して、
郵便物をトレースするテストを行っている、
という噂を思い出しました。
部門名 (スコア:0)
Re:部門名 (スコア:3, すばらしい洞察)
ずっと旅行中と言うことになっているらしい。
1丁目 (スコア:0)
実物を見ていないAC
Re: (スコア:0)
# 網走番外地とか
定義がよく判らない... (スコア:0)
いまいちよく判らない列があります。
他はサイトにもあるサンプルの表に項目名が書いてあるので判ったのですが、
右の3つの数値列は何を表してるんでしょうね。
Re: (スコア:0, 既出)
ちょっとわかりにくい場所にありますね。
Re: (スコア:0)
18 番号1 ランダムに求めた0~10の整数(均等分布)
19 番号2 5を平均とする正規分布を用いて求めた、0~10の整数
20 番号3 自由度1のカイ二乗分布を用いて求めた、0~10の整数
Re:同姓同名の割合、、 (スコア:1)
その中で同姓同名は表記ベースで3組、読みまで一致しているのはわずか1組でした。
これまでの人生で2回も同姓同名と遭遇しているとは、「平均よりマイナーな氏名」
どころか、実はかなりよくある氏名なのでは?