パスワードを忘れた? アカウント作成
13404458 story
テクノロジー

超音波でデジタルアシスタントデバイスを操作する「DolphinAttack」攻撃 26

ストーリー by headless
認識 部門より
20kHz以上の超音波を用い、人の耳に聞こえないボイスコマンドでデジタルアシスタントデバイスを操作して攻撃する研究の成果を中国・浙江大学の研究チームが発表した(論文: PDFThe Vergeの記事BetaNewsの記事The Registerの記事)。

オーディオ機能をサポートする多くのデバイスではLPFにより20kHz以上の周波数帯域がカットされることから、超音波での操作は困難と考えられていた。超音波をデバイスが受信できるとしても、実際の人の声と異なる信号をコマンドとして認識できるのか、ユーザーの声を識別するデバイスをアクティベートできるのかといった点も問題となる。

「DolphinAttack」と名付けられた攻撃では、周波数20kHz以上のキャリア信号をボイスコマンドの音声信号でAM変調した信号を用いる。この信号を超音波スピーカーから出力してデバイスのマイクに入力すると、アナログ回路の非直線性によりADCへ入力するまでに元の音声信号が復調されてしまうのだという。

Siriの「Hey, Siri」といったアクティベーションコマンドでは、トレーニングを行ったユーザーの声を識別する。そのため、所有者が発声したコマンドの音声が必要になるが、所有者の話し声を録音できれば音素を組み合わせて有効なアクティベーションコマンドを作成できたとのこと。また、声の似ている人が他人のSiriをアクティベート可能なことから、所有者の声が入手できなくてもテキスト読み上げ(TTS)システムを使用したブルートフォース攻撃が可能だとしている。

実験ではAlexaやCortana、Google Now、Huawei HiVoice、Samsung S Voice、Siriを搭載するデバイスのほか、Audiの車載システムを加えた一般に入手可能な16デバイスを使用。デバイスごとの調整は必要だが、ほぼすべてのデバイスでコマンドを実行することに成功したとのこと。成功するかどうかは距離や音圧レベル、コマンドの長さ、バックグラウンドノイズによる影響を強く受け、言語による影響は小さかったようだ。

DolphinAttackを実行するには対象のデバイスに近づく必要があるため幅広い攻撃に使われる可能性は低いとみられるが、論文では20kHz以上の周波数をカットオフするようにマイクを改良することや、LPFの手前にAM変調された信号を検出・ブロックするモジュールの追加といったハードウェアベースの防御、復調された信号は500Hz~1kHzに元の信号と異なる特徴があることを利用したソフトウェアベースの防御を提案している。


  • お前らのせいだぞ! (スコア:4, おもしろおかしい)

    by Anonymous Coward on 2017年09月10日 12時13分 (#3276752)

    カイルくんに「お前を消す方法」とかばかり言うからイルカの逆襲が始まったぢゃないかっ!!

    という冗談は置いといて、原理がわかると夏休みの自由研究ネタになるぐらいのものですね。
    ざっと96KHzサンプリングレートのサウンドカードがあれば実験出来そうな感じ。
    データだけPCで作ればハイレゾプレーヤーでの再生でも(音圧をどう稼ぐかの問題は置いといて)
    なんとかなったりするのかな?

    人間の可聴域外の音なのに機械を通すと可聴域内の音が聞こえるってのはいろいろ遊べそうだ(謎)
    例えばノイズキャンセラー付きのヘッドフォンを使ってる人だけに耳障りな音を送るとか :)

    ここに返信
  • by osdn (47242) on 2017年09月10日 12時55分 (#3276763)

    ナイトスクープの通った道 [google.co.jp]ですね(?)

    ここに返信
  • by Anonymous Coward on 2017年09月10日 13時49分 (#3276772)

    同じ理屈で人間の聴覚もハックできるかと考えてみたが、個体ごとの非線形な具合の情報なしに
    (……きこえますか…今… あなたの…心に…直接… 呼びかけています… )をするのは難しいか。

    でも、事前に個体ごとの調整をしておけば、できないこともなさそうな気がするのだが、どうなのだろう。

    ここに返信
  • by akiraani (24305) on 2017年09月10日 14時54分 (#3276791) 日記

    ARめがねで能楽に「解説」表示 大日本印刷が実証実験 [itmedia.co.jp]

    演目の進み具合に応じ、ソニー製の眼鏡型端末「SmartEyeglass SED-E1」の画面上に解説コンテンツを表示する。タイミングの調整には、人の耳では聞き取れない信号をスピーカーから流し、眼鏡型端末が受信する技術「Another Track」(エヴィクサー製)を活用。

    その辺にありふれてるスマホで同じ事ができるなら、正しく使えば便利にできるよね。着信音が迷惑になるような場所で電波遮断したりマナーモードにしたりしても使える機能ってだけで、いくつか利用できるシチュエーションが思い浮かぶ。

    そういう事例がふえて「当たり前の技術」になれば、セキュリティの問題なんかも対策が進むと思う。

    ここに返信
  • by Anonymous Coward on 2017年09月10日 13時05分 (#3276766)

    「非線形性」な。

    ここに返信
  • by Anonymous Coward on 2017年09月10日 13時40分 (#3276770)

    言いたくなっただけです
    ごめんなさい

    ここに返信
  • by Anonymous Coward on 2017年09月10日 13時53分 (#3276773)

    これってマイクを通した信号を増幅してスピーカーで出力したら普通に「Hey, Siri」って聞こえるって事なの?
    なにそれ怖い。
    ローパスフィルタを通しても高周波成分が完全にゼロになるわけでなく著しく小さくなるだけって事なんだろうけど
    それで可聴域外の音が可聴域内の音になる理屈が分からない…………

    ここに返信
    • by BIWYFI (11941) on 2017年09月10日 17時31分 (#3276848) 日記

      ローパスフィルタ前のマイクとマイクアンプの時点で可聴域の音が出てる。
      で、ローパスフィルタで超音波成分を削ると復調された可聴域だけが残る仕組み。

      どうも、非対称な入力に対してDCオフセットが積み重なるのが原因みたい。
      AM変調音だけだと可聴域は出ないが、搬送波成分を加算したらAM復調されるみたいな事が書いてあった。

      --
      -- Buy It When You Found It --
      • by tenokida (42811) on 2017年09月11日 2時55分 (#3277038) 日記

        自乗検波などと同じ

        二つ以上の信号を非直線性のある回路を通すと成分間の掛け算の信号が生成される
        #オーディオ的に言うとIM(インターモデュレーション)歪

        で、周波数でみると足した分の信号と引いた分の信号の和となる
        引いた分が元周波になる。強度は各信号の掛け算に比例するから、
        どれかの信号を元信号に比例するようにしてあると強度も周波数も
        元信号相当、つまりAM復調になる

        >AM変調音だけだと可聴域は出ないが、搬送波成分を加算したらAM復調

        出展もとしらんけどSSBもしくはDSBのことだろう
        #搬送波や片側側波帯を抑圧することで空中線電力を信号成分に傾斜配分する
        #復調するのに搬送波信号がいるので搬送波成分を完全除去はしない

        変調波同士の掛け算ももちろん起きる
        例えば変調元信号が2KHzと3KHzだったとすると1KHz成分が出てきてしまい分離は困難
        搬送波成分を強くしておいて強度差をつける程度

    • by Anonymous Coward on 2017年09月10日 14時26分 (#3276783)

      アンプI [jarl.org]として知られる、ラジオやAM変調した無線機(昔のアマチュア無線やCB無線、業務用無線など)を近くで使用するとステレオアンプから音声が聞こえる現象と同じでしょう。キャリア(搬送波)周波数がMHz帯か超音波かの違いはあるけど。

      抜本的にはアンプ側で対策するしかないんだけど、回路にLやCを追加するというような改造に(たとえ製造メーカーの公式対策であっても)納得しない「オーディオマニア」は大勢いるので対策には苦労することになります。そのうちメーカー側でもRFI対策を取り入れて設計するようになりましたけど、完全には無くなりませんね。

    • by Anonymous Coward on 2017年09月10日 20時44分 (#3276933)

      これ、一定のエリア内でしか聞こえない超指向性スピーカーと同じ。
      あれは超音波スピーカーのフェイズドアレーで任意のビームを作るけれど、
      やはり音声は超音波の搬送波に乗っている。

    • by headless (41064) on 2017年09月11日 0時03分 (#3276996)
      今は手元に同じ機材がないので確認できませんが(確かSound Blaster Audigy 2)、以前正弦波の周波数を上げていったら18kHz過ぎたあたりで5オクターブぐらい下の音程で「ポー」って鳴りだしました。
      • by Anonymous Coward

        そのケースだと線形性とかの問題じゃなくてエイリアスの問題もありそうな気が

        # 乱暴に言えば、離散系と連続系が違うだけである意味似たようなもの、かな?

    • by Anonymous Coward

      むしろ可聴域の音声無視して
      可聴外を実行対象にするとかアホとしか

      可聴外は可聴域の補完や補助であるのだから
      可聴域で無効であれば無効でいい

      # コマンド無効なのにパラメータで別コマンド実行とかなにそれこわい

      • by Anonymous Coward

        A/Dコンバータに到達した時点では可聴域の音声だから認識されることに何の不思議もない。

        しかし見た目無音なのに音声認識が進行していく様はなんかロマンと恐怖が入り混じってなんとも面白い絵になってるなコレ
        幽霊の仕業かなにかのようにも見えるし、理論上完全に否定はできないぶっ飛んだクラッカー演出のようにも見える。なんか楽しい。

    • by Anonymous Coward

      AM変調ってのは要するに、キャリア周波数に信号となる低い周波数を乗せることだから。
      可聴域外の音だけじゃなくて、ちゃんと低周波成分が入ってるんだよ。

      だからローパスフィルターで高周波成分を除けば、低い周波数だけが残る。

  • by Anonymous Coward on 2017年09月10日 22時30分 (#3276971)

    特に車両の真後ろにいる車のエアバッグがバンバンするので
    これはこれで怖いかも

    ここに返信
    • by Anonymous Coward

      車のクリアランスソナーはバリバリ超音波ですけど車が縦列状態になるたびにエアバッグがバンバンするなんて聞いたことないです。

      # 反射波を読まなきゃならんソナーの出力と相手のセンサにさえ届けばいいけど情報量確保のための音量が必要な今回の、
      # 標準的(後者にこういう言い回しが適用できるのかは知らないが)な使用ではどっちが大出力なんだろう。
      # 共振モードが使いにくい分今回のヤツのほうが音量稼げるスピーカが使いにくそうではあるが…

  • by Anonymous Coward on 2017年09月11日 16時58分 (#3277315)

    乗っ取ったPCやスマホから、可聴域か可聴域外ぎりぎりの範囲内の音を数ヶ月単位で標的に流し続けたら
    どうなるんでしょうね。遠隔でスピーカーから音を流すだけで幻聴が完成するとか、闇の技術じゃないですか!

    ここに返信
typodupeerror

一つのことを行い、またそれをうまくやるプログラムを書け -- Malcolm Douglas McIlroy

読み込み中...