やぐブロ

yag + programming + hateblo

gist記法を試してみる

はてな記法スーパーpreだと現状ではシンタックスハイライトが効かないので,gistで貼ってみる.

シンタックスハイライトも効いて全体的に見やすいので,今度からはgistにソースコード貼ってembedした方がよさそう.


あと,一つのgistプロジェクトに複数のファイルが存在するときに,gist記法で貼り分ける(どちらかだけを表示したい)方法ってあるのかな...?

Clojureでナイーブベイズ分類器(多項モデル)

前回(Clojureでナイーブベイズ分類器(多変数ベルヌーイモデル) - やぐブロ)に続いて,多項モデルを用いたナイーブベイズ分類器を実装してみた.今回は言語処理のための機械学習入門 (自然言語処理シリーズ)のP.114 例題4.6を解いている.といっても.多変数ベルヌーイモデルと同様に\arg \max_c p(c) p(d|c)を最大にするp(c)およびp(d|c)は閉形式で求まるので,実際には訓練データ内の文字数を数えて掛け合わせるだけなのだが.



スクリプトは前回の多変数ベルヌーイモデルのものを使い回している.主な変更点としては,

  • count-wordsetで文章数ではなく単語数を数えるようにしてある
  • mm-MLestimateを少し変更(文章の単語ぶんだけq_{w,c}を掛け合わせる)
(def text_classified_p '(["good" "bad" "good" "good"]
                            ["exciting" "exciting"]
                            ["good" "good" "exciting" "boring"]))
(def text_classified_n '(["bad" "boring" "boring" "boring"]
                           ["bad" "good" "bad"]
                           ["bad" "bad" "boring" "exciting"]))

(defn train [features]
    (reduce (fn [model f] (assoc model f (inc (get model f 0)))) {} features))
(defn count-wordset [training-data]
  (apply merge-with + (map train training-data)))
(defn mm-MLestimate [documents datasets]
  (* (/ (count datasets) (count (concat text_classified_p text_classified_n)))
     (apply * (map #(/ % (count (reduce concat datasets)))
                   (map #(get (count-wordset datasets) %) documents)))))

(defn classify [d]
  (sorted-map-by >
                 (mm-MLestimate d text_classified_p) :positive
                 (mm-MLestimate d text_classified_n) :negative))

実際に分類器を動かしてみると,

> (classify ["good" "good" "bad" "boring"]) 
{1/800 :positive, 10/14641 :negative}

といったカタチで求まる.


前回と今回で多変数ベルヌーイモデル・多項モデルを用いたナイーブベイズ分類器を作成したが,実装に用いた閉形式のパラメータは最尤推定で求められたものである.他にもMAP推定を用いて加算スムージングすることにより生起回数を調節することができるが,実装レベルでは生起回数の部分に+n(nはディリクレ分布のαに依存する)するだけなので,今回は取り上げないことにする.

言語処理のための機械学習入門 (自然言語処理シリーズ)

言語処理のための機械学習入門 (自然言語処理シリーズ)

"The Social Network"の脚本を読む (8)

前回まで:


映像と翻訳(字幕)はソーシャル・ネットワーク 【デラックス・コレクターズ・エディション】(2枚組) [DVD]を,元となる脚本は以下のpdfを使用している.

http://flash.sonypictures.com/video/movies/thesocialnetwork/awards/thesocialnetwork_screenplay.pdf
なお,この文章中で引用される文章はすべてthesocialnetwork_screenplay.pdfに依拠している.

pp.143-163

MARK
He still owns 7% of the company. All you had all day was that salad. You want to get something to eat?
(p.160)

映画のラストのシーン.ショーンは事件を起こしたけれども未だに7%のstockを持っていると言っている.株式の新規発行の時点でショーンは6.47%を持っているという話だったので,身は引くことになったがstockは変わらずに持ち続けているという感じだろうか.


MARYLIN (pause)
Pay them. In the scheme of things it’s a speeding ticket. That’s what Sy will tell you tomorrow.
(p.162)

訴訟額に上乗せして和解するべきとショーンに説得するシーン.「speeding ticket」は速度違反のキップのこと.

まとめ

以上で「"The Social Network"の脚本を読む」のシリーズは終了になる.当初は英語の勉強として読み始めた脚本だが,映画を観るだけでは追えないような細かい部分が予想以上にあって,非常に興味深く面白かった.この映画が好きな自分にとっては,理解が深まって非常に嬉しいと同時に,やはり字幕では文字数などの制限によって様々な情報が削げ落とされていると実感した.自分の英語のスキルではまだまだ字幕無しで鑑賞できるような状態ではないが,せめて字幕を読みつつ英語を聞いて補完していくくらいにはリスニングと教養を深めていきたいと思う.

"The Social Network"の脚本を読む (7)

前回まで:


映像と翻訳(字幕)はソーシャル・ネットワーク 【デラックス・コレクターズ・エディション】(2枚組) [DVD]を,元となる脚本は以下のpdfを使用している.

http://flash.sonypictures.com/video/movies/thesocialnetwork/awards/thesocialnetwork_screenplay.pdf
なお,この文章中で引用される文章はすべてthesocialnetwork_screenplay.pdfに依拠している.

pp.120-143

SEAN (simply)
A Stanford MBA named Roy Raymond wants to buy his wife some lingerie but he’s too embarrassed to shop for it in a department store. He comes up with an idea for a high end place that doesn’t make you feel like a pervert. He gets a $40,000 bank loan and borrows another forty-thousand from his in-laws, opens a store and calls it Victoria’s Secret. He makes a half-million dollars his first year.
(p.121)

ヴィクトリア・シークレットを創立したロイという男の話.字幕には書かれていないがスタンフォードのMBAだった.だから身を投げた場所はゴールデンゲートブリッジ,という流れのようだ.


BRIANNA
If you guys are gonna talk about bandwidth we need shots.
(p.123)

クラブでショーンとマークが会話しているシーンで,ショーンの彼女がレストルームから戻ってきた後のセリフ.どこの国でもネットの話となると帯域幅が細いだのダウンロード速度が遅いだのといった話になるんだろうか.


CAMERON (pause)
I’m gonna watch the race film. If this online I wanna see it.
(p.129)

英国にまでfacebookが広がっていることを知って控え室のパソコンに向かうキャメロン・ウィンクルボスのセリフ.脚本ではレースの映像を観ることになっているが,流れ的にはfacebookがケンブリッジやオックスフォードまで進出していることを確認するべきだろう.映画の方ではそのように変更されていた.


SEAN is pacing the house on a cordless phone while two YOUNG WOMEN--dressed to go out for a party--are at the moment each on a free computer playing each other in a game of Counter- Strike. Basically they’re shooting at each other and missing and laughing their heads off.
(p.129)

ショーンが連れ込んだ女性たちがクスリをキメながらゲームをしているシーン.ゲームはCounter Strikeとあるが,映画ではレースゲームっぽい画面になっているので,恐らく違うソフトに置き換えられていると思われる.ただしセリフは同じなので,レースゲームでミサイルやらカミカゼといった単語が出てくることになっている.


SEAN
No reason you should. He just runs a two-billion dollar hedge fund called Clarium Capital.
(p.133)

ピーター・ティールのヘッジファンドの名前はClarium Capital.
ちなみに,facebookの創立話でも良く出てくるピーター・ティールだが,PayPalの共同創業者としても有名.


MARK (CONT’D)
If the servers are down for even a day, our entire reputation is irreversibly destroyed. Users are fickle. Friendster has proven that fact.
(p.141)

銀行口座を凍結したエドゥアルドに対して,サーバが落ちたらユーザは離れていく,フレンドスターの二の轍は踏まないとマークが怒っているシーン.字幕ではフレンドスターの話には触れられていない.このセリフは既存SNSを研究し尽くしていたからこそ出てくるものだろう.

"The Social Network"の脚本を読む (6)

前回まで:


映像と翻訳(字幕)はソーシャル・ネットワーク 【デラックス・コレクターズ・エディション】(2枚組) [DVD]を,元となる脚本は以下のpdfを使用している.

http://flash.sonypictures.com/video/movies/thesocialnetwork/awards/thesocialnetwork_screenplay.pdf
なお,この文章中で引用される文章はすべてthesocialnetwork_screenplay.pdfに依拠している.

pp.106-120

EDUARDO You’re Jed Clampett?
MARK
I didn’t know you guys got The Beverly Hillbillies in Bra--
EDUARDO
Yes, we got the show in Brazil, it was genius.
(pp.111-112)

エドゥアルドの鶏虐待や,西海岸についての会話.
字幕では「石油でも掘りに?」「急に何だよ」とあるが,実際には「The Beverly Hillbillies」という古いドラマのキャラクターのことを言っているようだ.さすがにこれは直訳して日本人に伝えても分からないだろう....


MARK
They have 10 minutes to get root access to a Python webserver, expose its SSL encryption and then intercept all traffic over its secure port.
(p.114)

facebookのインターン採用試験の内容.おおまかな内容は字幕で表示されていたが,ここでroot権限を取るターゲットとなっているのはPythonで書かれたウェブサーバのようだ.



MARK
Every 10th line of code written, they have to drink a shot. And hacking’s supposed to be stealth, so anytime the server detects an intrusion, the candidate responsible has to drink a shot. I also have a program running that has a pop-up window appear simultaneously on all five computers--the last candidate to hit the window has to drink a shot. Plus every three minutes they all have to drink a shot.
(p.114)

ここも上と同様にマークが採用試験の説明をするシーン.字幕だけ見ていると「ポップアップ画面をクリックできない奴も1杯」いう文章が途中で出てきて,何のポップアップなのか分かりにくく少し引っかかる部分がある.きちっとマークの言ったことを追ってみると,マークが作った妨害用プログラムが採用候補者のPCのバックで動いていて,ポップアップをクリックするのが一番遅かった人がペナルティとして一杯飲まなければいけないということのようだ.


INT. PALO ALTO HOUSE - CONTINUOUS
The place is computer geek paradise. Computers are everywhere, along with some of the empty boxes they came in. Pizza boxes, Chinese food containers, empty beer bottles and white boards filled with indecipherable code fill the room. There are a couple of large mattresses on the floor and a large map of the U.S. with pins and tags showing the schools where they’ve already put Facebook and different pins showing the schools they’re going for.
(p.118)

カリフォルニアのパロ・アルトに借りた家がどんな状態か説明されている.コンピューターやビールの空き瓶,ピザの空き箱などに混じって,ホワイトボードも置かれている.マークがthefacebookを開発しているときも寮の壁にホワイトボードを立てかけてダイヤグラムを書いたりしていたし,やはりホワイトボードはプログラマーにとって欠かせないツールとしてきちんと描かれている.

"The Social Network"の脚本を読む (5)

前回まで:


映像と翻訳(字幕)はソーシャル・ネットワーク 【デラックス・コレクターズ・エディション】(2枚組) [DVD]を,元となる脚本は以下のpdfを使用している.

http://flash.sonypictures.com/video/movies/thesocialnetwork/awards/thesocialnetwork_screenplay.pdf
なお,この文章中で引用される文章はすべてthesocialnetwork_screenplay.pdfに依拠している.

pp.80-106

CAMERON
Like my brother and I are in skeleton costumes chasing the Karate Kid around a high school gym.
(p.82)

字幕では「弱いガキをいじめる屈強な双子」とある.これは恐らく映画「ベスト・キッド」のワンシーンのことだと思われる(この映画はまだ見ていないので早めにチェックしなければ...).


SEAN
I remember something about a trombone.
(p.84)

ショーン・パーカーがスタンフォードの女の子と寝起きの会話をしているシーン.若干意味が取れない箇所.字幕は意訳をしていて「唇がセクシーだ」とあるが,まあ夜のことを思い出してアレをする仕草がトロンボーンを吹くようだったということだろう.


SEAN
You mind if I grab a piece of paper and a pen?
(p.88)

映画では紙とペンがメールに変わっている.メールチェックしようとして偶然facebookを見つけたのだから,普通に考えてメールするだろう.



66 is a hip and trendy restaurant in Tribeca. The young crowd is drinking cocktails of all different colors and wearing Prada. We FIND EDUARDO in a three-piece suit and MARK in his hoodie and flip-flops, along with EDUARDO’s now-girlfriend, CHRISTY, sitting at a table with an empty seat waiting.
(p.97)

「66」はレストランの名前.
66 - Tribeca - New York Magazine Restaurant Guide



CHRISTY
They’re not gonna card us.
(p.97)

マークとエドゥアルド,そしてエドゥアルドの彼女のクリスティがレストランでショーン・パーカーを待っているシーン.「card」は年齢確認のための身分証明書を確認することらしい.


EDUARDO (V.O.)
And then he went on to his second business venture, which was an online rolodex that he got thrown out of by Case Equity.
(p.100)

レストランでショーン・パーカーが話した内容をエドゥアルドが振り返るシーン.字幕では「"プラソ"を創業 投資会社に解雇された話」とあるが,実際には「プラソ」という名前は出てきていない.かわりに,投資会社の名前「Case Equity」が出てくる.
ちなみに,海外のフォーラムでも同様の質問を見つけた.
What is case equity?



SEAN
Yes. There‘ll be payback at Case. I brought down the record companies with Napster and Case’s gonna suffer for their sins too.
(p.102)

先ほど出てきた投資会社Caseの名前は後でも何度か出てくる.


MARK
Okay. For instance, we wanted Baylor in Texas but Baylor already had a social network on campus so instead of going right after them, we made a list of every school within a hundred miles--
(p.102)

facebookはどんな戦略を取っているのかをショーンに聴かれてマークが答えるシーン.字幕では「ある大学」としか行っていないが,テキサスにあるベイラー大学のことのようだ.


SEAN
That’s called the Little Big Horn, that’s smart, Mark.
(p.103)

ベイラー大学に対して取った作戦をショーンが「それはリトルビックホーンだ」と言っている.ここで挙げられているリトルビックホーン(の戦い)とはアメリカ先住民と白人との戦い及びその戦術のことだと思う.

"The Social Network"の脚本を読む (4)

前回まで:


映像と翻訳(字幕)はソーシャル・ネットワーク 【デラックス・コレクターズ・エディション】(2枚組) [DVD]を,元となる脚本は以下のpdfを使用している.

http://flash.sonypictures.com/video/movies/thesocialnetwork/awards/thesocialnetwork_screenplay.pdf
なお,この文章中で引用される文章はすべてthesocialnetwork_screenplay.pdfに依拠している.

pp.62-80

We’ll hear the SPEAKER but we’ll only get to see him in a slightly blurry image as our attention is on MARK and EDUARDO.
(p.65)

オーディトリウムでの講演で壇上に上がっている演者が"SPEAKER"と書かれているが,これは当然Bill Gatesのことだ.後の会話で実際に名前も出てくる.


STUART/VIKRAM (to BOB)
Are you a moron?/Are you medically stupid?/You can’t recognize Bill Gates when he’s standing in front of you for an hour?/Mark Zuckerberg now thinks we got into Harvard on a dimwit scholarship./I’m gonna get a Glock .39 and I’m going to kill you./I’m actually going to kill you/etc.
(p.68)

ビル・ゲイツの講演の帰りにOSクラスの学生に呼び止められるシーンの最後の会話.音量がフェードアウトしてくので最後の方は聞き取りづらいが,注意して聞けばグロックのくだりや言い返す部分まで聞こえる.二人の会話はなかなか過激なことを言っているようだが,字幕では穏やかな口論で終わっている.



MARK
I went to a 3-L at Student Legal Services and he told me to write them back.
(P.72)

ここで言う3-Lが何か分からなくて調べてみたが,どうやらロースクールの3年生のことのようだ.

MARK
We’re expanding to Yale and Columbia.
Dustin, I want you to share the coding work with me. Chris, you’re going to be in charge of publicity and outreach and you can start by getting a story in the B.U. student newspaper. The Bridge.
(P.79)

この部分は情報量がかなり多いだけに一度で理解するのは少し難しいかもしれない.勿論このシーンでマークがむきになっているのは直前のシーンのエリカ絡みのせいであり,映画のラストシーンに繋がる部分でもある.