5日と20日は歌詞と遊ぼう。

歌詞を読み、統計したりしています。

Twitterのテキストマイニングによるゴールデンボンバー『ローラの傷だらけ』の「ギャルエンタリズム」


アブストラク

ゴールデンボンバー『ローラの傷だらけ』は、主人公がギャルらしき人物に恋をする趣旨の歌詞である。
この構図はゴールデンボンバーにはよくあるので(『また君に番号を聞けなかった』など)、ネットでは歌詞への注目度は高くない*1
また、たいていの場合、歌詞の主人公は自分の世界に入り込みすぎていて、相手がどんな人だかわからない(『女々しくて』など)。
しかし、『ローラの傷だらけ』は相手の特徴を示す語が多く、この点でほかの曲と大違いである。そこでTwitterテキストマイニングを活用し、この曲がギャルに関する曲であることを明らかにする。
一方ネットの世界では、ギャルに関して「憧れ」と「蔑視」というふたつの相反する見方があることが知られている*2。この曲も例に漏れない。
このギャルへの視線は、西洋から見た東洋への眼差しである「オリエンタリズム」に似ている。なので、このギャルへの目線を「ギャルエンタリズム」と呼ぶ。
本稿では『ローラの傷だらけ』がギャルエンタリズムに基づいたものであることを明らかにする。

ギャル

会えない夜が続き 星に祈るけど
部屋の窓からじゃ 空が狭い
 
「今夜はダメ?」「どうして?」
聞きたくなるけど
引く手数多(あまた)が相手の恋は辛い
この曲の歌詞はこういう感じでスタートする。主人公が「ローラ」という名前の女性に恋をしているらしいことがわかる。
この曲の白眉は以下の部分だ。
14(に)時起き5時寝 ローラ
ダブルオートロック ローラ
カーテンピンク ローラ
ピーチジョン派 ローラ
 
オフは日曜 ローラ
ペットはチワワ ローラ
ミリヤが十八番(オハコ) ローラ
全てが愛しい…
曲が後半に入り、サビのメロディで「ローラ」の特徴が連呼される部分である。
ここを中心に、この曲は「ローラ」の特徴を示してくれる部分が多い。歌詞を見て、特徴になりそうなものを目視で抽出すると、以下のようになった。
優しい、クリスマス、バースデー、バレンタイン、BAR、俳優、金、甘えて、ツレない、14時起き、5時寝、ダブルオートロック、ピンク、ピーチジョン、チワワ、ミリヤ、二股、お礼、メンヘラ、プリクラ
また主人公は「ローラ」が好きであることから、いままでの彼女もどうせギャルだと推測されるので、過去の彼女の特徴を歌った部分も列挙の対象とした。
以上のような特徴を示す語が、ギャル特有のものであることを示そう。
そこでテキストマイニングを使う。
RubyTwitter APIを使って「ギャル」を含むツイートを180個収集する。さらに、そのツイートを発信したそれぞれのアカウントから、最新のツイートを180個収集する。ここから重複を除いたものをギャルコーパスと呼ぶ。
ギャルと比較する目的で、腐コーパスも作った。「腐」という語を含んだツイートのコーパスである。もちろん腐女子を意識したが、「腐女子」とすると件数が集まらないんだもん(後述)。
コードは以下の通り。

# -*- coding: utf-8 -*-
require 'twitter'

twClient = Twitter::REST::Client.new do |config|
	config.consumer_key        = 'XXXXXX'
	config.consumer_secret     = 'XXXXXX'
	config.access_token        = 'XXXXXX'
	config.access_token_secret = 'XXXXXX'
end

topics = "ギャル" # 検索したいクエリ

# topicsを含むツイートをする人のIDを入れるarray
idlist = Array.new

# ファイルに書き出す内容を保持する変数
content = String.new

# 取得できたツイートの数
matchtweets = 0

# topics を含む tweet を 10 件取得する
results = twClient.search(topics, :count => 180, :result_type => "recent")
results.attrs[:statuses].each do |tweet|
	if (tweet[:lang] == "ja")
		idlist.push(tweet[:user][:screen_name])
	end
end

# idlist内の重複を消す
idlist.uniq!

# 各idにつき一度ずつ処理
idlist.each do |eachid|
results2 = twClient.user_timeline(eachid, :count => 180)
	results2.each do |tweet|
		# URIがあるツイートはスパムが多いので、URIなしに限定する
		if (tweet.lang == "ja" && tweet.uris? == false)
			content << tweet.text + "\t"
			matchtweets += 1
		end
	end
end
# ツイートの数を表示
puts matchtweets.to_s
File.write("パスを入れる", content)

バージョンは以下の通り。
Ruby 2.1.1
twitter gem 5.1.1
上記のコードを2回繰り返して、重複を除いて、それぞれ以下の数のツイートを取得した。

コーパス ツイート数
ギャル 17096
27786

本来なら、ギャルと対になるのは「腐」ではなくて「腐女子」のはずだが「腐」と簡潔に表記することが多いようなので、今回クエリは「腐」とした*3
あとギャルコーパスの取得できたツイート数が少ないのは、ギャルコーパスに重複とスパムが多かったからと推測される。特に「ギャル」を含むアダルトコンテンツが多かったが、URIを含むツイートを除去したところおおむね除去できた。
先ほど示した「ローラ」の特徴を示す語の登場頻度を、上記の2つのコーパスで調べるため、以下のコードを書いた。

# -*- coding: utf-8 -*-

# 特徴を示す語
char = [["優しい",/優し/],
["クリスマス",/クリスマス/],
["バースデー",/(バースデー|誕生日)/],
["バレンタイン",/バレンタイン/],
["BAR",/((BAR|バー))/],
["俳優",/俳優/],
["",/(|カネ)/],
["甘え",/甘え/],
["ツレない",/(ツレない|つれない)/],
["14時起き",/14時起き/],
["5時寝",/5時寝/],
["ダブルオートロック",/ダブルオートロック/],
["ピンク",/ピンク/],
["ピーチジョン",/(ピーチジョン|PJ)/],
["チワワ",/チワワ/],
["ミリヤ",/ミリヤ/],
["二股",/二股/],
["お礼",/(お礼|ありがと)/],
["メンヘラ",/メンヘラ/],
["プリクラ",/プリクラ/]]

galcorpus = File.read("txtファイルのパス")
fujoshicorpus = File.read("txtファイルのパス")

# それぞれのコーパスはtabで区切られているので、配列に直す
galcorpus = galcorpus.split("\t")
fujoshicorpus = fujoshicorpus.split("\t")
corpusset = [galcorpus, fujoshicorpus]

total = 0
match = 0
char.each{|char|
	print char[0] + "\t"
	corpusset.each{|corpus|
		re = Regexp.new(char[1])
		total = corpus.length
		match = corpus.grep(re).length
		print (match.to_f / total.to_f * 10000).to_s ,"\t"
	}
	print "\n"
}
さっきの結果はファイルに書き出すスタイルだったが、今回のはコンソールに出力する。

結果は下記の通り。

特徴の語 ギャル 腐女子
優しい 31.59 25.91
クリスマス 9.36 6.48
バースデー 45.62 101.49
バレンタイン 2.34 4.32
BAR 61.42 74.14
俳優 0.58 0.72
89.49 136.04
甘え 4.09 2.16
ツレない 0.00 0.00
14時起き 0.00 0.00
5時寝 0.00 0.00
ダブルオートロック 0.00 0.00
ピンク 7.60 8.64
ピーチジョン 5.85 3.60
チワワ 0.00 1.44
ミリヤ 0.58 0.00
二股 0.00 0.00
お礼 251.52 273.88
メンヘラ 3.51 3.24
プリクラ 3.51 1.80

この表は、ギャルコーパス10000ツイートあたり31.58ツイートに、また腐コーパス10000ツイートあたり25.91ツイートに、それぞれ「優し」という語が含まれていることを示している。この場合は、ギャルコーパスの方が腐コーパスよりも「優し」が多く含まれていることを示している。それぞれの特徴の語について、数が多い方を強調してある。
また、一般的な言い換えがありそうな語は、内省により言い換えも検知できるようにした。例えば、

["バースデー",/(バースデー|誕生日)/],

では「バースデー」の言い換えとして「誕生日」も含むことを示している。
上記の表から、ギャル特徴の語は多くの場合、腐女子コーパスよりギャルコーパスのほうに多く含まれることがわかった。その割合は8/14で0.57だった。
この中では「BAR」に誤検知が多かった(URL内の不規則な文字列の中から「bar」を拾うなど)ので、判断から除外した。また、「お礼」は逆転項目として、ギャルコーパスのほうに特徴がよく現れているとした。
比較として、腐コーパスで頻出しそうな語をWikipedia*4で調べると、以下のようになる。

特徴の語 ギャル 腐女子
カップリング 0.00 3.96
原作 4.09 28.43
単一 0.00 0.00
鬼畜 1.75 1.44
グロ 3.51 6.84
スカトロ 0.00 0.00
18禁 1.75 2.52
やおい穴 0.00 0.00
擬人化 2.34 1.44
女体化 0.58 2.16
女装 3.51 6.48
健全 2.92 4.68
聖域 0.00 1.08
ナマモノ 0.58 2.16
雑食 0.58 1.44
よろず 0.00 0.00
萌え 10.53 47.51
燃え 2.34 3.96
ヤオラー 0.00 0.00
隠れ腐女子 0.00 0.00
ゴキ腐リ 0.00 0.00
邪道 2.34 1.08

腐女子コーパスのほうがギャルコーパスよりも腐女子特徴の語が多く含まれた。割合は12/14で0.75であった。こちらのほうは、表記のゆれは特に考慮していない。
上記から『ローラの傷だらけ』はギャルのことを歌った歌詞だといえることがわかった*5

オリエンタリズム

今回本論で取り上げるオリエンタリズムは、前近代的な概念だ。すなわち「未知の土地と未知の他者としてのオリエントに対する「驚異」(憧憬と嫌悪両面の)を核とし」た、「「『東洋』と……『西洋』とされるもののあいだに設けられた存在論的・認識論的区別にもとづく思考様式」[サイード 1993上:20]」を指す*6
オリエンタリズムで想起されるのは、1859-63年ごろにドミニク・アングルが描いた『Le Bain Turc』(トルコ風呂)という絵画だ。
http://upload.wikimedia.org/wikipedia/commons/thumb/c/c9/Le_Bain_Turc%2C_by_Jean_Auguste_Dominique_Ingres%2C_from_C2RMF_retouched.jpg/1024px-Le_Bain_Turc%2C_by_Jean_Auguste_Dominique_Ingres%2C_from_C2RMF_retouched.jpg
描いているのはフランスのドミニク・アングル。描かれているのは東洋(トルコ)のハーレムだ。そして、その周囲が円形に抜かれている。これはのぞき穴を暗示しており、絵画の手前の私たちの側(つまり西洋)が、絵画の向こうの彼女たちの側(つまり東洋)をのぞいていることを示唆している*7。ここにあるのは一方通行のまなざしだ。憧れと蔑視が入り交じった感情がそこにはある。
この感情は、最近のネットでのギャルへのまなざしとよく似ている。

インターネットでは、ギャルは「怖いもの」とされる一方で、「あこがれるもの」として描かれることもある。鬱屈や屈折のある人々の気持ちを「スッキリ」させるために、ギャルは大活躍しています。
インターネットの「ギャルを論破したい」「ギャルに認めてもらいたい」という2つの欲望|青柳美帆子|note
実例はここにふんだんに取り上げられている。
インターネットでのギャルへのまなざしには、基本的にはオリエンタリズムと同じ関係がある。インターネットで書き込む側の人物が、さまざまなかたちでギャルを「まなざす」。上記の記事で「インターネット」と呼ばれているのは、そんな語り手である。この語り手は基本的には、オタクだったり、非モテだったりする。『ローラの傷だらけ』の主人公の「僕」と似た存在だといえる。

  まなざす側 まなざされる側
オリエンタリズム 西洋 東洋
ギャルエンタリズム ネットor「僕」 ギャル

この類似を、まなざす側とまなざされる側の双方に注目して検討する。
まず、まなざす側。オリエンタリズムでは西洋であり、ギャルエンタリズムではネットの人、あるいは「僕」だ。どちらも主人公であり、能動的、男性的な存在だ。
他方、まなざされる側。オリエンタリズムでは東洋であり、ギャルエンタリズムではギャルにあたる。どちらも受動的、女性的(てゆうかギャルに関しては女性そのもの)だ。
このように、両者の関係はとてもよく似た構造を持っている。
ここでのまなざしは、なぜ憧憬と嫌悪という、相反する性質を持つのだろうか。
それは、まなざす側からまなざされる側への無知によるものなのだと推測される。当時の西洋が東洋をよく知らなかった(ドミニク・アングルは一度もトルコに行っていないそうだ)ゆえにオリエンタリズムに浸ったように、「僕」はギャルという存在(ひいては恋愛そのもの)に不慣れなのだ。そして「僕」の恋愛に不慣れな点が、ネットの人々とシンクロする。
オリエンタリズムとギャルエンタリズムは、このようにして類似点を持つに至ったと考えられる。
現在、オリエンタリズムは後退し、西洋から東洋への視線はもっとニュートラルなものに変化したように見える。ただ、“現在における”西洋と東洋の関係は、ギャルエンタリズムになお近づくように変化したと取れるところがある。それは、まなざされる側としての西洋だ。
ギャルエンタリズムには、まなざされる側としての主人公が見られる。『ローラの傷だらけ』には

ローラ、僕をどう思ってるの?
というシーンがあり、「黒ギャルとオタクが宅飲みしたら意外と相性が良かったことが判明」では、
pojiさん「大丈夫かな……。いきなり『ウゼェ!』ってキレられないかな……」
というシーンが紹介されている。どちらもギャルにまなざされる居心地悪さの表明だ。まなざされる側としての西洋という視点は、オリエンタリズムにはない。
ただ、現在の西洋は、東洋からまなざされている。
たとえば、アメリカの同時多発テロ事件*8は、アメリカ本土が襲撃された歴史的な大事件だった。たとえばベトナム戦争のときは、アメリカは東洋を一方的にまなざす側の立場でいた。これが転換され、アメリカはいま、まなざされる側としての自身を意識せざるをえなくなっている。まなざされる側としての自身を意識するのは、まさにギャルエンタリズムと同じだ。

まとめ

ゴールデンボンバー『ローラの傷だらけ』は、主人公がギャルに恋をする趣旨の歌詞である。この曲には相手の特徴を示す語が多いので、その点を利用し、この曲がギャルに関する曲であることを明らかにした。手法としてはTwitterテキストマイニングを活用した。
一方で、ネットの世界では、ギャルに対して憧憬と蔑視の相反する見方があることが知られている。このギャルへの視線はオリエンタリズムに似ているため「ギャルエンタリズム」と呼ぶこととした。まなざしに関する考察により、『ローラの傷だらけ』がギャルエンタリズムに基づいたものであることが明らかになった。



つかれたー!!
論文なんてまともに書いたことないけど、論文っぽくしてみました。頭を使ったよー特に前半。アタマ悪いのに大仰なこと書いてしまってごめんなさい…。
今回はたくさんの資料が役に立ったので、まとめます。

参考資料

■前半戦

この本は本当によかったです。
私みたいな素人でもマジでとりあえずクローリングできるようになるので、あとはこれをベースにしてやりたいようにカスタマイズしていけば、モチベーションも続くし、Google検索の方針も定まるのでやりやすかったです♪


http://syncer.jp/twitter-api-create-application
Twitter REST APIの使い方
ネットだけでお勉強するなら、まずはここから。
Twitter APIの取得の方法を手取り足取り教えてくれます。このサイトは言語としてRubyではなくPHPを使うようなので、途中からは袂を分かちましたが、すごくお世話になりました。


http://platformecho.blogspot.jp/2013/12/twitter-ruby-gem.html
platform-echo: Twitter Ruby Gem で遊んでみる
RubyTwitterを使ってみている人のページ。割と最近?Twitter APIが変わったので、ネットだと古い情報が多いのですが、ここのやつは私が試してもちゃんと動きました。


http://dx.24-7.co.jp/twitterapi1-1-rest-api/
http://dx.24-7.co.jp/twitterapi1-1-rest-api/
これを眺めていると、TwitterAPIで何ができるかがわかるようになりました。APIって人生で初めて使ったので、API的な文化がなんとなくわかってきてよかったです。ちなみにここに出てくるJSONとかってのは、twitter apiでうまいことハッシュとかにしてくれてるみたいです。

http://rdoc.info/gems/twitter/index
Documentation for twitter (7.0.0)
twitterというgemのドキュメント。実用的な意味で英語を読むことって私ほとんどないんですが、これはマジで役に立ったので、がんばって読みました。一番長時間見ていました。

■後半戦

実は…まだ読んでません…。図書館で予約しましたので、もうすぐ私の手元に届きます。
高校の先生に紹介してもらったのですが、
「内容はいまから5分で説明するから、本は読まなくていい」
って言われたの覚えてます。5分で要約できるようですが、本当かどうか確かめますね。


http://note.mu/ao8l22/n/n923c1903fd91
インターネットの「ギャルを論破したい」「ギャルに認めてもらいたい」という2つの欲望|青柳美帆子|note
今回の私の記事は、こちらのサイトから着想を得ました。ブクマでは批判的なコメントが多かったんですが、私はけっこういいなって思っています。

http://p.booklog.jp/book/40379/page/792144
http://p.booklog.jp/book/40379/page/792144
この文章なんなのでしょうか…? オリエンタリズムの全体像を見渡すのに大変役立ちました。単著とかじゃないのかな…。


参考文献は以上です。



ではありがとうございました!
今回はぜんぜん歌詞の内容を読んだりしませんでしたが、こういうアプローチも楽しいですね。
こんな感じのことはいままでこのブログではしていませんでしたが、今年からお勉強を始めたのだし、できるだけ定期的にこうしてカタチにしていくようにします。
【謎解き・説明解読クイズ・ニッポンの謎キャラ】 B美、D菜、… - 人力検索はてな
人力検索のクイズではプログラミング使って回答ことがあります。このときにはRを使って形態素分析しました!


文系の学問における、基本の基本の“モノの考え方”を教えてくだ… - 人力検索はてな
人力検索といえば、この質問にはみなさまにお世話になりました。


今後ともよろしくお願いします!

次回は、西野カナ『会いたくて 会いたくて』の歌詞を読みます!
2021/01/05画像修正しました♪

*1:http://goldenbomberblog.seesaa.net/article/402298481.html

*2:インターネットの「ギャルを論破したい」「ギャルに認めてもらいたい」という2つの欲望|青柳美帆子|note

*3:ちなみに「腐」を含む100ツイートを検索して、目視で判別した結果、94%が腐女子関係だった。統計学でいう「第一種の過誤」が6%しかないのでまぁOKとした。「腐女子」以外の「腐」は、「腐海」「腐川」×2「腐男子」×2「腐レンズ」だった。

*4:http://ja.wikipedia.org/wiki/%E8%85%90%E5%A5%B3%E5%AD%90

*5:本来なら2コーパスの差については検定をしないといけない。それに、(特に「BAR」など)正確を期すために形態素に分けてから解析しないといけない気がするけど、今回はそんなの難しくてできなかった。

*6:http://p.booklog.jp/book/40379/page/792144

*7:たとえばhttp://sweetlily.exblog.jp/745955/

*8:アメリカ同時多発テロ事件 - Wikipedia