各位大大好
小弟人在國外,每天早上都看ptt解鄉愁。
最近想到一個議題,覺得很有趣,想要研究一下:
究竟五樓梗在西斯板上,發展到什麼樣的階段?
大家都知道五樓梗已經行之有年。可是五樓梗有多熱門?多少人玩?
玩的人口、結構是什麼?
好像還沒有資料...(或是我沒有查到?)
所以我便著手寫ptt的網頁爬蟲程式,
收集今年以來的資料(Jan 1 06:19:53 2015~Jun 12 11:53:52 2015)
再把下載到的文字資料,以統計軟體R加以分析。
以下文字很長,數字很多,請各位大大慎入。
小弟已經盡力用圖表,以及簡明的結論整理了。
希望各位大大不吝指教~~
------------------------以下認真-------------------------
1、五樓梗到底有多少?(很常見嗎?值得你研究?)
關於這個問題,在數據中
有出現五樓梗的推文(2772)占總推文(329573)的0.8411%,好像沒有很高。
然而,若是看有出現五樓梗的文章(1496)在總文章(5885)中的比例,則高達25.42%。
表示五樓梗分散的程度很高。東一點西一點,自然容易被看見。
為了輔助說明,下圖呈現五樓梗推文在各篇文章中的分布。
https://drive.google.com/file/d/0B4mKelMlFGTIQndjMDQ4TlpGZGM/view?usp=sharing
可以看到,雖然成功引起大於20個推文討論串的屈指可數(大約只有12個),
可是零零星星,小於5個推文的,則非常多。圖中那些毛毛的"草地"就是。
所以我們可以做出結論,五樓梗之所以常見,靠的未必是總數,而是靠分散。
[資料]"五樓"、"5樓"、"5F"、"5f"關鍵字=2382,"蓋"+"冒險蓋"=390,共計2772。
2、玩五樓梗的族群--多少人在玩五樓梗?
有玩過五樓梗的ID(1305)在總推文ID(41677)中占3.131%
這樣算多嗎?
小弟我的看法是,
我們可以比較,曾經噓過甲甲的ID(1364),占總ID中3.273%
曾經推文"單挑"的ID(1798)占總ID中4.314%
曾經推文"已寄信"的ID(774)占1.857%
曾經填過問卷,回應過"Done"的ID(834)占2.001%
如果你認同以上都算是常見的推文,那曾經玩過五樓梗的ID(1305)界在當中,
且大於它們的平均值,應該算是多了。
[資料]"五樓"、"5樓"、"5F"、"5f"關鍵字ID=1305,"蓋"+"冒險蓋"=79,共計1305。
所有有玩過"蓋"的人,同時都有玩過"五樓"。
3、族群結構--巨觀數據
然而,單純看玩過五樓梗的ID人數,我們仍然不知道五樓梗是如何來的。
是每人平均推文,因為基底龐大而造成?
或是1305個ID中,有特定族群貢獻龐大,而其他人只是插插花?
下圖呈現含有五樓梗推文的次數與ID間的關係。
https://drive.google.com/file/d/0B4mKelMlFGTIcC1OMnlNMG9JUzg/view?usp=sharing
紅色區域(玩過一次五樓梗)的ID,貢獻了1240個五樓推文。占總五樓推文中的44.73%
橘色區域(玩過2~10次)的ID,貢獻了1189個五樓推文。占總數的42.89%
綠色區域(玩10次以上)的ID,貢獻了343個五樓推文。占總數的12.37%
結論,五樓梗主要是由只玩過一次的插花玩家(姑且這樣稱呼),與玩過2~10次的中階玩家
,
共同貢獻的。
玩過大於10次的老手玩家,由於基底小,其貢獻只占一成多。
但值得注意的是,這些老手玩家人數只有21人,卻能在1305人中造成12.37%的貢獻。
其個人推文數量是相當驚人的!
[資料]
次數 1 2 3 4 5 6 7 8 9 10
人數 1240 213 78 33 20 17 10 11 3 1
次數11 12 13 14 15 17 18 25 31
人數 3 2 2 2 2 5 2 2 1
4、族群結構--微觀比較
對於五樓梗族群的輪廓有初步認識以後,我們要繼續深入,
看看玩五樓梗的老手們,究竟是哪些人?他們的排名、玩法與偏好。
(為了尊重大大,我把ID都打上馬賽克)
只含有"五樓"關鍵字的推文數量而言,TOP 10:
yoyo******35 mm****gg vince****85 j78******22 gto***ng
31 23 22 18 17
jarh*****il jef****xx jam****545 HK****45 PIG****15
17 17 16 15 14
含有"五樓",以及"蓋"關鍵字的推文數量,TOP 10:
yoyo******35 mm****gg vince****85 j78******22 jarh*****il
31 25 25 18 18
gto***ng jef****xx jam****545 miy****26 stan****10
17 17 17 17 17
兩種排名結果大致不變,唯有gto大和jar大互換名次,
及第九、第十名以一推之差易主。
(那是因為sta大大的"蓋"推文數很多。屬於偏好"蓋"的玩家。)
由此結果可知,玩五樓梗的老手玩家中,玩"蓋"與玩"五樓"的頻率差不多。
少有只玩"蓋"或"五樓的玩家,大多是兩個都玩。
然而,要因此斷定這些TOP 10的大大就是五樓梗愛好者,是不客觀的。
以Vincent大大為例,他雖然以25推位居第二,可是他的總推文數高達5982,
五樓梗在他的總推文中只占0.4179%。
反觀gto大大,其總推文數只有43則。五樓梗就占了39.53%
因此,下表依據五樓梗在個人推文中所占比例重新排名
TOP 10五樓梗愛好者:
i3***0 gto***ng jam****545 szac******20 HK****45
40% 39.53% 39.53% 27.5% 20%
Lup******ne jarh*****il PIG****15 j78******22 mm****gg
13.48% 10.04% 5.512% 5.455% 5.376%
(只採計五樓梗推文數大於10的"老手"ID做排名。)
由此呈現出的排名,應該比較趨近大大們真實的喜好。
5、五樓梗與其他推文熱門議題
最後,整理了其他西斯板的熱門推文關鍵字,給大家參考。
https://drive.google.com/file/d/0B4mKelMlFGTIcUFkZzFJc2NTdGs/view?usp=sharing
其中"推"有43215次,由於數量太多,放在圖中會讓其他項目都縮水,
所以暫不放入。
"單挑"、"已寄信"系列推文最多,充分反映西斯板的風土民情。
"綠油油"系列位居第三,可能反映出板上單身人口的結構,有待後續研究。
"五樓"梗排在第四,其次是噓甲文、龍相關議題。
"醒醒吧,你沒有..."系列和左手梗也榜上有名。
因為其動機與"綠油油"類似,小弟我認為這三種推文很值得做為日後研究的題材,
探討其族群有沒有相關性。
[資料]
推=43215
單挑=3221
寄信=3129
高調=1288
拍拍=1311
綠=2946
甲=2230(甲甲=736,甲申=8,甲由=40)
左手=467(左手=366,手說話=11,手汗=90)
姊妹=1119(妹妹=364,姊姊=216,姐姐=539)
醒醒吧你沒有=1341(你沒有=257,醒=1084)
ADSL=356(ADSL=156,申裝=200)
頭香=245(頭香=43,頭推=202)
龍=2120(屠龍=196,龍騎=216)
魔法師=162(魔法師=104,火球=32)
---------------------------------------------------------------
在本研究中有幾點限制要跟各位大大說明(也請小力鞭~~)
首先,我只能下載到6/12當天還存在的文章及推文。
作者自刪、被刪、進水桶的那些,都是missing data。
如果除此之外還有誤差,那應該是小弟的程式有bug,或是網路不穩下載失敗
所造成的missing data。
我已經盡量檢查了,可是三十多萬筆資料,不可能一一合對...
所以我的data可能存在誤差。
分析上,因為小弟我是text-mining的新新手,有很多例外我沒辦法排除
例如,"五樓梗好玩嗎?"和"五樓肛三樓",明明一個是玩五樓梗
一個是反五樓梗。
在小弟的程序中,會把他們通通算入"玩五樓梗",而造成誤判。
小弟還在學,各位大大有更好的建議,也請不吝指教。
最後,這個研究只是茶餘飯後的消遣。
不是碩士論文,也不會在ptt以外的地方發表。
各位大大看看笑笑就好。
有被小弟提到ID的大大(雖然我有打馬賽克)
如果覺得不妥,可以來信跟小弟說,
會幫你除名。
謝謝大家~~
--
小弟人在國外,每天早上都看ptt解鄉愁。
最近想到一個議題,覺得很有趣,想要研究一下:
究竟五樓梗在西斯板上,發展到什麼樣的階段?
大家都知道五樓梗已經行之有年。可是五樓梗有多熱門?多少人玩?
玩的人口、結構是什麼?
好像還沒有資料...(或是我沒有查到?)
所以我便著手寫ptt的網頁爬蟲程式,
收集今年以來的資料(Jan 1 06:19:53 2015~Jun 12 11:53:52 2015)
再把下載到的文字資料,以統計軟體R加以分析。
以下文字很長,數字很多,請各位大大慎入。
小弟已經盡力用圖表,以及簡明的結論整理了。
希望各位大大不吝指教~~
------------------------以下認真-------------------------
1、五樓梗到底有多少?(很常見嗎?值得你研究?)
關於這個問題,在數據中
有出現五樓梗的推文(2772)占總推文(329573)的0.8411%,好像沒有很高。
然而,若是看有出現五樓梗的文章(1496)在總文章(5885)中的比例,則高達25.42%。
表示五樓梗分散的程度很高。東一點西一點,自然容易被看見。
為了輔助說明,下圖呈現五樓梗推文在各篇文章中的分布。
https://drive.google.com/file/d/0B4mKelMlFGTIQndjMDQ4TlpGZGM/view?usp=sharing
可以看到,雖然成功引起大於20個推文討論串的屈指可數(大約只有12個),
可是零零星星,小於5個推文的,則非常多。圖中那些毛毛的"草地"就是。
所以我們可以做出結論,五樓梗之所以常見,靠的未必是總數,而是靠分散。
[資料]"五樓"、"5樓"、"5F"、"5f"關鍵字=2382,"蓋"+"冒險蓋"=390,共計2772。
2、玩五樓梗的族群--多少人在玩五樓梗?
有玩過五樓梗的ID(1305)在總推文ID(41677)中占3.131%
這樣算多嗎?
小弟我的看法是,
我們可以比較,曾經噓過甲甲的ID(1364),占總ID中3.273%
曾經推文"單挑"的ID(1798)占總ID中4.314%
曾經推文"已寄信"的ID(774)占1.857%
曾經填過問卷,回應過"Done"的ID(834)占2.001%
如果你認同以上都算是常見的推文,那曾經玩過五樓梗的ID(1305)界在當中,
且大於它們的平均值,應該算是多了。
[資料]"五樓"、"5樓"、"5F"、"5f"關鍵字ID=1305,"蓋"+"冒險蓋"=79,共計1305。
所有有玩過"蓋"的人,同時都有玩過"五樓"。
3、族群結構--巨觀數據
然而,單純看玩過五樓梗的ID人數,我們仍然不知道五樓梗是如何來的。
是每人平均推文,因為基底龐大而造成?
或是1305個ID中,有特定族群貢獻龐大,而其他人只是插插花?
下圖呈現含有五樓梗推文的次數與ID間的關係。
https://drive.google.com/file/d/0B4mKelMlFGTIcC1OMnlNMG9JUzg/view?usp=sharing
紅色區域(玩過一次五樓梗)的ID,貢獻了1240個五樓推文。占總五樓推文中的44.73%
橘色區域(玩過2~10次)的ID,貢獻了1189個五樓推文。占總數的42.89%
綠色區域(玩10次以上)的ID,貢獻了343個五樓推文。占總數的12.37%
結論,五樓梗主要是由只玩過一次的插花玩家(姑且這樣稱呼),與玩過2~10次的中階玩家
,
共同貢獻的。
玩過大於10次的老手玩家,由於基底小,其貢獻只占一成多。
但值得注意的是,這些老手玩家人數只有21人,卻能在1305人中造成12.37%的貢獻。
其個人推文數量是相當驚人的!
[資料]
次數 1 2 3 4 5 6 7 8 9 10
人數 1240 213 78 33 20 17 10 11 3 1
次數11 12 13 14 15 17 18 25 31
人數 3 2 2 2 2 5 2 2 1
4、族群結構--微觀比較
對於五樓梗族群的輪廓有初步認識以後,我們要繼續深入,
看看玩五樓梗的老手們,究竟是哪些人?他們的排名、玩法與偏好。
(為了尊重大大,我把ID都打上馬賽克)
只含有"五樓"關鍵字的推文數量而言,TOP 10:
yoyo******35 mm****gg vince****85 j78******22 gto***ng
31 23 22 18 17
jarh*****il jef****xx jam****545 HK****45 PIG****15
17 17 16 15 14
含有"五樓",以及"蓋"關鍵字的推文數量,TOP 10:
yoyo******35 mm****gg vince****85 j78******22 jarh*****il
31 25 25 18 18
gto***ng jef****xx jam****545 miy****26 stan****10
17 17 17 17 17
兩種排名結果大致不變,唯有gto大和jar大互換名次,
及第九、第十名以一推之差易主。
(那是因為sta大大的"蓋"推文數很多。屬於偏好"蓋"的玩家。)
由此結果可知,玩五樓梗的老手玩家中,玩"蓋"與玩"五樓"的頻率差不多。
少有只玩"蓋"或"五樓的玩家,大多是兩個都玩。
然而,要因此斷定這些TOP 10的大大就是五樓梗愛好者,是不客觀的。
以Vincent大大為例,他雖然以25推位居第二,可是他的總推文數高達5982,
五樓梗在他的總推文中只占0.4179%。
反觀gto大大,其總推文數只有43則。五樓梗就占了39.53%
因此,下表依據五樓梗在個人推文中所占比例重新排名
TOP 10五樓梗愛好者:
i3***0 gto***ng jam****545 szac******20 HK****45
40% 39.53% 39.53% 27.5% 20%
Lup******ne jarh*****il PIG****15 j78******22 mm****gg
13.48% 10.04% 5.512% 5.455% 5.376%
(只採計五樓梗推文數大於10的"老手"ID做排名。)
由此呈現出的排名,應該比較趨近大大們真實的喜好。
5、五樓梗與其他推文熱門議題
最後,整理了其他西斯板的熱門推文關鍵字,給大家參考。
https://drive.google.com/file/d/0B4mKelMlFGTIcUFkZzFJc2NTdGs/view?usp=sharing
其中"推"有43215次,由於數量太多,放在圖中會讓其他項目都縮水,
所以暫不放入。
"單挑"、"已寄信"系列推文最多,充分反映西斯板的風土民情。
"綠油油"系列位居第三,可能反映出板上單身人口的結構,有待後續研究。
"五樓"梗排在第四,其次是噓甲文、龍相關議題。
"醒醒吧,你沒有..."系列和左手梗也榜上有名。
因為其動機與"綠油油"類似,小弟我認為這三種推文很值得做為日後研究的題材,
探討其族群有沒有相關性。
[資料]
推=43215
單挑=3221
寄信=3129
高調=1288
拍拍=1311
綠=2946
甲=2230(甲甲=736,甲申=8,甲由=40)
左手=467(左手=366,手說話=11,手汗=90)
姊妹=1119(妹妹=364,姊姊=216,姐姐=539)
醒醒吧你沒有=1341(你沒有=257,醒=1084)
ADSL=356(ADSL=156,申裝=200)
頭香=245(頭香=43,頭推=202)
龍=2120(屠龍=196,龍騎=216)
魔法師=162(魔法師=104,火球=32)
---------------------------------------------------------------
在本研究中有幾點限制要跟各位大大說明(也請小力鞭~~)
首先,我只能下載到6/12當天還存在的文章及推文。
作者自刪、被刪、進水桶的那些,都是missing data。
如果除此之外還有誤差,那應該是小弟的程式有bug,或是網路不穩下載失敗
所造成的missing data。
我已經盡量檢查了,可是三十多萬筆資料,不可能一一合對...
所以我的data可能存在誤差。
分析上,因為小弟我是text-mining的新新手,有很多例外我沒辦法排除
例如,"五樓梗好玩嗎?"和"五樓肛三樓",明明一個是玩五樓梗
一個是反五樓梗。
在小弟的程序中,會把他們通通算入"玩五樓梗",而造成誤判。
小弟還在學,各位大大有更好的建議,也請不吝指教。
最後,這個研究只是茶餘飯後的消遣。
不是碩士論文,也不會在ptt以外的地方發表。
各位大大看看笑笑就好。
有被小弟提到ID的大大(雖然我有打馬賽克)
如果覺得不妥,可以來信跟小弟說,
會幫你除名。
謝謝大家~~
--
All Comments