《從E紳士(Ehentai)47萬條本子數據看各國死宅的興趣愛好。》

作者:ShuiQu (已獲授權整理轉載)

原文:https://zhuanlan.zhihu.com/p/25568492

E紳士我也用了3年了,但是E紳士的用戶都知道,E紳士並沒有什麼按收藏排序之類的功能,導致平時就只能翻來翻去刷些老物。所以我萌生了寫一個E紳士爬蟲,獲取E紳士所有本子數據。

我自學python已經一年了,期間寫過不少玩具程序,玩具爬蟲也寫過幾個,這次對E紳士的爬蟲差不多算是這一年裡寫過最大的python程序了(雖然回頭去看程序一點也不python)。暫時可能不怎麼碰python了,因為一年後要找工作要吃飯,相比之下還是JAVA比較好找工作。

 

什麼是E紳士?

不,我不是來開車的,我也不是來安利E紳士的,我接下來要講的所有東西都不會提到E紳士具體是什麼,當然E紳士的地址也是打了碼的,要是有摸到E紳士去的人一定和我無關。

E紳士的第一個本子的上傳時間是2007-03-20 02:41,到現在已經馬上要十年了,十年來,E紳士的本子數量從0增長到了48萬(由於我懶,所以沒有補上新增的1萬本數據)。雖然跟正統互聯網公司動輒幾千萬上億條的數據比起來,47萬條數據簡直不值一提,但這是我的世界觀裡,了解各國死宅最有效的辦法了。

你問我了解各國死宅有什麼用?沒啥用,我不賣飛機杯,我也不賣小薄本,興趣使然罷了。

 

正題

注意:我的數學分析能力大概是停留在大二的概率學的前幾節課,所以什麼回歸、協同過濾之類的一律沒有。僅僅只是羅列數據,各位看個高興即可。

這些問題確實是我思考過的問題。我依然記得我在萌二期也認為勞模是亞絲娜,後來改口說勞模是明日香,但這次的大數據卻結結實實的打了我的臉。

 

1. 逛E紳士的都是哪些國家的人?

E紳士上的語種TAG共有36個:日語、英語、中文、韓語、西班牙語、俄羅斯語、法語、葡萄牙語、泰語、意大利語、德語、越南語、波蘭語、匈牙利語、印度尼西亞語、荷蘭語、捷克語、烏克蘭語、芬蘭語、阿拉伯語、土耳其語、他加祿語、希腊語、瑞典語、羅馬尼亞語、阿爾巴尼亞語、世界語、孟加拉語、克羅地亞、丹麥語、愛沙尼亞語、挪威語、加泰羅尼亞語、拉丁語、斯洛伐克語。

再算上一個無語種TAG(N/A,一般在某些無法確定國家歸屬的雜圖包中出現),佔比為20%,一共37個TAG。其中日語最多,20萬本,接近E紳士所有本子數量的一半;再次是英語,佔比為15%。

之後就是中文(佔比7%)、韓語(佔比5%)等,從左側的面積圖可以看出,E紳士本子的語種分布兩級分化極其明顯,後面的許多語種都只有十本左右甚至只有一兩本。

在把本子數乘上收藏數加權處理後,英語開始異軍突起。

結論:英語國家,或者說歐美人仍然是E紳士主力用戶(雖然中國人確實越來越多)。另外E紳士確實是以日系ACG為主的同人站,而非那個綠綠的WESTERN。

 

2. 誰是勞模?

如圖所示,勞模是紅白,但最受歡迎的角色並不是,而是——提督???

反正當時一行SQL語句敲下去之後我是一臉懵逼的:Teitoku?這什麼鬼?拼了幾下沒拼出來(艦娘前年夏活已脫坑),輸到百度後:

W*****B,這什麼鬼?兩秒後,我反應過來確實沒毛病。艦娘的本子這幾年處於上升期,而這幾年E紳士的用戶也處於上升期,兩者疊加的結果就是艦C的總收藏數最多,相應的,「提督」這個角色標籤的收藏數上升也是極快。

東方現在在數量上還能壓過艦娘也只是吃老本了,近幾屆COMIC的統計結果都是艦娘本要多於東方本。

結論:東方大法已過氣,艦娘強無敵。勞模就是你,提督。

 

3.E紳士收藏分布

與語種分布一樣,仍然是長尾效應極其嚴重,後方的高收藏值的分布全是個位數甚至0,雖然最高的收藏到達了8231次(現在已經8331次了),但絕大部分本子仍然是300收藏以下。

單獨抽取某種語種的收藏分布依然是這樣。

結論:死宅們眾口難調

 

4.用戶活躍偏向

由於E紳士仍然是以日系ACG作為主導,所以角色、畫師、原作的TAG大部分仍然是日本的羅馬音TAG。而雜項TAG、女性TAG、男性TAG則不受這種影響(倒不如說遍地歐美俚語黑話)。

英語語種貢獻的項TAG、女性TAG、男性TAG佔各項總和的比例基本相同,而到了角色、畫師、原作的TAG時,佔比立刻下降。而中文則是各項穩定的10%佔比。

結論:歐美死宅裡偏日本ACG文化的程度不如中國死宅嚴重。

 

5.各國死宅對本子的偏好

我統計了雜項TAG裡,在中、日、英三國語種收藏裡出現的頻率乘收藏加權值,每種語言取最高的前20個(雜項TAG有3萬多個),其中大部分是相同的,但各國死宅還是有各國死宅的口味,所以也有不相同的部分。

翻譯我就不翻了,真會被爆破的,不說大家英語水平如何,起碼基礎的搜索的能力應該是有的。

結論:沒有,說結論就必然要翻譯TAG,所以沒有。

 

6.各國死宅對女角色屬性的偏好

仍然是沒有中文,因為女角色屬性這邊是更加的和諧詞亂舞,不過倒是可以提幾個不那麼和諧的。

中日英三語系的死宅都對巨乳和長筒襪表現出了極大的興趣,在三個語系裡都是分別排第一第二;中日死宅對蘿莉的執念在歐美之上(之後的作品收藏排行也體現了這點);另外中文TAG裡有一個連褲襪(編注:P字頭),其他兩個語系的前20裡沒有這個TAG。

再多的分析沒了,本來也是仁者見仁智者見智的東西(死宅講個鬼的仁智),而且我怕被爆破。

結論:……

 

7.各國死宅對男角色屬性的偏好

查男性TAG時我的眼睛受到了巨額的污染,所以….我不做任何解釋,你們可以自己去搜搜試試,對了shotacon是正太的意思。

結論:嘔~~~

 

8.那些受人熱愛的畫師們

顯然的,各國死宅對畫師的分歧體現了他們不同的興趣。

(由於統計方法的問題,那些以在商業雜誌上投稿為生的畫師會很佔便宜,COMIC一年兩次,雜誌一月或幾月一次,另外還有機率被單獨發出來,導致重覆了計算收藏數)

日語類目下的前幾個其實我都沒聽過,一直到水龍敬我才開始認識名字,另外水龍敬吊打全場,是唯一一個三個榜都上了的,另外,被收藏次數最多的畫師也是他。

英語類目下的有好幾個偏寫實的或重口的畫師:水龍敬、師走の翁、朝凪等。另外水龍敬拿第一毫不意外。從柚木N能上榜來看,歐美死宅的姐控情節也很嚴重,其實從之前的雜項TAG裡就能看出點端倪,以及之後的作品排行也能看出姐控情節。另:柚木N的N是NTR的N!
中文類目下一堆熟悉的名字我就不點評了…我什麼都不知道。

 

9. 哪些ACG作品的本子比較多?

東方無疑問的霸榜,爛船也有三斤釘,這麼多年三大同人之首的交椅坐下來不是白坐的。

日文本裡面出現了彩虹小馬我是很意外的,原來小馬的毒性已經傳到11區了是麼….

英語本排行裡出現了唯一一個基番(不撕基番定義):Free。這要麼是歐美女權發展程度高於亞洲國家的結果,要麼就是……歐洲gay比亞洲多……

中文本裡出現了請問您今天要來點兔子嗎,嗯,一群蘿莉控,另外中文艦娘的本子馬上要超過東方。而日英卻仍然差的遠。從側面反映出最近幾年中國ACG事業的蓬勃發展,大量加入的新人自然而然的從最新的坑開始跳,超過過氣東方指日可待。某不可描述的視頻站和一眾資本的推波助瀾,對這幾年「二次元」文化產業的發展來說功不可沒。

 

10. 哪些ACG作品的本子比較受歡迎?

在收藏榜上,東方過氣的本質徹底暴露無疑,只剩下歐美還沒被爆了,也只是幾屆COMIC的時間問題了。

日語榜上,英雄聯盟守望先鋒能上榜讓我略感意外,因為這是個收藏總和榜,短時間把收藏數衝這麼高是非常難的。另外碧藍幻想的戰力略強,最近經常看到碧藍本(超好用就是了)。

歐美的妹控們把俺妹推到了榜單上,另外EVA在歐美的人氣似乎也沒有傳說中那麼高,除非是那種完全沒法畫本的動畫,不然本子數量和質量基本就是和人氣掛鉤的,顯然EVA的本子數量並沒有吊打其他作品十條街。

至於中文榜的SAO、甘城、食戟之靈、請問您今天要來點兔子嗎?嗯,沒毛病,很符合我對中國死宅的認識,順便甘城的本子超好用。

 

11.誰才是真正的勞模?

其實這個問題已經有結論了,論被收藏數:是提督(對,就是你),論本子數量,也排不上明日香、亞絲娜什麼的,紅白的巫女——博麗靈夢才是真·勞模。

由於東方本長達十年的數量制霸,導致三個榜單上都是東方人物佔很大一部分,不過相對的,在東方已經開始走下坡路的現在,東方人物在語種所佔比例越低,就證明這個語種的用戶群體在E紳士上活躍的時間越晚。

高坂京介、結城梨斗、碇真嗣這幾位出現在勞模榜上也不奇怪(男勞模沒毛病)。

 

12. 誰的本子最受歡迎

看了前面幾頁的反正應該知道了,肯定又是提督沒跑了,然後第二是製作人,嗯,沒毛病。

日文榜單:艦娘、東方、初代邪教、過氣偶像、冷飯1、冷飯2……

英文榜單:艦娘、東方、火影、垃圾君、冷飯1、妹控系列……

中文榜單:艦娘、現代邪教、初代邪教……

各位別對號入座……

 

13. 那個瞎狗眼的WESTERN分區什麼時候完?

從數量、收藏、評分的佔比上來看,WESTERN系列的比例一直不高,加上近幾年第三世界的人民開始湧入E紳士,WESTERN是不是遲早要完呢?

並不!

右邊的表是WESTERN的數量、收藏、評分的增長率和E紳士本子的本底增長率的比較。WESTERN系列的數量、收藏、評分的增長率一直高於E紳士本子的本地增長率,並且在最近還出現了大的抬頭趨勢,也就是說,這個系列不僅沒有要完,似乎還會發展的更好。

反正可以屏蔽,不看就是了。

 

 

最重要的問題:E紳士上還有些啥好用的本子?

但是這個車我不開,這是(偽)大數據文章,並不是開車,所以沒有。

 

 

這個爬蟲的項目地址:E-HentaiCrawler-Github

(這團代碼寫的很亂,目錄爬蟲是無錯誤處理的單線程,API爬蟲是有錯誤處理和手動代理切換的的單線程,表站爬蟲是有錯誤處理有自動代理切換的多進程,裡站爬蟲是有錯誤處理有自動代理切換的多進程+多線程。準備過段時間重構一遍。另:列表不在github上發,所以想找列表的就不要點進去了……)

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。