top of page
Writer's pictureChristina Tseng

資料分析-01【想知道誰靠北你嗎?幾種資料分析方法偵測作者】

Updated: Jul 1, 2020


緣起


在會計師事務所待過的人或多或少都知道有一個臉書的粉絲團叫【靠北會計師】(最近更名為【靠北會計圈】),許多人上班遇到煩心事就會往那逛逛,有的是看看別人留言的抱怨讓自己知道還有人比自己更慘、有人則是上去看看各所八卦,對於主管階層的人而言,則是上去廣納諫言以作為改善的參考。


但有暱名留言的方式,就會有人敢在上面講許多不敢講的話,當然也就有可能產生流言、抹黑、不實消息等文章,當然也常常有人在上面指著試圖平衡報導的留言是事務所派來的寫手。其中真真假假、假假真真,這平台真是讓人又愛又恨。

近來,因為一些朋友告訴我,我上靠北了!真是一種複雜的心情,不夠知名還上不去,上了又不一定是好事;然後,還有些人私下傳說我也在上面發文,逼的我只好具名回文。思來想去,還是把我幾年前在東吳巨資的論文文獻探討拿出來講講,讓有心者試試去做點分析吧。

我的論文題目是:【探討Astroturfing之偵測方法與研究】[1],看起來很難懂,其實就是業配文的偵測與分析,因為社群網路興起後,許多企業會顧用所謂的寫手協助企業在相關網路上撰寫使用心得,讓消費者興起購買欲望;更多的應用是在選舉上,寫手透過養各種帳號的方式,一人多飾好幾角自問自答、帶領於輿論,更有甚者甚至製造假新聞,主導網民的意識。因此,相關研究已經從早期的fake reviews detection進入到fake news detection。

由於目的不同,各種文獻探討非常多且雜亂,所以在我的論文裡有做過一些整理;而本文的重點是要分析靠北的言論作者,所以我就把論文中適用本情境的部份摘錄出來供各位參考。


幾種常見的分析方式


文章特徵分析:


特徵分為「文章特徵」以及「作者特徵」兩類。

1. 文章特徵包含:

l 內容中出現最高頻的幾個字詞作為該篇文章特徵與別文章比較;

l 文章的長度、第一人稱或第二人稱的數量、標點符號(問號或驚嘆號..等)的比例…等;

l 情感特徵包含主管與客觀用語的比例、正負面用語比例等;

l Metadata:這指的是文章本身所帶的資訊,例如:文章刊登的時間,由於本次討論的是暱名網站,所以文章本身所帶的資訊會較少。

2. 作者特徵

另外還有人認為評論者的特性也可以作為分析的重點,例如評論者本身的信譽度、文章長度、按讚數…等。惟,這個也與靠北的暱名特性較不符合,因此就不多贅述了。不過倒是可以去看看各個回文者,都對哪些篇文章進行回應,或者也可以看出一點端倪,但聽說靠北很少人回文,不小心多回幾篇會變成前幾大粉絲,若還在圈內的人,可能很不想被知道,所以回文數也是少得可憐,難以分析比較。

文章內容分析

本次最想分享的就是透過文字探勘、意見探勘等方式來進行分析,下面簡單摘錄了幾種方式供各位參考。

1. 相似度分析:

由於每個人都有其寫作風格,所以很多偵測探討的文獻多採用此類分析方式來進行預測。評估文章相似度的應用面向非常廣,最常見的就是探討著名文獻是否為作者一人完成(如「紅樓夢後四十回的作者爭議」[2]以及「所有使莎士比亞為名的作品是否都是其撰寫」等)。

2. 意見探勘(情感分析):

意見探勘(opinion mining),又稱情感分析(sentiment analysis)或主觀分析(subjectivity analysis),乃是運用文字探勘的技術,由電腦自動從文件資料中進行情感或意見資訊的偵測、萃取及分析。

透過以下幾種寫作特徵,可以進一步進行偵測:

l 數字寫法(中文或阿拉伯數字)、特殊符號(如%、&、*)以及標點符號的頻率;

l 平均每一句話的字數(長句或短句),連接詞的字數,或者是第一、二、三人稱的使用數量等;

l 作者習慣特徵,比如空格與換行的使用等。

在一般的網站上,還可以以社群網路分析的方式分析帳號之間互動的關係(比如按讚或回文等資訊),有時甚至可以抓出集體作戰寫手群,但因為本篇探討的是靠北(暱名網站)的分析方式,所以就不再此多做說明了。


分析建議


雖然本篇沒有拿實際案例進行分析,不過也指出了可以參考的各種屬性,供有資料分析能力又富好奇心的讀者,進行分析。

必須提醒的是,由於許多文獻探討的多半是"文章",也就是字數較多的內容,因此像靠北這種短篇發文的情形,偵測會再增加困難度。所以建議您可以先把您想要分析的文章截錄出來後,先整理出以上所述的各種屬性,分析哪些篇文章可能是同一個人寫的。再來您可以去取得您所懷疑的可能作者之文章,記得要多篇一點喔!然後再與之比較,或許可以得到一些好玩結論唷!

以上簡單跟各位分享,希望本篇不會太艱澀難懂….

P.S. 高手可以去看小妹論文整理的文章,有一些更細的說明可供參考…


參考資料


[1] 曾韵(2017)。探討Astroturfing之偵測方法與研究。東吳大學巨量資料管理學院碩士論文。

[2] 杜協昌。https://docusky.org.tw/DocuSky/papers/利用文本採礦探討《紅樓夢》的後40 回作者爭議.pdf


422 views0 comments

Recent Posts

See All

Comments


bottom of page