昨天,一篇《為拯救爸媽朋友圈,達摩院造了“謠言粉碎機”》的文章,在朋友圈刷屏,引來一片鼓掌叫好:“這下終于不用費勁勸導爸媽了!”
文章說的是,阿里巴巴達摩院的科學家,造了一個謠言粉碎機,這是一個算法模型,可以識別真假新聞,未來也能應用在各大領域。
這是怎樣一種算法?準確率高嗎?真的可以終結謠言?記者聯(lián)系到了正在大洋彼岸的“謠言粉碎機”的創(chuàng)造者李泉志。
“粉碎機”的前生功能
是為記者提供可靠線索
《速轉!科學家發(fā)現(xiàn):一味中藥48小時可殺死60%癌細胞!》《晚上喝白開水的朋友,再不看就晚了!》《專家說了,這樣東西千萬別吃!》……
你有沒有收到過父母發(fā)來的這些“關懷”?又有多少次是抱著“算了算了,你開心就好”的心態(tài)結束話題?
“不能保證百分之百準確,但基本可以判斷是否為謠言。”李泉志,達摩院NLP團隊的核心成員之一,畢業(yè)于清華大學,后在美國獲得自然語言理解方向的博士學位,目前在達摩院的西雅圖辦公室工作。
在加入達摩院前,他曾是路透社重要的“情報官”:通過機器篩選成千上萬的網(wǎng)絡信息,為數(shù)千位一線記者提供可靠線索。
“AI謠言粉碎機”就是借助自然語言實現(xiàn)的。在剛剛結束的SemEval(自然語言處理領域的國際權威比賽,由國際計算語言學學會舉辦)全球語義測試中,“AI謠言粉碎機”創(chuàng)造了假新聞識別準確率的新紀錄,達到了前所未有的81%。
判斷一個新聞真假
要分三個步驟
“AI謠言粉碎機”要怎么去判斷是否為謠言呢?李泉志說,分三步——
首先,該模型會找到最初的信息源,分析用戶畫像,包括:專業(yè)領域,此前傳播或轉發(fā)過什么,是個人還是機構,注冊時間,活躍規(guī)律等,來判斷發(fā)布者是否“可靠”。最后根據(jù)不同態(tài)度的人群比例、各自的信譽度等信息,計算出此新聞的可信度。
第二步,尋找網(wǎng)上所有的信息源,看看鏈接的域名,是否來自可信網(wǎng)站,比如新華社、政府醫(yī)藥管理局等。
第三步,將正文里關鍵的論證提煉為知識點,與知識圖譜里的權威知識庫做匹配驗證。如果毫無聯(lián)系、自相矛盾,減分。
李泉志解釋,“AI謠言粉碎機”會考慮一部分人類的想法,更多的則是 AI的運用。人工智能有很多人類比不了的地方,比如當一個流言在社交網(wǎng)站上傳播很快的時候,我們很難去判斷真假,不知道誰接收到了,是出于什么原因轉發(fā),不同的人對此的評價是什么,而這些AI可以做到。“假如來一個流言,人可以通過網(wǎng)站去查證,但是AI可以快速把科學研究、新聞拉出來,加上后臺知識庫的對比,做一個驗證。人腦中有基本判斷,但是沒有大型的知識庫。”李泉志說。
就拿“AI謠言粉碎機”的訓練樣本來說,就要分至少兩個層面:首先拿底層的2億條信息,幾百萬條新聞,訓練語言樣本;再將模型進行謠言的真實性訓練。“是一個復雜且費時的過程。”李泉志表示。
誰制造謠言,論文是否抄襲
未來粉碎機還有更多功能
其實,要建這樣一個數(shù)據(jù)模型,并不容易。李泉志坦言,他在前一家公司就開始研究,到如今,也還需繼續(xù)完善。他們有一個小團隊專門在研究這一技術,因為,總體來說這不是一個單獨能列出來的技術,是自然語言所有技術的綜合。
目前,該模型也并未應用于阿里巴巴的任何業(yè)務中,李泉志坦言,數(shù)據(jù)模型需要不斷被“訓練”,也需要得到社會的認同,而這些,都不是短時間內(nèi)能解決的。
可以想象的是,“AI謠言粉碎機”未來將被應用的多個場合。
比如,可以識別論文是否為抄襲,用技術從個人的寫作風格、方法論、主題等多維度去判斷是否為抄襲。過去有人說某年輕作家后期的作品由人代筆,以后用AI就能分析得出結論。
另一方面,可以協(xié)助警方找到真正謠言的制造者。通過AI去追蹤傳播路徑,從傳播路徑中,將傳播分解,可以發(fā)現(xiàn)規(guī)律,比如傳播了哪些用戶,用戶是什么反應,是簡單的轉發(fā),還是贊成、反對,還是進行了二次加工?
“當然,該模型也還是需要更多的語言訓練。比如有些用戶轉發(fā)時,說的是反話、諷刺,有些是隱喻,不知是否是真實的情緒表達,這些作為機器很難對此做出判斷,但是通過大量的訓練,是可以實現(xiàn)的。”李泉志表示,他和團隊會繼續(xù)研究該模型。
目前,全球人工智能人才約30萬人。其中產(chǎn)業(yè)人才約20萬人,大部分分布在各國AI產(chǎn)業(yè)的公司和科技巨頭中;學術及儲備人才約10萬人,分布在全球367所高校中。據(jù)統(tǒng)計,截止至2017年6月,全球人工智能初創(chuàng)企業(yè)共計2617家。美國占據(jù)1078家居首,中國以592家企業(yè)排名第二,其后分別是英國,以色列,加拿大等國家。其中,美國1078家人工智能企業(yè)約有78700名員工,中國592家公司中約有39200位員工,約為美國的50%。
目前,全球共有367所具有人工智能研究方向的高校,AI領域的人才數(shù)量約有10萬人。其中,有6000多名AI領域的學者,以及7萬余名AI相關專業(yè)在讀碩博研究生以及其他。每年AI相關領域碩博畢業(yè)生約2萬名。在這367所高校中,美國擁有168所,占據(jù)全球的45.7%,獨占鰲頭,加拿大、中國、印度、英國位于第二梯隊。
人工智能領域?qū)W術能力排在世界前20的學校中,美國占據(jù)14所;排名的前八個席位都為美國所占據(jù)。雄厚的學術研究實力,幫助美國在人工智能領域取得了首屈一指的地位。而其他國家,在學術能力上與美國差距巨大,如何發(fā)展AI教育,是值得思考的問題。
人工智能領域20所頂級高校
序號 | 學校名稱 | 國家 | 頂級學者數(shù)量 | 頂會論文數(shù)量 |
1 | 卡耐基梅隆大學 | 美國 | 111 | 638 |
2 | 加州大學伯克利分校 | 美國 | 48 | 285.1 |
3 | 華盛頓大學 | 美國 | 45 | 262.5 |
4 | 麻省理工學院 | 美國 | 48 | 235.2 |
5 | 斯坦福大學 | 美國 | 40 | 226.9 |
6 | 康奈爾大學 | 美國 | 46 | 212.8 |
7 | 佐治亞理工學院 | 美國 | 53 | 208.5 |
8 | 賓夕法尼亞大學 | 美國 | 29 | 184.4 |
9 | 多倫多大學 | 加拿大 | 39 | 164.1 |
10 | 伊利諾伊大學香檳分校 | 美國 | 44 | 161.6 |
11 | 南加州大學 | 美國 | 32 | 161.3 |
12 | 北京大學 | 中國 | 69 | 154.9 |
13 | 愛丁堡大學 | 英國 | 47 | 151.2 |
14 | 東京大學 | 日本 | 40 | 145.2 |
15 | 密歇根大學 | 美國 | 32 | 135.2 |
16 | 清華大學 | 中國 | 45 | 132.1 |
17 | 香港科技大學 | 中國 | 29 | 126.1 |
18 | 馬薩諸塞大學阿默斯特分校 | 美國 | 36 | 122.4 |
19 | 馬里蘭大學 | 美國 | 26 | 112.6 |
20 | 新加坡國立大學 | 新加坡 | 33 | 102.3 |
注:
1.頂尖學者數(shù)目是指2006-2017年間在人工智能領域頂級會議上發(fā)表至少一篇論文的學者數(shù)目
2.頂會論文數(shù)目是指2006-2017年間該校學者在人工智能頂級會議上發(fā)表的論文總數(shù)目,論文數(shù)目由論文合作人數(shù)調(diào)整得出。頂級會議是指AI領域的最高國際學術會議,也是全世界科學家參與和關注最多的會議。
從國別來看,AI產(chǎn)業(yè)人才主要分布在美國、中國及其他國家的企業(yè)中。以在初創(chuàng)企業(yè)工作的AI人才為例來看。截至2017年6月,全球人工智能初創(chuàng)企業(yè)共計2617家。美國占據(jù)1078家居首,中國以592家企業(yè)排名第二,其后分別是英國,以色列,加拿大等國家。其中,美國1078家人工智能初創(chuàng)企業(yè)約有78700名員工,中國592家公司中約有39200位員工,只有美國的50%。美國人工智能初創(chuàng)企業(yè)主要以1-10人和10-50人的團隊為主,這種小型團隊共759個,占據(jù)全美的70.41%,是美國AI初創(chuàng)公司的主力軍;中國人工智能初創(chuàng)企業(yè)主要是10-50人的團隊,總量384個,占據(jù)全國的64.86%??梢哉f,美國的小型創(chuàng)業(yè)團隊規(guī)模比中國小。在需要同等技術的情況下,美國團隊的平均能力和可創(chuàng)造價值高于中國團隊。
人工智能企業(yè)擁有數(shù)量TOP5
數(shù)據(jù)來源:公開資料整理



