辨別假新聞、實時下單 AI在新聞行業走到哪一步?

本文轉載自本站新聞學院

8月22日,本站新聞“聞學社沙龍”以《人工智能將如何重塑新聞業》爲主題,邀請了來自北大、中大路透社、新華社等機構專家學者,探討新技術影響下的傳媒生態重塑。

以下是路透社市場開發經理王海明主題演講的整理。

監測覈查,人工智能爲記者辨別假新聞

Reuters News Tracer是一個監測社交媒體工具,最早用於路透內部,幫助記者和編輯監測社交媒體中出現的新聞信源。後來隨着算法的深入,我們發現用機器學習還可以做更多的事情,比如對於社交媒體上發出的信息,可以通過算法區別哪些是新聞,哪些是一般性對話。這個項目經過三四年的不斷優化,現在正逐步測試開放給外部用戶使用。

News Tracer能夠對Twitter上搜集起來的所有可能視爲新聞的內容做分析:是誰最先發出消息的;是誰最先轉發的;信息的可信度如何。如果分析結果判定消息的真實性存疑,就會在上面標註出來相應的從0%到100%的可信度數值

Reuters News Tracer的界面

段時間我剛好親歷一則上市公司謠言從發佈到爆發的傳播過程

這則假消息剛剛發佈時,我用News Tracer這個工具監測,看新聞源就知道是假的。慢慢增長到800多個點擊量,然後有大V或其它媒體轉載,當被網站轉載以後它就變成新聞發酵了,但不到24小時又被澄清了。“我見證了整個過程,因爲我收到第一新聞源特別早,整個假消息傳播鏈條是一開始侷限在小範圍內,隨着新聞網站的轉發和大V轉發而爆發。”

News Tracer目前的應用範圍有以下幾個方面:

1. 自動驗證新聞真假,它會用算法去分析記者平時可能會關注的問題,去驗證新聞的真實性。

2. 通過算法和機器學習剔除廣告、垃圾、謠言、一般性談話等無用信息,摘出要點。根據不同的數據源確定它的真實程度有多高,同時它能夠去除噪音,而且會把相同類別的疊在一塊兒,作爲一個數據組,同時顯示未來的更新。

3. 進行實時監測,驗證Twitter和其他社交媒體上的新聞。

4. 憑藉後臺數據庫客戶可以根據需求搜索相關新聞,分辨真假

傳統上說到的人工智能應用都是在分發那一端,而Reuters News Tracer是從新聞來源一端就做了大數據、人工智能、機器學習的應用。

Reuters News Tracer可以通過社交媒體直接抓取由見證者第一時間發佈的信息,如果信息真實就直接發佈。比如日本地震,網絡上最早的消息可能比第一個發佈的媒體還早4分鐘,由於有親歷者發佈,Reuters News Tracer可以進行交叉驗證,驗證爲真就發佈出來,發佈時還會標註這條新聞的可信度爲多少,是50%,70%還是100%,而且會把數據來源顯示出來讓你辨別。

2機讀新聞(Machine Readable News),幫助用戶實時下單

2009年起我們就推出了機讀新聞 (Machine Readable News) 的產品。用戶的下單系統對接我們的Machine Readable News可以自動下單,這個產品到現在爲止已經革新了幾代,相對來說比較成熟。

通過機器自動讀取和分析新聞,系統可以判斷事件是正面還是負面,隨後便會將結果與歷史數據庫比較,如:事件正面程度有多高、具體涉及到哪些公司、消息利好程度有多大,從而判斷新聞對商品、股價的影響程度。通過以上方式得出的實時數據和分析,能夠讓機器自行辨別買賣信號直接下單。

更進一步,這個產品還可以根據新聞分析出市場情緒,即給出一個指數指標跟蹤市場對資產類別或股票的情緒變化。比如大宗商品或者黃金,根據這段時間的新聞報道來看,大家的情緒是高還是低?我們前端已經將結果做了可視化呈現,用戶能很明顯地看到結果。

另外就是給出一些經濟指標,經濟指標相對來說比新聞簡單,特別是股票市場外匯市場,現在股票、外匯、大宗商品市場很多交易都來自於這種指標的直接下單。

3通過語義分析,建立企業關係圖譜

從新聞裡還能發現什麼價值?路透社通過對新聞的分析建立了企業關聯關係的供應鏈

人與人之間有各種各樣的關係網絡,公司之間也是如此。我們有一個引擎,可以根據某些公司新聞做分析,分析之後就能看出這些新聞中提到的其它公司是它的客戶、競爭對手母公司、消費者還是子公司,機器分辨出來後會將它們做成一條關聯關係。

蘋果公司的供應鏈數據

這裡會用到路透原有積累的產品或數據,全球99%的上市公司在我們的數據庫裡都有ID,這樣比較容易找到那些公司。我們還有兩個關鍵數據庫,一個是組織機構數據庫,另一個是人的數據庫,一個是做公司關聯,另外一個是做上市公司高管之間的關聯,打出標籤以後很容易分出上下游和關聯關係。第三方用戶如果也想做數據處理,直接把原材料放在雲端就可以用我們的機器生成關聯關係。