人妻少妇偷人精品av,夜夜夜夜夜夜操操操操操,2021天堂中文字幕一区在线观

　　2017年7月16日，由中國新一代IT產業(yè)推進聯(lián)盟指導，CIO時代學院主辦，北大軟件工程研究所、全國高校大數據教育聯(lián)盟、北達軟協(xié)辦，CIO時代APP承辦的“第六屆中國大數據應用論壇”在北京大學中關新園隆重舉行。數美時代聯(lián)合創(chuàng)始人兼CTO、第二屆北大互聯(lián)網CIO-CTO班學員梁堃發(fā)表了題為《大數據在互聯(lián)網反欺詐中的實踐》的主題演講。以下為演講實錄：

　數美時代聯(lián)合創(chuàng)始人兼CTO、第二屆北大互聯(lián)網CIO-CTO班學員梁堃

　　謝謝大家!很榮幸給大家做報告。我們一直在反欺詐服務領域里做了不少實踐，這次的報告主要是把我們對這個領域的一些最新理解及用到的最新技術為大家做個匯報。副標題“構建立體的防御體系”是這次報告的核心。

　　一、背景介紹

　　隨著移動互聯(lián)網的發(fā)展，我們可以認為欺詐已經是無所不在了，從任何一個服務的推出，如App、網頁的推出，從推出第一天開始貫穿整個生命周期都遍布著各種各樣的欺詐。比如當App、服務推出了會出現(xiàn)虛假流量、虛假點擊等。用戶來了會有注冊，會出現(xiàn)大量的機器人或垃圾注冊，登錄時會有盜號登錄、賬號攻擊。還有很多行業(yè)競爭是非常激烈的，廠商會有競爭活動，會有刷優(yōu)惠、刷單等機器人出現(xiàn)?；ヂ?lián)網服務會允許用戶產生UGC內容，比如換頭像，其實這里也會存在廣告等其他垃圾信息。

　　近三年，互聯(lián)網金融或金融本身的業(yè)務發(fā)展非?？?，從理財端逐漸發(fā)展到了借貸、消費金融端。那么借貸時的風控，比如一個人申請分期消費，那么他會不會是一個騙貸的或是詐騙團伙的一部分，即便不是，那么它的還款意愿和能力又是什么樣的?因此，整個生命周期各個階段都暴露給了欺詐分子大量的可趁之機。

　　我們希望對于正常用戶而言，正常用戶無感知，體驗不到它的存在。第二方面，我們想做到的是，反欺詐系統(tǒng)一定要精準，能夠實時并且準確的識別出這些欺詐行為或欺詐用戶。在做到這兩個目標的時候其實面臨著非常多的挑戰(zhàn)，個人理解兩個最主要的挑戰(zhàn)：

　　第一，灰色產業(yè)的技術水平和專業(yè)程度都是不斷提高的。用行業(yè)里的一句話說，和我們作對的這些欺詐團隊，他們都是上班打卡的，也可能是正式公司，他們會有專門的人去搞定手機號，如購買這些手機號、身份證號，會有專門的人去專門負責搞定手機號、身份證號，搞定這些資料后開始出售，會有專門的一組人去搞定設備。如果我想做壞事，一定要有硬件設備或虛擬機設備，還有人專門去做包裝。比如買了銀行卡、手機號這樣一組資料，會有正常銀行卡消費流水、甚至備注里還包括工資名義的轉帳。這組人是做包裝的，還有一組人去發(fā)現(xiàn)所謂的“口子”，他們會去探測各個行業(yè)風險的漏洞，出售這些“口子”，做壞事的人從第一組人那買資料，由第二組人包裝等一系列環(huán)節(jié)，做批量欺詐。你會發(fā)現(xiàn)人家的技術水平和專業(yè)化程度非常高。

　　第二，單一的模型策略很難同時做到高召回率和低誤殺率。這個非常難做到。

　　二、內容反欺詐

　　由于人停留在互聯(lián)網、移動互聯(lián)網上的時間越來越長，網上充斥著各種不好的內容。當有流量、有注意力時就有利益，就有發(fā)詐騙信息的情況，比如這時的頭像、個人描述、評論會充斥一些垃圾信息，這些信息有的是文本，當你發(fā)現(xiàn)文本做到一定程度時，又會出現(xiàn)圖像、視頻這樣的內容。這有兩個核心難點，首先是語義理解。中文、自然語言是一個很奇特的東西，同一句話、同一個詞，在不同的語義環(huán)境里表達的含義是完全不同的。我們做這件事情時用兩種東西，一個是傳統(tǒng)的支撐向量機，就是做短窗口內的語義理解，同時還必須得理解非常長的上下文，這也是業(yè)界的難點，我們用深度神經網絡來做這件事情，去識別理解超過30個字、一個篇章、一個段落、對話長程的上下文語義。通過這些相結合去理解當前的內容是否有問題，當然這是長短語境上來分的。同時對于不同方面，包括色情、廣告等等會建立不同的模型系統(tǒng)。第二個很難搞定的東西，因為我們是有對手的，有對手就意味著對方跟你做對抗，當你能處理這種問題的時候，他們會不斷想辦法繞過你的策略、干擾你的模型，最常用的就是變體和干擾。另外，它在里面會插很多奇怪的東西，試圖干擾你的模型。包括插花紋符號等等。比如當我們識別變體時，很早就使用了深度學習技術，它們是計算各種變體距離，把變體識別出來。我們排除干擾用的是傳統(tǒng)機器學習方法CRF，將變體標注出來排除掉。

　　三、行為反欺詐

　　傳統(tǒng)上我們也有統(tǒng)計方法去檢測作弊，比如渠道留存率、版本更新比例，但今天基本都失效了，因為灰產這幫人做得很專業(yè)，他會在合適的時候，再次讓用戶在上面活躍，使得你的7日留存、次日留存很正常。同樣的道理，他會通過篡改軟件把這批機型改成與正常機型占比一樣。比如蘋果占15%，他也占15%，使得低價機型比例也和正常機型一樣。

　　搞定這些問題的核心問題只有一個，就是圖靈測試或人機識別。要搞定的一件事情就是找出來、識別出來在網絡的那一端執(zhí)行當前操作的物體到底是一個人、一個機器，還是一個程序。識別欺詐行為的核心就是識別機器人，模擬人的程序。壞人做壞事無非是幾種手段：虛擬機或通過一批設備不停的對他的信息進行篡改，以及設備農場，為什么叫設備農場呢?它就像種莊稼一樣，沒有別的作用，長出來租給這個團伙去申請騙貸，明天再租給其他團伙。

　　首先我們真的需要收集端上面的各種特征，包括軟件特征、當前進程地址空間、OS版本、系統(tǒng)服務。舉個例子，其實每個文件系統(tǒng)在格式化的時候都會生成編號，每次格式化時的東西都是相對隨機的，可以認為是文件系統(tǒng)的指紋。當然還有其他的，包括行為特征、環(huán)境特征、硬件特征。再比如一個手機，手機姿態(tài)長時間處于不動的狀態(tài)，那這個手機是非常危險的。這個策略現(xiàn)在開始逐漸失效了，因在農場設備的架子上會帶一個底座，定期的轉一下那個手機。這些列的都是一些經典模型，我們采用GBM等建立虛擬機識別模型，采用異常點檢測、設備相似性識別信息篡改設備，采用聚類分析、GBM等識別農場設備。

　　四、反欺詐體系

　　真正要做的體系是反欺詐，從我們現(xiàn)在的理解來看，永遠不要寄希望于說有一個非常多的模型、非常復雜的策略、專家系統(tǒng)，或是簡單的一個結合，用這種方法的同時搞定誤差率和召回率，這件事情是非常困難的，你需要付出非常大的代價。因此，我們做反欺詐時會采取另外的側率，并不要求每一個模型準確率、召回率都那么高，但我們會搭建一個體系，像一個網格一樣，一道一道篩選這些作弊行為，這會帶來一個額外的好處，就是灰色產業(yè)探測你的體系時，他的成本是非常高的，因為當你幾個東西組合在一起時，需要探測的就有很大的增長了。

　　首先我們要形成數據體系，比如基礎數據，包括UGC樣本、設備畫像庫、手機號、IP、每日新增等等。還有關系圖譜，即數據之間的關聯(lián)。比如一個人申請借款時填了一個緊急聯(lián)系人的信息，而這個人的信息和另外一個發(fā)生了逾期人填的緊急聯(lián)系人的信息一樣，這個風險就非常大。

　　其次我們要有策略體系。最下面一層是基礎引擎，每個基礎引擎從一個特定方面識別風險，比如廣告模型就看廣告風險，IP風險引擎就看IP風險等等，我們有大概20個基礎引擎。每個基礎引擎職責是什么?首先在自己的方面給一個風險評分，在自己的方面提出一些高級特征，將這些交給高級引擎，高級引擎會綜合評判下面所有引擎的結果，給出一個綜合結果。在這一層我們引入了一個規(guī)則引擎規(guī)則，引擎的好處就是可以植入人工的規(guī)則。如果是一個虛擬機，我就什么都不看了，如果得分超過0.9，就直接拒絕。這個規(guī)則系統(tǒng)也是非常重要的，因為我們是在與灰色產業(yè)做對抗，所以你不能依賴于模型不停的每天訓練或每個小時訓練，你必須有實時的手段能實時的和對手做對抗，這就是規(guī)則引擎非常重要的一點。而策略體系存在的第二個好處就是相互可以提供特征，比如注冊可以給內容提供特征等等。

　　數美科技就是通過建立數據體系和策略體系這兩種體系，做到了非常高的召回率和準確率，獲得了客戶的肯定，目前已服務數百家客戶，覆蓋直播、金融、支付、社交、電商、游戲、O2O等行業(yè)，其中包括中信銀行、360、小米、58同城、愛奇藝、酷狗、用錢寶、點融、挖財、閃銀、熊貓直播、花椒、唱吧等知名企業(yè)，并與知名云服務品牌金山云達成戰(zhàn)略合作。數美自成立之初即致力于利用大數據技術和人工智能技術幫助企業(yè)消除欺詐風險，我們非常注重技術和數據的積累，并不斷升級，使得漏過的壞人、誤殺的好人都會非常少。

　　這就是我報告的一個核心思想，謝謝大家!