預(yù)防在線廣告欺詐的世界涉及在未達(dá)到廣告預(yù)算之前就發(fā)現(xiàn)攻擊。這需要連續(xù)流傳輸高頻,大容量數(shù)據(jù)。這就需要建立神經(jīng)網(wǎng)絡(luò)以檢測廣告欺詐。由于存在信用卡欺詐行為,銀行的請求數(shù)量有限,每天要進(jìn)行100萬次調(diào)查。但是,廣告欺詐預(yù)防解決方案需要每秒分析20000個請求。因此,非常有必要在異常事件發(fā)生時使用我們的平臺來監(jiān)視和警告我們的網(wǎng)絡(luò)安全團(tuán)隊和廣告客戶。
這聽起來可能并不那么復(fù)雜。但是從我們的經(jīng)驗來看,這絕非易事,為了使我們的客戶認(rèn)真對待這些警報,它們必須有意義。因此,正確警報與錯誤警報的比率必須盡可能高。使用標(biāo)準(zhǔn)方法,例如數(shù)據(jù)點的百分比變化例如,每分鐘變化一次,不要考慮趨勢,因此添加的新數(shù)據(jù)流/量將引發(fā)錯誤警報。
簡單的統(tǒng)計方法,例如移動平均交叉法一種用于時間序列分析的技術(shù),其中您可以計算兩次時間窗的移動平均沒有考慮到季節(jié)性,每日一次,每周一次或每月一次。
ARIMA等更復(fù)雜的統(tǒng)計模型確實可以說明趨勢和季節(jié)性,ARIMA是一種使用時間序列數(shù)據(jù)以更好地理解數(shù)據(jù)集或預(yù)測未來趨勢的統(tǒng)計分析模型。但是,當(dāng)試圖在預(yù)測中描述變量多變量之間的復(fù)雜關(guān)系時,這些模型通常不準(zhǔn)確。
這些困難導(dǎo)致我們建立了一個深層的神經(jīng)網(wǎng)絡(luò)來學(xué)習(xí)我們的信號,預(yù)測下一個值并在觀察到的實際值超出模型的誤差范圍即異常或外層時發(fā)出警報。從技術(shù)上講,我們在python中構(gòu)建了服務(wù)語言和Google的tensorflow深度學(xué)習(xí)庫。
該模型是具有雙重堆疊的長期短期記憶LSTM層的遞歸神經(jīng)網(wǎng)絡(luò),可預(yù)測下一個時間步的信號值,在本例中,我們使用10分鐘時間步,將30天歷史網(wǎng)絡(luò)流量分段的數(shù)據(jù)集分為在線廣告欺詐類型。
該模型的靈感來自Egor Korneev出色的中級帖子,一旦發(fā)現(xiàn)異常,就將其饋送到一個解釋性模塊,該模塊通過查詢數(shù)據(jù)庫獲取異常時間戳及其附近的不同字段,并將警報發(fā)送到包含信號圖表的團(tuán)隊松弛通道在突出顯示異常的情況下,異常的詳細(xì)信息和指向Kibana儀表板的鏈接已按照說明模塊的建議在異常的異常值上進(jìn)行過濾。
該異常檢測算法和解釋模塊可發(fā)現(xiàn)大量數(shù)據(jù)的隱藏欺詐模式。我們?yōu)榭蛻舴治龅臄?shù)據(jù)包括,例如,分析一組具有類似行為模式的欺詐性遠(yuǎn)程服務(wù)器,特定的數(shù)據(jù)中心/在線服務(wù)/ Web瀏覽器/具有欺詐性流量的地理區(qū)域,而無論這些欺詐性趨勢是在用戶端例如,機(jī)器人,DDOS攻擊 ,VPN用戶等或網(wǎng)站例如,點擊劫持,強(qiáng)制刷新等。
例如,這在我們的點擊欺詐產(chǎn)品中使用,可以防止所有付費搜索和付費社交平臺上的無效點擊。
例如,我們發(fā)現(xiàn)了八個網(wǎng)站,所有網(wǎng)站都建立在同一免費論壇的平臺上,所有網(wǎng)站都復(fù)制了來自不同網(wǎng)站的內(nèi)容,都使用了相同的網(wǎng)站模板,并且都在巴西圣保羅以外的同一村莊運營。將它們連接在一起的事實是,它們?nèi)恐粚⑵?8%的流量歸功于三個IP,而這三個IP則歸因于其他七個站點中的三個。
在CHEQ,我們正在與在線廣告欺詐作斗爭,發(fā)現(xiàn)這些模式使我們既能夠連續(xù)檢查我們的產(chǎn)品是否存在不合理的屏蔽,又能夠不斷開發(fā)新功能以適應(yīng)不斷變化的在線廣告欺詐形勢。沒錯,這是一場軍備競賽,如果您沒有前進(jìn),那么您將落后,想了解更多關(guān)于神經(jīng)網(wǎng)絡(luò)的信息,請繼續(xù)關(guān)注中培偉業(yè)。