AI新技術:用機器學習揪出詐騙,省下高額成本
詐騙問題在美國日益猖獗,隨著科技進步,犯罪手法也跟著升級。最新資料顯示,高達93%的信用卡詐騙案件都是透過遠端帳戶入侵,而非傳統的實體卡片盜用。2023年更創下詐騙損失首度突破100億美元的驚人紀錄。
詐騙造成的經濟損失令人咋舌:光是信用卡詐騙每年就造成50億美元損失,影響全美60%持卡人;2021年身分盜用更導致164億美元損失。醫療保險詐騙每年耗費600億美元,政府部門每年因此損失2330億至5210億美元,自2003年以來不當支付總額更高達2.7兆美元。
機器學習在詐騙偵測上扮演關鍵角色,能即時分析大量資料,找出異常交易或可疑帳戶活動。但詐騙偵測面臨兩大挑戰:一是詐騙案件遠少於正常交易,二是資料往往雜亂無章且缺乏標記。
佛羅裡達大西洋大學工程與電腦科學學院的研究團隊開發出一套創新方法,能在極度不平衡的資料集中產生二元分類標籤。這項技術特別適合醫療和金融等產業,無需依賴標記資料就能運作,解決了隱私顧慮和標記成本高昂的問題。
研究團隊使用兩組真實世界的大型資料集進行測試:包含28萬筆2013年歐洲信用卡交易記錄,以及500多萬筆2013-2019年美國醫療保險D部分理賠資料,兩者的詐騙比例都低於0.2%。這些資料完美呈現了詐騙偵測在現實中面臨的挑戰。
發表在《大資料期刊》的研究結果顯示,這項新方法在無監督學習框架下,能有效處理極度不平衡資料的標記問題。與傳統方法不同,它無需依賴監督式分類器,就能直接評估新產生的詐騙與非詐騙標籤。
資深作者Taghi Khoshgoftaar博士表示:「這項技術大幅提升詐騙偵測效率,特別是在資料極度不平衡的情況下。它能減少需要人工審查的案件量,對醫療保險和信用卡詐騙偵測尤其重要。」
研究證實,新方法表現優於廣泛使用的隔離森林演演算法,能更有效率地識別詐騙行為。這項技術提供了一個可擴充套件的解決方案,無需耗費大量資源進行資料標記。
論文第一作者Mary Anne Walauskis解釋:「我們的方法能同時產生詐騙與非詐騙標籤,再透過精煉過程減少錯誤標記。這能有效降低誤報率,讓系統只保留最有把握的詐騙案件。」
這項技術結合兩種策略:使用SciKit-learn函式庫的三種無監督學習技術,以及百分位梯度方法。透過精煉標籤過程,同時降低兩種方法的錯誤率,最終產生高可信度的標籤。
工程與電腦科學學院院長Stella Batalama博士指出:「詐騙造成的影響遠超過金錢損失,還包括情感創傷、聲譽損害和信任危機。這項創新技術為打擊詐騙提供更有效的工具,有助維護金融和醫療體系的安全。」
研究團隊未來計畫進一步自動化決定最佳詐騙案件數量,提升大規模應用的效率。這項研究成果已發表在《無監督標籤生成技術應用於極度不平衡詐騙資料》期刊論文,並獲得2024年IEEE人工智慧工具國際會議最佳學生論文獎。
[end]