LIVRE BLANC www.neo4j.com Détection de la Fraude et Bases de données de Graphe:

LIVRE BLANC www.neo4j.com Détection de la Fraude et Bases de données de Graphe: La découverte connectée La plateforme Nº1 pour les données connectées neo4j.com 2 La plateforme Nº1 pour les données connectées LIVRE BLANC Détection de la Fraude et Bases de données de Graphe: La découverte connectée TABLE DES MATIÈRES Introduction 2 Exemple 1: Fraude bancaire directe 3 Exemple 2: Fraude à l’assurance 6 Exemple 3: Fraude dans le commerce électronique 8 Conclusion 9 Les auteurs 10 Bibliographie et références 10 Introduction La fraude fait perdre aux banques et compagnies d’assurance des milliards de dollars par an. Les méthodes traditionnelles de détection de fraude jouent un rôle important dans la réduction de ces pertes. Cependant les fraudeurs toujours plus sophistiqués ont dével- oppé de nouvelles techniques pour échapper à la détection, que ce soit en travaillant ensemble ou en utilisant diff érentes manières de construire de fausses identités. Les bases de données de graphe off rent de nouvelles perspectives pour découvrir et mettre en lumière les fraudes organisées et autres escroqueries complexes avec un grand degré de précision et de certitude, tout cela en temps réel. Même si aucune mesure de prévention de la fraude ne sera jamais parfaite, nous pouvons cependant obtenir des améliorations signifi catives en prenant en compte non seulement les données disponibles séparément mais également les connexions qui lient ces don- nées. Souvent les connexions entre des données à priori disjointes passent inaperçues jusqu’à ce qu’il ne soit trop tard, ce qui est regrettable, car c’est dans ces connexions que nous pouvons trouver les meilleurs indices. Pour comprendre les liens entre les données et obtenir de ces liens une certaine intel- ligence, il n’est pas nécessairement obligatoire de collecter de nouvelles données. Des informations importantes peuvent être tirées des données existantes, tout simplement en reformulant le problème et en le regardant d’une nouvelle manière: sous la forme de graphe. Contrairement à la plupart des autres façons de représenter les données, les graphes ont été conçus pour exprimer liens et connectivités entre des donnés qui pourraient paraître disjointes. Les bases de données de graphe peuvent découvrir des caractéristiques qui sont diffi ciles à détecter en utilisant les représentations traditionnelles telles que les ta- bles ou les bases de données relationnelles. Un nombre croissant d’entreprises utilisent des bases de données de graphes pour résoudre toutes sortes de problèmes où les données sont connectées, y compris la détection des fraudes. Ce document traite de certaines des caractéristiques communes qui apparaissent dans trois types de fraude les plus dangereuses: la fraude bancaire directe, la fraude à l’assur- ance et la fraude dans le domaine du commerce électronique. Bien que ces trois types de fraude sont tout à fait diff érents, ils ont tous un point commun : l’escroquerie se cache derrière plusieurs couches d’indirections qui peuvent être découvertes grâce à l’analyse des interconnexions. Dans chacun de ces exemples, les bases de données de graphe off rent une réelle opportunité d’améliorer les méthodes existantes de détection des fraudes. neo4j.com 3 Détection de la Fraude et Bases de données de Graphe: La découverte connectée Exemple 1: Fraude bancaire directe Contexte La fraude bancaire directe implique des fraudeurs qui font des demandes de prêts, de cartes de crédit et autres lignes de crédit, sans aucune intention de les rembourser. C’est un grave problème pour les institutions bancaires. Les banques américaines par exemple perdent des dizaines de milliards de dollars chaque année à cause de la fraude directe(1), et il est estimé que la fraude bancaire directe contribue au quart du total des pertes sur créance irrécouvrable des crédits à la consommation aux États-Unis(2). On estime en outre que 10% à 20% des créances douteuses dans les plus grandes banques américaines et européennes sont mal classées, et sont en fait dues à la fraude directe(3). L’ampleur surprenante de ces pertes est probablement le résultat de deux facteurs. Le premier facteur est que la fraude directe est très diffi cile à détecter. Les fraudeurs se comportent comme des clients légitimes, jusqu’au moment où ils “passent à la caisse”, vident tous leurs comptes et disparaissent rapidement. Le deuxième facteur - qui sera également exploré plus en détail par la suite - est la relation exponentielle des montants en jeu par rapport au nombre de fraudeurs. Plus il y a de fraudeurs, plus les sommes sont élevées. Cette explosion exponentielle est une caractéristique souvent exploitée par le crime organisé qui n’hésite pas à s’organiser en bande pour multiplier les gains. Par contre, ces besoins de travailler en bande organisée rendent ces escroqueries particulière- ment vulnérables à la détection de fraude basée sur les bases de données de graphe. Scénario typique Bien que les détails exacts de chaque opération de fraude directe varient d’un cas à l’autre, le modèle ci-dessous illustre la façon dont les bandes de fraudeurs opèrent généralement : 1. Un groupe de plusieurs fraudeurs s’entendent pour travailler en bande organisée. 2. La bande met en commun certaines de leurs véritables informations de contact, par exemple leurs numéros de téléphone et adresses, en les recombinant pour créer un certain nombre d’identités synthétiques. 3. Les membres de la bande organisée ouvrent des comptes aux noms de ces identités synthétiques. 4. De nouvelles lignes de crédit sont ajoutées sur ces comptes, prêts personnels, cartes de crédit, protection contre les découverts, etc. 5. Ces comptes et crédits sont utilisés normalement, avec des achats réguliers et des mensualités remboursées à temps. 6. Les banques augmentent les diff érentes lignes de crédit au fi l du temps grâce au comportement apparemment responsable des membres de la bande organisée. 7. Un jour, les fraudeurs « passent à la caisse », en coordonnant leurs activités et en plafonnant leurs lignes de crédit. Puis ils disparaissent. 8. Parfois, les fraudeurs vont plus loin et remettent tous leurs soldes à zéro en utilisant des faux chèques immédiatement avant l’étape précédente, ce qui augmente encore les dégâts. 9. Les processus de recouvrement se mettent alors en marche mais personne n’est en mesure de rentrer en contact avec les fraudeurs. 10. La créance irrécouvrable est eff acée. Afi n d’illustrer ce scénario, prenons une (petite) bande organisée de 2 personnes qui créent plusieurs identités synthétiques : • Jean Dupont vit au 123 rue de Rivoli, Paris 75001 (son adresse réelle) et achète un téléphone prépayé dont le numéro est 06 01 23 45 67 • Paul Favre vit au 987 rue des Halles, Paris 75002 (son adresse réelle) et achète un téléphone prépayé dont le numéro est 06 98 76 54 32 En partageant uniquement leur numéro de téléphone et leur adresse (2 éléments de données), ils peuvent créer 22= 4 identités synthétiques avec de faux noms comme décrit dans le schéma 1 ci-dessous. neo4j.com 4 Détection de la Fraude et Bases de données de Graphe: La découverte connectée Diagramme 1: 2 personnes partageant 2 informations sont capables de créer 4 identités synthétiques Le diagramme 1 montre comment ces deux personnes peuvent combiner les informations qu’ils partagent puis inventer de faux noms pour créer 4 identités synthétiques. Avec 4 ou 5 comptes par identité ainsi créé, ils arrivent à ouvrir 18 lignes de crédit diff é- rentes au total. En supposant une moyenne de €4K de crédit par compte, la perte de la Banque pourrait atteindre €72K. Comme dans le processus décrit ci-dessus, après la phase de « passer à la caisse », les numéros de téléphone sont abandonnés et quand les enquêteurs vont à ces adresses, Jean Dupont et Paul Favre (les fraudeurs, qui habitent vraiment à ces adresses) nient connaître George Plon, Frank Rizo, Hervé Dupuis et François Vert. Détection du crime Détecter les bandes de fraudeurs et les arrêter avant qu’ils ne causent des dommages importants est un véritable défi . Une des raisons pour lesquelles c’est si diffi cile, c’est que les méthodes traditionnelles de détection de fraude ne sont pas basées sur les bons identifi cateurs, en l’occurrence des identités synthétiques crées à l’aide de certains identifi ants communs (tels que numéro de téléphone et adresses partagés). Les méthodes standards de reconnaissance de fraude — par exemple écart signifi catif par rapport à des normes comportementales de base — utilisent les données en tant que telles et non pas les connexions entre ces données. Ces méthodes existantes sont utiles pour arrêter les fraudeurs agissant isolément, mais elles montrent rapidement leur limite dans leur capacité à détecter et à reconnaître les bandes organisées. De plus, la plupart de ces méthodes sont sujettes à de faux positifs, ce qui implique des eff ets secondaires indésirables dans la satisfaction client et entraîne la possibilité de perte de revenus. Gartner propose un modèle en couches pour la prévention de la fraude (5), qui peut être vu ci-dessous: Analyse des utilisateurs et de leurs terminaux d‘accès Analyse des comportements de navigation et des patterns suspects Analyse des anomalies comportementales par canal Analyse des anomalies comportementales corrélées sur des bases multicanal Analyse des lens et relations pour détecter les bandes organisées et leurs activités Couch 1 Terminaux Couch uploads/Societe et culture/ neo4j-detection-de-la-fraude-et-bases-de-donnees-de-graphe.pdf

  • 53
  • 0
  • 0
Afficher les détails des licences
Licence et utilisation
Gratuit pour un usage personnel Attribution requise
Partager