Missbrauchserkennung mit Künstlicher Intelligenz

Von 1999 - 2005 habe ich Informationen zum Thema "Fraud detection" auf einer Webseite gesammelt. Als ich 1999 damit als wissenschaftlicher Mitarbeiter der Uni Karlsruhe anfing, gab es zum Thema "Data Science" noch nicht viel Informationen. Es hieß damals auch eher "Knowledge Discovery in Databases" (KDD) in akademischen Kreisen oder "Data Mining" in der Wirtschaft.

Aufgrund des technologischen Fortschritts werden immer mehr Bereiche des täglichen Lebens von Computern durchdrungen. Als Beispiel seien hier digitale Kommunikation, Internet-Handel (E-Commerce) und On-Line-Banking genannt.

Aufgrund der Komplexität der Systeme ist es sehr schwierig und auch sehr teuer alle Sicherheitslücken vor der Inbetriebnahme zu finden. Kriminelle können so Sicherheitslücken entdecken und zu Ihrem (oftmals finanziellen) Vorteil nutzen. Zum Beispiel wurden digitale Zahlungssysteme zur Geldwäsche benutzt.

Wenn technische Systeme missbraucht werden, werden Methoden benötigt, diesen Missbrauch aufzudecken und weiteren Missbrauch zu verhindern. Im Bereich der Missbrauchserkennung / Fraud Detection werden die Benutzerdaten analysiert, um das Verhalten des Benutzers zu rekonstruieren und zu analysieren. Fraud Management geht einen Schritt weiter und beinhaltet auch präventive Maßnahmen, wie z. B. stärkere Zugangskontrollen.

Vielen Dank an die folgenden Personen für Ihre Unterstützung: Heinz Cech, Tom Fawcett, Carlos Santa Cruz Fernandez, Al Guiva, Reinhold Huber, Andreas Lenk und Alexey Vasilyev.

Verschiedene Betrugsarten

Missbrauch taucht in verschiedenen Bereichen auf, aber die Aufgabe ist gleich: Anhand der zur Verfügung stehenden Daten über das Verhalten der Benutzer müssen die Betrugsfälle von den normalen Fällen unterschieden werden.

Allgemein

Kreditkartenbetrug

Betrug im Internet

Versicherungsbetrug

Geldwäsche

Computerkriminalität

Telekommunikationsbetrug

Identitätsdiebstahl

Die Theorie der Missbrauchserkennung

Es wurden bereits sehr viele Algorithmen in den Bereichen Knowledge Discovery in Databases (KDD), Data Mining, Maschinelles Lernen und Statistik entwickelt. Viele dieser Methoden sind sehr allgemein und wurden schon in den verschiedensten Gebieten mit Erfolg eingesetzt. Im Bereich der Missbrauchserkennung gibt es allerdings ein paar Besonderheiten, die die Anwendung dieser bestehenden Methoden aber unmöglich oder unrentabel machen.

  • Eine Besonderheit ist, dass die Missbrauchsfälle nur einen sehr kleinen Anteil am Gesamtvolumen der Daten haben. In der Statistik spricht man hier von schiefen Verteilungen.
  • Für jede Missbrauchsmethode muss meistens ein eigener Erkennungsalgorithmus entwickelt werden, dessen Parameter speziell an dieses "Missbrauchsmuster" angepasst werden müssen.
  • Die Betrüger hingegen, ändern ihrer Verfahren daraufhin ein bisschen, so dass sie nicht mehr entdeckt werden. Somit muss der Erkennungsalgorithmus kontinuierlich angepasst werden.
  • Um den Schaden zu begrenzen, ist eine schnelle Reaktionszeit der Missbrauchserkennungssystem notwendig. Bei Kreditkartenbetrug zum Beispiel ist es am besten, wenn die Erkennung in Echtzeit unmittelbar stattfindet.
  • Es gibt bei der binären Klassifikation (Normale Benutzung vs. Betrug) zwei verschiedene Fehlerarten: Fehlalarme (auch falsche Positive genannt) und unentdeckten Betrug (auch falsche Negative genannt). Siehe die folgende Tabelle.
    Betrug Kein Betrug
    Alarm korrekt Fehlalarm
    No alarm unentdeckt korrekt
  • Wenn ein Missbraucherkennungssystem einen Alarm ausgibt, muss dieser oft noch von einem Mitarbeiter überprüft werden. Die Kosten für die beiden Fehldiagnosen sind daher unterschiedlich. Bei einem Fehlalarm arbeitet ein Mitarbeiter umsonst an einem Fall und verschwendet wertvolle Arbeitszeit und bei einem unentdecktem Betrug geht der Missbrauch weiter. Daher werden kostensensitive Methoden benötigt.
  • Die sich ständig ändernden und schiefen Verteilungen und die Notwendigkeit von kostensensitiven Methoden erschweren die Bewertung des Erfolgs einer Erkennungsmethode. Selbst bei den "normalen" Klassifikationsmethoden müssen bei der Bewertung des Erkennungserfolgs einige Schwierigkeiten berücksichtigt werden [Sal97]. Die üblichen Kennzahlen, wie z. B. die Fehlerrate (error rate), die Genauigkeit (accuracy) und ROC-Kurven sind nicht für die Missbrauchserkennung geeignet [CCLPS00,PFK98, PF01]. Eine speziell für die Missbrauchserkennung entwickelte Technik ist die ROC Convex Hull [PF01].
  • In traditionellen Datenbanken werden Daten üblicherweise in den folgenden drei Schritten analysiert: "Laden der Daten, Anlegen der Indizes und anschließend Abfragen der Daten". Insbesondere das Laden und die Erstellung der Indizes können bei Massendaten sehr zeitaufwändig sein, so das eine Echtzeitverarbeitung nicht möglich ist. Hier wurde ein neues Datenmodell entworfen, mit denen Massendaten besser verarbeitet werden können, die continuous data streams. Dieses Gebiet ist noch Forschungsgegenstand, aber es gibt bereits prototypische data stream management systems, stream processing engines und eine Erweiterung von SQL namens Continuous Query Language (CQL).

Weitere Lektüre

Siehe die folgenden Links für weitere Lektüre.

Literatur über die Missbrauchserkennung

Artikel

Workshops und Konferenzen

Bibliographie

  • [AFR97] Emin Aleskerov, Bernd Freisleben, Bharat Rao. CARDWATCH: A Neural Network Based Database Mining System for Credit Card Fraud Detection. In: Proceedings of Computa- tional Intelligence for Financial Engineering (CIFEr), S. 220--226, 1997.
  • [AME98] Dean W. Abbott, I. Philip Matkovsky und John F. Elder. An Evaluation of High-End Data Mining Tools for Fraud Detection. In: Proceedings of the 1998 IEEE International Conference on Systems, Man, and Cybernetics, vol. 3, pp. 2836-2841, 1998.
  • [ATW97] Suhaya Abu-Hakima, Mansour Toloo, Tony White. A Multi-Agent Systems Approach for Fraud Detection in Personal Communication Systems. In: [Faw97], 1997.
  • [Axe99] Stefan Axelsson. The Base-Rate Fallacy and its Implications for the Difficulty of Intrusion Detection. In: Proceedings of the 6th ACM Conference on Computer and Communications Security, pp. 1-7, 1999.
  • [BH] Richard J. Bolton, David J. Hand Statistical Fraud Detection: A Review. Statistical Science, 17(3), 235-255.
  • [BLH99a] R. Brause, T. Langsdorf, M. Hepp. Credit Card Fraud Detection by Adaptive Neural Data Mining. Internal Report 7/99, FB Informatik, University of Frankfurt a.M., 1999
  • [BLH99b] R. Brause, T. Langsdorf, M. Hepp. Neural Data Mining for Credit Card Fraud Detection. In: Proceedings of the 11th IEEE International Conference on Tools with Artificial Intelligence. pp. 103--106. 1999.
  • [BS97a] Peter Burge, John Shawe-Taylor. Detecting Cellular Fraud Using Adaptive Prototypes. In: [Faw97].
  • [BS97b] Peter Burge, John Shawe-Taylor. Fraud-Management Tools: First Prototype. ASPeCT -- Project, Januar 1997. See [ASPeCT].
  • [BSCMPS97] P. Burge, J. Shawe-Taylor, C. Cooke, Y. Moreau, B. Preneel, C. Stoermann. Fraud Detection and Management in Mobile Telecommunications Networks.
  • [CCLPS00] Michael Cahill, Fei Chen, Diane Lambert, José Pinheiro, Don X. Sun. Detecting Fraud in the Real World. In: Handbook of Massive Datasets. Kluewer. 2002.
  • [CFPS99] Philip K. Chan, Wei Fan, Andreas L. Prodromidis, Salvatore J. Stolfo. Distributed Data Mining in Credit Card Fraud Detection. In: IEEE Intelligent Systems, Bd. 14, Nr. 6, S. 67--74, 1999.
  • [CLPS99] Fei Chen, Diane Lambert, José Pinheiro, Don Sun. Reducing Transaction Databases, Without Lagging Behind the Data or Losing Information. Unpublished, 1999.
  • [DB98] Steven K. Donoho, Scott W. Bennett. Fraud Detection and Discovery.
  • [DC98] J. R. Dorronsoro, C. Santa Cruz. Discrimination of overlapping data and credit card fraud detection. Technischer Bericht, Department of Computer Engineering, Universidad de Madrid, 1998.
  • [DGSC97] Jose R. Dorronsoro, Francisco Ginel, Carmen Sanchez, Carlos Santa Cruz. Neural Fraud Detection in Credit Card Operations. In: IEEE Transactions on Neural Networks, Nr. 4, Bd. 8, Juli 1997.
  • [EN96] Kazuo J. Ezawa, Steven W. Norton. Constructing Bayesian Networks to Predict Uncollectible Telecommunications Accounts. IEEE Expert, Nr. 5, Bd. 11, S. 45--51, 1996.
  • [Faw97] Tom Fawcett. AI Approaches to Fraud Detection & Risk Management --- Papers from the 1997 AAAI Workshop, Technical Report WS-97-07, Juli 1997, AAAI-Press.
  • [FP97a] Tom Fawcett and Foster Provost. Adaptive Fraud Detection. Data Mining and Knowledge Discovery, vol. 1, no. 3, p. {291-316}. 1997.
  • [FP97b] Tom Fawcett, Foster Provost. Combining Data Mining and Machine Learning for Effective Fraud Detection. In: [Faw97].
  • [Gos97] Phil Gosset. Fraud Detection Concepts: Final Report. ASPeCT -- Project, November 1997. See [ASPeCT].
  • [GH99] Phil Gossett, Mark Hyland. Classification, Detection and Prosecution of Fraud on Mobile Networks. Proceedings of ACTS Mobile Summit, Sorrento, Italy, Juni 1999.
  • [GR94] Sushmito Ghosh, Douglas L. Reilly. Credit Card Fraud Detection with a Neural-Network. In: Proceedings of the 27th Hawaii International Conference on Information Systems, S. 621-- 630, 1994.
  • [HDA98] Mark Hyland, Jos Dumortier, Diana Alonso Blas. Legal Aspects of Fraud Detection. ASPeCT-Project. See [ASPeCT].
  • [HS08] Constantinos S. Hilas, Paris As. Mastorocostas. An Application of Supervised and Unsupervised Learning Approaches to Telecommunications Fraud Detection. Knowledge-Based Systems, 21, pp 721 – 726, 2008. doi:10.1016/j.knosys.2008.03.026.
  • [HS09] Constantinos S. Hilas, Paris As. Mastorocostas. Designing an expert system for fraud detection in a private telecommunications network. An Application of Supervised and Unsupervised Learning Approaches to Telecommunications Fraud Detection. Expert Systems with Applications. 2009. doi: 10.1016/j.eswa.2009.03.031.
  • [HS05] Constantinos S. Hilas, John N. Sahalos. User profiling for fraud detection in telecommunication networks. In: 5th International Conference on Technology and Automation, Thessaloniki, Greece, October 2005. pp 382-387.
  • [HS06] Constantinos S. Hilas, John N. Sahalos. Testing the fraud detection ability of different user profiles by means of FFNN classifiers. In: Collias St. et al ed.. Lecture Notes in Computer Science, vol. 4132, Part II, 2006. pp 872-883.
  • [HS07] Constantinos S. Hilas, John N. Sahalos. An application of decision trees for rule extraction towards telecommunications fraud detection. In: B. Apolloni et al. (Eds.): KES 2007/ WIRN 2007, Lecture Notes in Artificial Intelligence, vol. 4693, Part II, Springer. 2007, pp. 1112–1121.
  • [Jen97] David Jensen. Prospective Assessment of AI Technologies for Fraud Detection: A Case Study.
  • [KKN99] Daniel A. Keim, Eleftherios E. Koutsofios, Stephen C. North. Visual Exploration of Large Telecommunication Data Sets. In: User Interfaces to Data Intensive Systems, S. 12-- 20, 1999.
  • [MP96] Yves Moreau, Bart Preneel. Definition of Fraud Detection Concepts. ASPeCT -- Project, August 1996. See [ASPeCT].
  • [OTA95] U. S. Congress, Office of Technology Assessment. Information Technologies for Control of Money Laundering. U. S. Government Printing Office, OTA-ITC-630, Washington DC, September 1995.
  • [PF97] Foster Provost, Tom Fawcett. Analysis and Visualization of Classifier Performance: Comparison under Imprecise Class and Cost Distributions. In: Proceedings of the Third International Conference on Knowledge Discovery and Data Mining (KDD-97), 1997.
  • [PF01] Foster Provost, Tom Fawcett. Robust Classification for Imprecise Environments. In: Machine Learning, vol. 42, no. 3, pp. 203-231, 2001.
  • [PFK98] Foster Provost, Tom Fawcett, Ron Kohavi. The Case Against Accuracy Estimation for Comparing Induction Algorithms. Proceedings of the Fifteenth International Conference on Machine Learning (ICML-98), July 1998.
  • [Sal97] Steven Salzberg. On Comparing Classifiers: Pitfalls to Avoid and a Recommended Approach. In: Data Mining and Knowledge Discovery, Nr. 3, S. 317--328, 1997.
  • [SFLPC97] Salvatore J. Stolfo, David W. Fan, Wenke Lee, Andreas L. Prodromidis, Philip K. Chan. Credit Card Fraud Detection Using Meta-Learning: Issues and Initial Results. In: [Faw97].
  • [Stö97] Christof Störmann. Fraud Management Tool: Evaluation Report. ASPeCT - Project, Oktober 1997. See [ASPeCT].

Fraud Management Systeme und Services

Diese List enthält Fraud Management Systems, nicht einzelne Komponenten, wie z. B. Data-Mining-Tools.

In alphabetischer Reihenfolge. Diese Liste ist nicht vollständig. Die Namen der Software-Produkte sind in eckigen Klammern aufgeführt.

Komponenten von Fraud Management Systemen

Fraud Management Systeme werden oft aus den üblichen Software-Komponenten, wie z. B. Datenbasen, Data-Mining- oder Visualisierungs-Tools erstellt.

In alphabetischer Reihenfolge. Diese Liste ist nicht vollständig.

Leute und Forschungsgruppen in der Missbrauchserkennung

Forschungsgruppen

  • ASPECT, Advanced Security for Personal Communications Technologies

Leute

Die folgende Liste enthält einige Forscher und Entwickler, die in die Missbrauchserkennung gearbeitet haben.

Verwandte Themen

Künstliche Intelligenz

Statistik

Intrusion Detection Systeme

Anmerkung: Dieser Artikel wurde im November 2016 an das neue Blog-Format angepasst.

 "Bibliothek für Geometrische Algorithmen in Haskell" "The Graphical Editor Framework (GEF)"