Kommentare

Die Vor- und Nachteile von KI und maschinellem Lernen in Antivirus-Software

Jareth
19. März 2020
5 min Lesezeit

Bei Antivirus-Software gibt es immer wieder einige Anbieter, die auf maschinelles Lernen als Wunderwaffe gegen Malware schwören. Doch wie viel Wahrheit steckt in diesen Behauptungen?

In dem heutigen Beitrag geben wir Ihnen einen Einblick, wie maschinelles Lernen für Antivirenprogramme eingesetzt wird und ob es wirklich die perfekte Sicherheitslösung ist.

Wie funktioniert maschinelles Lernen?

In der Antivirenbranche wird maschinelles Lernen in der Regel verwendet, um die Erkennungsleistung eines Produkts zu verbessern. Während herkömmliche Technologie zum Erkennen von bösartigen Mustern auf Codierungsregeln bauen, erstellen Algorithmen des maschinellen Lernens basierend auf Beispieldaten ein mathematisches Modell für die Vorhersage, ob eine Datei „gut“ oder „böse“ ist.

Einfach erläutert: Mithilfe eines Algorithmus werden die beobachtbaren Datenpunkte zweier manuell erstellten Datensätze analysiert. Einer davon enthält nur bösartige Dateien und der andere nur unschädliche Dateien.

Der Algorithmus entwickelt dann Regeln, mit denen er gute von schlechten Dateien unterscheiden kann, ohne spezifische Anweisungen dafür zu erhalten, auf welche Muster oder Datenpunkte geachtet werden muss. Ein Datenpunkt ist eine beliebige zu einer Datei gehörige Informationseinheit, wie die interne Dateistruktur, welcher Compiler verwendet wurde, die für die Datei zusammengestellten Textressourcen und so weiter.

Der Algorithmus berechnet und optimiert das Modell dann weiter, bis er ein präzises Erkennungssystem entwickelt hat, das (idealerweise) gute Programme nicht als bösartig und bösartige Programme nicht als gut klassifiziert. Das Modell wird weiterentwickelt, indem die Bedeutung jedes Datenpunktes geändert wird. Mit jeder Iteration wird das Modell beim Erkennen und Unterscheiden gut- und bösartiger Dateien etwas genauer.

Maschinelles Lernen kann beim Erkennen neuer Malware helfen

Maschinelles Lernen kann Antivirenprogrammen helfen, neue Bedrohung auch ohne Signaturen zu erkennen. In der Vergangenheit war Antivirus-Software großteils auf Fingerabdruck-Methoden angewiesen, also der Abgleich einer Datei mit einer großen Datenbank bekannter Malwares.

Der große Nachteil hierbei ist, dass dabei nur Malwares erkannt werden können, die bereits zuvor in Erscheinung getreten sind. Angesichts der Hundertausenden neuen Malware-Varianten, die jeden Tag hinzukommen, bleibt dabei ein recht großer blinder Fleck.

Maschinelles Lernen kann hingegen darauf trainiert werden, die Symptome guter und schädlicher Dateien zu erkennen. Auf diese Weise kann es bösartige Muster identifizieren und Malware erkennen, egal ob diese vorher schon einmal beobachtet wurde oder nicht.

Die Grenzen von maschinellem Lernen

Auch wenn maschinelles Lernen eine sehr nützliche Technologie ist, so sind ihr doch Grenzen gesetzt.

Ausnutzbar

Eine der größten Schwächen liegt darin, dass es die Auswirkungen des von ihm entwickelten Modells nicht versteht. Es verwendet schlicht das effizienteste, mathematisch bewiesene Verfahren, um Daten zu verarbeiten und Entscheidungen zu treffen.

Wie bereits erwähnt, werden die Algorithmen mit Millionen Datenpunkten gefüttert, wobei jedoch niemand festlegt, welche Datenpunkte genau Anzeichen für Malware sind. Das muss das selbstlernende Modell selbst herausfinden.

Man kann also nie wirklich wissen, welche Datenpunkte laut dem Modell eine Bedrohung anzeigen könnten. Es könnte nur ein einziger Datenpunkt sein oder aber auch eine bestimmte Kombination aus 20 verschiedenen. Mit einiger Motivation können Angreifer theoretisch herausfinden, wie das Modell diese Parameter zum Erkennen einer Bedrohung verwendet, und dies zu ihrem Vorteil ausnutzen. Indem nur ein einziger, scheinbar nicht relevanter Datenpunkt in einer bösartigen Datei geändert wird, könnte das Modell ausgetrickst werden, die Malware als sicher zu klassifizieren, was den gesamten Sinn und Zweck des Modells aushebeln würde.

Um dieses Problem zu beheben, müsst der Anbieter die manipulierte Datei seinem Datensatz hinzufügen und das gesamte Modell neu berechnen lassen, was Tage oder Wochen dauern könnte. Allerdings würde damit das eigentliche Problem nicht behoben, selbst wenn das Modell neu erstellt wurde. Es wäre nur eine Frage der Zeit, bis Angreifer einen anderen Datenpunkt oder eine Kombination daraus finden, womit sich das System erneut überlisten ließe.

Genau das ist im Juli 2019 passiert, als Forscher von Skylight Cyber entdeckten, dass ein beliebtes KI-basiertes Sicherheitsprodukt bestimmte Dateien als Ausnahmen gesetzt hatte, um Fehlalarme zu vermeiden. Diese im Code als gutartig geführten Dateien waren in dem Bewertungssystem des Algorithmus von so großer Bedeutung, dass sie dessen natürlichen Entscheidungsprozess mit nahezu garantierter Wahrscheinlichkeit überschreiben würden. Sobald das Modell den in gutartigen Dateien enthaltenen Code erkannte, wurde die Datei als sicher gekennzeichnet – und das sogar, wenn er in einer anderweitig bösartigen Datei eingebettet war. Folglich konnten die Forscher den Algorithmus unterlaufen, indem sie schlicht Code-Zeilen aus einer als unschädlich geführten Spieledatei in eine bösartige Datei einfügten.

Die Forscher gaben an, dass dieser Angriff nicht möglich gewesen wäre, wenn das Produkt außerdem zusätzliche Schutztechnologien einsetzen würde, etwa einen Signatur-Scanner, der sich nicht auf Algorithmen verlässt, oder heuristische Analysen, die Bedrohungen anhand ihres Verhaltens anstatt der Dateiparameter erkennen.

Große, gut gekennzeichnete Datenbanken erforderlich

Maschinell lernende Systeme sind immer nur so gut, wie die dafür bereitgestellten Daten. Um ein wirksames Modell zu trainieren, ist eine gigantische Anzahl von Dateneingaben erforderlich, die auch noch alle richtig gekennzeichnet sein müssen. Durch diese Kennzeichnung kann das Modell bestimmte Eigenschaften zu den Daten (z. B. ob die Datei sauber, bösartig oder potenziell unerwünscht ist) besser verstehen.

Die Kennzeichnung einer Datenbank, die zum effektiven Anlernen eines Modells groß genug ist, ist überaus schwierig und aufwändig. Ein einziger falsch gekennzeichneter Eintrag unter Millionen perfekt gekennzeichneten Datenpunkten klingt nach nichts. Doch verwendet das Modell ausgerechnet diesen Eintrag zur Entscheidungsfindung, könnte das zu Fehlern führen, die dann den Ausgangspunkt für zukünftige Lernprozesse bilden. Der dadurch entstehende Schneeballeffekt kann später zu erheblichen Problemen führen.

Ein mehrschichtiger Ansatz für Cybersicherheit

Das maschinelle Lernen ist eine leistungsstarke Technologie, die in den kommenden Jahren in der Cybersicherheit weiter an Bedeutung gewinnen wird. Doch wie oben bereits erwähnt, hat sie auch Schwächen und Grenzen. Bei der Verwendung einer Antivirensoftware, die allein mit KI oder maschinellem Lernen arbeitet, bleiben Sie weiterhin anfällig für Malware oder andere Bedrohungen.

Lösungen, die mehrere Sicherheitstechnologien kombinieren, bieten einen wesentlich besseren Schutz als ein Produkt, das nur auf KI setzt. Emsisoft nutzt beispielsweise sowohl die Vorteile von KI und maschinellem Lernen als auch andere Schutztechnologien wie Verhaltensanalyse oder Signaturabgleiche. Diese Prozesse ergänzen sich und prüfen die jeweiligen Ergebnisse gegen, um Ihnen den bestmöglichen Schutz vor Malware zu bieten.

Setzen Sie nicht alles auf eine Karte, sondern verfolgen Sie eine mehrschichtige Sicherheitsstrategie. Auf diese Weise maximieren Sie die Wahrscheinlichkeit, dass Malware aufgehalten wird, bevor sie Ihr System infizieren kann.