Werbung von
Stockpulse

Warum Künstliche Intelligenz auf die Dienste virtueller Fischkutter angewiesen ist

Stockpulse · Uhr

In den vergangenen Beiträgen meiner kleinen Kolumne hier auf onvista.de habe ich Ihnen das Thema Künstliche Intelligenz (KI) an der Börse anhand unseres KI-gesteuerten TIXX (Deutschland Top Aktien Index) erläutert. Mich haben in den vergangenen Wochen etliche Fragen zur Datengrundlage erreicht. Wie genau erstellen die intelligenten Algorithmen bei Stockpulse also diejenigen Sentiment-Analysen, die wiederum zur Aktien-Auswahl für den TIXX führen? Insgesamt ein hochkomplexes und zugleich hochspannendes Thema, das ich in mehreren Folgen gerne erläutern werde. Heute geht es um die Frage, wie genau wir an das Rohmaterial für unsere vollautomatisierten Analysen kommen.

Grundlage der erfolgreichen Stockpulse-Analysen sind User-Beiträge in Foren, Tweets auf X (aka Twitter), klassische News, Kommentare unter diesen News, Ad hoc-Meldungen oder auch Videos. Aus diesen täglich etlichen Millionen von Text-Snippets generieren wir zuverlässige Sentiment-Analysen; wir fangen also die Stimmung der Marktteilnehmer und der Medien treffsicher ein. Bevor unsere Systeme aber ein positives, neutrales oder negatives Sentiment für eine Aktie, einen Index, Krytowährungen oder gar Rohstoffe erstellen kann, müssen Unmengen an Rohdaten eingesammelt werden. Dafür nutzen wir eigens entwickelte Crawler (manche übersetzen diese Software-Tools auch gerne als "Fischkutter des Internets"). Diese Crawler sind permanent im Einsatz und beobachten - im Falle von Stockpulse - rund um die Uhr Aber-Tausende von für unsere Zwecke relevante Quellen: etwa X (Twitter), Reddit oder Aktien-Foren auf Wallstreet-Online, aber auch klassische News-Seiten. Ähnlich wie der Suchmaschinen-Gigant Google werten die Crawler die relevanten Quellen permanent aus und suchen nach neuen Beiträgen. Ins "Netz" des Crawlers gelangen dabei täglich etliche Millionen Datensätze - und jede Menge "Beifang", ähnlich wie bei einem echten Fischkutter. Wichtig dabei: Ebenso wie Google crawlen wir nur öffentlich verfügbare Quellen und Beiträge. Geschlossene Nutzergruppen, etwa auf Facebook, bleiben tabu. Tag für Tag sammelt Stockpulse so etliche Millionen Tweets, Kommentare und Beiträge ein - für einen einzelnen Menschen eine schier unglaubliche Menge an unsortierten Daten, die kaum jemand eigenhändig überblicken oder gar komplett lesen kann. Das Crawlen bei Stockpulse beschränkt sich übrigens nicht nur auf Textbeiträge - unsere Systeme beobachten auch die öffentlich verfügbaren Video-Beiträge auf TikTok und Youtube; auf diesen stark besuchten Social Media-Plattformen finden sich mittlerweile sehr viele relevante Beiträge rund um die Finanzmärkte. Videos automatisiert auszuwerten und zu treffsicheren Sentiment-Analysen zu verdichten, stellt dabei eine ganz komplexe Herausforderung dar. Die Bewegtbilder müssen für unsere Algorithmen "lesbar" sein - also werden die Tonspuren sowie die Text-Einblendungen in Textsnippets konvertiert, um sie für unsere Systeme schliesslich verarbeitbar zu machen und - erneut besonders wichtig -, auch der Video-Content muss eindeutig und fehlerfrei auf Finanztitel wie Aktien, Indizes oder Kryptowährungen zugeordnet werden können.

Liegen die eingesammelten Text-Snippets einmal vor, beginnt der zweite Teil der Arbeit - und der ist nicht minder hochkomplex wie das permanente Crawlen: Zuallererst gilt es, den ungewünschten "Beifang" auszusortieren, also typischen Spam oder unrelevanten Content von News-Bots, die das Internet überfluten und Leser in eine falsche Richtung lenken möchten oder gar Falschnachrichten verbreiten. Hier setzen wir bei Stockpulse auf eigene, selbstlernende Algorithmen, die in den vergangenen mehr als 13 Jahren einen grossen Erfahrungsschatz im Umgang mit Spam und Bots gesammelt haben - und diesen "Beifang" zuverlässig erkennen und aussortieren können.

Und schliesslich müssen die gesammelten Daten korrekt einzelnen Aktien, Indizes oder anderen Finanzinstrumenten zugeordnet werden. Klingt einfach, ist aber für Algorithmen eine echte Herkulesaufgabe. "Apple" kann sowohl für die Aktie des weltweit wertvollsten Unternehmens stehen, aber eben auch für eine Frucht (in diesem Fall dann nicht relevant für uns). Das Wort "Telekom" lässt nicht ohne weiteres auf die Aktie der Deutschen Telekom schliessen, hier könnte auch ein Konkurrent oder gar die gesamte Telekommunikationsbranche gemeint sein. Ohne diese Zuordnung haben die Daten für unsere Kunden wie Hedgefonds, Aufsichtsgremien von Börsenplätzen oder andere Finanzakteure kaum einen Wert. Es reicht also nicht aus, einfach nur News, Tweets und Kommentare zu sammeln, sondern sie müssen präzise den entsprechenden Unternehmen oder Finanzinstrumenten zugeordnet werden. Nur so erhalten die Informationen eine echte Relevanz und können die Grundlage für unsere umfangreichen Big Data-Analysen bilden.

In einer der nächsten Kolumnen gehe ich näher auf die konkrete Analyse der eingesammelten Daten ein - dabei um die Analyse von unstrukturierten Texten mit Hilfe von Natural Language Processing (NLP) und Deep Learning Methoden. Sie dürfen gespannt sein.

Zum Ende meiner Kolumne - Sie kennen das bereits - der übliche Abbinder und Disclaimer: Die Entwicklung des Deutschland Top Aktien Index (TIXX) ist unter der ISIN DE000A26RWY8 abrufbar. Ein direktes Investment in den TIXX ist nicht möglich. Für Anleger hat UniCredit ein Index-Zertifikat auf den Deutschland Top Aktien Index aufgelegt, das die Entwicklung dieses Index nahezu 1:1 abbildet. Die Entwicklung dieses Index-Zertifikats ist unter der ISIN DE000HZ5UBV2 abrufbar. Sämtliche Informationen zum Deutschland Top Aktien Index sind erhältlich unter https://tixx.one

Wichtiger Hinweis zur Performance: Vor der erstmaligen Berechnung des Deutschland Top Aktien Index (Net Return Index) am 20.12.2019 werden historische Performance-Daten auf Basis eines Backtests vorgehalten (seit 19.09.2012).

onvista Premium-Artikel

Wirecard
"Im Prinzip war das ein Panikkauf"gestern, 08:59 Uhr · onvista
"Im Prinzip war das ein Panikkauf"