Entscheidungsbäume mit Datenkarten

Apfel oder Popcorn? Eine enaktive Einführung in KI, maschinelles Lernen und Entscheidungsbäume mit Datenkarten

Kernidee

In dieser Unterrichtsreihe geht es darum Schülerinnen und Schülern (SuS) eine Vorstellung von maschinellem Lernen und Künstlicher Intelligenz zu vermitteln. Dies wird anhand von datenbasierten Entscheidungsbäumen erarbeitet. Die Umsetzung in dieser Reihe basiert hauptsächlich auf unplugged Materialien, die das handlungsorientierte Lernen auf enaktiver Ebene ermöglichen. Dies wird ergänzt durch eine digitale Lernumgebung, die zum Ende der Reihe flexibel einsetzbar ist. Der ausgewählte Kontext „Lebensmittel“ ist für alle SuS relevant und insbesondere auch für jüngere SuS geeignet.

Lebensmittel kann man anhand von Nährwertangaben als “eher empfehlenswert” oder “eher nicht empfehlenswert” klassifizieren. Dabei müssen mehrere Merkmale wie Fettgehalt, Zuckergehalt und Kalorien berücksichtigt werden. Ein mehrstufiges Regelsystem, mit dem solche Klassifikationen durchgeführt werden können, sind sogenannte Entscheidungsbäume (engl. decision trees). Solche Entscheidungsbäume kann man basierend auf Daten erstellen. Mit Daten ist hier gemeint: Man geht von einer Menge von Lebensmitteln aus, zu dem Nährwertangaben bekannt sind, und zu denen man weiß, ob sie eher empfehlenswert oder nicht empfehlenswert sind. Darauf aufbauend kann man “manuell” schrittweise Entscheidungsbäume erstellen, die die Lebensmittel zunehmend fehlerfreier klassifizieren. Dieser Erstellungsprozess kann auch automatisiert werden, um nach bestimmten Kriterien optimale Entscheidungsregeln zu finden. Die Automatisierung erfordert, jedes Lebensmittel als “Datenkarte” – das ist eine Liste von Zahlenwerten zu den verschiedenen Nährwertmerkmalen – digital zu repräsentieren. Ein maschinelles Lernverfahren entwickelt zu diesen Daten einen passenden (daten-basierten) Entscheidungsbaum. In der Praxis sind neben Entscheidungsbäumen auch andere Typen von Klassifikatoren – z.B. neuronale Netze – im Gebrauch, mit darauf angepassten maschinellen Lernverfahren.

Entscheidungsbäume haben den Vorteil, dass sie als Regelsystem von SuS verstanden werden können, ebenso können die Erstellungsverfahren eines Baumes zunächst manuell erarbeitet und dann am Computer automatisiert werden. Im Unterricht werden Lebensmittel zunächst als reale Datenkarten modellhaft repräsentiert und die SuS können Karten sortieren und klassifizieren, um sich auf einer enaktiven Ebene Verfahren anzueignen. Der Anspruch ist, einen Einblick “in den Maschinenraum” des maschinellen Lernens zu gewinnen und nicht nur vorgegebene Systeme, die eine völlige Black-Box bleiben, als Klassifikatoren mit Daten zu trainieren.

In dieser Unterrichtsreihe wird in ca. 9 Unterrichtsstunden in datenbasierte Entscheidungsbäume eingeführt. Dabei steht im Vordergrund, wie ein Entscheidungsbaum aufgebaut ist und wie die passenden Entscheidungsregeln datenbasiert hergeleitet werden. Dieser systematische, datenbasierte Erstellungsprozess kann dann als eine Methode des maschinellen Lernens automatisiert erfolgen und ein resultierender Entscheidungsbaum kann als eine Form künstlicher Intelligenz bezeichnet werden. Dazu erstellen SuS manuell mit Hilfe von Datenkarten eigene Entscheidungsbäume, um zu verstehen, erstens wie ein Entscheidungsbaum als Regelsystem aufgebaut ist, und zweitens wie man systematisch bei der Konstruktion vorgehen kann, um Entscheidungsbäume mit möglichst geringer Fehlklassifikationsanzahl zu erhalten. Ergänzend gibt es eine vorbereitete digitale Lernumgebung, in der SuS Entscheidungsbäume automatisiert erstellen können. Dabei lernen sie etwas über Künstliche Intelligenz und maschinelles Lernen. Sie lernen Entscheidungsbäume als gewinnbringende Repräsentation von Daten kennen, mit deren Hilfe Erkenntnisse gewonnen und Vorhersagen getroffen werden können, bei deren Anwendung aber auch Fehler passieren können.

Auf fachlicher Basis der deutschen Gesellschaft für Ernährung (DGE) wird das Thema Ernährung aufgegriffen, welches in der Sekundarstufe I behandelt werden sollte, aber aktuell in den Lehrplänen der verschiedenen Fächer unterrepräsentiert ist. Auf diese Weise wird das Thema maschinelles Lernen mit einem bildungsrelevanten Sachthema verknüpft. Der Kontext ist nicht typische für den Bereich KI und maschinelles Lernen, eignet sich aber für die Anbindung an die Erfahrungswelt aller SuS (unabhängig von Alter, Geschlecht, etc.). Es gibt dazu Verknüpfungsmöglichkeiten z. B. zum Biologieunterricht und die Behandlung des Kontextes kann einen Beitrag zu allgemeinbildendem Unterricht darstellen.

Zielgruppe

Informatik in Klasse 5 und 6 (alle Schulformen) – Anknüpfung an Biologie- und Mathematikunterricht möglich.

Empfehlung: Ab Klasse 6

Inhaltsfeld

“Künstliche Intelligenz und maschinelles Lernen” (insbesondere der Schwerpunkt: überwachtes Lernen mit Entscheidungsbäumen), “Daten und Information”

Vorkenntnisse

Basiskenntnisse über Nährwertangaben sind wünschenswert, entsprechende Erklärungen könnten aber auch in diesem Modul integriert werden

Zeitlicher Umfang

 8 bis 10 Unterrichtsstunden a 45 Minuten

Ziele

Bezogen auf Datenkarten Entscheidungsbäume:

Die SuS…

  • können einen Entscheidungsbaum als Regelsystem zum Klassifizieren von Objekten anwenden.
  • verstehen eine Datenkarte als Repräsentation eines Objekts, auf dem die Ausprägungen verschiedener Merkmale dieses Objekts erfasst sind.
  • erstellen Entscheidungsregeln zum Klassifizieren von Objekten hinsichtlich eines (Ziel-)Merkmals systematisch basierend auf Daten (in Form einer Sammlung von Datenkarten), d. h. basierend auf den Ausprägungen anderer (Prädiktor-)Merkmale der Objekte.
  • präsentieren und reflektieren eigene Entscheidungsbäume angemessen.
  • verstehen die Rolle von Daten als Grundlage für die Erstellung von Entscheidungsbäumen.
  • verstehen, dass Entscheidungsbäume Prognosen liefern sollen (Klassifikationen neuer Objekte) und deshalb mit neuen Daten getestet werden müssen und dass dabei Fehler in Form falscher Prognosen auftreten können.
  • bewerten Entscheidungsbäume anhand der Anzahl falsch klassifizierter Objekte in einem Datensatz.
  • beschreiben anhand ihrer manuellen Erfahrungen mit Datenkarten, wie ein Computer Entscheidungsbäume automatisiert erstellen kann und identifizieren diesen Vorgang als maschinelles Lernen.
Bezogen auf den Inhalt Lebensmittel:

Die SuS…

  • lernen die Bedeutung einzelner Nährwertangaben (Merkmale) bei Lebensmitteln und ihre Relevanz für die Qualitätsbewertung von Lebensmitteln kennen.
  • leiten aus den gegebenen Nährwertdaten ein Regelsystem ab, das Prognosen darüber trifft , ob ein (neues) Lebensmittel eher empfehlenswert oder eher nicht empfehlenswert ist.

Leitfragen

  • Wie kann man anhand der Nährwertangaben einen Entscheidungsbaum konstruieren, der die Beurteilung unterstützt, ob ein Lebensmittel eher empfehlenswert oder eher nicht empfehlenswert ist?
  • Wie kann man einen Entscheidungsbaum für dieses Problem automatisiert (durch maschinelles Lernen) erstellen lassen?

Unterrichtsverlauf

Teil 1: Einführung in den Kontext KI und Formulierung der Leitfrage
Phase Inhalt Ziele Material
1

Motivation
In dieser Phase wird als Einstieg ein fertiges KI-System exploriert. Dabei werden Vorkenntnisse aktiviert und erste Erkenntnisse über KI-Systeme und maschinelles Lernen gewonnen.

Aktivität
Die SuS probieren Google Quick Draw (https://quickdraw.withgoogle.com/) als ein fertiges KI-Systems aus. Die Webseite ist nach Aufrufen des Links selbsterklärend. Alle Schülerinnen und Schüler probieren Google Quick Draw aus – alle malen 10 Objekte, die automatisch von der Software vorgegeben werden. Die KI erkennt diese Objekte, wenn sie passend gezeichnet werden. Anschließend wird automatisch eine Übersicht angezeigt, was erkannt bzw. nicht erkannt wurde. Außerdem werden einige Beispiele gezeigt, die andere Personen zum gleichen Objekt gemalt haben, um die Datenbasis zu veranschaulichen, auf deren Grundlage die gemalten Objekte erkannt wurden.

Besprechung im Plenum
Anhand von Präsentation 1 und der vorherigen Aktivität kann diskutiert werden, dass ein KI bestimmte Objekte einer “Klasse” zuordnen kann. Dafür wird vorher aber eine passende Datenbasis benötigt, um bestimmte Objekte einer Klasse zu erkennen. Dazu benötigt man für jede Klasse digital repräsentierte Beispiele mit dem passenden Label. Google Quick Draw ist schon anhand sehr vieler Beispiele ‘vortrainiert’, daher sieht man hier Klassifikationen mit nur wenigen Fehlern. Eine untrainierte KI würde am Anfang viele Fehler machen.
Im folgenden wird die Leitfrage der Unterrichtsreihe aufgeworfen: Damit durch maschinelles Lernen eine KI zum Klassifizieren von Objekten erstellt werden kann, müssen zunächst Beispiele geliefert werden. Ein Beispiel ist jeweils ein Objekt, das durch bestimmte Merkmale beschrieben wird und mit einem Label versehen ist, das die Zugehörigkeit zu einer Klasse kennzeichnet. Aber wie genau funktioniert dieses maschinelle Lernen? Dies wird in den folgenden Stunden an der Methode Entscheidungsbäume thematisiert. “Es ist erstaunlich, wie ein Computer “lernen” kann Objekte zuzuordnen, allerdings ist es mysteriös, wie dieser Lernprozess funktioniert. Dem gehen wir in den folgenden Stunden nach.”

Vertiefungsmöglichkeit:
Schön aufbereitetes Video, das Bilderkennung vertieft:
https://www.youtube.com/watch?v=HmUzceKCI9I&list=PL4puIg9yEU6yn_XR0TiSLroYO3KAlZmYY&t=1s
Mit Hilfe von KI-Systemen können u. A. Bilder klassifiziert werden, zum Beispiel, ob ein Hund oder eine Katze zu sehen ist. Maschinelles Lernen ermöglicht das Erstellen solcher KI-Systeme auf der Basis von Trainingsdaten mit Hunde und Katzenbildern.

Mögliche Metapher: Man kann gewisse Parallelen zwischen maschinellem Lernen und dem Lernprozess kleiner Kinder erkennen. Kinder lernen dadurch, dass wir ihnen Objekte zeigen, die Namen dazu sagen und alles so lange wiederholen, bis sie Hunde von Katzen unterscheiden können. Z. B. wird bei der Begegnung von Hunden „Hund“ und bei Katzen „Katze“ von Erwachsenen oft genug gesagt, so dass das Kind irgendwann lernt, was eine Katze ist und was ein Hund. Durch Vorsagen und Korrektur.
Das Vorgeben von Beispielen und der passenden Lösung wird auch beim maschinellen Lernen genutzt. Die Beispiele werden als Daten gespeichert (z. B. Fotos von Hunden bzw. Katzen) und mit einem passenden Label versehen, das die richtige Lösung enthält.

Hintergrundinformationen
Bei dieser Form des maschinellen Lernens (überwachtes Lernen) zur Klassifikation von Objekten wird wie folgt vorgegangen. Es werden verschiedene Beispielobjekte erfasst und mit Labeln gekennzeichnet.  Ein Label ist ein Etikett, das anzeigt welcher Klasse dieses Beispiel angehört. Z. B. erhalten Fotos von Katzen das Label „Katze“ und die von Hunden das Label „Hund“, je nachdem was auf dem Bild erkannt werden soll. Jedes Foto hat außerdem verschiedene, digital repräsentierte Eigenschaften, die durch Merkmale beschrieben werden und verschieden ausgeprägt sein können. (Anmerkung: Die Eigenschaften, die ein Mensch einem Foto zuweist, unterscheiden sich von den digitalen Merkmalen. Ein Foto besitzt Merkmale, wie z.B. Farbwerte einzelner Pixel, die in einem mL-Prozess zum Erstellen eines Regelsystems genutzt werden. Vereinfachend sprechen wir mit Schülerinnen und Schülern nur von “dem“ Foto). Durch maschinelles Lernen wird anhand der Merkmale der Objekte ein Regelsystem erstellt, das die Objekte den passenden, vorgegebenen Labeln zuordnet. Ein solch fertiges Regelsystem bezeichnet man als KI oder KI-System. Einen automatisierten Erstellungsprozess der KI nennt man dann maschinelles Lernen.

Begriffe: KIMachinelles Lernen, Objekt, KlasseLabel, Merkmal

KI-Systeme können Dinge einer Klasse zuordnen (Klassifikation)

Für maschinelles Lernen benötigt man Beispiele mit dem passenden Label einer Klasse (Trainingsdaten)

Phase Inhalt Ziele Material
2

Motivation
Es existiert ein Ampelsystem für Ernährung, zum Beispiel im Supermarkt (diese basieren i. d. R. nicht auf maschinellem Lernen) – Ein Ziel innerhalb der Unterrichtsreihe ist es allerdings ein ähnliches Regelsystem mit Methoden des maschinellen Lernens zu erstellen.
In dieser Stunde erfolgt dafür ein Einstieg in den Datenbegriff und das Thema Lebensmittel. Dazu begreifen wir Nährwertangaben als Ausprägung von Merkmalen von Lebensmitteln. Somit kann ein Lebensmittel durch eine Liste von Zahlen (Nährwertangaben) repräsentiert werden. Außerdem soll diese Stunde die SuS hinführend zu einer Unterscheidung von “eher empfehlenswerten” und “eher nicht empfehlenswerten Lebensmitteln” Grundlage dafür, ob ein Lebensmittel empfehlenswert ist, kann zum Beispiel die Ernährungspyramide der DGE sein.

Aktivität
Verschiedene Lebensmittel(-verpackungen) präsentieren (z.B. Knäckebrot, Chips, Gummibärchen, Salami, etc.)

Verschiedene Fragen können diskutiert werden: „Welche Daten findet ihr hier?“ – „Welche Rolle können Daten für unsere Ernährung spielen?“ – „Warum stehen diese Daten auf allen Lebensmittelverpackungen?

Optionaler Input (ggf. Kooperation mit Biologieunterricht): Nährstoffgruppen: Man braucht verschiedene Nährstoffgruppen, am besten täglich. Angaben findet man vor allem über allem Kohlenhydrate, Eiweiß, Fett, Salz, Zucker. Wovon sollte man eher viel oder eher weniger essen?

Begriffe: ObjektMerkmal, Merkmalsausprägung, Klassifikation

Nährwertangaben verstehen

Èinführung in Begrifflichkeiten rund um Daten

Verpackte Lebensmittel mit Nährwertangaben

Arbeitsblatt 1

3D-Ernaehrungspyramide
(zum Basteln)

Phase Inhalt Ziele Material
3

Motivation
Die zu entwickelnde künstliche Intelligenz soll später basierend auf Nährwertangaben vorschlagen, ob ein Lebensmittel eher empfehlenswert oder eher nicht empfehlenswert ist. Wenn ein KI-System mit maschinellem Lernen erstellt wird, dann werden dafür Beispiele benötigt repräsentiert als Trainingsdaten. Ein Beispiel ist jeweils ein Objekt (Lebensmittel), das durch bestimmte Merkmale (Nährstoffe) beschrieben wird und mit einem Label („eher empfehlenswert“ oder „eher nicht empfehlenswert“) versehen ist. Eine Sammlung und Darstellung solcher Beispiele bezeichnen wir als Daten. In dieser Stunde werden solche Beispiele in Form von Daten mit Hilfe der Datenkarten hergestellt.

Aktivität
Die SuS modellieren den Datensatz mit dem später gearbeitet wird, um basierend darauf Entscheidungsbäume zu erstellen. Dafür vergeben sie zunächst in Partnerarbeit die Label „eher empfehlenswert“ oder „eher nicht empfehlenswert“ für alle blauen Datenkarten (blaue Karten = Trainingsdaten). Dabei können sich die SuS an der Lebensmittelpyramide und an ihrem Alltagswissen über Lebensmittel orientieren (jeweils 2 SuS haben ein Arbeitsblatt 2 zur Verfügung). Anschließend werden die Label im Klassenverband diskutiert, um sich zu einigen.

Besprechung der Aktivität

Es wird ein allgemeinen Konsens hergestellt, welche Nahrungsmittel welches Label erhält. Zwei Möglichkeiten:

Abstimmung im Plenum,

Abstimmung in Onlineumfrage (als HA möglich, entlastet Unterrichtszeit, stärkere Vorbereitung der Diskussion möglich)
Alle Karten werden gemeinsam durchgegangen um gemeinsam die Label an die Karten zu heften. Dafür wird entweder Live übder das Label angestimmt oder es wird basierend auf der vorher durchgeführten Onlineumfrage gemacht. Ablauf:

1. Jede Schüler:innengruppe bekommt ein Kartenspiel (die Karten auf jeden Fall in der Reihenfolge lassen, wie sie in der Schachtel sind, damit alle SuS die Karten in der gleichen Reihenfolge vorliegen haben)

2. Gemeinsam wird besprochen und festgelegt, welches Label die erste blaue Datenkarte (Haselnussschnitte) bekommen soll. Zunächst wird einfach abgestimmt. Wenn keine klare Mehrheit zustande kommt, wird diskutiert.

3. Falls auch nach der Diskussion keine Einigkeit erzielt wird, kann die Karte beiseitegelegt werden. Andernfalls stecken alle Schüler eine passend farbige Büroklammer an die Datenkarte.

1., 2. und 3. werden für die weiteren Karten wiederholt

Leitung der Diskussion: Die Lehrkraft kann die Diskussionen im Plenum moderieren und ggf. bei groben Fehleinschätzungen (z.B. Gurke als “eher nicht empfehlens-wert”) eingreifen.  Eine Orientierung liefert die Datei Rumpfdatensatz_28.csv, in der die besonders eindeutig zuzuordnenden Lebensmittel zu finden sind. Einzelne Abweichungen von diesem Vorschlag sind aber nicht weiter schlimm, d.h. die Diskussion muss nicht strikt geleitet werden. In vielen Unterrichtserprobungen hat sich gezeigt, dass per Mehrheitsvotum der Großteil der Lebensmittel wie im Vorschlag zugeordnet wird. Zur Weiterarbeit empfehlen sich ca. 30 Karten mit Label (etwa 10 beiseite legen). Die Karten aus Rumpfdatensatz_28.csv sollten größtenteils enthalten sein, um in der Weiterarbeit gute Ergebnisse zu erzielen.

Jede Schülergruppe und die Lehrkraft haben im Anschluss einen nach Klassen-konsens mit Labeln versehenen Datensatz. Arbeitsblatt 2 kann im späteren Unterrichtsverlauf als Erinnerung dienen, welche Karte in welcher Farbe gelabelt wurde, falls zwischen den Unterrichtsstunden Label abgefallen sind.

Begriffe: Daten, Beispiel, Objekt, Merkmal

Labeln von Lebensmittelkarten = Modellierung der Realität

Maschinellen Lernprozess vorbereiten durch Herstellen eines geeigneten einheitlichen Trainingsdatensatzes

Arbeitsblatt 2
(in Farbe ausdrucken!)

Rumpfdatensatz

Phase Inhalt Ziele Material
4

Motivation
Ziel innerhalb der Unterrichtsreihe ist es, ein mehrstufiges Regelsystem zur Klassifikation von Lebensmitteln zu erstellen. Dafür lernen die SuS in dieser Stunde zunächst Entscheidungsregeln (einstufige Entscheidunsgbäume) aus den Daten abzuleiten. Dies wird mit dem Konzept des Datensplits umgesetzt, das in dieser Stunde eingeführt wird. Dabei werden die Datenkarten anhand eines Merkmals und eines sogenannten Schwellenwerts in zwei Teilgruppen aufgeteilt (z.B. Lebensmittel mit bis zu 10 g Fett und über 10 g Fett). In beiden Teilgruppen wird dann geschaut, ob die Mehrheit eher empfehlenswert oder eher nicht empfehlenswert ist. Wenn in den Teilgruppen unterschiedliche Label zu finden sind (was in den allermeisten Fällen so ist), gibt es in beiden Teilgruppen Lebensmittel, die von der Mehrheits-entscheidung abweichen. Diese werden als Fehler oder Fehlklassifikationen bezeichnet. Es gilt deshalb den Schwellenwert zu finden, der möglichst wenige Fehler hervorbringt (Anzahl der Fehlklassifikationen). Die Entscheidungsregeln werden in dieser Stunde exemplarisch mit Hilfe des Merkmals Energie erstellt.

Erarbeiten der Zielstellung für das Erstellen einer Entscheidungsregel:

Anahnd von Präsentation 2 kann die Zielstellung beim Formulieren einer Entscheidungsregel erarbeitet werden. Der Optimalfall (Zeilstellung) liegt vor, wenn man einen Schwellenwert findet, sodass auf einer Seite des Schwellenwerts möglichst nur eher nicht empfehlenswerte Lebensmittel zu finden sind und auf der anderen Seite nur eher empfehlenswerte. Eine solch “perfekte” Regel, mit der man von den vorliegenden Trainingsdaten kein Lebensmikttel falsch klassifiziert, findet man meistens nicht, aber man versucht möglichst nah dran zu kommen, sodass möglichst wenige Lebensmittel falsch klassifiziert werden.

Aktivität:

Lebendige Statistik durchführen, um das bilden von Datensplits und das vergleichen von Schwellenwerten zu thematisieren:

1. Alle SuS gehen nach vorne und holen sich eine gelabelte Karte ab und repräsentiert nun das Lebensmittel auf der Karte

2. Die Lehrkraft erläutert zunächst, dass nun eine Entscheidungsregel gesucht wird und formuliert die Zielstellung (s.o.). Nun gibt sie ein Merkmal und einen Schwellenwert vor (z.B. Energie, 350 kcal) und dann wird der Datensplit in der Klasse am Merkmal Energie durchgeführt. Das bedeutet: Alle, die eine Karte mit einem Energiewert ≤ 350 haben, gehen nach links, alle mit einem Energiewert >350 gehen nach rechts. Daraus entstehen zwei Teildatensätze.

3. Nun wird per Handzeichen erhoben, wie die Anzahlen von ‚eher empfehlenswert‘ und ‚eher nicht empfehlenswert‘ in den Teildatensätzen sind und an der Tafel festhalten

4. Den Baum an der Tafel mitzeichnen als Strukturierungshilfe für SuS (s.u. )

5. Diskussion: In welcher Teilgruppe befinden sich eher empfehlenswerte Lebensmittel? Ziel: Aufstellen und Verbalisieren einer Entscheidungsregel per Mehrheitsentscheidung. (“Wenn ein Lebensmittel weniger als 350 kcal hat…”)

6. Vorgeben eines weiteren Schwellenwertes und Wiederholen der Prozedur (z.B. Minimum der eher nicht empfehlenswerten Lebensmittel)

7. Vergleich der beiden Datensplits (Bei welchem ist die Anzahl der Fehlklassifikationen niedriger?)

8. Geben eines weiteren Schwellenwerts und Wiederholen der Prozedur

9. Vergleich der drei Datensplits (Welcher ist der beste?)

Hinweis zur Durchführung der lebendigen Statistik

Man kann aufgrund der begrenzten Anzahl an SuS meist nicht alle Karten für die lebendige Statistik verwenden. Man sollte dabei darauf achten, dass keine ungünstigen Stichproben der Karten genutzt werden. Manche Stichproben vereinfachen das Problem zu stark, sodass man zu schnell perfekte Regeln findet. Wir schlagen dafür einen Rumpfdatensatz vor, mit dem die Phase gut durchgeführt werden kann. Vorschläge für Rumpfdatensätze verschiedener Größe finden sich in den Dateien „Rumpfdatensatz_22.csv“ und „Rumpfdatensatz_28.csv“. Leichte Abweichungen von den Rumpfdatensätzen sind kein Problem.

Reflexion

Zur Aktivität

Für ein Merkmal haben wir ausprobiert/herausgefunden, wie wir durch mit verschiedenen Schwellenwerten Entscheidungsregeln aufstellen und vergleichen können. Von allen in Betracht gezogenen können wir sogar die beste Regel finden.

Eine Entscheidungsregel ist schon ein kleiner Entscheidungsbaum mit nur einer Ebene (Aber: Der Baum ist noch nicht sehr gut, da er noch einige Fehler macht)

Jetzt: Wir wollen nun noch mehr Entscheidungsregeln überprüfen

Später: können dann noch Entscheidungsregeln in der nächsten Ebene dazukommen

Ausblick maschinelles Lernen- Kann ein Computer das auch?:

Der Computer kann Schwellenwerte ausprobieren und die “beste” Regel für das gewählte Merkmal finden, wenn man ihn passend programmiert. Solche AUfgaben erldigt der Computer schneller als ein Mensch

Außerdem kann der Computer alle Merkmale und alle denkbaren Schwellenwerte ausprobieren.

Hausaufgabe

Übungen zum Nutzen von Schwellenwerten in der Baumdarstellung (AB3_SchwellenwertAnwenden)

optionale weitere Hausaufgabe: Mathematische Wiederholung <, >, ≤, ≥ Zeichen (z.B. https://anton.app/de/lernen/mathematik-5-klasse/thema-01-natuerliche-und-ganze-zahlen/uebungen-04-zahlen-ordnen-vergleichen/)

Begriffe: SchwellenwertDatensplit

Einführung des Datensplit als Grundkonzept von Entscheidungsbäumen

Einführung des Schwellenwerts als Möglichkeit Datensplits herzustellen

Datenbasiert Entscheidungsregeln aufstellen

Präsentation 2


Rumpfdatensatz
(in einer Variante für 22 oder 28 SuS)

Phase Inhalt Ziele Material
5

Motivation

Die SuS wissen nun, wie man eine Entscheidungsregel aufstellen kann. Bisher wurden aber nur ein Merkmal und drei Schwellenwerte ausprobiert. Um den resultierenden Entscheidungsbaum zu verbessern und noch mehr Lebensmittelkarten richtig zu klassifizieren, wird in dieser Stunde erarbeitet, wie man systematisch nach guten Entscheidungsregeln suchen kann. Dafür wird ein strategisches Vorgehen beim Suchen des Schwellenwertes erarbeitet. Anschließend werden die verschiedenen Merkmale auf unterschiedliche Gruppen verteilt um als Klassenverband für alle Merkmale verschiedene Entscheidungsregeln aufzustellen und zu vergleichen.

Einführung der Linealmethode

Die Lineal-/Bleistiftmethode kann zunächst im Plenum basierend auf Präsentation 3 erarbeitet werden. Dabei kann man schon Strategiehinweise geben wie man einen Schwellenwert nach Augenmaß wählen kann. Anhand von Arbeitblatt 4 kann dies dann in Einzelarbeit eingeübt werden, um die Methode danach in Kleingruppen mit den Datenkarten anzuwenden.

Besprechung von Arbeitsblatt 4:

Im Plenum werden die Ergebnisse verglichen und ggf. korrigiert. Die SuS können ihre Begründungen vortragen und diskutieren. Bei der Besprechung sollte insbesondere auf folgende Aspekte geachtet werden:

Was ist ein Kriterium für einen „besten“ Schwellenwert? (Anzahl falsch klassifizierte Karten/ Fehlklassifikationen)

Welcher ist der beste Schwellenwert für das jeweilige Merkmal?

Aktivität:

Jede Zweiergruppe arbeitet mit ihrem Kartensatz und bekommt ein Merkmal zugeteilt, für das eine Entscheidungsregel gesucht wird. Alle Merkmalen sollten an mindstens eine Gruppe vergeben werden, um im Nachhinein auch die verschiedenen Merkmale vergleichen zu können. Es sollen mehrere Schwellenwerte in Betracht gezogen werden und es soll begründet der beste Schwellenwert unter den in Betracht gezogenen ausgewählt werden.  Um die global beste Entscheidungsregel zu finden, müssten sehr viele verschiedene Schwellwerte ausprobiert werden, was sehr mühsam und daher für die SuS wenig praktikabel ist (ein Computer geht allerdings so vor). Optional kann Spielplan 1 als Unterstützung des Prozesses eingesetzt werden. DIe Dokumentation erfolgt auf Arbeitsblatt 5.

Hintergrundinformationen:

Das Sortieren der Karten im Hinblick auf ein ausgewähltes Merkmal ist ein zentrales Element zum Finden eines guten Schwellenwerts, weil auf diese Weise schnell ein guter Überblick über die Verteilung gewonnen werden kann (siehe Lineal-/Bleistiftmethode). Man erkennt schnell, wie viele Lebensmittel über und unter dem Schwellenwert als empfehlenswert bzw. nicht empfehlenswert gekennzeichnet sind. Nur so ist es möglich, per Augenmaß einen günstigen Schwellenwert zu finden. Andernfalls bleibt nur das Ausprobieren von zufälligen Werten. Das Vorgehen entspricht nicht ganz dem eines Computers, da mit dessen Hilfe einfach alle in Frage kommenden Schwellenwerte ausprobiert werden können und er nicht über Augenmaß verfügt. Bei diesem “menschlichen” Vorgehen sollten natürlich trotz Augemaß immer einige unterschiedliche Schwellenwerte verglichen werden.

Heuristik zum finden von Entscheidungsregeln verstehen (Linealmethode + Schwellenwert per Augenmaß)

Anzahl der falsch klassifizierten Karten als Gütekriterium für eine Entscheidungsregel nutzen

Datenkarten nach einem Merkmal aufsteigend sortieren

Finden eines „besten“ Schwellenwerts

Anwenden der „Linealmethode/ Bleistiftmethode“

Phase Inhalt Ziele Material
6

Motivation

Nachdem die SuS systematisch nach guten Entscheidungsregeln gesucht haben, ist zu erkennen, dass man mit einer Entscheidungsregel allein nicht alle Lebensmittel korrekt klassifizieren kann. Es wird motiviert, dass man ein mehrstufiges Regelsystem benötigt. Deshalb werden in dieser Stunde basierend auf der ersten Regel weitere Merkmale einbezogen, um Entscheidungsregeln in der zweiten Stufe des Baums zu erstellen. Je nachdem wie schnell die SuS arbeiten, können sie zwei- oder mehrstufige Entscheidungsbäume erstellen.

Hintergrundinformationen

Beim Erstellen eines mehrstufigen Entscheidungsbaums geht es darum, dass weitere Regeln erstellt werden, die hierarchisch auf die erste Regel folgen, um die Anzahl der falschen Klassifikation sukzessive zu verringern. Die weiteren Regeln werden basierend auf den Teildatensätzen erstellt, die durch die erste Entscheidungsregel entstanden sind. Falls in einem der Teildatensätze nur grüne oder nur rote Label zu finden sind (“reiner” Teildatensatz), so braucht man für diesen Teildatensatz keine weitere Regel suchen. Ansonsten wird in jedem Ast des Baums mit einem anderen Teildatensatz weitergearbeitet, um weitere Entscheidungsregeln aufzustellen.

Anleitung durch Lehrkraft

Im Unterricht muss explizit darauf geachtet werden, dass jeweils nur mit den Karten eines Teildatensatzes weitergearbeitet wird, wenn ein weiterer Split erstellt wird. Ein typischer SuS-Fehler ist es, mit allen Karten in einem Ast weiterzuarbeiten, obwohl nur mit einer Teilgruppe gearbeitet werden darf. Das kann entweder im Plenum mit Unterstützung von Präsentation 4 besprochen werden oder optional durch eine weitere Aktivität in der lebendigen Statistik veranschaulicht werden. In Präsentation 4 kann man auch die Dokumentation eines mehrstufigen Baums gemäß Arbeitsblatt 6 vorbesprechen.

Optionale Aktivität – Lebendige Statistik:

In zweiter Stufe das Merkmal Eiweiß (oder Zucker) ausprobieren.’

Vorgehen:

Jeder Schüler nimmt wieder eine Datenkarte

Noch einmal bezüglich Energie und dem in der ersten lebendigen Statistik gewählten Schwellenwert in zwei Schülergruppen (Teildatensätze) aufteilen

Zunächst kann der Status Quo diskutiert werden:

Anzahl der Fehler gemeinsam Auszählen

Feststellen, dass in der Gruppe mit der höheren Kalorienanzahl (über dem Schwellenwert) sich jetzt noch sowohl eher empfehlenswerte als auch eher nicht empfehlenswerte Lebensmittel befinden. Also passieren dort noch Fehler und die Anzahl der Fehler soll nun noch durch einen weiteren Datensplit verringert werden.

Explizit darauf hinweisen, dass nur mit einem Teildatensatz gearbeitet wird für den zweiten Datensplit und dass die restlichen Karten (erstmal) beiseite gelegt werden können

Dazu: Jetzt in der Gruppe (Teildatensatz) mit der Kalorienanzahl über dem Schwellenwert einen weiteren Datensplit durchführen (z.B. eignet sich das Merkmal Eiweiß mit Schwellenwert 11 g)

Erneutes Auszählen aller Fehlklassfikationen und vergleichen mit vorher

Fazit: Jetzt sind wir näher an unserer Zielstellung dem ‚perfekten‘ Baum

An der Tafel dokumentieren: Ergebnis: Tafelbild mit Baumdiagramm wie auf AB5 (Dieser fertige Baum kann später noch genutzt werden, also dauerhaft konservieren, z.B. auf Plakat).

Partnerarbeit

Wieder in Partnerarbeit: Basierend auf den Entscheidungsregeln, die in Phase 5 erarbeitet wurden, folgt nun die zweite Stufe des Entscheidungsbaums für jede Gruppe. Jede Gruppe wählt das nächste Merkmal frei aus. Spielplan Teil 2 kann für die organisation der Datenkarten genutzt werden, um z.B. gerade nicht genutzte Karten passend abzulegen.

Beide Teildatensätze aus dem Ersten Datensplit passend auf dem Spielplan Teil 1 ablegen

Jetzt die erste Teilgruppe nehmen (z.B. linken Teilkartenstapel, NICHT alle Karten) und nach einem weiteren Merkmal die Karten aufsteigend auf dem Tisch ordnen (Merkmal frei ausprobieren). Die nicht genutzten Karten können so lange auf dem Spielplan verwahrt werden.

Einen Schwellenwert mit der „Linealmethode” finden und die Karten auf dem Spielplan Teil 2 ablegen

Jetzt die zweite Teilgruppe nehmen (NICHT alle Karten) und ggf. ein anderes oder das gleiche Merkmal wie in 2. nehmen

Einen Schwellenwert mit der Linealmethode für die zweite Teilgruppe finden (kann der gleiche oder ein anderer Wert sein wie in 3.) und auf dem Spielplan Teil 2 auslegen

Den fertigen Baum auf AB 5 dokumentieren

Zur Differenzierung für schnelle Gruppen

Dritte Stufe möglich machen (Hierfür kann Spielplan Teil 2 genutzt werden, indem „einzelne Datensplits” durch Zerschneiden von Spielplan Teil 2 ausgelegt werden)

Weitere Merkmale im zweiten Split ausprobieren

Optional: Entscheidungsregeln formulieren (Arbeitsblatt 7)

Diskussion der erstellten Bäume

Jede Gruppe stellt ihren Baum vor:

Welche Merkmale wurden benutzt? Und welche Schwellenwerte?

Wörtlich die Entscheidungsregeln formulieren

Wie viele Lebensmittel wurden damit richtig klassifiziert?
Anschließend:

Welcher Baum hat die meisten Lebensmittel richtig klassifiziert?

Punkt 4 wird noch einmal mit den sogenannten Testdaten in der nächsten Stunde überprüft, möglicherweise ändert sich die Bewertung der Bäume dann. Für die nächste Aktivität werden die Entscheidungsbäume in der Klasse aufgehängt (bzw. durch Lehrkraft eingesammelt). Diese werden in der nächsten Stunde nochmal benötigt.

Reflexion

Nun haben wir weitere Entscheidungsregel(n) gefunden, diese sind mehrstufig.

Für ein Merkmal haben wir ausprobiert/herausgefunden, wie wir eine Entscheidungsregel begründet auswählen.

Wenn ein Entscheidungsbaum automatisiert durch den Computer erstellt wird, so werden alle Schwellenwerte ausprobiert und die beste Regel ganz schnell gefunden und alle Merkmale ausprobiert.

Hausaufgabe

Jeder füllt eine Blankokarte (Arbeitsblatt 8 vorher passend zurechtschneiden) für ein Lebensmittel zu Hause aus. Diese soll in der nächsten Stunde mit den erstellten Bäumen klassifiziert werden.

Optional kann 7 noch als weitere Übung für das Ausformulieren der Entscheidungsregeln genutzt werden.

Einführung in den  zweiten Datensplit

Mehrstufige Entscheidungsregeln als Baumstruktur erkennen

Auszählen, wie viele Karten ein Baum richtig klassifiziert

Entscheidungsregeln passend zum Baum verbal ausformulieren

Präsentation 4

Spielplan Teil 2

Arbeitsblatt 6

AB 6 einsammeln oder aufhängen

Arbeitsblatt 7 (opt.)

Arbeitsblatt 8

Phase Inhalt Ziele Material
7

Motivation

Nachdem verschiedene Gruppen von SuS unterschiedliche Entscheidungsbäume erstellt haben, werden diese Bäume auf neue Lebensmittel angewendet, die die SuS auf Blankokarten selbst mitgebracht haben. Die selbst mitgebrachten Lebensmittel werden mit allen Bäumen klassifiziert. Dadurch wird offensichtlich, dass in den Entscheidungsbäumen auch Unsicherheiten stecken, da sich die Ergebnisse der verschiedenen Bäume bezogen auf das gleiche Lebensmittel unterscheiden können.

Aktivität

Die Bäume (als ausgefüllte AB 6 aus der vorherigen Stunde) liegen als Stationen in der Klasse, zusammen mit neuen roten und grünen Büroklammern. Jeder Schüler/jede Schülerin geht mit seiner ausgefüllten Blankokarte (AB 8) von Station zu Station. An jeder Station durchläuft er mit der Karte den jeweiligen Baum und heftet am Ende eine farbige Büroklammer an die Karte (je nachdem, ob der Baum das Lebensmittel als eher empfehlenswert oder eher nicht empfehlenswert klassifiziert)

Mit einem Beispiellebensmittel kann vorher demonstriert werden, wie das Durchlaufen eines Baumes funktioniert! Optional kann dies mit Präsentation 5 vernanschaulicht werden.

Reflexion

Hierbei geht es um das Thema Unsicherheit, das bei Entscheidungsbäumen (und beim Arbeiten mit Daten) immer eine wichtige Rolle spielt. Hier geschieht die Auswertung, ob das Lebensmittel eher empfehlenswert oder eher nicht empfehlenswert ist anhand des Auszählens der farbigen Büroklammern.

Diskussion: Was bedeutet es, dass an manchen Lebensmitteln unterschiedliche Klammern hängen?

Die Entscheidung eines Entscheidungsbaums ist mit Unsicherheit behaftet.

Unterschiedliche Bäume können unterschiedliche Entscheidungen liefern, wir können aber überprüfen, welcher Baum zuverlässig ist (welcher Baum die meisten Objekte richtig klassifiziert), indem wir Testdaten nutzen – das kommt in der nächsten Phase.

Entscheidungen eines Entscheidungsbaums können darüber hinaus mit gesundem Menschenverstand beurteilt werden.

Motivation

Um die Unsicherheiten in Entscheidungsbäumen systematisch weiter zu untersuchen, testet nun jede Gruppe ihren Entscheidungsbaum mit den 15 Testkarten, die im Katenspiel als gelbe Karten gekennzeichnet sind. So wird es möglich, die Performance der Entscheidungsbäume miteinander zu vergleichen.

Aktivität

Die Testkarten werdenj im Plenum eingeführt und mit Hilfe von Arbeitsblatt 9 mit Labeln versehen. Um die Entscheidunsgbäume wirklich zu testen, müssen vorher schon Label an der Karte sein, die man dann mit dem Ergebnis eines Baums vergleichen kann. Jede Gruppe testet mit den Testdaten den Baum der eigenen Gruppe (Ergebnis aus der vorherigen Stunde auf AB6). Dafür wird jede Testkarte genommen und Baum klassifiziert. Passt das Ergebnis zum im Plenum gewählten Label zählt die Klassifikation als korrekt. Währenddessen dokumentieren die SuS, wie viele Karten der Baum “richtig” und “falsch” klassifiziert hat. Am Ende kann auf AB 6 folgender Satz ergänzt werden: „Mit diesem Baum wurden von den Testdaten ___ Lebensmittel richtig klassifiziert und ____ Lebensmittel falsch klassifiziert.”

Besprechung

Im Plenum wird verglichen, wie gut die Bäume jeweils mit Testdaten abschneiden.

Welcher Baum hat die meisten Lebensmittel von den Testdaten richtig klassifiziert? Wie unterscheidet sich die Performance der Entscheidunsgbäume von Trainings- zu Testdaten

Entscheidungsbäume auf ein neues Lebensmittel anwenden

„Unsicherheit“ im Regelsystem erkennen

Testkarten zum Prüfen eines Baums nutzen

Einen Entscheidungs-baum mit Testdaten bewerten

Verschiedene Bäume anhand von Tesdaten gegenüberstellen und bewerten

Präsentation 5

Testkarten

Arbeitsblatt 9

Arbeitsblatt 6

Phase Inhalt Ziele Material
8

Motivation

Nachdem die SuS den Erstellungsprozess eines Entscheidungsbaums kennengelernt und manuell durchlaufen haben, wird in dieser Stunde im eigentlichen Sinne des maschinellen Lernens ein Entscheidungsbaum automatisch mit Hilfe eines Computers erstellt. In einer vorbereiteten menübasierten digitalen Lernumgebung (basierend auf Jupyter Notebook), die per Link erreichbar ist, können die SuS selbst mit Entscheidungsbäumen arbeiten oder die Lehrkraft kann den Prozess demonstrieren. Die Lernumgebung ist weitgehend selbsterklärend und erfordert keine Programmierkenntnisse. Es ist möglich per Knopfdruck Einfluss auf die Daten zu nehmen und einen Entscheidungsbaum basierend auf den Daten erstellen lassen. Dies ermöglicht auch die Daten zu verändern und die Auswirkungen auf den Entscheidungsbaum zu untersuchen.  

Aktivität

Um noch einmal zu thematisieren, wie ein Computer algorithmisch vorgeht, um Schwellenwerte zu finden, wird zunächst Arbeitsblatt 10 ausgefüllt.

Unter folgendem Links gibt es ein vorbereitetes Jupyter Notebook, das per „Click and play“ benutzt werden kann: https://go.upb.de/auto-baum

Mit den folgenden LogIn Daten kann auf das Notebook zugegriffen werden.

Benutzer: jupyter

Passwort: upb_jupyter

Im Jupyter Notebook haben die SuS verschiedenen Aktivitäten. Die Benutzung so wie die Aufgabenstellungen sind für SuS (fast) selbsterklärend:

Alle SuS vergeben zunächst wieder Label für den Trainingsdatensatz wie in Stunde 2 (kann z:B. mit Hilfe von AB2 rekonstruiert werden).

Anschließend wird durch den Computer automatisch ein Entscheidungsbaum erstellt. DIe Tiefe des Baums kann dabei eingestellt werden, sodass etwas heruprobiert werden kann.

Der automatisch erstellte Baum kann mit den Testdaten überprüft werden.

Am Ende können Daten für ein neues Lebensmittel eingegeben werden und durch den Baum klassifiziert werden.

Anmerkung zum Jupyter Notebook:

Im Jupyter Notebook arbeiten die SuS nur mit menübasierten Elementen. Der Quellcode ist versteckt. Um das Notebook “zu starten” empfehlen wir einmal in der obigen Menüleiste “Cell” auszuwählen und dann “Run all” anzuklicken. Damit werden alle Zellen des Notebooks in der richtigen Reihenfolge ausgeführt und von da an ist es nur noch über die interaktiven Menüs benutzbar. Wenn die Zellen jeeils einzeln mit “Run” ausgeführt werden, kann es zu Fehlermeldungen kommen.

Vertiefungsmöglichkeit

Zum Vertiefen können die Ausgangsdaten im Jupyter Notebook unterschiedlich mit Labeln versehen werden. Dadurch lässt sich erkennen, welchen Einfluss die Daten bzw. Die Modellierung der Daten (hier der menschliche Einfluss durch Vergabe der Label) auf die Ergebnisse hat. Z. B. kann die anfängliche Vergabe der Label so verändert werden, dass sie willkürlich ist und dann wird auch als Ergebnis ein Entscheidungsbaum erstellt, der inhaltlich keinen Sinn ergibt. Dies verdeutlicht, dass die Qualität der Daten(-modellierung) entscheidend für Qualität eines Regelsystems ist, das durch maschinelles Lernen erstellt wird.

Reflexion

Es sollte nach der Einheit reflektiert werden, wie die Entscheidungsbäume mit Hilfe des Computers erstellt wurden. Man sieht nur das Endergebnis, aber im Hintergrund ist vergleichbares passiert, wie beim manuellen Prozess mit den Datenkarten.

Manueller Prozess:

Merkmal auswählen und Karten danach sortieren

Schwellenwerte ausprobieren

Anzahl und falscher/korrekter Klassifikationen abhängig vom Schwellenwerten auswerten und damit Schwellenwerte/Entscheidungsregeln vergleichen

Mit dem Computer ist es möglich alle Merkmale zu testen und alle sinnvollen Schwellenwerte auszuprobieren, d.h. bildliche formuliert für jede “Lücke” zwischen zwei Datenkarten wird ein Schwellenwert ausprobiert. Dabei wird jeweils die Anzahl der Fehlklassifikationen ausgewertet. Mit Hilfe des Computers wird also auf vergleichbare Art ein Entscheidungsbaum erstellt. Der Computer führt diese Schritte allerdings viel schneller aus und somit können mehr Merkmale und Schwellenwerte ausprobiert werden. Diesen automatisierten Erstellungsprozess eines Entscheidungsmodells ist eine Form von (überwachtem) maschinellen Lernen.

Einen Entscheidungs-baum maschinell erstellen lassen

Einfluss von Daten auf das Ergebnis untersuchen

Arbeitsblatt 10

Computer

Phase Inhalt Ziele Material
9

Was hat uns das Erstellen des Entscheidungsbaums gebracht?

Wir haben nun Erkenntnisse über die Rolle verschiedener Merkmale von Lebensmitteln erlangt:

Es reicht nicht ein Merkmal zu betrachten, um zu entscheiden ob eine Lebenmittel empfehlenswert ist.

Die Merkmale Fett, Zucker und Energie sind besonders gute Indikatoren (dürfen allerdings nicht alleine als Entscheidungskriterium genutzt werden)

Es ist möglich durch das Erstellen von Entscheidungsbäumen Erkenntnisse zu gewinnen und zu visualisieren, die in Daten verborgen liegen

Konkrete Bäume aus dem Unterricht können nocheinmal als Grundlage genommen werden die Entscheidungsregeln zu replizieren

Welche Schwächen kann der Entscheidungsbaum haben?

Ein resultierender Entscheidungsbaum ist kein absolut gültiges Regelsystem für empfehlenswerte Lebensweise, aber er kann uns trotzdem gute Hinweise geben. Wir haben gesehen, dass die Entscheidungsbäume auch immer Fehler machen können.

Gründe für Schwächen die auf Daten zurückzuführen sind:

Die Daten wurden eher intuitiv mit Label versehen. Bei der Zuordnung von eher empfehlenswert/eher nicht empfehlenswert war sich die Klasse nicht immer einig bzw. sicher. Mit der Modellierung der Daten steht und fällt die Güte des Entscheidungsbaums. (ggf. Verweis auf Phase 8 wenn im Jupyter Notebook ein durchlauf mit Daten gemacht wurde die zufällig bzw. falsch gelabelt wurden) –> Daten sind als Grundlage für die Lösung der wichtigste Baustein

Vielleicht gibt es noch weitere wichtige Merkmale von Lebensmitteln die gar nicht erhoben wurden gar nicht erhoben. (Zum Beispiel Ballaststoffe)

Gründe für Schwächen die auf den Kontext zurückzuführen sind:

Eine empfehlenswerte Ernährung ist in erster Linie vielseitig und nicht eins zu eins durch einen Entscheidungsbaum abzudecken.

Zentrale Erkenntnis:

Ein Entscheidungsbaum ist eine mögliche Form dessen, was man KI nennt. Durch einen Entscheidungsbaum wird eine Entscheidung vorgeschlagen. Der Entscheidungsbaum gibt aus, ob etwas eher empfehlenswert oder nicht ist. Der Computer ist aber nicht “intelligent”, sondern wurde anhand von Daten auf das entsprechende Regelsystem trainiert. Das heißt nicht, dass der Computer „weiß” oder „verstanden” hat, was empfehlenswert ist, sondern nur, dass er Daten auswertet und basierend darauf Klassifikationen vorgenommen werden (können).

Vertiefung

Für welche Situationen können Entscheidungsbäume hilfreich sein? Gib ein Beispiel an. (z.B. personalisierte Werbung, Vorschläge auf online Plattformen)

Als Zielmerkmal wird dabei vorhergesagt ob einer Person beispielsweise ein Produkt, ein Film etc. gefällt. Das Zielmerkmal in dieser Reihe war ob das Lebensmittel empfehlenswert oder nicht empfehlenswert ist.

Welche Daten werden dafür benötigt? Es werden Daten über verschiedene Merkmale des Verhaltens einzelner Personen gesammelt. Diese Merkmale werden dann genutzt um Entscheidungsregeln aufzustellen, ähnlich zu den Nährwertangaben in der Unterrichtsreihe.

Mit Daten von vielen Nutzern werden dann passende Entscheidungsmodell erstellt die versuchen vorherzusagen, ob mir ein Produkt gefällt um es mir dann anzuzeigen.

Prozess beim Erstellen eines Entscheidungs-baums rekapitulieren

Ergebnisse kritisch beurteilen

Modellierung durch Daten aufgreifen

Phase Inhalt Ziele Material

Bitte als Abschluss der Unterrichtsreihe den Schülerinnen und Schülern das Arbeitsblatt 11 Evaluation (Rückmeldung) geben mit dem Hinweis, dass dies eine anonyme Rückmeldung an die „Erfinder“ der Unterrichtsreihe ist. Die „Erfinder“ sind sehr daran interessiert zu erfahren, wie die Reihe den Schülerinnen und Schülern gefallen hat.

Das Arbeitsblatt findet sich auch digitalisiert auf einem Server datenschutzrechtlich unbedenklich der Universität Paderborn.

Die eingescannten Arbeitsblätter schicken Sie bitte per E-Mail an podworny@math.uni-paderborn.de; alternativ kann die anonyme Evaluation unter https://go.upb.de/ev-lebensmittel von den SuS ausgefüllt werden.

Herzlichen Dank dafür!

Rückmeldung geben

Arbeitsblatt 11  

(oder digital: siehe Link)

Ast Ein Ast innerhalb eines Entscheidungsbaums ist eine von mehreren Abzweigungen, die von einem Regelknoten zu einem nächsten Knoten führt.

Ausprägung/Merkmalsausprägung Die Werte, die ein Merkmal annehmen kann, nennt man Merkmalsausprägung.

Beispiel (im Kontext von KI) Ein Beispiel ist ein Objekt (z. B. Lebensmittel), das durch bestimmte Merkmale (z. B. Nährstoffe) beschrieben wird und mit einem Label (z. B. „eher empfehlenswert“ oder „eher nicht empfehlenswert“) versehen ist.

Blattknoten Ein Entscheidungsbaum besteht aus verschiedenen Knoten. Die Knoten am Ende eines Entscheidungsbaums nennt man Blattknoten und in ihnen ist immer eine Entscheidung für eine Ausprägung des Zielmerkmals eingetragen.

Datenkarte Eine Datenkarte repräsentiert ein Objekt, indem darauf die Ausprägungen einer Liste von Merkmalen dargestellt sind (z. B. ein Lebensmittel durch Nährwertangaben zu einer Liste von Nährstoffen). Eine Datenkarte kann digital oder analog repräsentiert sein.

Datensplit Ein Datensplit ist die Aufteilung von Daten in Teildatensätze basierend auf den Ausprägungen eines Merkmals, z. B. durch einen Schwellenwert.

Entscheidungsbaum Ein Entscheidungsbaum ist ein (übersichtliches, in gewissen Grenzen nachvollziehbares) Regelsystem, das als Baumdiagramm dargestellt werden kann. Ein solcher Entscheidungsbaum veranschaulicht hierarchisch aufeinanderfolgende Entscheidungsregeln, an deren Ende immer eine Entscheidung für eine bestimmte Fragestellung steht.

Fehlklassifikation Eine Objekt, das durch einen Klassifikator einer falschen Klasse zugeordnet wird nennt man Fehlklassifikation.

Klasse (im Kontext von KI) Eine Klasse ist eine Ausprägung eines kategorialen Zielmerkmals beim überwachten maschinellen Lernen.

Klassifikation Mit einem Entscheidungsbaum kann man Ausprägungen eines (mit einer gewissen Wahrscheinlichkeit) Merkmals vorhersagen. Anders formuliert kann man also ein Objekt einer Klasse zuordnen. Eine solche regelgeleitete Zuordnung zu einer Klasse nennt man Klassifikation.

Klassifikator Ein Klassifikator ist ein Regelsystem (z. B. Entscheidungsbaum), das bestimmte Objekte anahand von Prädiktormerkmalen klassifizieren kann.

Klassifizieren Das Klassifizieren eines Objekts entspricht dem Zuordnen eines Objekts zu einer Klasse (aus einer Menge möglicher Klassen). Klassen können auch als Merkmalsausprägungen eines kategorialen Merkmals verstanden werden.

Künstliche Intelligenz (KI) Künstlicher Intelligenz befasst sich mit der Frage, wie man Computer dazu bringen kann, Dinge zu tun, die Menschen bisher besser beherrschen. Dazu gehören verschiedenste Anwendungen, u. A. die Fähigkeit in verschiedenen Szenarios Vorhersagen zu treffen oder Klassifikationen vorzunehmen die mit einer hohen Rate korrekt sind. Somit zählen leistungsfähige Klassifikatoren (z.B. Entscheidungsbäume) zu den Anwendungen von Künstlicher Intelligenz.

Label Ein Label gibt die Klassenzugehörigkeit eines Objekts an. Das Label kann als Ausprägung eines Merkmals (Zielmerkmal) verstanden werden.

Maschinelles Lernen Maschinelles Lernen bezeichnet Verfahren, in denen eine Lernaufgabe automatisiert durch Lernalgorithmen basierend auf Daten gelöst wird. Maschinelles Lernen unterscheidet verschiedene Arten von Lernaufgaben. Typischerweise wird zwischen drei Arten von Lernaufgaben unterschieden: überwachtes Lernen, unüberwachte Lernen und bestärkendes Lernen. Beim überwachten Lernen geht es darum, die Ausprägung eines Zielmerkmals für eine bestimmte Art von Objekten vorherzusagen. Beim unüberwachten Lernen geht es darum, Objekte anhand bestimmter Merkmale in Gruppen ähnlicher Objekte zusammenzufassen und beim bestärkenden Lernen geht es darum, sogenannte „Agenten“ (z.B. Roboter) zum Handeln zu bringen. Bei allen Lernaufgaben kommen unterschiedlichste Lernalgorithmen zum Einsatz.

Merkmal Merkmale charakterisieren Objekte und können verschiedene Ausprägungen annehmen. Es gibt numerische und kategoriale Merkmale.

Objekt  Objekte sind Merkmalsträger jeglicher Art. D. h. Objekte können durch Merkmale beschrieben werden (Z. B. Lebensmittel werden durch Nährwerte beschrieben, Menschen durch charakterisierende Eigenschaften wie Haarfarbe oder Körpergröße). Dabei ist nicht festgelegt welche Merkmale zum beschreiben eines Objektes herangezogen werden.

Pfad Ein Pfad innerhalb eines Entscheidungsbaums ist eine Abfolge von Ästen, die im Wurzelknoten beginnt und in einem Blattknoten endet.

Prädiktormerkmal Beim überwachten maschinellen Lernen geht es darum für eine bestimmte Art von Objekten die Ausprägung eines Zielmerkmals vorherzusagen. Für die Vorhersage wird ein Regelsystem basierend auf weiteren Merkmalen erstellt. Diese weiteren Merkmale, auf denen also die Vorhersage beruht nennt man Prädiktormerkmale.  

Regelknoten Ein Entscheidungsbaum besteht aus verschiedenen Knoten. Zu Beginn stehen immer Regelknoten, die anhand von Prädiktormerkmalen gebildete Entscheidungsregeln repräsentieren. Alle Knoten in einem Entscheidungsbaum, bis auf die jeweils letzten Knoten weines Pfades, sind Regelknoten.

Schwellenwert Ein Schwellenwert ist eine Ausprägung, die zu einem numerischen Merkmal gewählt werden kann, um Objekte in Teildatensätze zu gruppieren. Die Teildatensätze ergeben sich aus den Objekten, deren jeweilige Ausprägung kleiner oder gleich dem Schwellenwert ist und denjenigen, deren jeweilige Ausprägung größer als der Schwellenwert ist.

Trainingsdaten Trainingsdaten sind ein Satz von Daten, die genutzt werden, um mit Hilfe von maschinellem Lernen einen Klassifikator (z. B. Entscheidungsbaum) zu erstellen.

Testdaten Testdaten sind ein weiterer Satz von Daten, mit denen ein erstellter KLassifikator getestet wird. Trainings- und Testdaten sind disjunkt.

Zielmerkmal Beim überwachten maschinellen Lernen geht es darum für eine bestimmte Art von Objekten die Ausprägung eines Merkmals vorherzusagen. Das betreffende Merkmal nennt man Zielmerkmal.  

Überwachtes maschinelles Lernen (engl.: supervised learning) Überwachtes maschinelles Lernen wird angewandt, um Entscheidungsmodelle zu erstellen, die für eine bestimmte Art von Objekten vorhersagen über ein Zielmerkmal treffen zu können. (z.B. Klassifizieren von Lebensmitteln als “eher empfehlenswert” und “eher nicht empfehlenswert”). Damit das überwachte Lernen angewandt werden kann, benötigt man zuerst digitale Repräsentationen von Objekten, worin die Objekte anhand bestimmer (Prädiktor-)Merkmale beschrieben sind (z. B. Lebensmittel, die durch Nährwertangaben repräsentiert sind). Zusätzlich müssen für alle Objekte die gewünschten Ausprägungen des Zielmerkmals (z.B. eher empfehlenswert/eher nicht empfehlenswert) bekannt sein. Eine Sammlung von Beispielobjekten, denen Werte von Prädiktormerkmalen und Labeln zugeordnet werden, werden so zu einem Satz von Daten, der modellhaft eine ganze Klasse an Objekten repräsentiert. Mit diesen Daten können mit Hilfe von Lernalgorithmen verschiedene Arten von Regelsystemen/Entscheidungsmodellen (z.B. Entscheidungsbaum, neuronales Netz) erstellt werden. Den Erstellungprozess nennt man auch “Lernprozess” oder “Trainingsprozess” und die Daten, die dafür genutzt werden, nennt man Trainingsdaten. Das Verarbeiten der Daten in diesem gesamten Trainingsprozess kann man als “überwachtes maschinelles Lernen” bezeichnen und dabei wird das Regelsystem immer besser an die vorliegenden Daten angepasst, bis am Ende möglichst wenig Fehler bei der Zuordnung (Fehlklassifikationen) passieren. Im ersten Schritt wird ein Entscheidungsmodell also so trainiert, dass es die Trainingsdaten korrekt zuordnet. Zielstellung ist es aber eigentlich, dass das Entscheidungsmodell über die Trainingsdaten hinaus funktioniert und auch neue Objekte (z.B. neue Lebensmittel) korrekt zuordnet. Im Anschluss wird das Entscheidungsmodell mit neuen Objekten bzw. Daten getestet und evaluiert. Dann spricht man von Testdaten. Der Begriff „überwacht“  wird in diesem Zusammenhang genutzt, da für alle verwendeten Objekte in den Daten die Ausprägung des Zielmerkmals bekannt ist und daher genau überwacht werden kann, wie gut des erstellte Entscheidungsmodell für die Daten funktioniert. Ein solches gut funktionierendes Entscheidungsmodell kann man als KI bezeichnen.

Lebensmitteldaten als Datenkarten 

In der Unterrichtsreihe werden 55 Datenkarten genutzt, die jeweils die typischen sieben Nährwertangaben eines Lebensmittels enthalten, wie z. B. in Abb. 1 für einen Apfel dargestellt. Die Darstellung der Lebensmitteldaten auf Datenkarten wie in Abb. 1 und das Arbeiten mit Daten knüpfen beispielsweise an das Thema Stochastik im Lehrplan NRW für die Erprobungsstufe (Klasse 5 und 6) an. Allerdings werden von Anfang an „multivariate“ Daten, Daten mit mehreren Merkmalen betrachtet, was in fachdidaktischen Vorschlägen schon länger als Bestandteil von Statistical Literacy gefordert wird. Ähnliche Bezüge finden sich auch in anderen Lehrplänen.

Mit den Datenkarten zu Lebensmittelobjekten wird im Unterricht folgende Leitfrage verfolgt:

  • Wie kann man mit Hilfe der Datenkarten ein Empfehlungssystem konstruieren, das ein Lebensmittel basierend auf seinen Nährwertangaben möglichst fehlerfrei als eher empfehlenswert oder eher nicht empfehlenswert klassifiziert?
Abb. 1: Datenkarte für das Lebensmittel „Apfel“

Ein solches Empfehlungssystem bezeichnet man als Klassifikator, da einzelne Objekte (hier Lebensmittel) basierend auf ihren Merkmalen (Nährwertangaben) einer Klasse („eher empfehlenswert“ oder „eher nicht empfehlenswert“) zugeordnet werden, d. h. sie werden klassifiziert. Man bezeichnet das binäre Merkmal ‚Empfehlung‘ als Zielmerkmal und die numerischen Nährwertmerkmale als Prädiktormerkmale.

Ein solcher Klassifikator wird auf der Basis einer Menge von Objekten entwickelt, für die sowohl die Ausprägungen der Prädiktormerkmale als auch des Zielmerkmals bekannt sind. Das sind die sogenannten Trainingsdaten. Ziel ist es aber immer, dass die Empfehlung auch für neue Objekte funktioniert. Zunächst wird das System mit Testdaten getestet, die nicht am Trainingsprozess beteiligt waren, für die aber die Ausprägungen des Zielmerkmals bekannt sind. Man kann damit abschätzen, mit welcher Wahrscheinlichkeit das System neue Objekte mit unbekannter Ausprägung korrekt klassifiziert.

Das Datenbeispiel umfasst 40 blaue Karten zum Erstellen des Empfehlungssystems und 15 gelbe Karten zum Testen. Es werden rote und grüne Büroklammern genutzt, mit denen im Unterricht die konsentierte Ausprägung des Zielmerkmals (auch Label genannt) dargestellt wird. Zum Herstellen eines einheitlich gelabelten Trainingsdatensatzes kann im Unterricht die Ernährungspyramide der Deutschen Gesellschaft für Ernährung (DGE, https://www.dge.de/gesunde-ernaehrung/dge-ernaehrungsempfehlungen/dreidimensionale-dge-lebensmittelpyramide/) genutzt werden.

Ein Entscheidungsbaum als Klassifikator

Im Folgenden wird für Lehrkräfte eingeführt, was ein Entscheidungsbaum ist und wie man einen solchen datenbasiert mit Datenkarten erstellen kann. Auf die unterrichtliche Umsetzung wird erst später eingegangen. Ein Entscheidungsbaum ist ein hierarchisches Regelsystem, das als Klassifikator genutzt werden kann. Ein Beispiel für einen Entscheidungsbaum zum zuvor beschrieben Kontext ist in Abb. 2 dargestellt. Man kann mit diesem Regelsystem z. B. den Apfel aus Abb. 1 klassifizieren, indem man den Entscheidungsbaum von oben nach unten durchläuft und abhängig von den Werten für die Merkmale Fett und Energie die passenden Abzweigungen wählt. Der erste Regelknoten fragt das Merkmal Fett ab. Da der Apfel weniger als 8 g Fett pro 100 g enthält, nimmt man den linken Ast und landet direkt in einem Endknoten (auch Blattknoten) des Entscheidungsbaums. Ein Endknoten enthält als Aufschrift immer eine Ausprägung des Zielmerkmals, die dem zu klassifizierenden Objekt zugeordnet wird. Der Apfel wird dementsprechend als „eher empfehlenswert“ klassifiziert. Bei einem Lebensmittel mit einem Fettwert größer als 8 g müsste man den rechten Ast nehmen und in zweiter Stufe noch den Energiewert betrachten, um in einen Endknoten zu gelangen.

Abb. 2: Ein Entscheidungsbaum

Dieser Entscheidungsbaum ist hier lediglich ein Beispiel ohne den Anspruch, Lebensmittel tatsächlich sinnvoll zu klassifizieren. Prinzipiell kann ein solcher Entscheidungsbaum beliebig viele Stufen und Prädiktormerkmale enthalten. Ziel der Unterrichtsreihe ist, dass Lernende solch einen Entscheidungsbaum datenbasiert selbst erstellen und verstehen, wie Computer so eingerichtet werden können, dass aus den Daten automatisiert Entscheidungsbäume erstellt werden (Maschinelles Lernen als Teil der KI).  

Einen Entscheidungsbaum datenbasiert erstellen

Eine Voraussetzung für das datenbasierte Erstellen von Entscheidungsbäumen ist, dass ein Datensatz vorliegt, der aus einer Menge von Beispielobjekten besteht, für die die Ausprägungen des Zielmerkmals und der Prädiktormerkmale bekannt sind. Wir betrachten im Folgenden (Abb. 3 und Abb. 4) beispielhaft elf Lebensmittel als Beispielobjekte, deren Nährwertangaben jeweils auf der Karte angegeben sind. Das sind die Ausprägungen der Prädiktormerkmale Fett, Energie etc. Ferner wird durch eine grüne (bzw. rote) Klammer (als Ausprägung des Zielmerkmals) symbolisiert, ob das Lebensmittel als eher empfehlenswert (bzw. eher nicht empfehlenswert) eingestuft ist. Mit so einer Datengrundlage kann ein Entscheidungsbaum nach und nach aufgebaut werden mit dem Ziel, die Trainingsdaten möglichst fehlerarm zu klassifizieren.

Abb. 3: Entscheidungsregel per Datensplit erzeugen

Als Basis für den Erstellungsprozess des Entscheidungsbaums dient der sogenannten Datensplit, d. h. durch ein Prädiktormerkmal und einen Schwellenwert werden zwei Teildatensätze erzeugt (Komponente 1). In Abb. 3 sieht man einen Datensplit mit dem Merkmal Fett und dem Schwellenwert 8 g, d. h. auf der rechten Seite befinden sich alle Lebensmittel mit mehr als 8 g Fett und links mit bis zu 8 g Fett. In beiden Teildatensätzen wird dann eine Mehrheitsentscheidung hinsichtlich des Zielmerkmals gefällt (Komponente 2). Auf der linken Seite in unserem Beispiel sind ausschließlich eher empfehlenswerte Lebensmittel und auf der rechten Seite ist die Mehrheit der Lebensmittel eher nicht empfehlenswert. Die resultierende Entscheidungsregel (wenn ≤ 8 g Fett, dann eher empfehlenswert; wenn > 8 g Fett, dann eher nicht empfehlenswert) kann evaluiert werden (Komponente 3), indem die Anzahl der dadurch im Datensatz falsch klassifizierten Lebensmittel (Fehlklassifikationen) bestimmt wird. In unserem Beispiel sind es zwei Lebensmittel, die falsch klassifiziert werden, nämlich Avocado und Spiegelei auf der rechten Seite. Die Datensplits werden beim Aufbau eines Entscheidungsbaumes so gewählt, dass diese Mehrheitsentscheidungen möglichst wenige Fehlklassifikationen erzeugen. Abschließend kann man den resultierenden einstufigen Entscheidungsbaum repräsentieren (Komponente 4). Dies kann rein verbal geschehen oder durch ein typisches Baumdiagramm. In der Repräsentation des Entscheidungsbaums kommen die Datenkarten nicht mehr vor, aber es sollte statt der Karten (vgl. Abb. 3) die Verteilung des Zielmerkmals in beiden Teildatensätzen (4 zu 0; 2 zu 5) notiert werden, damit die Anzahl der Fehklassifikationen nachvollziehbar ist.

Nun kann man den bisher einstufigen Entscheidungsbaum, der ja zwei Lebensmittel falsch klassifiziert, weiter verbessern, indem man eine weitere Stufe hinzufügt. Die Datenkarten im linken Ast können beiseitegelegt werden, da dort schon alles korrekt klassifiziert wird. Mit den Karten im rechten Ast verfährt man genau wie für die erste Stufe beschrieben. Wenn man das Prädiktormerkmal Energie und den Schwellenwert 220 kcal für einen weiteren Datensplit nutzt, erhält man den Entscheidungsbaum aus Abb. 2, der für dieses Datenbeispiel alle Lebensmittel korrekt klassifiziert.

Abb. 4: Sortierte Datenkarten zum Vergleich von Datensplits. Zur besseren Lesbarkeit sind die Fettwerte oberhalb der Karten notiert.

Ein zentraler Aspekt, der bisher noch nicht erklärt wurde, ist wie ein Merkmal und ein Schwellenwert für einen ersten Datensplit und dann für die weiteren „günstig“, also derart, dass möglichst wenig Fehlklassifikationen auftreten, ausgewählt werden. Mit den Datenkarten kann dies durch Sortieren und systematisches Probieren umgesetzt werden.

Ausgehend von den sortierten Datenkarten können verschiedene mögliche Datensplits und die resultierende Anzahl von Fehlklassifikationen miteinander verglichen werden. Für ein gegebenes Datenbeispiel betrachten wir denjenigen Datensplit als optimal, der die geringste Anzahl falsch klassifizierter Objekte liefert. In diesem Beispiel ist der optimale Datensplit der in Abb. 4 visualisierte zwischen der Graubrot-Scheibe und den Chicken Nuggets. Dies kann man überprüfen, indem man systematisch alle Datensplits untersucht. Dafür verschiebt man den trennenden senkrechten Strich einmal in alle Zwischenräume zwischen zwei Karten und wendet jeweils die zuvor erläuterten Komponenten 1-3 an, um die Anzahl falsch klassifizierter Objekte zu ermitteln. Ein Datensplit zwischen Avocado und Pommes liefert z. B. drei falsch klassifizierte Objekte und ist somit schlechter zu bewerten.

Wenn ein optimaler Datensplit ausgewählt ist (in unserem Beispiel mit zwei falsch klassifizierten Objekten), kann ein Schwellenwert im Intervall zwischen den Fettwerten der beiden anliegenden Karten gewählt werden. In Abb. 4 wurde im Intervall zwischen den Werten 4,9 und 11,0 der Wert 8 als Schwellenwert gewählt. Für alle anderen Prädiktormerkmale kann dann auch ein optimaler Datensplit bestimmt werden, um anschließend das Prädiktormerkmal auszuwählen, das eine möglichst geringe Anzahl falsch klassifizierter Lebensmittel liefert. Man geht also mit einer sogenannten „Greedy-Strategie“ vor, d. h. man sucht den besten einstufigen Entscheidungsbaum und betrachtet dann erst die zweiten Stufen und entscheidet, ob dort weitere Datensplits nötig sind. Dort wählt man wieder das beste Merkmal mit dem optimalen Datensplit in der betrachteten Teilmenge der Daten. Es ist diese systematische Methode, die im Wesentlichen in den professionellen Entscheidungsbaum-algorithmen implementiert ist. Dazu gehören dann noch geeignete Abbruchkriterien. In der Unterrichtspraxis ist das Einbeziehen aller Datensplits für Lernende sehr mühsam, sodass (zunächst) etwas vereinfachte Strategien, die bei der Beschreibung des Unterrichts im nächsten Abschnitt erläutert werden, verwendet werden können. Diese Strategien folgen dem gleichen Ansatz und können deshalb die Grundlage dafür liefern, zu verstehen, wie eine Maschine automatisiert, vollständig und systematisch vorgeht.

Materialien

Gesammelter Download aller Materialien

Hier können Sie alle Arbeitsblätter, Hilfszettel und Hinweisblätter als komprimierten Ordner herunterladen:

Eine Druckvorlage für die Datenkarten finden Sie hier:

Zwei Klassensätze der Datenkarten können Sie hier bestellen:

Weitere Informationen

Lernstrecke für Schüler:innen - Entscheidungsbäume mit Datenkarten

Die Lernstrecke “Entscheide wie eine KI” in Kooperation von ProDaBi und inf-schule.de entstanden. Sie bietet eine Ergänzung zu den in ProDaBi entwickelten Lebensmittel-Datenkarten und der entsprechenden Unterrichtsreihe zu Entscheidungsbäumen.
Die Lernstrecke ist für Schüler:innen aufbereitet und hat folgenden Einführungstext: “In dieser Lernstrecke sollst du eine Künstliche Intelligenz (KI) erzeugen, die anhand der Nährwerte eines Lebensmittels entscheidet, ob es eher empfehlenswert oder eher nicht empfehlenswert ist. Dabei wirst du deine KI mit ausgewählten Nahrungsmitteln selbst trainieren, um damit im Anschluss für weitere Lebensmittel eine Entscheidungshilfe zu haben.”

Links:

Informationen über Maschinelles Lernen

Maschinelles Lernen ist ein weiter Bereich, der verschiedene Methoden und Lernalgorithmen für das automatische Lösen unterschiedlichsterer Aufgabentypen umfasst. Das verbindende Element zwischen allen Methoden die zum maschinelle Lernen gehören ist, dass sie auf Trainingsdaten beruhen. Wir konzentrieren uns auf die Unterart des überwachten Lernens, insbesondere auf Klassifikationsaufgaben, die mit Entscheidungsbäumen gelöst werden können.
Bei der Klassifikation geht es darum, Objekte oder Individuen einer Population mit (idealerweise) korrekten Labels in Bezug auf eine bestimmte Fragestellung zu versehen. In der Statistik ist eine Population eine Menge von ähnlichen Individuen, Objekten oder Ereignissen, die für eine bestimmte Frage oder statistische Untersuchung von Interesse sind. Typische Beispiele für Klassifikationsaufgaben sind die Zuordnung eines Patienten (Individuum) zu einer Diagnose (Etikett) oder die KLassifikation von E-Mails als “Spam” oder “kein Spam”. Die möglichen Labels stammen aus einer Label-Menge, je nachdem, ob man von einem binären Klassifikationsproblem (zwei mögliche Labels) oder einem Multiklassen-Klassifikationsproblem (eine endliche Menge von mehr als zwei Labels) spricht.

Die Aufgabe eines Lernalgorithmus besteht darin, einen Klassifikator zu erstellen, der für jedes beliebige Objekt in der Population ein Label vorhersagt. Um eine fundierte Vorhersage zu treffen, wird ein Objekt durch eine Reihe von Merkmalen repräsentiert, die als Vektor dargestellt werden. Da die Merkmale die Wahl des vorhergesagten Labels beeinflussen, werden sie als Prädiktorvariablen bezeichnet. Die Labels sind die Werte einer so genannten Zielvariable. Die Erstellung eines Klassifikators basiert auf Trainingsbeispielen, d. h. auf Objekten aus der Grundgesamtheit, von denen die Werte der Prädiktorvariablen und die korrekten Labels bekannt sind. Ein Satz von Trainingsbeispielen wird als Trainingsdaten bezeichnet. Als Maß für den Erfolg wird in der Praxis  anhand von Testdaten  die Fehlklassifikationsrate berechnet. Die Testdaten sind strukturell identisch mit den Trainingsdaten, wurden aber nicht zur Erstellung des Klassifikators verwendet.

Entscheidungsbäume werden algorithmisch aus Daten konstruiert, um als Klassifikatoren zu dienen. Besonders wenn der Baum nicht zu groß ist, macht die Verwendung einer hierarchischen Baumstruktur die Entscheidung sehr transparent und verständlich.

Informationen zum Nutri-Score

Ein Infoblatt zum Nutri-Score und der einfacheren Kategorisierung in der ProDaBi Unterrichtsreihe finden Sie hier:

Kurzübersicht über die Inhalte der Unterrichtsstunden

Zitation:

Fleischer, Y., Podworny, S., Biehler, R., Schulte, C., Höper, L. & Hüsing, S. (2023). Entscheidungsbäume mit Datenkarten - Apfel oder Popcorn? Eine enaktive Einführung in KI, maschinelles Lernen und Entscheidungsbäume mit Datenkarten. https://www.prodabi.de/materialien/entscheidungsbaeume/

Veröffentlicht am 17.08.2023

Version:

Lizenzhinweis:

Creative Commons Attribution-ShareAlike (CC BY-SA 4.0)

Nach oben scrollen