„Nein, ich weiß nichts über sie, ich hasse alle Schlangen.“

Diese Aussage, die von einem pensionierten Elektrotechniker getroffen wurde, der auf Maschinencodierung spezialisiert war, überraschte mich zutiefst. Ich hatte nichts über Pythonschlangen gefragt, ich hatte eine Frage zu Python gestellt. Vielleicht lag es daran, dass die Verbindung unserer Videokonferenz nicht besonders gut war oder dass er als leidenschaftlicher Gärtner direkt an die Reptile – obwohl mir bei dem Gedanken an einen Garten, in dem Schlangen zu Hause sind, ganz anders wird – dachte. Oder es könnte auch einfach daran gelegen haben, dass Python auf seinem Fachgebiet noch nicht so bekannt und verbreitet war und er es deshalb nicht kannte. Dabei hat Python viele verschiedene Anwendungsgebiete. Ich erklärte, was ich meinte, wir lachten darüber und besprachen ein anderes der Gebiete, auf denen er Expertise vorweisen konnte: die aufkommende Data Science. Data Science war damals noch eine junge Disziplin und noch heute wächst der Bereich. „Data Science“ ist einer der Begriffe, der am häufigsten gegoogelt wird. Diese Statistik ist für sich bereits bedeutsam, genauso bedeutsam wie der Zusammenhang zwischen Data Science und Python. Was genau ist also Data Science, welcher Zusammenhang besteht zu Python und wie kannst du auf diesem Gebiet eine erfolgreiche und zufriedenstellende Karriere aufbauen?

Die besten Lehrkräfte für Programmierung verfügbar
Erblin
5
5 (4 Bewertungen)
Erblin
30CHF
/h
Gift icon
1er Unterrichtseinheit gratis !
Andrin
5
5 (2 Bewertungen)
Andrin
60CHF
/h
Gift icon
1er Unterrichtseinheit gratis !
Eric
Eric
20CHF
/h
Gift icon
1er Unterrichtseinheit gratis !
Musa
Musa
20CHF
/h
Gift icon
1er Unterrichtseinheit gratis !
Pierre
5
5 (27 Bewertungen)
Pierre
40CHF
/h
Gift icon
1er Unterrichtseinheit gratis !
Matthias
5
5 (30 Bewertungen)
Matthias
86CHF
/h
Gift icon
1er Unterrichtseinheit gratis !
Erblin
5
5 (54 Bewertungen)
Erblin
29CHF
/h
Gift icon
1er Unterrichtseinheit gratis !
Said
4,9
4,9 (34 Bewertungen)
Said
19CHF
/h
Gift icon
1er Unterrichtseinheit gratis !
Erblin
5
5 (4 Bewertungen)
Erblin
30CHF
/h
Gift icon
1er Unterrichtseinheit gratis !
Andrin
5
5 (2 Bewertungen)
Andrin
60CHF
/h
Gift icon
1er Unterrichtseinheit gratis !
Eric
Eric
20CHF
/h
Gift icon
1er Unterrichtseinheit gratis !
Musa
Musa
20CHF
/h
Gift icon
1er Unterrichtseinheit gratis !
Pierre
5
5 (27 Bewertungen)
Pierre
40CHF
/h
Gift icon
1er Unterrichtseinheit gratis !
Matthias
5
5 (30 Bewertungen)
Matthias
86CHF
/h
Gift icon
1er Unterrichtseinheit gratis !
Erblin
5
5 (54 Bewertungen)
Erblin
29CHF
/h
Gift icon
1er Unterrichtseinheit gratis !
Said
4,9
4,9 (34 Bewertungen)
Said
19CHF
/h
Gift icon
1er Unterrichtseinheit gratis !
Und los geht's

Was ist Data Science?

Wie lässt sich Statistik und Datenanalyse mit Informatik verbinden? Indem es Data Science genannt wird. Merkwürdigerweise gibt es bis heute keine einheitliche Übereinkunft dazu, was Data Science genau ist. Grob beschrieben entspricht es der oben genannten Definition, im Grunde bleibt es jedoch ein Konzept und keine wahre Wissenschaft.

Alter Rechenmaschine, die Analyse von Daten wurde anfangs von diesen Maschinen gesprägt.
Rechenmaschinen wie diese waren wichtiges Werkzeug für frühe Datenanalysten. Quelle: Unsplash.
Der Begriff „Data Science“ tauchte erstmals im Jahr 1962 auf, als ein US-amerikanischer Statistiker namens John Tukey definierte, wie er Datenanalyse betrieb. Seine Arbeit beinhaltete viele Aspekte der heutigen Data Science, doch erst 1985 tauchte der Begriff das erste Mal offiziell auf. Erst sieben Jahre später wurde es als ein neues Forschungsfeld anerkannt, das Prinzipien und Konzepte der Statistik und Datenanalyse mit Informatik verband. Dieses Forschungsfeld wurde als Data Science bekannt. Jedes der folgenden Daten hat in der Welt der Informatik eine besondere Bedeutung:

  • 1962 entstand das erste Computerprogramm; RAM und der virtuelle Arbeitsspeicher wurden entwickelt
  • 1985: die Programmiersprache C++ wurde veröffentlicht, das MIT gründete sein Media Lab und Michael Dell, Gründer von Dell Computers, eröffnete sein erstes Unternehmen (individuell gebaute PCs)
    • Nintendo ging mit seiner NES-Spielekonsole an den Markt und holte damit Computerspiele aus der Videospielhalle ins Wohnzimmer
  • 1992: der Intel Paragon Parallel-Supercomputer wird als schnellster Computer der Welt angesehen
    • Der Paragon war bedeutsam, da er zur Analyse aller Daten genutzt wurde, wissenschaftlicher und statistischer

Ein weiteres wichtiges Jahr der Data Science war 1991. In dem Jahr wurde das World Wide Web öffentlich zugänglich gemacht. Computer wurden zu einem verbreiteten Gebrauchsgegenstand und boten Data Scientists einen Schwall an Daten – auch wenn sie nicht so genau wussten, was sie damit anfangen sollten. Ab diesem Moment waren die Datensammlung und -analyse für immer verändert. Vor und sogar während dieser Entwicklungen hatten Statistiker und Datenanalysten viel zu tun. Sie mussten zunächst die Daten sammeln, sich entscheiden, welche Variablen sie in Betracht ziehen wollten und schließlich ein Modell für die gewonnenen Daten entwickeln und die Daten interpretieren. Damals war es schon eine Bärenaufgabe, relevante Daten zu sammeln, sie zu verarbeiten verlangte einiges an Hirnschmalz. Heute haben Data Scientists eine Vielfalt von Daten zur Verfügung und sie haben Computer, die ihnen in Sekundenschnelle Visualisierungen ihrer Daten ausspucken können. Heute begrüßen Data Scientists das aufregende Gebiet des maschinellen Lernens, wobei Computern beigebracht wird, wie sie mit Hilfe von Daten ihre Algorithmen verbessern. Das sowie das sogenannte Data-Mining, das Entdecken von Mustern in großen Datensätzen, sind die wesentlichen Richtungen, in die sich die Data Science aktuell bewegt.

Ein Laptop, der verschiedene Visualisierungen von Daten zeigt, Data Science in action
Der Computer und die Data Science sind heute untrennbar verbunden. Quelle: Unsplash.

Die Entstehung von Python

1990 traf Sir Tim Berners-Lee auf ein großes Hindernis auf seinem Weg, das World Wide Web der Öffentlichkeit zugänglich zu machen: die Finanzierung. Das Problem lag darin, dass sein Code nur auf NeXT Computern funktionierte. Hast du jemals von dieser Marke gehört? Sie war das frühe Werk von Steve Jobs aus dem Jahr 1985. Er war am Markt nicht sonderlich erfolgreich und die Marke existierte zwölf Jahre, nachdem sie erstmals in den Markt eintrat, bereits nicht mehr. Zu der Zeit bauten andere Entwickler andere Computer mit anderen Betriebssystemen. All diese waren angeblich nicht mit Sir Berners-Lees Internetcode kompatibel. Das Problem war, dass die Entscheidungsträger bei CERN, dem Geldgeber für das World Wide Web, jedoch nicht bereit waren, für zusätzliche Software-Versionen Geld zu bezahlen. So wurde ein Aufruf an alle Software-Ingenieure, Programmierer und im Prinzip jeden, der etwas von Programmiersprachen verstand, gestartet, um Browser zu schreiben, die auf allen Maschinen laufen würden. Dazu wurde ein einseitiges Schriftstück an das bestehende Informatiknetzwerk versendet. Dieser Teil der Entstehungsgeschichte des Internets ist ein Grund dafür, dass es heute so viele Programmiersprachen gibt. Python wurde möglicherweise direkt aus einer dieser Programmiersprachen abgeleitet, die Teil dieses verrückten Durcheinanders waren. Unter dem Namen ABC wurde diese erstmalig in einer stabilen Version veröffentlicht. Allerdings ist dies reine Spekulation, Wir konnten in unserer Recherche keine eindeutigen Hinweise auf einen Zusammenhang zwischen der Entstehung des Internets und der Programmiersprache ABC finden. Ein weiterer Grund für all die unterschiedlichen Programmiersprachen sind die unterschiedlichen Aspekte der Informatik, auf die sie sich beziehen. Einige legen den Schwerpunkt auf Hochleistung, notwendig für Robotik und Gaming, wohingegen andere speziell für bestimmte Funktionen geschrieben werden – Java ist ein gutes Beispiel dafür. Welcher Kategorie ist Python nun zuzuordnen? Die Programmiersprache Python wurde aus der Frustration heraus geboren, dass die Syntax der Programmiersprachen übermäßig kompliziert und komplex war. Wenn du beispielsweise mit Java oder C++ arbeitest und einen Befehl zum Drucken geben möchtest, besteht dein Code aus mehreren Zeilen, geschweiften Klammern, Rautezeichen und anderen Symbolen. Der Druckbefehl in Python ist im Gegensatz dazu ein Einzeiler, der mit dem Befehl Drucken beginnt und dann in Klammern und doppelten Anführungszeichen enthält, was gedruckt werden soll. Pythons Ansatz ist die Einfachheit. Tatsächlich ist das dritte Prinzip aus Zen of Python, einer Art Leitlinien der Programmiersprache, dass einfach immer besser ist als komplex. Weiter unten in dieser Liste von 19 Prinzipien steht außerdem, dass weniger besser ist als dicht gedrängt und „Lesbarkeit zählt“. Diese Prinzipien sind dafür gedacht zu definieren, wie Python geschrieben werden soll: einfach, präzise und lesbar. Wenn man jedoch den Zusammenhang zur Datenanalyse in Betracht zieht, tragen diese Adjektive dann nicht eine ganz neue Bedeutung? Auch in der Zukunftsdisziplin des maschinellen Lernens ist Python einsetzbar.

Datenaufbereitung auf PC, Python ist ein großartiges Werkzeug für Datenanalysen und -visualisierung.
Mit Python können alle möglichen Arten von Daten analysiert und aufbereitet werden. Quelle: Unsplash.

Data Science und Python

Python ist für verschiedene Aspekte der Informatik sehr gut geeignet. Sie ist eine der drei Programmiersprachen, die in der Webentwicklung sowie in der Robotik verwendet werden, auch wenn in begrenztem Maße. Man könnte mit Python sogar Computerspiele schreiben! Von allen Gebieten, auf denen sich Python nutzen lässt, ist die Data Science ein dasjenige, wo Python am meisten genutzt wird. Dank des Python Package Index (PyPI) von nahezu 300.000 Modulen, die Pakete genannt werden und mathematische Bibliotheken und Funktionen enthalten, ist die Datenanalyse nur eine Frage davon, über ein Plug-in das richtige Modul zu integrieren, um die gewünschten Ergebnisse zu erzielen. Die Python-Bibliothek NumPy enthält eine umfassende Sammlung mathematischer Funktionen, die geschrieben wurden, um sie auf verschiedene Datentypen und Matrizen anzuwenden. Python enthielt ursprünglich keine Möglichkeit für numerisches Codieren. Da diese Programmiersprache jedoch sehr schnell auf großes Interesse in der Wissenschaft stieß, machte sich eine Interessenvertretergruppe schnell daran, dies zu beheben. SciPy ist ein weiteres Python-Paket, das besonders der Data Science zugutekommt, da es den Fokus auf technische und wissenschaftliche Berechnungen legt. Die Bibliothek enthält lineare Algebra-Module sowie Module zur Integration, Interpolation und Bildverarbeitung. Seine spezielles Funktionenmodul ist ein wunderbares Werkzeug für Data Scientists, da es Funktionalitäten enthält, die speziell für verschiedene Arten der Analyse, von mathematisch bis funktional, relevant sind. Dann gibt es noch Matplotlib, Pythons Bibliothek zur Visualisierung von Daten, welche Graphen und andere Darstellungen über eine API in Anwendungen integriert. Das klingt alles schwierig und kompliziert, am Ende ist es jedoch nicht mehr als eine Gruppe von Computerprogrammen, die bei der Ausführung analysierte Daten als Streudiagramm, Graphen (2D oder 3D) oder auf andere Weise visualisieren. NumPy, SciPy und Matplotlib sind die drei Gründe, warum Data Science und Python so eng miteinander verwoben sind. Unabhängig davon, ob ein Data Scientist Marketingdaten, kosmische Daten oder atmosphärische Daten verarbeitet, jede dieser Bibliotheken hat Module, die Analysen umsetzen und die Ergebnisse visualisieren können. Dann gibt es noch Pandas, eine weitere Bibliothek für Python, die auf Datenanalyse und -manipulation ausgelegt ist. Das klingt nicht besonders, Datenmanipulation ist jedoch ein wichtiger Teil der Datenanalyse. Dazu müssen Parameter festgelegt werden, damit die entsprechenden Daten nützlich und verwendbar sind. Pythons umfassender Katalog von Funktionen zur Analyse und mathematischer Werkzeuge, machen die Programmiersprache essenziell für Data Scientists aller Art. Ohne die Hilfe von Python-Anwendungen würden Data Scientists von der schieren Menge der heutigen Daten überrollt werden – von Daten zur Atmosphäre und Klima bis hin zu Daten zum individuellen Einkaufsverhalten. In Anbetracht der zunehmenden Anwendungsbereiche für analysierte Daten ist es kein Wunder, dass Data Science aktuell eines der beliebtesten Fachgebiete ist. Entdecke die vielen Anwendungsgebiete für Python wie das Programmieren von Videospielen.

>

Die Plattform, die Lehrkräfte und SchülerInnen miteinander verbindet

1. Unterrichtseinheit gratis

Du findest diesen Artikel toll? Vergib eine Note!

5,00 (1 rating(s))
Loading...