Differences
This shows you the differences between two versions of the page.
| Both sides previous revision Previous revision | |||
| lehrkraefte:blc:informatik:glf4-20:umgang-mit-dateien:challenge5 [2021/03/04 12:35] – [Beispiel: Spiele des FC St. Gallen] Ivo Blöchliger | lehrkraefte:blc:informatik:glf4-20:umgang-mit-dateien:challenge5 [2021/03/04 12:36] (current) – [Beispiel: Spiele des FC St. Gallen] Ivo Blöchliger | ||
|---|---|---|---|
| Line 1: | Line 1: | ||
| + | ====== Datenextraktion mit Regular Expressions in Python ====== | ||
| + | ===== Beispiel: Spiele des FC St. Gallen ===== | ||
| + | <WRAP todo> | ||
| + | * Besuchen Sie die Seite https:// | ||
| + | * Schauen Sie sich den HTML-Code der Seite an (Ctrl-U) und suchen Sie darin die Resultate | ||
| + | * Speichern Sie die Seite (nur den HTML-Code) unter dem Namen '' | ||
| + | * Öffnen Sie die Seite in Notepad++, damit Sie eine Übersicht über den HTML-Code haben. | ||
| + | * Kopieren Sie folgendes Code-Skellett nach TigerJython und speichern Sie die Python-Datei im gleichen Ordner wie die obige html-Datei. | ||
| + | <code python> | ||
| + | import re # Regular Expressions | ||
| + | f = open(" | ||
| + | html = f.read() | ||
| + | f.close() | ||
| + | |||
| + | html = html.replace(" | ||
| + | |||
| + | spiele = re.findall(r"< | ||
| + | |||
| + | for s in spiele: | ||
| + | print(s) | ||
| + | |||
| + | # Die gewünschten Daten mit weiteren Regular Expressions auslesen, z.B Datum und Score: | ||
| + | datum = re.findall(r" | ||
| + | print(datum) | ||
| + | print(" | ||
| + | </ | ||
| + | |||
| + | |||
| + | </ | ||