Differences
This shows you the differences between two versions of the page.
| Both sides previous revision Previous revision | |||
| lehrkraefte:blc:informatik:glf4-20:umgang-mit-dateien:challenge4 [2021/03/04 12:31] – Ivo Blöchliger | lehrkraefte:blc:informatik:glf4-20:umgang-mit-dateien:challenge4 [2021/03/04 12:33] (current) – [Summe von Zahlen] Ivo Blöchliger | ||
|---|---|---|---|
| Line 1: | Line 1: | ||
| + | ====== Regular Expressions und HTML-Dateien ====== | ||
| + | ===== Einführungsbeispiel ===== | ||
| + | Aus einer HTML-Datei sollen die Links mit verlinktem Text extrahiert werden. Beispiel: | ||
| + | <code html> | ||
| + | <a href=" | ||
| + | </ | ||
| + | Der HTML-Tag ''< | ||
| + | |||
| + | Das gewünschte CSV-Format ist folgendes: | ||
| + | <code text> | ||
| + | Fachgruppe Informatik; | ||
| + | </ | ||
| + | |||
| + | Die Idee ist natürlich, die Umwandlung in einem Aufwasch für die ganze Datei zu erledigen. | ||
| + | <WRAP todo> | ||
| + | * Wir verwenden folgende HTML-Datei: {{lehrkraefte: | ||
| + | * Löschen Sie bitte alle Zeilen, die die Zeichenkette ''< | ||
| + | * Man stellt fest, dass es Zeilen gibt, die noch mehr als einen Link enthalten. Wir werden darum ''< | ||
| + | * Löschen Sie abermals die Zeilen, die ''< | ||
| + | * Führen Sie nun folgende Ersetzung durch, wobei der " | ||
| + | * Ersetzen Sie ''< | ||
| + | * Man stellt fest, dass im Text noch Strichpunkte vorkommen. Diese stehen aber beim ''& | ||
| + | * Ersetzen Sie ''& | ||
| + | * Als letztes vervollständigen sie die Links durch ''< | ||
| + | * Speichern Sie die Datei als '' | ||
| + | * Schliessen Sie Excel wieder (sonst kann die Datei '' | ||
| + | * In Notepad++ kann die Codierung angepasst werden. Im Menu Encoding -> Convert to ANSI. Speichern Sie wieder mit **Ctrl-S**. | ||
| + | * Öffnen Sie die Datei noch einmal mit Excel und überprüfen Sie, ob das Problem jetzt behoben ist. | ||
| + | </ | ||
| + | |||
| + | <hidden Lösungsvorschläge> | ||
| + | * Eine Suche nach '' | ||
| + | </ | ||
| + | |||
| + | |||
| + | <WRAP info> | ||
| + | * Das **Encoding** gibt an, wie Buchstaben (insbesondere Sonderzeichen wie ä, é etc.) codiert, d.h. binär dargestellt werden. | ||
| + | * Praktisch alle Webseiten und Computersysteme verwenden heute (und schon seit langem) das universelle Encoding UTF-8, ausser natürlich Microsoft Windows :-/ | ||
| + | </ | ||
| + | |||
| + | ===== Regular Expressions ===== | ||
| + | * {{lehrkraefte: | ||
| + | |||
| + | |||
| + | ===== Summe von Zahlen ===== | ||
| + | <WRAP todo> | ||
| + | Bestimmen Sie die Summe der Zahlen in folgender Datei: {{lehrkraefte: | ||
| + | |||
| + | Beachten Sie, dass | ||
| + | alle Zahlen Ganzzahlen sind, d.h. das Komma steht als Trennzeichen für | ||
| + | Tausender (amerikanisches Format). Beachten Sie ebenfalls, dass die | ||
| + | Anzahl Leerschläge zwischen den Zahlen variabel sind. | ||
| + | |||
| + | Die Summe ist 55' | ||
| + | </ | ||
| + | |||
| + | <hidden Lösungshilfen> | ||
| + | * Die Kommas können einfach durch nichts ersetzt werden. | ||
| + | * Alle aufeinanderfolgenden Leerschläge müssen durch einen einzigen Strickpunkt '';'' | ||
| + | </ | ||
| + | ===== Oh no, pdf ===== | ||
| + | <WRAP todo> | ||
| + | * Übertragen Sie folgende Tabelle in Excel und überprüfen Sie die Summe: {{lehrkraefte: | ||
| + | * Für diejenigen, die es so richtig mühsam wollen, gleiche Aufgabe aber mit einem " | ||
| + | </ | ||
| + | |||
| + | ===== HTML-Tabelle nach CSV konvertieren ===== | ||
| + | <WRAP todo> | ||
| + | * Erstellen Sie eine von Excel lesbare CSV-Datei aus folgender HTML-Tabelle: | ||
| + | * Berechnen Sie die Summe aller Einträge. | ||
| + | Hinweis: Es gibt viele Möglichkeiten, | ||
| + | </ | ||
| + | |||
| + | <hidden Lösungshilfen> | ||
| + | * Oft ist ein Copy-Paste aus dem Browser einfacher, als die Analyse des HTML-Codes. | ||
| + | * Es gibt online-Tools, | ||
| + | * Das " | ||
| + | </ | ||