About this episode
Wieder einmal ein von langer Hand vorbereitetes Thema. Hier kulminiert der Inhalt der beiden vorangegangenen Folgen zu einem Blick in den Maschinenraum von z.B. Mastodon. Außerdem sprechen wir ein weiteres Mal über unseren persönlichen Blick und Umgang mit diesem Thema.ShownotesKlaus schreibt per Mail:
Hallo timeless und Xyrill,
bin Anfang des Jahres irgendwo auf euren Podcast gestoßen und dort eingestiegen, wo ihr damals gerade wart, Folge 49 Schadcode und dann die weiteren.
Diese haben mir so gut gefallen, dass ich alle Folgen mit Antennapod abgeholt habe und dabei bin euren Podcast von hinten aufzurollen.
Großes Kompliment an Euch! Phantastische Serie! Freue mich auf jede neue und für mich neue-alte Folge.
Bin zwar vom Fach, aber lerne immer was Neues oder andere Blickwinkel kennen. HERRLICH!
Eine kleine Bemerkung von mir zu den Folgen 13 und 14, Textkodierung und Textdarstellung.
Ich bevorzuge so wie Xyrill auch die Verwendung von kombinierenden diakritischen Zeichen.
Die meisten der für mich nützlichen davon (u.a. für DE, FR, NL, CN-Pinyin) beginnen an der Hex-Adresse U+0300 ff.
Leicht zu merken und praktisch, wenn man ständig mit anderen Tastaturbelegungen zu tun hat.
Worauf ich aber hinaus möchte, ist folgendes:
Diese diakritischen Zeichen werden sowohl am Schirm als auch im Druck gleich dargestellt, obwohl ihnen andere Byte-Folgen zugrunde liegen. Hat Xyrill alles beschrieben. Hab ja zugehört. Für Textprogramme, etc. ist das kein Problem, in Datenbanken aber schon.
Es macht dann leider doch einen gravierenden Unterschied, ob diakritische Zeichen wie en "ä" aus U+00E4 oder aus der Kombination von U+0061 + U+0308 entstehen.
Tastaturen, die diese Zeichen direkt kodieren, verwenden nur die Version mit 1 Codepunkt.
Bei Längenbestimmungen von Zeichenketten ergeben sich Unterschiede. Die Zeichenketten sehen gleich aus, sind aber nicht gleich lang, obwohl sie auch gleich lang aussehen!
Eingabeformulare fangen das nicht immer gut ab. Gleich aussehender Begriff, aber doch nicht derselbe.
Idem bei Suchanfragen.
etc.
Ich empfehle daher immer in Datenbanken Strings so zu standardisieren, dass nur die Version mit 1 Codepunkt verwendet wird, so wie eben Muttersprachler diesen Text auf ihrer sprachspezifischen Tastatur eingeben würden.
Viele Grüße aus Belgien!
Klaus
Nun zum eigentlichen Thema:
Ausgangssituation
Soziale Medien: "digitale Medien bzw. Plattformen, die es Nutzern ermöglichen, sich im Internet zu vernetzen, [...] untereinander auszutauschen und mediale Inhalte einzeln, in einer definierten Gemeinschaft oder offen in der Ge