Navigation und Service

Call for Participation: Twitter Datasprint

Datasprint

Sie haben Forschungsfragen, für die Sie große Mengen deutschsprachiger Tweets auswerten möchten? Twitter-Daten sind für Ihre Forschung in den Geistes- oder Sozialwissenschaften, in den Natur- oder Lebenswissenschaften interessant? Oder visualisieren Sie leidenschaftlich gern Social-Media-Daten?

Dann haben Sie in der Deutschen Nationalbibliothek in Frankfurt am Main am 21. und 22. März 2024 eine besondere Gelegenheit: Zusammen mit GESIS und den NFDI-Konsortien BERD@NFDI, KonsortSWD, NFDI4Culture, NFDI4Data Science, NFDI4Memory, Text+ und KDH UB HU Berlin laden wir Sie zu einem zweitägigen Datasprint ein, für den wir drei umfangreiche, einzigartige Korpora an Twitter-Daten zur Verfügung stellen.

Zahlreiche Arten der methodischen und analytischen Verarbeitung sind denkbar. Einige Beispiele finden sich z. B. im GESIS-Blog.

Die Ergebnisse werden – sofern es die Rechtslage erlaubt - von den veranstaltenden Institutionen über deren Websites und Mailinglisten verbreitet und damit in den einschlägigen Communities sichtbar gemacht. Auch Nachnutzungsszenarien durch die Veranstaltenden sind möglich und erwünscht. Alle Projekte werden mit kleinen Preisen honoriert.

Bewerbung

Für die Teilnahme bewerben können sich alle, die in ihrer Forschung mit Social-Media-Daten bereits arbeiten oder planen dies zu tun, ebenso wie Kreative, Entwickler*innen, Bibliothekar*innen, Archivar*innen und (Medien-)Künstler*innen. Bitte beschreiben Sie kurz Ihre spezifische wissenschaftliche Fragestellung, Ihr Vorhaben (z. B. Erschließung von Daten, Erstellung von Derivaten, Topic Models für bestimmte Hashtags), Ihre Motivation für die Teilnahme, Ihren fachlichen bzw. beruflichen Hintergrund sowie die einschlägigen Skills, die Sie mitbringen. Nutzen Sie dafür unser Bewerbungsformular.

Zum Auftakt des Datasprints findet ein Ideenpitching mit anschließendem Team-Building statt. Es ist also auch möglich, vor Ort noch zu entscheiden, sich an Projekten anderer Teilnehmenden zu beteiligen.

Bitte füllen Sie das Bewerbungsformular bis zum 14. Dezember 2023 aus.

Eine Rückmeldung über die Annahme der Bewerbung erfolgt bis zum 22. Dezember 2023.

Ablauf

Donnerstag, 21. März 2024

10:00 Uhr Begrüßung

10:15 Uhr Ideenpitching

10:45 Uhr Team-Building

12:00 Uhr Mittagspause

13:00 Uhr Beginn Datasprint (bis maximal 22:00 Uhr)

Freitag, 22. März 2024

ab 9:00 Uhr Fortsetzung Datasprint

12:00 Uhr Mittagspause

13:00 Uhr Ergebnispräsentation & Diskussion

15:00 Uhr Ende der Veranstaltung

Die Daten

Zwei der Korpora enthalten deutschsprachige Twitter-Daten von 2006 – 2011 und 2014 – 2023, das dritte Korpus stellt eine einprozentige Stichprobe aller Tweets über einen Zeitraum von 10 Jahren dar:

Korpus 1: 2006 – 2011. Das Korpus umfasst ca. 220 Millionen Tweets aus dem Zeitraum März 2006 (Start der Plattform) bis einschließlich Juni 2011. Gesammelt wurde mithilfe einer Suchfunktion, die alle von Twitter als deutschsprachig gelabelten Tweets umfasst. Das Korpus enthält zu jedem Tweet sämtliche über die Twitter-API verfügbaren Metadaten. Die Daten sind im JSONL-Format in mehreren Dateien gespeichert (line-oriented JSON, ein Tweet pro Zeile).

Korpus 2: 2014 – 2023. Dieses Korpus enthält ca. 2 Milliarden deutschsprachige Twitter-Daten, die in Echtzeit ohne inhaltliche Filterung gesammelt wurden. Gesammelt wurde nach dem Verfahren von Scheffler (2014), also Tweets, die deutsche Funktionswörter (‘und’, ’sie’, ‘dass’, …) enthalten, sowie einen Sprachfilter passieren. Neben dem Text wurden in dem Korpus nur einzelne Metadaten gespeichert, nämlich Tweet- und User-ID, Datetime des Postings, Reply-to-ID, sowie (für einen Großteil der Daten) die geografischen Koordinaten. Das Korpus besteht somit aus einem repräsentativen Anteil deutschsprachiger Tweets zwischen Juli 2014 und Mitte März 2023. Die Daten liegen als CSV-Dateien vor (ein Tweet pro Zeile, Metadaten spaltenweise).

Korpus 3: 2013 – 2023. TweetsKB ist ein Twitter-Archiv, das auf der 1% Random Sample API von Twitter basiert und insgesamt 14 Milliarden Tweets beinhaltet, inklusive der dazugehörigen Metadaten. Zu den in JSON-Format vorliegenden Texten und Metadaten werden auch annotierte Features wie Entitäten und Sentimente zur Verfügung gestellt.

Die veranstaltenden Institutionen stellen Ihnen auf Anfrage gerne auf Ihre Fragestellungen zugeschnittene Subsets der Korpora zur Verfügung. Ebenso können bestimmte Derivate oder Vorverarbeitungsschritte für die Daten (z. B. Tokenisierung, N-Gramme) sowie Zusammenstellungen von Tweets (z. B. zu einem oder mehreren Hashtags, einer Liste von Accounts, Extraktion von Hashtags, Links etc.) erstellt werden. Bitte vermerken Sie entsprechende Bedarfe im Bewerbungsformular.

Mentor*innen mit fundierten Kenntnissen der Datensätze und in verschiedenen Programmiersprachen begleiten und unterstützen die Teilnehmenden während der Veranstaltung. Die Anzahl der Teilnehmer*innen ist begrenzt.

Teilnahmebedingungen

  • Aufgrund der rechtlichen Rahmenbedingungen darf die Arbeit an und mit den Korpora ausschließlich in den Räumen und auf Geräten der Deutschen Nationalbibliothek ausgeführt werden. Wegen dieser Einschränkungen kann es sein, dass bestimmte Ergebnisse des Datasprints nicht veröffentlicht werden dürfen (im Einzelfall zu prüfen).
  • Für den Datasprint stehen insgesamt 14 Computerterminals zur Verfügung. Bis zu zwei Teilnehmende können aber auch gemeinsam an einem Terminal arbeiten. Die Bereitschaft dazu bzw. die Anmeldung als Team bitten wir im Bewerbungsformular kenntlich zu machen.
  • Für die Arbeit notwendige Open-Source-Software und Rechenkapazität kann – nach Verfügbarkeit – bereitgestellt werden. Bitte geben Sie im Bewerbungsformular Ihren Bedarf so konkret wie möglich an, damit die entsprechenden Ressourcen passend vorinstalliert werden können.
  • Bereitgestellt werden virtuelle Linux-Maschinen. WLAN ist für mitgebrachte Geräte vorhanden, die Rechner, an denen mit den Twitter-Daten gearbeitet wird, haben jedoch aus rechtlichen Gründen keine Verbindung zum Internet.
  • Für Teilnehmende, die nicht über eigene Reisemittel verfügen, können auf Antrag Reise- und Übernachtungskosten bis maximal 300 Euro übernommen werden.

Letzte Änderung: 30.11.2023
Kurz-URL: https://www.dnb.de/twitterdatasprint

nach oben