Tools

Für die datenbasierte Forschung steht eine umfassende Toollandschaft zur Verfügung. Neben zahlreichen frei verfügbaren und Open-Source-Angeboten existieren proprietäre Plattformen. Die UB Bern entwickelt nach Bedarf eigene Werkzeuge, lizenziert und berät zu Text-und-Data-Mining-Plattformen. 

DS Digital Toolbox

Die DS Digital Toolbox der UB Bern bietet Jupyter Notebooks für den einfache Einstieg in typische Aufgaben der Arbeit mit Daten: • Nutzung von APIs von Katalogen, Volltextplattformen und Datenbanken: Swisscovery, E-Rara, E-Manuscripta, E-Periodica, Crossref, OpenAlex, Swissdox@LiRI • Segmentierung von Dokumenten als Vorarbeit zur OCR • Text aus PDFs auslesen und Texterkennung (OCR) • Natural Language Processing (NLP) Basics.

Constellate

Constellate ist die Textanalyse-Plattform des Anbieters Ithaka. Der verfügbare Textbestand umfasst u.a. die Archive von JSTOR (wissenschaftliche Zeitschriften) und Chronicling America (Zeitungen). Umfangreiche Korpora können selbst zusammengestellt und als Metadaten, Volltexte und N-Gramme heruntergeladen werden. Constellate bietet eine Reihe von Tutorials zur Einführung in Python und Natural Language Processing (NLP) an, die auch als Jupyter Notebooks verfügbar sind. Um Constellate nutzen zu können, muss aus dem Netz bzw. VPN der Universität Bern zugegriffen und zusätzlich ein persönlicher Account angelegt werden.

HathiTrust Research Center (HTRC)

Das HTRC ermöglicht die Anwendung von TDM-Methoden auf die Inhalte der HathiTrust Digital Library, deren Bestand über 18 Mio. digitalisierte Bände ab 1700 umfasst. Korpora können nach eigenen Kriterien erstellt und mit implementierten Textanalyse-Routinen verarbeitet werden. Ebenso ist die Nutzung mit eigenen Algorithmen möglich. Hierfür stehen verschiedene Tools und eine umfassende Dokumentation zur Verfügung. Um HathiTrust Research Center (HTRC) nutzen zu können, ist eine Authentifizierung per SWITCH edu-ID nötig, und es muss ein persönlicher Account bei HathiTrust/HTRC angelegt werden.

OpenRefine

OpenRefine ist eine Open-Source-Software zur einfachen Manipulation von tabellarischen Daten mit einer intuitiven Benutzeroberfläche. OpenRefine stellt umfangreiche Funktionen für Datenbereinigungen und -transformationen zur Verfügung, die durch die Bearbeitungshistorie einfach zu dokumentieren und zu reproduzieren sind. Eine Besonderheit ist die «Reconciliation»-Funktion, mit der eigene Daten gegen externe Datenanbieter (z.B. Wikidata, Gemeinsame Normdatei, FactGrid, ORCID, Getty) geprüft und angereichert werden können. OpenRefine ist für mehrere Betriebsysteme verfügbar und kann online ausprobiert werden ohne installiert werden zu müssen.

Jupyter

Jupyter ist eine quelloffene, integrierte Entwicklungsumgebung (IDE) für verschiedene Programmiersprachen wie R und Python aus der Data Science. Jupyter folgt dem Literate-Programming-Ansatz, in dem Code, Dokumentation und Output in einem Dokument (Jupyter Notebook) zusammengefasst sind. Analyseschritte können so ausführlich erläutert werden, Visualisierungen direkt eingebunden und die Inhalte in verschiedenen Formaten exportiert werden. Jupyter kann lokal verwendet werden, oder online per JupyterLite oder mit Google-Account in Google Colab. Für Angehörige Schweizer Hochschulen und Forschungseinrichtungen stellt die EPFL online eine JupyterHub-Umgebung zur Verfügung (Login via SWITCHedu-ID).

SRU

Search/Retrieve via URL (SRU) ist ein Protokoll für Suchanfragen im Internet mittels CQL - man kann also in einem Browser direkt über eine URL eine Katalog-Abfrage machen (z.B. ohne swisscovery). Um die gewünschten Kontroll- und Unterfelder aus dem MARCXML auszulesen, gibt es ein Jupyter Notebook.

Digital Scholarship Toolsammlungen
Toolsammlungen
Textanalyse, Natural Language Processing (NLP), Literaturanalyse
Digital Humanities