Tools
Für die datenbasierte Forschung steht eine umfassende Toollandschaft zur Verfügung. Neben zahlreichen frei verfügbaren und Open-Source-Angeboten existieren proprietäre Plattformen. Die UB Bern entwickelt nach Bedarf eigene Werkzeuge, lizenziert und berät zu Text-und-Data-Mining-Plattformen.
DS Digital Toolbox
Die DS Digital Toolbox der UB Bern bietet Jupyter Notebooks für den einfachen Einstieg in typische Aufgaben der Arbeit mit Daten, u.a.:
- Nutzung von APIs von Verlagen, Datenbanken und Datenaggregatoren
- Datenbereinigung von tabellarischen Daten
- Text aus PDFs auslesen und Texterkennung (OCR)
- Segmentierung von Dokumenten als Vorarbeit zur OCR
- Natural Language Processing (NLP)
- Abfrage und Auswertung von Bibliotheksmetadaten mittels SRU
Für die Abfrage von Metadaten und Volltexten von Schweizer Kulturerbe-Institutionen werden Notebooks für die nationalen Plattformen e-rara, e-manuscripta und e-periodica angeboten.
Constellate
Constellate ist die Textanalyse-Plattform des Anbieters Ithaka. Der verfügbare Textbestand umfasst u.a. die Archive von JSTOR und Chronicling America. Umfangreiche Korpora können selbst zusammengestellt und als Metadaten, Volltexte und N-Gramme heruntergeladen werden. Constellate bietet eine Reihe von Tutorials zur Einführung in Python und Natural Language Processing (NLP) an, die auch als Jupyter Notebooks verfügbar sind.
Um Constellate nutzen zu können, muss aus dem Netz bzw. VPN der Universität Bern zugegriffen und zusätzlich ein persönlicher Account angelegt werden.
HathiTrust Research Center (HTRC)
Das HTRC ermöglicht die Anwendung von TDM-Methoden auf die Inhalte der HathiTrust Digital Library, deren Bestand über 17 Mio. digitalisierte Bände ab 1700 umfasst. Korpora können nach eigenen Kriterien erstellt und mit implementierten Textanalyse-Routinen verarbeitet werden. Ebenso ist die Nutzung mit eigenen Algorithmen möglich. Hierfür stehen verschiedene Tools und eine umfassende Dokumentation zur Verfügung.
Um HathiTrust Research Center (HTRC) nutzen zu können, ist eine Authentifizierung per SWITCH edu-ID nötig, und es muss ein persönlicher Account bei HathiTrust/HTRC angelegt werden.
OpenRefine
OpenRefine ist eine Open-Source-Software zur einfachen Manipulation von tabellarischen Daten mit einer intuitiven Benutzeroberfläche. OpenRefine stellt umfangreiche Funktionen für Datenbereinigungen und -transformationen zur Verfügung, die durch die Bearbeitungshistorie einfach zu dokumentieren und reproduzieren sind. Eine Besonderheit ist die «Reconciliation»-Funktion mit der eigene Daten gegen externe Datenanbieter (z.B. Wikidata, Gemeinsame Normdatei, CrossRef) geprüft und angereichert werden können.
OpenRefine ist für mehrere Betriebsysteme verfügbar und kann hier online ausprobiert werden, ohne installiert werden zu müssen.
Siehe auch die Folien (auf Deutsch) des Workshops zur Einführung in OpenRefine (2021/22).
Jupyter
Jupyter ist eine open-source integrierte Entwicklungsumgebung (IDE) für verschiedene Programmiersprachen aus der Data Science. Jupyter folgt dem Literate-Programming-Ansatz, in dem Code und Dokumentation in einem Dokument (Jupyter Notebook) zusammengefasst sind. Analyseschritte können so ausführlich erläutert werden, Visualisierungen direkt eingebunden und die Inhalte in verschiedenen Formaten exportiert werden.
Jupyter kann hier mit verschiedenen Kernels online ausprobiert werden. Für Angehörige Schweizer Hochschulen und Forschungseinrichtungen stellt die EPFL online eine JupyterHub-Umgebung zur Verfügung.
SRU
Search/Retrieve via URL (SRU) ist ein Protokoll für Suchanfragen im Internet mittels CQL - man kann also in einem Browser direkt über eine URL eine Katalog-Abfrage machen (z.B. ohne swisscovery). Um die gewünschten Kontroll- und Unterfelder aus dem MARCXML auszulesen gibt es ein Jupyter Notebook.
Digital Scholarship Toolsammlungen
Toolsammlungen | |
---|---|
Textanalyse, Natural Language Processing (NLP), Literaturanalyse |
|
Digital Humanities |
|