Datenquellen für Text- und Datamining (TDM)

Mit dem Begriff Text- und Datamining (TDM) werden algorithmenbasierte Verfahren zur automatischen Extraktion von Informationen aus unstrukturierten oder nur schwach strukturierten Textdaten (Text Mining) und strukturierten Daten (Data Mining) zusammengefasst. 
Auf dieser Seite finden Sie – nach inhaltlichen Kategorien geordnet – Ressourcen für das Text- und Datamining, die durch die Lizenzen der UB Bern und im frei zugänglichen Web verfügbar sind.
Falls nicht anderweitig angegeben, wenden Sie sich bei Interesse an einem Datenbezug bitte an die UB Bern.

Unterlagen von vergangenen Veranstaltungen zu TDM:

Text and Data Mining: A First View (2021, Folien auf Englisch)

Text- und Datamining in den Sozialwissenschaften (2022, Folien auf Deutsch)

Lizenzierte Daten-, Text- und Bildersammlungen

Lizenzierte Daten-, Text- und Bildersammlungen
Ressource	Inhalt	Detailinformationen
Schweizer Medieninhalte: Swissdox@LiRI (allgemeine Information zur Datenbank Swissdox)	ca. 23 Millionen Artikel aus 250 Zeitungen und (Online-) Medienerzeugnissen aus der Schweiz Ab 1910, tägliches Update Zugang per SWITCH edu-ID Nutzung auch per API möglich Massendownload von Volltexten aus Swissdox (Schweizer Mediendatenbank): TSV, XML	Manual Titelliste Nutzungsbedingungen
Bücher international: HathiTrust Research Center	17 Mio. digitalisierte Bände aus US-amerikanischen Bibliotheken (ab 1700) eigene Korpuserstellung und Download in vorverarbeiteter Form (Derived Datasets) einfache implementierte Textanalyse-Routinen und Visualisierungen virtuelle Maschinen für Datenanalysen vorprozessierte Datensets für englischsprachige Literatur	Website, Dokumentation Angebotsübersicht Authentifizierung per SWITCH edu-ID und persönlicher Account bei HathiTrust/HTRC
Fachzeitschriften: JSTOR Text Analysis Support (allgemeine Information zur Datenbank)	12 Mio. bibliografische Datensätze und Volltexte von lizenzierten Fachzeitschriften und Open Access eBooks Persönlicher Account nötig	Text Analysis Support \| JSTOR Quick Start Guides Research requirements beachten
WBIS Online (DeGruyter) (allgemeine Information zur Datenbank)	Biografische Datensätze zu über 6 Mio. historischen und zeitgenössischen Personen Fortlaufende Aktualisierung sowie 8.5 Millionen Digitalisate von biografischen Referenzwerken Multilingual	WBIS
Germanistik Online (DeGruyter) (allgemeine Information zur Datenbank)	400'000 bibliografische Datensätze, fortlaufende Aktualisierung	Germanistik Online
Romanische Bibliografie (DeGruyter) (allgemeine Information zur Datenbank)	400’000 bibliografische Datensätze, fortlaufende Aktualisierung	Romanische Bibliographie
Cambridge Histories (CUP)	Über 400 Handbücher zur internationalen Geschichte (eng) PDF (Download), XML (Anfrage) IP-gesteuerter Zugang (Uni-Netz/VPN) Allgemeine Informationen zur Datenbank	Cambridge Histories
Englischsprachige Periodika (Gale Cengage)	The Times Digital Archive 1785-2014 allgemeine Information zur Datenbank International Herald Tribune 1887-2013, allgemeine Information zur Datenbank The Economist Historical Archive 1843-2015, allgemeine Information zur Datenbank	Times Digital Archive International Herald Tribune Economist Historical Archive
Englischsprachige Periodika (ProQuest)	British Periodicals: 491 Zeitungen/Magazine aus UK, Irland, Indien, 1681-2007, 6.7 Millionen Artikel, JPEG, PDF, OCR/XML, allgemeine Information zur Datenbank American Periodicals: 1’509 Zeitungen/Magazine und wissenschaftliche Zeitschriften, Nordamerika, 1741-1988, 11.5 Mio. Artikel, PDF, OCR/XML, allgemeine Information zur Datenbank	British Periodicals American Periodicals
Englischsprachige Monografien (Gale Cengage)	Eighteenth Century Collections Online (ECCO), allgemeine Information zur Datenbank Nineteenth Century Collections Online (NCCO): British Theatre, Music and Literature, allgemeine Information zur Datenbank Nineteenth Century Collections Online (NCCO): Europe and Africa, allgemeine Information zur Datenbank	ECCO NCCO British Theatre NCCO Europa Africa
UK Parliamentary Papers (ProQuest)	Britische Parlamentsdokumente des 18.-20. Jahrhunderts  XML, PDF Allgemeine Informationen zur Datenbank	Parliamentary Papers

Frei zugängliche Textsammlungen

Frei zugängliche Textsammlungen
Plattform	Inhalt	Detailinformationen
e-rara	100'000 alte und rare Druckschriften aus Schweizer Institutionen Volltexte: PDF, z.T. TXT Jupyter Notebook zum Massendownload von Metadaten und Volltexten	Übersicht zu Datenzugängen und Bedingungen
e-manuscripta	150'000 handschriftliche Quellen aus Schweizer Institutionen Volltexte: PDF Jupyter Notebook zum Massendownload von Metadaten und Volltexten	Übersicht zu Datenzugängen und Bedingungen
e-periodica	900 Zeitschriften aus der Schweiz Volltexte: PDF Jupyter Notebook zum Massendownload von Metadaten und Volltexten incl. Text-Parsing	Übersicht zu Datenzugängen und Bedingungen
swisscollections	Metakatalog für 14 Institutionen Handschriften, Archivbestände, alte Drucke, Musikalien, Bildbestände, Karten und Bibliographien Datenexport: Übersichtsliste (CSV), Metadatenpaket (ZIP) und SRU-Schnittstelle	Nutzungsbedingungen
Chronicling America	3444 Zeitungstitel bzw. 18 Mio. Seiten aus den USA, 1777-1963 Bulk Downloads von Scans und Volltexten (ALTO, JP2/JPEG, PDF, TXT) Bulk Downloads von Abbildungen via Newspaper Navigator Datase	Frei zugänglich, gemeinfrei
CLARIN Resource Families	Übersicht und z.T. Zugang zu Sprachkorpora aus allen Sachgebieten in einer Vielzahl von Sprachen	Teilweise frei zugänglich, verschiedene Lizenzen
Deutsches Textarchiv	disziplinen- und gattungsübergreifende Sammlungen und Korpora von deutschsprachigen Texten (17.-19. Jh.) 1500 Titel umfassender DTA-Kernkorpus DTA-Erweiterungskorpus (ca. 4000 Quellen) Dumps diverser Subkorpora nach Zeitraum, Genre Metadaten (Dublin Core), Volltexte (TEI, TCF, TXT)	Frei zugänglich, CC-BY-SA
GLAM Workbench Website	umfassende Datenbestände von australischen und neuseeländischen Kulturerbe-Institutionen, Webarchiven und Regierungsdokumenten API-Dokumentationen, Bulk-Downloads und Jupyter Notebooks	Frei zugänglich, verschiedene Lizenzen
Internet Archive Dokumentation	37 Mio. Bücher und Texte verschiedener Genres und Sprachen in verschiedenen Datenformaten Massen-Download per Command-Line Tool und Python-Wrapper	Frei zugänglich, verschiedene Lizenzen, z.T. nicht angegeben
OpenGLAM Survey Übersicht	Übersicht über Open-Data-Angebote (Digitalisate, Texte, Metadaten) von 1600 Kulturerbe-Institutionen weltweit, mit Angaben zu Lizenzen und APIs	Frei zugänglich, gemeinfrei oder offene Lizenzen
Project Gutenberg Dokumentation	70'000 Bücher verschiedener Genres und Sprachen in verschiedenen Datenformaten	Frei zugänglich, gemeinfrei
Text Creation Partnership	73’000 gemeinfreie transkribierte Volltexte (SGML/XML/TEI) von Drucken des 15.-18. Jahrhunderts als Bulk Downloads (Einzeldateien auch im Oxford Text Archive: EBUP, HTML, XML, z.T. auch POS-annotiert als TSV) Early English Books Online (EEBO, 60'000 transkribierte Volltexte, 1473-1700) Eighteenth-Century Collections Online (ECCO, 3’000 transkribierte Volltexte, 1700-1800) Evans Early American Imprints (Evans, 5’000 transkribierte Volltexte, 1640-1800)	Frei zugänglich, gemeinfrei

Rechtliches

Die Ressourcen und ihre Zugänge unterliegen verschiedenen rechtlichen und technischen Nutzungsbedingungen. Konsultieren Sie diese vor einem automatisierten Zugriff. Insbesondere für hier nicht aufgeführte lizenzierte Inhalte ist ein automatisierter Zugriff oft ausgeschlossen und kann zur Sperrung des Zugriffs auf die Datenbank durch den Anbieter führen. Kontaktieren Sie uns, wenn Sie unsicher sind, ob ein Zugriff rechtmässig ist.

Für wissenschaftliche Zwecke sind die mit TDM-Methoden verbundenen Vervielfältigungen und Speicherungen von rechtmässig zugänglichen Inhalten durch das Schweizerische Urheberrechtsgesetz erlaubt.

Die Verwendung der E-Medien oder Teile davon in Kombination mit Technologien der Künstliche Intelligenz (KI) ist in vielen Fällen vertraglich untersagt. Sollten sie einen solchen Einsatz von KI planen, müssen sie vorgängig Kontakt mit uns aufnehmen, um die entsprechenden Rahmenbedingungen zu klären.

Wenden Sie sich bei Fragen oder Unsicherheiten an uns.

Universitätsbibliothek Bern UB

Datenquellen für Text- und Datamining (TDM)

Lizenzierte Daten-, Text- und Bildersammlungen

Frei zugängliche Textsammlungen

Rechtliches