Datenquellen für Text- und Datamining (TDM)

Mit dem Begriff Text- und Datamining (TDM) werden algorithmenbasierte Verfahren zur automatischen Extraktion von Informationen aus unstrukturierten oder nur schwach strukturierten Textdaten (Text Mining) und strukturierten Daten (Data Mining) zusammengefasst.  
Auf dieser Seite finden Sie – nach inhaltlichen Kategorien geordnet – Ressourcen für das Text- und Datamining, die durch die Lizenzen der UB Bern und im frei zugänglichen Web verfügbar sind. 
Falls nicht anderweitig angegeben, wenden Sie sich bei Interesse an einem Datenbezug bitte an die UB Bern

Unterlagen von vergangenen Veranstaltungen zu TDM: 

Lizenzierte Daten-, Text- und Bildersammlungen
Ressource Inhalt Detailinformationen
Schweizer Medieninhalte: 
Swissdox@LiRI (allgemeine Information zur Datenbank Swissdox) 
  • ca. 23 Millionen Artikel aus 250 Zeitungen und (Online-) Medienerzeugnissen aus der Schweiz 
  • Ab 1910, tägliches Update 
  • Zugang per SWITCH edu-ID 
  • Nutzung auch per API möglich 
  • Massendownload von Volltexten aus Swissdox (Schweizer Mediendatenbank): TSV, XML 

WBIS Online (DeGruyter) (allgemeine Information zur Datenbank
  • Biografische Datensätze zu über 6 Mio. historischen und zeitgenössischen Personen 
  • Fortlaufende Aktualisierung sowie 8.5 Millionen Digitalisate von biografischen Referenzwerken 
  • Multilingual  
Germanistik Online (DeGruyter) (allgemeine Information zur Datenbank
  • 400'000 bibliografische Datensätze, fortlaufende Aktualisierung  
Romanische Bibliografie (DeGruyter) (allgemeine Information zur Datenbank
  • 400’000 bibliografische Datensätze, fortlaufende Aktualisierung  
Bücher international: HathiTrust Research Center 
  • 17 Mio. digitalisierte Bände aus US-amerikanischen Bibliotheken (ab 1700) 
  • eigene Korpuserstellung und Download in vorverarbeiteter Form (Derived Datasets) 
  • einfache implementierte Textanalyse-Routinen und Visualisierungen 
  • virtuelle Maschinen für Datenanalysen 
  • vorprozessierte Datensets für englischsprachige Literatur 
Cambridge Histories (CUP) 
  • Über 400 Handbücher zur internationalen Geschichte (eng) 
  • PDF (Download), XML (Anfrage) 
  • IP-gesteuerter Zugang (Uni-Netz/VPN) 
  • Allgemeine Informationen zur Datenbank 
Englischsprachige Periodika (Gale Cengage) 
  • The Times Digital Archive 1785-2014 allgemeine Information zur Datenbank 
  • International Herald Tribune 1887-2013, allgemeine Information zur Datenbank 
  • The Economist Historical Archive 1843-2015, allgemeine Information zur Datenbank 
Englischsprachige Periodika (ProQuest) 
  • British Periodicals: 491 Zeitungen/Magazine aus UK, Irland, Indien, 1681-2007, 6.7 Millionen Artikel, JPEG, PDF, OCR/XML, allgemeine Information zur Datenbank 
  • American Periodicals: 1’509 Zeitungen/Magazine und wissenschaftliche Zeitschriften, Nordamerika, 1741-1988, 11.5 Mio. Artikel, PDF, OCR/XML, allgemeine Information zur Datenbank 
Englischsprachige Monografien (Gale Cengage) 
  • Eighteenth Century Collections Online (ECCO), allgemeine Information zur Datenbank 
  • Nineteenth Century Collections Online (NCCO): British Theatre, Music and Literature, allgemeine Information zur Datenbank 
  • Nineteenth Century Collections Online (NCCO): Europe and Africa, allgemeine Information zur Datenbank 

 

UK Parliamentary Papers (ProQuest) 
  • Britische Parlamentsdokumente des 18.-20. Jahrhunderts  
  • XML, PDF 
  • Allgemeine Informationen zur Datenbank 
Frei zugängliche Textsammlungen
Plattform Inhalt  Detailinformationen
e-rara 
  • 100'000 alte und rare Druckschriften aus Schweizer Institutionen 
  • Volltexte: PDF, z.T. TXT 
  • Jupyter Notebook zum Massendownload von Metadaten und Volltexten 
Übersicht zu Datenzugängen und Bedingungen 
e-manuscripta 
  • 150'000 handschriftliche Quellen aus Schweizer Institutionen 
  • Volltexte: PDF 
  • Jupyter Notebook zum Massendownload von Metadaten und Volltexten 
Übersicht zu Datenzugängen und Bedingungen 
e-periodica
  • 900 Zeitschriften aus der Schweiz 
  • Volltexte: PDF 
  • Jupyter Notebook zum Massendownload von Metadaten und Volltexten incl. Text-Parsing 
Übersicht zu Datenzugängen und Bedingungen 
Chronicling America Frei zugänglich, gemeinfrei
CLARIN Resource Families 
  • Übersicht und z.T. Zugang zu Sprachkorpora aus allen Sachgebieten in einer Vielzahl von Sprachen 
Teilweise frei zugänglich, verschiedene Lizenzen
Deutsches Textarchiv 
  • disziplinen- und gattungsübergreifende Sammlungen und Korpora von deutschsprachigen Texten (17.-19. Jh.) 
  • 1500 Titel umfassender DTA-Kernkorpus 
  • DTA-Erweiterungskorpus (ca. 4000 Quellen) 
  • Dumps diverser Subkorpora nach Zeitraum, Genre 
  • Metadaten (Dublin Core), Volltexte (TEI, TCF, TXT) 
Frei zugänglich,  
CC-BY-SA 
GLAM Workbench 

Website 

  • umfassende Datenbestände von australischen und neuseeländischen Kulturerbe-Institutionen, Webarchiven und Regierungsdokumenten 
  • API-Dokumentationen, Bulk-Downloads und Jupyter Notebooks 
Frei zugänglich, verschiedene Lizenzen
Internet Archive 

Dokumentation 

  • 37 Mio. Bücher und Texte verschiedener Genres und Sprachen in verschiedenen Datenformaten 
  • Massen-Download per Command-Line Tool und Python-Wrapper 
Frei zugänglich, verschiedene Lizenzen, z.T. nicht angegeben
OpenGLAM Survey 

Übersicht 

  • Übersicht über Open-Data-Angebote (Digitalisate, Texte, Metadaten) von 1600 Kulturerbe-Institutionen weltweit, mit Angaben zu Lizenzen und APIs 
Frei zugänglich, gemeinfrei oder offene Lizenzen
Project Gutenberg 

Dokumentation 

  • 70'000 Bücher verschiedener Genres und Sprachen in verschiedenen Datenformaten
Frei zugänglich, gemeinfrei
Text Creation Partnership 
  • 73’000 gemeinfreie transkribierte Volltexte (SGML/XML/TEI) von Drucken des 15.-18. Jahrhunderts als Bulk Downloads (Einzeldateien auch im Oxford Text Archive: EBUP, HTML, XML, z.T. auch POS-annotiert als TSV) 
  • Early English Books Online (EEBO, 60'000 transkribierte Volltexte, 1473-1700) 
  • Eighteenth-Century Collections Online (ECCO, 3’000 transkribierte Volltexte, 1700-1800) 
  • Evans Early American Imprints (Evans, 5’000 transkribierte Volltexte, 1640-1800) 
Frei zugänglich, gemeinfrei

Die Ressourcen und ihre Zugänge unterliegen verschiedenen rechtlichen und technischen Nutzungsbedingungen. Konsultieren Sie diese vor einem automatisierten Zugriff. Insbesondere für hier nicht aufgeführte lizenzierte Inhalte ist ein automatisierter Zugriff oft ausgeschlossen und kann zur Sperrung des Zugriffs auf die Datenbank durch den Anbieter führen. Kontaktieren Sie uns, wenn Sie unsicher sind, ob ein Zugriff rechtmässig ist. 

Für wissenschaftliche Zwecke sind die mit TDM-Methoden verbundenen Vervielfältigungen und Speicherungen von rechtmässig zugänglichen Inhalten durch das Schweizerische Urheberrechtsgesetz erlaubt. 

Die Verwendung der E-Medien oder Teile davon in Kombination mit Technologien der Künstliche Intelligenz (KI) ist in vielen Fällen vertraglich untersagt. Sollten sie einen solchen Einsatz von KI planen, müssen sie vorgängig Kontakt mit uns aufnehmen, um die entsprechenden Rahmenbedingungen zu klären. 

Wenden Sie sich bei Fragen oder Unsicherheiten an uns.