Alle wikipedia artikel downloaden

Wir haben jetzt Informationen zu jedem einzelnen Buch auf Wikipedia. Sie können denselben Code verwenden, um Artikel für jede Kategorie Ihrer Wahl zu finden, oder die Funktionen ändern, um nach verschiedenen Informationen zu suchen. Mit einigen ziemlich einfachen Python-Code, sind wir in der Lage, durch eine unglaubliche Menge an Informationen zu suchen. Faire Warnung: Zum jetzigen Teil beträgt der Download auf den meisten Breitbandverbindungen etwa 23 GB und kann mehrere Stunden dauern. Sie benötigen auch eine stabile Verbindung, denn wenn sie während des Prozesses fehlschlägt, müssen Sie sie stattdessen manuell herunterladen. Dies ist wirklich einfach: Klicken Sie in der XOWA-Anwendung auf die Option Extras und dann auf Zentral herunterladen. Sie sehen verschiedene Optionen für das, was Sie herunterladen können. Als Open Source werden diese Dateien nicht ständig aktualisiert, aber wenn Sie damit einverstanden sind, ist dies der einfachste Weg. Die Dateien werden in der Standard-Speicherposition für Keras gespeichert. Das Herunterladen aller Dateien nacheinander dauert etwas mehr als 2 Stunden.

(Sie können versuchen, parallel herunterzuladen, aber ich habe Ratenbeschränkungen erreicht, als ich versuchte, mehrere Anforderungen gleichzeitig zu stellen.) WikiTaxi ist auch eine gute Wahl, aber Sie müssen die XML-Datei von der Wikipedia-Dump-Website herunterladen. Es ist auch wichtig zu beachten, dass WikiTaxi keine Bilder unterstützt. Die vollfette Wikipedia-Download-ZIM-Datei auf Kiwix Website wiegt in einem saftigen 78GB, aber es gibt eine Version, die alle Bilder entfernt, reduziert die 5 Millionen+ Artikel auf „nur” 36GB in der Größe. In der Vergangenheit haben wir Ihnen gezeigt, wie Sie eine PDF-Datei mit Wikpedia-Artikeln erstellen, die Sie mitnehmen können. Nun, wir stießen auf eine weitere nette Lösung, wo Sie tatsächlich Ihre eigene Offline-Version mit WikiTaxi erstellen können. *Ein Wort der Warnung: Sie werden mit großen Dateigrößen zu tun haben. Die Downloadzeiten können also langsam sein. 5. Klicken Sie im ABSCHNITT XML-Dump-Datei zum Importieren auf Durchsuchen und wählen Sie die Datenbankdatei aus, die Sie in Schritt 1 heruntergeladen haben.

Während Sie eine Internetverbindung haben, müssen Sie nur die Artikel, die Sie interessieren, mit einem Lesezeichen kennzeichnen. Sie werden im lokalen Speicher gespeichert und Sie können sie nach Belieben lesen. So können Sie z. B. alle Artikel, die Sie benötigen, während Sie das Schul-WLAN verwenden, als Lesezeichen markieren und dann auf mobilen Daten speichern, wenn Sie sie später erneut durchsuchen. Bilder und andere hochgeladene Medien sind von Spiegeln verfügbar und werden direkt von Wikimedia-Servern bereitgestellt. Bulk-Download ist (Stand September 2013) von Spiegeln verfügbar, aber nicht direkt von Wikimedia-Servern angeboten. Siehe Liste der aktuellen Spiegel.

Sie sollten vom Spiegel rsync und dann die fehlenden Bilder aus upload.wikimedia.org; Wenn Sie von upload.wikimedia.org herunterladen, sollten Sie sich auf 1 Cache-Fehler pro Sekunde drosseln (Sie können Header für eine Antwort überprüfen, um zu sehen, ob ein Treffer oder ein Fehler war, und dann wieder ausschalten, wenn Sie einen Fehler erhalten) und Sie sollten nicht mehr als eine oder zwei gleichzeitige HTTP-Verbindungen verwenden. Stellen Sie in jedem Fall sicher, dass Sie über eine genaue Benutzer-Agent-Zeichenfolge mit Kontaktinformationen (E-Mail-Adresse) verfügen, damit Ops Sie kontaktieren können, wenn ein Problem vorliegt. Sie sollten Prüfsummen von der mediawiki-API abrufen und überprüfen. Die API-Etikette-Seite enthält einige Richtlinien, obwohl nicht alle von ihnen gelten (z. B. weil upload.wikimedia.org nicht MediaWiki ist, gibt es keinen maxlag-Parameter). Wikipedia wächst weiter, und die Zahl der Artikel in Wikipedia steigt um über 17.000 pro Monat. Die Zahl der Artikel, die jeden Monat zu Wikipedia hinzugefügt werden, erreichte 2006 mit über 50.000 neuen Artikeln pro Monat ihren Höchstwert und ist seitdem langsam aber stetig rückläufig. Obwohl dies zu zeigen scheint, dass Wikipedias Wachstum verlangsamt oder aufhört, sollte angemerkt werden, dass die Menge an Text, die jedes Jahr zu Wikipedia-Artikeln hinzugefügt wird, seit 2006 konstant ist, mit etwa 1 Gigabyte (komprimierter) Text pro Jahr.

Dies impliziert, dass im Laufe der Zeit proportional mehr Inhalte zu bestehenden Artikeln hinzugefügt werden als neue Artikel, und dass Wikipedia die gleiche anhaltende Wachstumsrate während des letzten Jahrzehnts beibehalten hat.


Comments are closed