FAQ

Zu Abschnitt springen:

Allgemeines

Was war der Ursprung dieses Projektes?

Am Anfang stand "nur" der Wunsch / das Interesse, einen Web-Crawler zu entwickeln.
Es gibt bereits unzählige Crawler, Meta-Suchmaschinen und vieles mehr. Die meisten dieser Programme dienen dazu, finanziellen Profit zu generieren. (Werbe-Einschaltungen, gebührenpflichtige Mitgliedschaften, Verkauf von Daten etc.)

Was ist das Ziel / die Absicht hinter NaWeBe?

Mit der "Website Bewertung" will ich einen nicht-kommerziellen Weg beschreiten. Die Algorithmen sind nicht darauf ausgelegt, Suchmaschinenoptimierung (SEO) zu betreiben. Es wird keine Werbung geben und alle Ergebnisse stehen frei zur Verfügung.
Es soll einfach ein "Überblick für statistik-interessierte Personen" geboten werden.

Nicht-Kommerziell ist nett, aber wie sieht es mit Open-Source aus?

Seit Juli 2016 auf Github verfügbar.

Welche Technologien werden verwendet?

Im Grunde handelt es sich um eine dynamische Website (wie unzählige andere), basierend auf php & MySQL.
Da ich beruflich viel damit zu tun hatte, verwende ich den cakePHP-Framework.

Welche Sprachen werden unterstützt?

Vorläufig nur Deutsch.

How-To

Wie funktioniert die "Visualisierung"?

Mit dieser Funktion () kann man sich detailliert anzeigen lassen, was der Crawler "sieht".
Moderne Screen-Reader für Menschen mit Sehschwäche sind natürlich um einiges höher-entwickelt, jedoch ist das Prinzip dasselbe.
Damit ist leicht zu erkennen, welche Wörter nicht erkannt wurden. Oder allgemein gesagt: Wie die Bewertung zustande kommt.

Wie kann man eine neue Domain oder Website eintragen?

Ganz einfach Hier.
Die Seite wird so bald wie möglich besucht, jedoch kann es mehrere Wochen dauern, bis auch Unterseiten erfasst werden.

Technische Details

Wird der Robots-Meta-Tag berücksichtigt?

Ja, Der Crawler repektiert den Robots-Meta-Tag (noindex, nofollow).
HTML-Kommentare oder Javascript-Kommentare die ähnliches andeuten, werden nicht verarbeitet da sie nicht standardisiert sind. (Wurde während der Entwicklung im Quelltext mancher Seiten gefunden.)

Warum wird die robots.txt-Datei ignoriert?

Meistens wird hier auf Web-Standards oder "defacto-Standards" verwiesen um Dinge zu rechtfertigen. Bei der robots.txt wird eine Ausnahme gemacht: "Ordentliche" Crawler respektieren diese Angaben, für "böswillige" Programme gibt diese Datei jedoch Hinweise wo genau die Daten sind, die eigentlich versteckt werden sollen. Details (engl.).

Welche Serverlast wird durch den Crawler erzeugt?

Seiten die von uns gecrawlt werden, sollten die "Belastung" praktisch nicht spüren. Das Crawling ist in vielen Hinsichten eingeschränkt:
Es werden nur max. 100 (Unter-)Seiten einer Domain abgerufen. (Wobei es keine Vorgaben gibt, welche Links bevorzugt werden)
Zwischen einzelnen Aufrufen liegen mindestens eine Sekunde, in den meisten Fällen mehr.

Wie aktuell sind die Daten?

Grundsätzlich ist immer das Datum vermerkt, wann eine URL zuletzt besucht wurde.
Es ist noch nicht festgelegt, in welchem Intervall Seiten erneut besucht werden. Man kann jedoch davon ausgehen, dass es sich um sehr lange "Zyklen" handelt (mehrere Wochen).

Ich möchte, dass meine Website hier nicht gelistet wird, was kann ich tun?

Es besteht natürlich die Möglichkeit, eine Website bzw. Domain aus der Bewertung auszunehmen.
Bitte schreiben Sie an: (Adresse durch Javascript geschützt)

Wieso werden bekannte Dienste wie Google oder Facebook nicht erfasst?

Die Datenbanken von größeren Internet-Dienstleistern sprengen nahezu das Vorstellungsvermögen, es ist für ein privat geführtes Projekt nicht tragbar, diese Seiten zu erfassen.
Davon abgesehen sind zum Beispiel viele Inhalte auf Facebook für Bots nicht einsehbar. Und viel "user generated content" ist Inhalt, der die Seite nicht angemessen repräsentiert.

Details zum Wörterbuch

Woher stammen die Daten im Wörterbuch?

Die Wörter-Datenbank ist auf verschiedenen Quellen zusammen getragen, darunter:
http://www.wh9.tu-dresden.de/~heinrich/dict/dict_ding_1.1/data/ger-eng.txt
www.netzmafia.de
http://corpora2.informatik.uni-leipzig.de/download.html.

Wieso sind so viele Wörter nicht erfasst?

In der deutschen Sprache kann man praktisch pausenlos neue Wörter erschaffen. Man denke zum Beispiel an das Wort "Hauptquartier". Je nach Kontext, kann man zu jeder Marke, zu jedem Geschäftszweig usw. ein Wort daraus bilden (Toyota-Hauptquartier, Maler-Hauptquartier, ...).
In solchen Fällen sind natürlich bei weitem nicht alle Möglichkeiten erfasst.
Beim manuellen Überprüfen der Begriffe fiel auf, dass auch "neu entstandene" Wörter nicht erfasst sind, man denke zum Beispiel an "Deradikalisierung", "Abgasskandal", uvm.

Was sind Füllwörter?

siehe hier

Wie funktioniert die Bewertung nach Füllwörtern?

Hier kommt ein selbst angelegter Maßstab zum tragen:
Es wird einfach gezählt, wieviel Füllwörter pro 1000 Wörter auftreten.
1 pro 1000 (oder 0) ist dabei gut, sprich 100%
Mehr als 10 pro 1000 (bzw. 1%) werden als schlecht (0%) angesehen.

Lesbarkeit-Indizes

Was ist ein Lesbarkeits-Index?

Hier sei natürlich am Anfang der Wikipedia-Artikel empfohlen.
Ein guter Überlick über verschiedene Formeln gibt es hier

Welche Indizes werden verwendet?

Bei vielen Indizes wird die Anzahl der Silben im Text (zB pro Wort oder pro Satz) beachtet. Die Silben-Trennung ist in der computer-gestützten Verarbeitung nicht leicht, daher werden nur Indizes verwendet, die auf andere Kennzahlen (zB Anzahl der Buchstaben) beruhen.

ARI (Automated readability index) Dieser Index wurde (wie viele andere) für die englische Sprache festgelegt. Die Anwendung auf deutsche Texte liefert daher nur bedingt brauchbare Ergebnisse. Der ursprüngliche Sinn ist es, die Schwierigkeit als Schulstufe auszudrücken - Hier wird die Schwierigkeit auf Lebensjahre umgerechnet.
LIX (Laesbarhedsindex) Ursprünglich aus Schweden stammend, soll dieser Index für verschiedene westliche Sprachen (darunter auch Deutsch) geeignet sein. Die Ergebnisse liegen jedoch noch zu hoch in den meisten Fällen.