Hallo, Gast! (Registrieren)

Letzte Ankündigung: MyBB 1.8.8 veröffentlicht (17.10.16)


Benutzer, die gerade dieses Thema anschauen: 1 Gast/Gäste
duplicate content
#1
Google selbst hat sich ja zum Problem von duplicate content schon geäußert, das Thema ist also keine reine SEO-Vermutung mehr.

MyBB produziert für den Titel und die Metatags duplicate content. Vom Text her kritelt es Google aber noch nicht direkt an.

In den Google Webmaster-Tool kann man das am einfachsten überprüfen. In meinem Forum werden 22.483 Seiten als DC von Google abgestempelt.
Siehe:
   
Wie man hier sieht, gibt es also von jeder meiner Forum Seiten drei Kopien, also viel bis auf die URL gleiche seiten Sad

Die einfachste Lösung ist wahrscheinlich mal drei dieser URL via robots.txt vor den Crawlern zu sperren.
Hat sich schon wer damit beschäftig, bzw. das Umgesetzt?

joe
#2
Hi,

ich habe das soweit umgesetzt, dass ich eine robots.txt mit folgenden Inhalt verwende:

Code:
User-agent: *
Disallow: /archive/
Disallow: /forumdisplay.php
Disallow: /showthread.php
Disallow: /member.php
Disallow: /calendar.php

User-agent: Googlebot
Disallow: /archive/
Disallow: /forumdisplay.php
Disallow: /showthread.php
Disallow: /member.php
Disallow: /calendar.php
Disallow: /thread-*-lastpost.html
Disallow: /thread-*-nextnewest.html
Disallow: /thread-*-nextoldest.html
Disallow: /thread-*-newpost.html
Disallow: /thread-*-post-*.html
Disallow: /post-*.html

Den doppelten Content über, den die Domain erzeugt (mit und ohne www aufrufbar; /index.php das selbe wie /), habe ich per .htaccess entfernt:

Code:
RewriteCond %{HTTP_HOST} !^domain\.de$ [NC]
RewriteRule ^(.*)$ http://domain.de/$1 [R=301,L]
RewriteRule ^index\.php$ http://domain.de/ [R=301,L]
(domain.de natürlich entsprechend abändern)

Und zusätzlich habe ich noch 2 Plugins laufen, welche für SEO sehr gut geeignet sind:

Double Content entfernen (vor mir selbst)
Dynamic Metas for MyBB 1.4 (mit der abgeänderten Funktion aus meiner Antowrt dort)

Das ganze setzt natürlich MyBB 1.4.x mit aktivierten SEO (per htaccess.txt in .htaccess umbenannt) voraus.

Damit sollte dann doppelteter (oder gar mehrfacher) Inhalt bei Google größtenteils der Vergangenheit angehören.

Was höchstens noch störend sein könnte, ist der Kalender, da jede Kalenderseite den selben Titel hat. Sollte sich aber durch einfache Modifikation der Templates (z.B. per Plugin) beheben lassen.
#3
Wow querschlaeger, du hast dich ja echt mit dem Thema befasst!

Deine robots.txt habe ich jetzt mal so von dir übernommen.

Diesen rewrite-Zweizeiler, benutze ich auch bei allen Projekten, damit de Domain immer auf ohne www. umschrieben wird.
Die dritte Zeile habe ich auch hinzugefügt, kann nicht schaden.

Das Plugin "Double Content entfernen" kann man sich aber sparen, wenn man eh schon diese dritte rewrite-rule benutzt.
Oder habe ich was falsch verstanden?

Das Plugin für die Metas habe ich auch installiert, ist nicht schlecht.

danke für deine Zeilen
joe
#4
(16.09.2008, 21:44)sparcjoe schrieb: Das Plugin "Double Content entfernen" kann man sich aber sparen, wenn man eh schon diese dritte rewrite-rule benutzt.
Oder habe ich was falsch verstanden?

Ja, theoretisch kann man sich das Plugin sparen, wenn man die /index.php auf / per .htaccess (mit einen 301er) umleitet. Ich habe es geschrieben, bevor ich damals den richtigen Eintrag in der .htaccess für die Umleitung rausgefunden habe.
Und nun lasse ich es halt drin, da ich finde, dass es zudem noch besser aussieht, wenn das index.php nicht noch überall mit auftaucht. Wink
#5
Also bei mir steht irgendwie immer noch index.php und portal.php dort. Wo könnte der Fehler liegen ?
Und wenn ich die .htacces abändere bekomme ich ne Fehlermeldung wegen Endlosweiterleitung ?
Gruß Markus
Umfallen ist keine Schande, liegen bleiben schon !!!


#6
EDIT: habe leider zu spät gesehen daß der thread schon älter ist, sorry

Das Google SEO Plugin setzt neben dynamischen Meta-Descriptions auch Canonical Tags. Andere doppelte Namen (etwa wenn jemand showthread.php?tid=123 statt thread-123.html verlinkt) werden einfach zum gültigen Hauptnamen umgeleitet. Damit läßt sich bei Foren/Threads/usw. ne ganze Menge doppelter Content vermeiden. Über robots.txt blocke ich nur mehr das, was wirklich gar nicht in die Suchmaschine kommen soll, etwa hunderte von Kalenderseiten...

http://googlewebmastercentral.blogspot.c...nical.html

Bei mir im Forum habe ich zudem ein Stück Code eingefügt, das die Seitenzahl in den Titel holt, so ist dann die erste Seite "Threadtitel" und die darauffolgenden Seiten "Threadtitel - Seite X" (selbiges auch für Foren). Ich habe vor das irgendwann auch noch in das Google SEO Plugin aufzunehmen, bin aber bislang noch nicht dazu gekommen. Meine derzeitige Lösung dafür ist nicht besonders sauber.
#7
Ja das Google Seo Plugin hab ich auch und zusätzlich das von querschlaeger, oder ist dieses dann Überflüssig ?

Weil der Code per .htacces funktioniert bei mir irgendwie nicht, da bring er mir eine Fehlermeldung von Endlosweiterleitung.

Und was die Robots.txt betrifft, die sieht momentan bei mir so aus:

Zitat:Sitemap: http://www.golf6r.com/sitemap.xml

User-agent: *
Disallow: /archive/
Disallow: /forumdisplay.php
Disallow: /showthread.php
Disallow: /member.php
Disallow: /calendar.php
Disallow: /captcha.php
Disallow: /editpost.php
Disallow: /misc.php
Disallow: /modcp.php
Disallow: /moderation.php
Disallow: /newreply.php
Disallow: /newthrad.php
Disallow: /online.php
Disallow: /printthread.php
Disallow: /private.php
Disallow: /ratethread.php
Disallow: /report.php
Disallow: /reputation.php
Disallow: /sendthread.php
Disallow: /task.php
Disallow: /usercp.php
Disallow: /usercp2.php
Disallow: /calendar.php
Disallow: /*action=emailuser*
Disallow: /*action=nextnewest*
Disallow: /*action=nextoldest*
Disallow: /*action=emailuser*
Disallow: /*year=*
Disallow: /*action=weekview*
Disallow: /*action=nextnewest*
Disallow: /*action=nextoldest*
Disallow: /*sort=*
Disallow: /*order=*
Disallow: /*mode=*
Allow: /

User-agent: Googlebot
Disallow: /archive/
Disallow: /forumdisplay.php
Disallow: /showthread.php
Disallow: /member.php
Disallow: /calendar.php
Disallow: /thread-*-lastpost.html
Disallow: /thread-*-nextnewest.html
Disallow: /thread-*-nextoldest.html
Disallow: /thread-*-newpost.html
Disallow: /thread-*-post-*.html
Disallow: /post-*.html

Wo hab ich den Verbesserungsbedarf ?
Gruß Markus
Umfallen ist keine Schande, liegen bleiben schon !!!


#8
Die thread-*.html regeln werden nicht greifen, wenn du google seo urls benutzt, da die urls dann anders heissen (irgendwas?action=). Das mit den nextnewest und nextoldest ist leider von MyBB her saublöd gelöst, das sollte gleich nen richtigen Link zum nächsten Item machen anstatt das hinter so einem Namen zu verstecken.

Ansonsten sollten die RewriteRegeln wie sie in querschlaegers Posting oben stehen so funktionieren. Je nachdem ob bei dir der DirectoryIndex zuerst portal.php oder index.php lädt, kannst das eine oder andere auf / umleiten. Genausogut könntest du ins Index bzw. Portal Template einen Canonical Tag eintragen.
#9
Ok also wenn ich dich jetzt richtig verstanden habe, kann ich mir die thread html regeln wieder raus löschen ?

Und nachdem bei mir in der Directory Index portal zuerst steht müsste es bei mir in der .htacces also so aus sehen ?

Zitat:RewriteCond %{HTTP_HOST} !^golf6r\.com$ [NC]
RewriteRule ^(.*)$ http://golf6r.com/$1 [R=301,L]
RewriteRule ^portal\.php$ http://golf6r.com/ [R=301,L]

Und was den Canonical Tag betrifft wie müsste das dann aussehen ? Sorry aber kenn mich noch nicht so gut aus.

Und Danke schon mal für deine Hilfe.
Gruß Markus
Umfallen ist keine Schande, liegen bleiben schon !!!


#10
Code:
<link rel="canonical" href="http://golf6r.com/" />
im portal template innerhalb von <head></head> (z.b. über {$headerinclude})


Möglicherweise verwandte Themen...
Thema Verfasser Antworten Ansichten Letzter Beitrag
  Duplicate entry 'bot=10' for key 1 werner.elflein 4 814 01.09.2008, 18:10
Letzter Beitrag: Michael
  1.4 reset aber Content importieren MH_Razen 2 938 08.08.2008, 17:30
Letzter Beitrag: Mak