根據(jù)文章對tag標簽的不同匹配程度,分成了下圖中四個階梯,排序的優(yōu)先順序從上到下,具體排序規(guī)則下面說詳細說明。
第一階梯的文章屬于tag詞高度精準匹配的文章,最優(yōu)先排列。比如tag詞是“SEO算法”,文章標題如果完整出現(xiàn)“農(nóng)村土地流轉(zhuǎn)”這個詞才算完整包含,下列文章標題屬于這種情況:
多個文章標題都能完整包含tag標簽詞則按照文章發(fā)布時間的先后順序排列,先排列最新發(fā)布的。第一階梯的文章調(diào)用不限制數(shù)量,符合條件的全部展現(xiàn)出來。
第二階梯的文章屬于tag詞精準匹配的文章,僅排列在第一階梯后面。比如tag詞是“SEO算法”,分詞后得到“SEO”“算法”;兩個詞,文章標題如果這兩個詞都有出現(xiàn)才算分詞后能全包含,下列文章屬于這類情況:
多個文章標題都能tag標簽分詞后完整包含則按照文章發(fā)布時間的先后順序排列,先排列最新發(fā)布的。第二階梯的文章調(diào)用不限制數(shù)量,符合條件的全部展現(xiàn)出來。
第三階梯文章屬于廣泛匹配的文章,排列比較靠后。比如tag詞是“農(nóng)村土地流轉(zhuǎn)”,分詞后得到“農(nóng)村”“土地”“流轉(zhuǎn)”三個詞,文章標題中只出現(xiàn)這三個詞中的兩個或者一個的情況。下列文章屬于這類情況:
如果存在多個文章屬于第三階梯這類情況,則采用TF-IDF算法,根據(jù)每個文章標題對應(yīng)的TF-IDF值排序,從大到小排列。這樣更把更相關(guān)的文章排列在前面。
TF-IDF算法公式:把tag詞分詞后在標題中出現(xiàn)的每個詞TF*IDF值求和。
TF=該詞在目前文章標題中出現(xiàn)的次數(shù)/標題總詞數(shù)
IDF=log(土流網(wǎng)文章總數(shù)/標題中包含這個詞的文章數(shù))
例子:對于“農(nóng)村土地流轉(zhuǎn)”這個tag詞,“2019年湖南農(nóng)村土地現(xiàn)狀分析”和“全國各地土地流轉(zhuǎn)形勢簡介”兩個文章的TF*IDF值分別是多少?哪個文章排前面?
對于2017年湖南農(nóng)村土地現(xiàn)狀分析這個文章:
“農(nóng)村”這個詞,TF*IDF=1/7 * log(50000/9760)=0.143*1.63=0.233
“農(nóng)村”這個詞在上述標題中只出現(xiàn)1次,標題分詞后一共7個詞語,假設(shè)網(wǎng)站一共50000個文章,標題出現(xiàn)了“農(nóng)村”的文章有9760篇。
“土地”這個詞,TF*IDF=1/7 * log(50000/19180)=0.143*0.955=0.137
2017年湖南農(nóng)村土地現(xiàn)狀分析TF*IDF值為:0.233+0.137=0.37
對于全國各地土地流轉(zhuǎn)形勢簡介這個文章:
“土地”這個詞,TF*IDF=1/6 * log(50000/19180)=0.143*0.955=0.159
“流轉(zhuǎn)”這個詞,TF*IDF=1/6 * log(50000/7100)=0.143*1.952=0.279
全國各地土地流轉(zhuǎn)形勢簡介TF*IDF值為:0.159+0.279=0.438
顯然這個文章的TF-IDF值大于上面那個文章,這個文章排前面。
程序在計算第三階梯文章的TF-IDF
Tf-idf相關(guān)介紹:baike.baidu.com/link?url=9jWqcxIe110pMpJN0LW0r2T1YgSSWCxOQFMOWGzi_u4SUl5ChaTAs3Tbk0OPi_4va-fizgtNCx3A-KMb31ihRa
第四階梯文章屬于最廣泛匹配的文章,排列在最后面。這類文章基本是主題和tag詞不相關(guān),但是正文中有部分相關(guān)內(nèi)容。
存在多個文章屬于這類情況,則按照tag詞完整出現(xiàn)的次數(shù)排序,出現(xiàn)次數(shù)最多的排列在前面,次數(shù)相同則按照發(fā)布時間的先后順序排列,最新發(fā)布的排前面。第四階梯的文章調(diào)用不限制數(shù)量,符合條件的全部展現(xiàn)出來。
5、注意事項
考慮到程序計算速度的問題,所有標簽詳情頁可以緩存一天,可以考慮夜間計算每個標簽的調(diào)用結(jié)果進行緩存。
標簽調(diào)用文章總數(shù)最多不超過400篇,每頁展現(xiàn)20條,也就是最多20頁。
以上就是在考慮做TAG聚合頁面的時候,所要考慮的頁面調(diào)用規(guī)則,合理的規(guī)則可以大大提高文章相關(guān)性和關(guān)鍵詞密度,以達到網(wǎng)站權(quán)重的提升,獲得頁面排名。