而且這痕跡里,往往帶著很濃重的個人特色。
匯報人員繼續說:“然后我們根據這四萬個id,逐一在微博上進行了搜索,然后爬取了這些用戶名的所有的發言,再利用這些用戶動態的相似性,進行深度挖掘。”
這是個極大的工作量。
一個id在微博上有可能有成千上萬個同名的賬號。
這些帳號的動態內容都得爬下來這不違法,在地球上,好像是在2017年12月份,微博才關閉了api接口的。。
爬下來之后還得對這些id曾經發布的動態和內容進行關鍵詞提取、照片信息提取,然后存檔。
注意哦,這只是一個id的工作量。
比如說有一個人在豆半上注冊了一個帳號叫張三,你按照這個名字在微博上搜索,結果出現了一萬個叫張三。
那這些張三的人的所有的動態都得爬下來。
可是你怎么知道這一萬個張三里面,哪一個是你想要的呢。
內容未完,下一頁繼續閱讀