大數據介紹

關於人群大數據

每部智慧型手機每天都會被基站、GPS和WIFI等技術多次定位,從而形成了一套完整的活動軌跡,它包含了使用者的個人信息,如來源居住地、性別、年齡、職業、交通出行方式等,這些大部份數據都儲存在BAT(百度、阿里巴巴、騰訊)的雲端大數據庫裡,統稱為位置大數據,透過這些大數據挖掘,我們可以知道某個區域的客戶行為。這裡需要強調的是,我們所觸及到的是不具辨識性的大數據分佈,因此不會抵觸個人私隱保護條例。

最佳的廣告投放

本項目研發的目的,是提供某區域的人群大數據報告,以供各個行業,尤其是傳統產業,作為未來商業決策及投放廣告的依據。位置大數據的應用領域非常寬廣,比如基於位置數據的精準營銷、商業選點布局、城市規劃以及綜合治理等。位置大數據的應用,將會對生產實踐有革命性的影響。基於「位置+用戶行為」的廣告投放,將是廣告投放的未來,位置信息對於線下廣告和移動廣告投放的效果都能起到很大的幫助。對於線下投放,可以通過特徵人群的位置數據分析,找到最佳的廣告投放位置。

大數據挖掘技術大致可分成以下4個研究步驟

採集位置大數據

主要分為地理數據、軌跡數據和空間媒體大數據

特徵關聯

通過一個層級聚類方法將特徵向量差異小的區域歸於一類

協同挖掘

協同過濾為一種被廣泛應用的數據聚類方法

數據可視化

將複雜的數據及其分析結果通過可視化方式直觀地展現出來

1. 採集位置大數據:

位置大數據主要分為地理數據、軌跡數據和空間媒體大數據。地理數據方面, 我們與阿里巴巴採集數字矢量線畫地圖(DLG)和數字正射影像地圖, 其特點是體量大和變化較慢; 軌跡數據方面包括阿里系App的用戶主動定位數據,其特點是體量大和信息碎片化;空間媒體數據方面,以阿里系App的用戶被動定位數據為主,配合高德App軌跡數據、基站定位和WIFI定位數據,來源混雜,數據異構性大,數據價值密度低,但特點是實時性強。

2. 特徵關聯:

數據稀疏性是本次研究一個突出的問題,這種特性會導致結果失真,因此需從時間和空間尺度上進行關聯和協同構造,其中時間尺度上將採用條件隨機場模型(Conditional Random Fields, CRF), 將位置大數據中提取的特徵與某一特定應用關聯,通過一個層級聚類方法將特徵向量差異小的區域歸於一類,再用數據樣本較多的區域去"代替"數據樣本較少的區域。

3. 協同挖掘:

為了進一步解決數據稀疏性,我們將應用協同過濾和挖掘技術,協同過濾為一種被廣泛應用的數據聚類方法,通過矩陣分解方法(UV, SVD)將原始矩陣劃分為緯度較低的若干矩陣的乘積,通過對分形矩陣中值的猜測試探,估算出原始矩陣中的缺失項。

4. 數據可視化:

置大數據因其體量大、數據繁雜的特徵,常規的統計圖表無法准確反映其總體趨勢,需要借助一些特殊的數據可視化方法來進行數據表達,將複雜的數據及其分析結果通過可視化方式直觀地展現出來,並支持對結果的交互式選取和瀏覽,我們將以熱點地圖、泛在地圖和棒形圖表等方式呈現結果。