從 EmailCash 樂透得獎資料回推常規樂透活動人數

今天才發現原來 EmailCash 在首頁左下方會公佈該日的得獎人數以及送出點數.


忽然想到從這個數據去回推實際上在 EmailCash 的樂透活動上, 平均的常規活動人數.

先用一些假設來簡化問題 :

  1. 假設所有人猜測數字沒有特別的偏好, 因此每個數字的被猜測機會均等
  2. 忽略有些人可以將五次猜測機會都用在同一個數字上, 假設每個人一次都會猜五個不同的數字 (也就是先不管實際的送出點數)
那麼設猜測人數為 P, 該日中獎人數為 Y, 總猜測數字數量為 F(P) = 5 x P . 而透過假設 1. 跟假設 2. , 可以知道同時 F(P) = Y x 1000, 因此 5 x P = Y x 1000 . 以上面的得獎人數來說, 該日的慘與活動人數大約為 85 * 1000 / 5 = 17000 人.

再來討論點數問題. 在上面的圖中, 公佈的是 85 人中獎, 但是送出的點數卻是 43500 點. 由於一個數字會送出 500 點, 即便 85 人都是不同人, 85 x 500 = 43500 顯然也不是唯一解. 這個需要去細看該日的得獎名單. 如果從人數 85 的連結點進去看, 會發現真正的中獎數字數量是 87 個, 換句話說其中有兩個人一次猜測了重複的數字(或是一個人猜測了三個重複的數字), 因此實際送出的是 87 x 500 = 43500 這就沒錯了. 但從而也知道如果要精準估算, 假設 1. 跟假設 2. 是不實際的, 需要被進一步轉變成變數模型進行計算.

再下去就要假設不同數字的被喜好程度, 以及參與者的猜測模型, 會變得很複雜 = = , 但是基本上是可以算出來的, 有些參數可以透過對於歷史資料的分析取得, 像是該日參與者中會重複猜測同樣數字的比例, 例如今日就是 2/85 = 2.35 %, 甚至可以進一步推算會猜測兩個重複三個不重複的機率, 還有特定 ID 使用者的行為模型 ( 這個就需要更為大量的資料 ).

這樣一來就可以預估像是 EmailCash 這樣的公司, 隨著參與人數成長, 預期該月的樂透支出等等......從某個角度看, 這也算是一種 Information Leaking 吧 ? ( 前提當然是所公佈的資料是可信的摟 )

0 意見:

Designed by Posicionamiento Web | Modified by seLain | Bloggerized by GosuBlogger | Blue Business Blogger