找回密碼
 立即註冊
搜索
查看: 2383|回復: 4

Big Data 與 AI 的一些膚淺概念 ( 前篇 ) 徐滿威VR2ULR

[複製鏈接]
發表於 18-12-2019 15:26:12 | 顯示全部樓層 |閱讀模式
本帖最後由 VR2ZWP 於 18-12-2019 15:30 編輯

                     ( 本文刊載於 中無通訊 第90期 2019年10月版 )
       近十年興起的 Big Data 和 AI (大數據和人工智能) 或許跟「中藥Cs4」、「黑蒜」、「星星電子門鎖」、「大愛、平權、正能量」等事物所帶起的熱潮未盡相同。Big Data 和 AI 是基於嚴謹的學術理論並得以實際應用的技術, 非兒戲之物, 同時步步進迫地滲入我們的生活。 本篇向各位介紹當中的數個技術概念。

102.jpg
Big Data----不同形式的事實, 極大量而形式不一、可以數碼化以便貯存和處理的資料。
    AI    -----透過電腦系統活用資料, 得出仿如人類智慧般的分析和決定。

       為何要 Big Data 和 AI ? 「資訊無限但時日有限」資訊不夠全面可使結論出現偏差; 靠人腦分析海量數據恐怕有心無力無時間。 目前來說只有電腦系統能有此心力 – 容量大、運算速度快。

      傳統形式的數據----具結構性的, 格式有所定義, 來源較為單一。
      Big Data 大數據----無特定結構或格式, 涵蓋傳統數據及以外的其他資訊形式, 來源非常廣泛。
 樓主| 發表於 18-12-2019 15:53:59 | 顯示全部樓層
101.jpg
Big Data 的特性 – 四個「V」
     Volume – 極大量 ---- 愈億用戶的短訊、尊容、不時錄得之聲畫。
     Velocity – 速度快, 無間斷---- 日股 > 港股 > 歐洲 > 美股 > …
     Variety – 形式無盡之多---- IP Cam 影片、交易記錄、GPS位置不勝枚舉。
     Veracity – 資料未必真實可靠----假新聞、打手帖文、戲言、改圖。
    上面簡介的傳統數據和大數據之主要特質當中, 「4V’s」帶出了處理上的現實問題 – 資料又多又快又無常, 電腦要幾巨型才夠? 方法是「化整為零」。
 樓主| 發表於 18-12-2019 16:12:55 | 顯示全部樓層
儲存及分析
      大數據世界中的基石之一是由開源軟件巨擎 Apache Foundation 管理的 Hadoop 軟件體系 (ecosystem), 她整合了多個軟件項目成一個完整的大數據基礎平台。我們抽出當中數個軟件為例了解如何「化整為零」。
103.jpg
 樓主| 發表於 18-12-2019 16:18:37 | 顯示全部樓層
104.jpg
      個人行縱、購物記錄等原數據由各系統傳來, 通過 Flume 或 kafka 接收和初步整理, 之後傳送至 HDFS 系統的機組儲存。
      有別於中央儲存, HDFS 將資料分流並存於機組中的多台電腦, 各負責一部份。提取時則相反 – 從各有關的電腦取得部份資料, 結集成一整份。上述過程由「Name Node」這特殊崗位的電腦統籌。
        Name Node負責統籌, 資料則直接進出負責貯存的電腦,因此可以多機並行, 提高吞吐量。容量不足時亦只須加入更多電腦擴充。
        分析數據的程式以 Spark 或 MapReduce等多種編程框架編寫,將整份數據拆細成多組後分發給各電腦獨立運算, 再將分組結果集腋成裘為最終的結果。透過這模式以多台電腦處理同一個問題, 可以應付極大量的數據和非常複雜耗時的運算程序。


 樓主| 發表於 18-12-2019 16:25:54 | 顯示全部樓層
本帖最後由 VR2ZWP 於 18-12-2019 16:28 編輯

環環相扣, 天羅地網
        不同來源的數據間往往能找到聯繫因素。
        例如電話 app 拍得你的尊容同某 Facebook 中的合照的人面辨識結果吻合, 再以該合照的 #hashtags 找到更多照片和社交網站帳戶。
105.jpg
       同時你電話內的檔案掃描到信用咭號碼, 以此能連繫到商戶的銷售數據; GPS 定位則推算出家居和工作地點。如此類推, 不勝枚舉。
       廣泛而有關連性可謂大數據的特點, 此宏觀式的資料是分析系統之最大養份, 因此各大商業機構和㩲力機關皆爭相收集和發展有關技術。
       需求者眾定必有價有巿。現在知道為何街頭偶有攤位大派禮品、現金券, 或給人數十元消費額這類的「浩蕩皇恩」來吸引大家安裝電話 app了。
       綜合而言, 大數據就是用電子的方式從生活上各層面收集和累積下來的, 樣式不一的數據, 再以化整為零多台腦儲存和分析。不難理解為何愈來愈多人
       關心保障私隱, 和自已的「數碼足跡」。當然部份「行得正企得正, 何懼受人監控」者不在此列。他們可謂光明磊落得超然脫俗, 小弟深感佩服。
       本篇到此暫以大數據的基礎概念作一段落, 下篇會向大家介紹人工智能, 望各位繼續支持。


您需要登錄後才可以回帖 登錄 | 立即註冊

本版積分規則

手機版|小黑屋|存檔|中華業餘無線電研究會網站

GMT+8, 29-3-2024 08:12 , Processed in 0.066143 second(s), 23 queries , Gzip On.

本討論區基於 Discuz! X3.5

版權所有 © 2001-2024 中華業餘無線電研究會有限公司,保留一切權利


重要聲明:本討論區是以即時上載留言的方式運作,中華業餘無線電研究會對所有留言的真實性、完整性及立場等,不負任何法律責任。而一切留言之言論只代表留言者個人意見,並非本網站之立場,讀者及用戶不應信賴內容,並應自行判斷內容之真實性。於有關情形下,讀者及用戶應尋求專業意見(如涉及醫療、法律或投資等問題)。 由於本討論區受到「即時上載留言」運作方式所規限,故不能完全監察所有留言,若讀者及用戶發現有留言出現問題,請聯絡我們。中華業餘無線電研究會有權刪除任何留言及拒絕任何人士上載留言(刪除前或不會作事先警告及通知),同時亦有不刪除留言的權利,如有任何爭議,管理員擁有最終的詮釋權。用戶切勿撰寫粗言穢語、誹謗、渲染色情暴力或人身攻擊的言論,敬請自律。本網站保留一切法律權利。

快速回復 返回頂部 返回列表