Big Data 與 AI 的一些膚淺概念(後篇) 徐滿威VR2ULR

VR2ZWP · 發表於 18-12-2019 16:45:42

本帖最後由 VR2ZWP 於 18-12-2019 16:46 編輯

                     （本文刊載於中無通訊第91期 2020年1月版）
AI 人工智能
   有了足夠的資料和有效的運算機制後, 那麼「智能」又從何而來 ? 數據反映事物; 軟件定義做法。AI系統軟件透過分析事實和例子等數據來「理解」事物, 建立「基礎知識」, 這就是 Machine Learning。之後籍此「知識」協助理解和分析新的數據, 得出有憑據的結論。甚至進一步演繹「知識」, 做出如Chatbot答話、攢寫文章等具創造性的結果。

Machine Learning
   學習是歸納零散事物的共通點而得出一些有意義的概念的過程。例如由眾面孔歸納出「面有一雙眼, 中間有鼻, 鼻下有口」。由純物質世界推進至抽象的思維後, 小孩也能意會到一個 emoji 是笑面, 而不是「一個大圓餅, 裏面有兩點和一條彎線」。甚至進一步由影象「笑面」意會到情緒「喜悅」。 ch2.fig1.jpg

VR2ZWP · 發表於 18-12-2019 17:03:31

本帖最後由 VR2ZWP 於 19-12-2019 10:36 編輯

Machine Learning 原理
   此範疇有多個理論體系, 本文以 Google 的 AlphaGO 圍棋系統背後的神經網絡體系 TensorFlow 作簡介。

   傳統程序和神經網絡 (Neural Network)的分別
   傳統電腦程序仿如工人跟步驟一步步執行, 遇上異樣時跟指示另行修正。神經網絡有如RLC電路, 訊號從各輸入點通過一連串電子零件後在輸出端得出結果, 此正是人腦的大概運作模式。人腦中近1000億個神經原細胞之間透過化學介質連接以傳導電流訊號, 組成無比複雜的網絡。從眼、耳、鼻、舌、身各感觀所得的外來訊息(刺激)經神經線進入腦袋, 激發神經原之間建立連繫, 訊號輾轉傳至末端的神經原再由神經線傳至肌肉等組織以作反應。事物重複使連結加固, 如此人便「學會了」一件事。TensorFlow 正是用電腦模擬此機制。

TensorFlow
   Tensor 好比神經訊號, Flow 是指 Tensor在神經網絡中各節點之流動。節點好比神經原細胞, 各細胞的活躍程度不同; 各節點也有自已的數值。新建的網絡需要「訓練」, 透過輸入已知的事實 - 例如將貓的圖片的像素顏色化為數字作輸入; 相應地設「貓」這個選擇為100%等, 使各節點能從中推算符合所學的事物的數值。如此不斷地輸入圖片和對應的答案作訓練，加強系統的準碓性。
ch2.fig2.jpg

此後在運用時, 我們再輸入一張圖片, 各層節點以自己的數值將載着圖片數據的Tensor轉化後傳至下一層, 直至輸出的末端, 得出結果。
ch2.fig3.jpg

VR2ZWP · 發表於 19-12-2019 10:42:55

有別於傳統靠人類不斷編寫邏輯程序來指令電腦如何分析和判斷, 神經網絡的強處在於它能以極大量的事實來訓練, 系統從而自我調整, 因此適應力大得多，同時能從經驗中自我強化。能辨認貓狗豬牛之外, 認人、認車甚至是他們在進行那一類行動的能力當然不在話下。

ch2.fig4.jpg

VR2ZWP · 發表於 19-12-2019 11:01:30

具創造性的 AI - Chatbot
   上面的例子中答案只有「貓、狗、豬、牛」等數個預先定義的形式彷如幾盞訊號燈 (當無一個得出極大比數的百份點時, 可視之為四者皆非)。而以文字答問的 chatbots 則能組織資料為人類語言, 變化甚多, 是具創造性的 AI 例子。

分析事實
   AI 系統分析大量文章、短訊、郵件一類的文本資料, 加上字典等字義和文法參照, 構成一套人類語言處理系統 (Natural Language Processing System)。以文法框架從問題中分拆出主體、動詞、時序等元素, 藉此了解提問人的意思 (問如何做? 碰上麻煩? 投訴? )、有關的範疇 (在店購物? 送貨安排? 缺貨?) 等主要訊息。

創造答案
   從資料庫中找得合適的資料後 (下次返貨日期、查詢熱線、短訊通知的登記網頁等), 因應客人提問的語氣等較外圍的元素, 系統參照其知識庫中的造句文法、詞彙集將上述要表達的資料包裝成人類語言傳回提問者。
   可見, Machine Learning 歸納物質世界之特點為抽象的概念。而 Charbots 等系統套用這些概念(文法、字義) 於當下輸入的數據 (問題本身、有助答問的資料), 在物質世界創造出結果 (帶有答案的人類語言)。

Google AlphaGo 也是類似的套路：
1. 學習大量棋局, 歸納出棋路、策略、風格等抽象概念。
2. 分析當前對手的棋路、策略、風格。
3. 套用合適策略, 為不同下法計算勝算指標。
4. 將策略應用到現時的棋局中, 決定下一步下棋之處。
5. 預計對方的下一步棋和應對方法, 週而復始預計多步。
6. 即時學習當下之棋局, 加強對對手的適應能力。

相對之下, 1996年的IBM Deep Blue 則比較單純：
1. 分析大量棋局, 以助制定一套非常複雜的勝算評估法則。
2. 分析當下棋局, 計算不同走法的勝算指標。
3. 預計對手之走法及應對方法,高峰時超過十步。
4. 通過上述多步預計, Deep Blue 選擇出整體勝算指標最高的一步。

   由此可見, Deep Blue 比較接近高速計算機, 主軸是計算不同棋步的勝算指標。AlphaGo 則有較抽象的策略、風格等概念, 套用出來可得出保守、進取等棋步, 甚至諸如「以退為進」這些人類策略。

總結
   來自各方的, 無數形式, 海量無盡的數據透過分散式儲存和運算, 配合軟件技術能得出仿似人類智慧的分析結果。身邊種種連網裝置皆為數據來源, 軟、硬件技術不繼革新, 這門技術的利用價值有增無減。

   在 Amazon 購物時看到合心的 Recommendations 當然是美事一樁, 但如果大家的一舉一動都受到分析和評估, 「Big Brother is watching us」之下若它誤判, 指標顯示閣下於一週內策動恐怖襲擊的可能性為 58.51%、一個月內為 81.56%, 未知閣下有何看法 ?

   其實這只是一則危言聳聽的戲言而已, 志在營造高潮。正所謂:「行得正, 企得正, 光明磊落, 那怕監控 ?! 哼 !」。

賬號		自動登錄	找回密碼
密碼			立即註冊