Adaboost是一種迭代算法,其核心思想是針對同一個訓練集訓練不同的分類器(弱分類器),然后把這些弱分類器集合起來,構(gòu)成一個更強的最終分類器(強分類器)。
八十六:樸素貝葉斯模型(Naive Bayesian Model,NBM)
貝葉斯分類是一系列分類算法的總稱,這類算法均以貝葉斯定理為基礎,故統(tǒng)稱為貝葉斯分類。樸素貝葉斯算法(Naive Bayesian) 是其中應用最為廣泛的分類算法之一。
樸素貝葉斯分類器基于一個簡單的假定:給定目標值時屬性之間相互條件獨立。
通過以上定理和“樸素”的假定,我們知道:
P( Category | Document) = P ( Document | Category ) * P( Category) / P(Document)。
八十七:搜索算法
搜索算法是利用計算機的高性能來有目的的窮舉一個問題解空間的部分或所有的可能情況,從而求出問題的解的一種方法。
搜索算法實際上是根據(jù)初始條件和擴展規(guī)則構(gòu)造一棵“解答樹”并尋找符合目標狀態(tài)的節(jié)點的過程。所有的搜索算法從最終的算法實現(xiàn)上來看,都可以劃分成兩個部分——控制結(jié)構(gòu)(擴展節(jié)點的方式)和產(chǎn)生系統(tǒng)(擴展節(jié)點),而所有的算法優(yōu)化和改進主要都是通過修改其控制結(jié)構(gòu)來完成的。
八十八:模式識別
模式識別(英語:Pattern Recognition),就是通過計算機用數(shù)學技術方法來研究模式的自動處理和判讀。我們把環(huán)境與客體統(tǒng)稱為“模式”。隨著計算機技術的發(fā)展,人類有可能研究復雜的信息處理過程。信息處理過程的一個重要形式是生命體對環(huán)境及客體的識別。
八十九:信息檢索
信息檢索(Information Retrieval)是指信息按一定的方式組織起來,并根據(jù)信息用戶的需要找出有關的信息的過程和技術。狹義的信息檢索就是信息檢索過程的后半部分,即從信息集合中找出所需要的信息的過程,也就是我們常說的信息查尋(Information Search 或Information Seek)。
九十:爬蟲(a reptile)
網(wǎng)絡爬蟲是一種自動獲取網(wǎng)頁內(nèi)容的程序,是搜索引擎的重要組成部分。網(wǎng)絡爬蟲為搜索引擎從萬維網(wǎng)下載網(wǎng)頁。一般分為傳統(tǒng)爬蟲和聚焦爬蟲。
九十一:防爬蟲:KS-WAF將爬蟲行為分為搜索引擎爬蟲及掃描程序爬蟲,可屏蔽特定的搜索引擎爬蟲節(jié)省帶寬和性能,也可屏蔽掃描程序爬蟲,避免網(wǎng)站被惡意抓取頁面。
九十二:R(統(tǒng)計應用軟件)
R是用于統(tǒng)計分析、繪圖的語言和操作環(huán)境。R是屬于GNU系統(tǒng)的一個自由、免費、源代碼開放的軟件,它是一個用于統(tǒng)計計算和統(tǒng)計制圖的優(yōu)秀工具。
九十三:C++ (The C++ Programming Language)
C++是在C語言的基礎上開發(fā)的一種通用編程語言,應用廣泛。C++支持多種編程范式 --面向?qū)ο缶幊?、泛型編程和過程化編程。最新正式標準C++14于2014年8月18日公布。 其編程領域眾廣,常用于系統(tǒng)開發(fā),引擎開發(fā)等應用領域,是至今為止最受廣大受用的最強大編程語言之一,支持類:類、封裝、重載等!
九十四:java(計算機編程語言)
Java是一種可以撰寫跨平臺應用軟件的面向?qū)ο蟮某绦蛟O計語言。Java 技術具有卓越的通用性、高效性、平臺移植性和安全性,廣泛應用于個人PC、數(shù)據(jù)中心、游戲控制臺、科學超級計算機、移動電話和互聯(lián)網(wǎng),同時擁有全球最大的開發(fā)者專業(yè)社群。
九十五:自然語言處理(NLP,natural language processing)
自然語言處理是計算機科學領域與人工智能領域中的一個重要方向。它研究能實現(xiàn)人與計算機之間用自然語言進行有效通信的各種理論和方法。自然語言處理是一門融語言學、計算機科學、數(shù)學于一體的科學。因此,這一領域的研究將涉及自然語言,即人們?nèi)粘J褂玫恼Z言,所以它與語言學的研究有著密切的聯(lián)系,但又有重要的區(qū)別。自然語言處理并不是一般地研究自然語言,而在于研制能有效地實現(xiàn)自然語言通信的計算機系統(tǒng),特別是其中的軟件系統(tǒng)。因而它是計算機科學的一部分。