近紅外高光譜預(yù)測聚合物薄膜結(jié)晶度 中
若要對聚合物晶體度的空間分布進行預(yù)測,那就得在樣品的近紅外(NIR)光譜圖像(X)所含特征與通過差示掃描量熱法(DSC)獲取的分析晶體度測量值(y)之間構(gòu)建回歸模型,也就是建立兩者之間的相關(guān)性。在本次研究中,一共對四種不同的方法展開了測試與比較,這四種方法的主要差異體現(xiàn)在運用合適的回歸技術(shù)之前,對 NIR 光譜采取何種處理方式上。
起初,測試了傳統(tǒng)的近紅外校準(zhǔn)方法,其中一種是涉及平均光譜(方法 1)并搭配偏最小二乘(PLS)回歸的方式,另一種則是涉及二階導(dǎo)數(shù)(方法 2)再結(jié)合 PLS 回歸的做法。之后,又對多元圖像回歸(MIR)方法進行了測試,該方法包含兩種情況,一是基于原始光譜(方法 3)的多元圖像回歸,另一種是基于原始光譜二階導(dǎo)數(shù)(方法 4)的多元圖像回歸。
在收集訓(xùn)練數(shù)據(jù)集時,具體步驟如下:
首先,針對 18 個樣品,逐一進行全面掃描操作,隨后依據(jù)公式(2)把原始圖像校準(zhǔn)成為反射圖像 Ik,這里的 k 代表樣品編號,其取值范圍是從 1 到 18。
接著,如圖 2 所示,要獲取訓(xùn)練數(shù)據(jù)集,需為每個聚合物樣品選定一個相對較小的感興趣區(qū)域,其尺寸為 2.5 毫米 ×5 毫米,換算成像素的話就是 10×10 像素。這些所選定的區(qū)域?qū)?yīng)的是多元子圖像,其大小為(10×10×λ),這里的 λ 表示的是光譜通道數(shù),在本次研究當(dāng)中,λ 的值確定為 256。
之后,通過一種簡單的操作方式,也就是按照行的順序來存儲每一個光譜,進而將這些陣列展開,使其變?yōu)榇笮椋?00×λ)的矩陣。而這些矩陣,會作為后續(xù)所提到的四種方法共同的輸入數(shù)據(jù)來使用。
四種方法的示意圖:平均光譜(方法 1)、二階導(dǎo)數(shù)(方法 2)、光譜的 MIR(方法 3)或二階導(dǎo)數(shù)的 MIR(方法 4)
最后,從樣品中切下與子圖像相對應(yīng)的每個感興趣區(qū)域并送去進行 DSC 分析。得到的結(jié)晶度測量值 ( y k ) 存儲在響應(yīng)矩陣y (18 × 1) 中。
基于平均譜或二階導(dǎo)數(shù)的 PLS 模型
基于平均譜或二階導(dǎo)數(shù)的偏最小二乘(PLS)模型
方法 1:平均近紅外光譜
第一種方法的操作是,針對從樣本感興趣區(qū)域獲取到的所有可利用的反射光譜進行平均處理,具體而言,就是對每個矩陣按照列的方向依次求平均。之后,把每個樣本經(jīng)過平均處理后得到的光譜收集起來,匯總到回歸矩陣 X(該矩陣規(guī)格為 18×λ)當(dāng)中,具體情形可參照圖 2。
接下來,要在平均光譜矩陣 X 以及與之對應(yīng)的結(jié)晶度測量值 y 之間構(gòu)建一個潛變量的 PLS 回歸模型,其構(gòu)建方式如下:
在這個模型里,P 矩陣和 Q 矩陣各自包含了一些載荷向量,這些載荷向量能夠地代表 X 空間以及 y 空間的相關(guān)特性。而 W 矩陣所含的載荷向量,其作用在于定義出一個公共潛變量空間 T,這個空間是用于將 X 和 y 關(guān)聯(lián)起來的。E 矩陣與 F 矩陣則涵蓋了 PLS 模型的殘差,這里所說的殘差指的就是與模型潛變量空間的投影距離。
關(guān)于 PLS 分量,也就是潛變量(A)的數(shù)量,是通過運用標(biāo)準(zhǔn)的留一交叉驗證程序來確定選擇的。之所以在這種情況下選擇采用 PLS,是因為矩陣 X 的各列之間呈現(xiàn)出高度共線性的特點。
方法 2:近紅外光譜的二階導(dǎo)數(shù)
此方法并非運用光譜本身,而是采用光譜的二階導(dǎo)數(shù)。具體操作時,先針對感興趣區(qū)域內(nèi)的光譜導(dǎo)數(shù)進行平均值的計算,隨后將這些平均值收集起來,納入到每個樣本對應(yīng)的回歸矩陣 X(其規(guī)格為 18×(λ - 2))當(dāng)中,之后再利用結(jié)晶度測量值 y 來構(gòu)建偏最小二乘(PLS)回歸模型,具體情況可參照圖 2。
取光譜的二階導(dǎo)數(shù)是在近紅外(NIR)光譜預(yù)處理過程中經(jīng)常會用到的一種方法,早在 1990 年,Chau 等人就有所提及。當(dāng)光譜中存在比較尖銳的吸收帶時,運用這種方法就會展現(xiàn)出顯著的優(yōu)勢。相比較一階導(dǎo)數(shù)而言,二階導(dǎo)數(shù)更受青睞,原因在于它不會使峰值出現(xiàn)移動的情況,所以有著更好的可解釋性。
盡管二階導(dǎo)數(shù)著重體現(xiàn)了光譜的轉(zhuǎn)換情況,但它對于光譜強度方面出現(xiàn)的系統(tǒng)性變化并不敏感,從圖 3 中就能夠看出這一點,在原始光譜中,重點呈現(xiàn)出了三個以 1100、1300 以及 1600 納米為中心的光譜帶。
為了盡可能降低壞像素所帶來的影響(Savitzky 和 Golay 在 1964 年曾對此有所研究),先是在線掃描時,沿著光譜方向采用 5 像素的窗口對其進行平滑處理,之后再運用數(shù)值近似的方式來獲取二階導(dǎo)數(shù)(Gerald 和 Wheatley 在 1994 年有相關(guān)闡述)。與直接使用光譜相比,通過數(shù)值微分的方式會使得回歸矩陣 X 當(dāng)中損失兩列(也就是光譜通道)。
光譜與二階導(dǎo)數(shù):HDPE 樣品的 2D 線掃描(左)和單個空間位置的 1D 光譜(右)。使用無量綱標(biāo)度
多元圖像回歸(MIR)涵蓋了一系列潛在變量技術(shù),其主要用途在于把質(zhì)量或者響應(yīng)變量與從一組數(shù)字圖像里提取出來的特征進行回歸關(guān)聯(lián)。
對于圖像回歸這一問題,依據(jù)從圖像中所提取特征的性質(zhì)差異,可以通過多種不同的方式來進行表述,這些特征性質(zhì)涵蓋了從針對每個光譜通道所計算得出的簡單統(tǒng)計數(shù)據(jù),比如平均值、方差等等,一直到分布特征等不同情況。
在本次研究工作當(dāng)中,所提取的是來自近紅外(NIR)光譜圖像的分布特征。而這些分布特征的獲取,是借助多路主成分分析(MPCA)對光譜圖像數(shù)據(jù)立方體進行分解而實現(xiàn)的,這里所說的光譜圖像數(shù)據(jù)立方體具體包括反射光譜(對應(yīng)方法 3),或者是二階導(dǎo)數(shù)(對應(yīng)方法 4),詳情可參照圖 2。需要說明的是,運用多路主成分分析(MPCA)分解光譜圖像數(shù)據(jù)立方體這一操作,正是被稱作多元圖像分析(MIA)方法的首要步驟。
多元圖像分析(MIA)最早是由 Esbensen 和 Geladi 在 1989 年提出的,自問世以來,已經(jīng)在多個領(lǐng)域得到了廣泛應(yīng)用,例如火焰分析、零食食品研究以及軟木分級等方面。若想要全面了解 MIA,可查閱 Geladi 和 Grahn 在 1996 年發(fā)表的相關(guān)內(nèi)容。
MIA 基于這樣一個原理:不管圖像像素在圖像中的具體空間位置處于何處,都能夠依據(jù)每個圖像像素的光譜特性來對其進行分類,進而提取出局部強度變化。當(dāng) MIA 與回歸技術(shù)相結(jié)合時,就能夠從數(shù)字圖像中提取出與相應(yīng)響應(yīng)變量(例如樣品質(zhì)量測量值)關(guān)聯(lián)程度的特征。
在本次研究中,具體操作如下:首先,把對應(yīng)于每個聚合物樣品所選目標(biāo)區(qū)域的展開光譜矩陣進行匯總,這些矩陣最終被收集到一個尺寸為 (1800×λ) 的大矩陣中(該大矩陣由 18 個樣品,每個樣品 100 個光譜組成,即 18 個樣品 ×100 個光譜 / 樣品 )。隨后,利用主成分分析方法,將圖像信息分解為一組 A 個正交載荷向量 p? (向量規(guī)格為 1×λ )和得分向量 t?(向量規(guī)格為 1800×1) ,這一過程可參照公式 (4) 以及圖 4。
其中E (1800 ×? λ ) 包含投影殘差(當(dāng)A ?<? λ時非零)。載荷向量 ( p a ) 通常通過對維度小得多(即 256 × 256)的核矩陣進行奇異值分解 (SVD) 獲得。得分向量根據(jù) 計算得出。第一個得分性組合,可捕獲光譜矩陣內(nèi)的可能方差,而第二個得分向量t 2代表第二大方差源,依此類推。因此,得分向量可被視為每個光譜的多元摘要。
高光譜圖像的 MPCA 分解
在實際應(yīng)用中,人們常常發(fā)現(xiàn),只需少量的分量(A),就足以從多變量圖像數(shù)據(jù)中提取出大部分的相關(guān)信息。正因如此,少數(shù)幾個得分向量便能夠當(dāng)作多變量圖像具有代表性的分布特征。這些特征一般通過得分向量的散點圖來展示,就像圖 4 呈現(xiàn)的 t? – t?得分圖,或者通過二維密度直方圖來呈現(xiàn)。
Yu 和 MacGregor 在 2003 年對得分散點圖(或者二維密度直方圖)與響應(yīng)變量之間的回歸問題展開了研究。這項研究需要從 K 張圖像中的每一張所得到的得分圖(或直方圖)里,提取出一定數(shù)量(n)的特征,接著把這些特征收集到回歸矩陣 X(規(guī)格為 K×n)當(dāng)中,再利用目標(biāo)響應(yīng)變量(也就是結(jié)晶度)y(規(guī)格為 K×1)來構(gòu)建回歸模型,具體情況可參考圖 2。
將近紅外(NIR)光譜圖像與聚合物晶體度測量結(jié)果關(guān)聯(lián)起來的特定公式,是基于對圖 5A 中展示的三種聚合物類型的 NIR 光譜聚類模式的觀察而得出的。這個 t? - t?散點圖是通過對光譜矩陣(1800×256)進行主成分分析(PCA)分解后得到的。在使用方法 3 時,前兩個得分向量分別能夠解釋 95.8% 和 3.2% 的方差;而在使用方法 4 時,前兩個得分向量分別可以解釋 77.7% 和 11.1% 的方差。正如人們所預(yù)期的那樣,與三種聚合物相對應(yīng)的光譜呈現(xiàn)出截然不同的簇群;NIR 光譜常常被用于聚合物的識別。此外,對應(yīng)每種聚合物類型的光譜數(shù)據(jù),還會依據(jù)冷卻速率進行聚類,并且這些聚類具有明顯的空間方向(如圖 5A 中高密度聚乙烯(HDPE)簇的放大圖所示)。
為了獲取與結(jié)晶度相關(guān)的信息,研究人員通過將圖 5A 中展示的光譜數(shù)據(jù)投影到前兩個得分向量的線性組合上(見圖 5B),從而計算出一個新的向量 t??。最后,使用普通最小二乘法,在 t??和 y 之間建立起一個簡單的線性回歸模型。
選擇 線性組合 ( r ) 或t 12向量的角度t 12和y之間的相關(guān)性。Yu 和 MacGregor ( 2003 )討論了類似的方法,用于得分密度直方圖分割,作為 MIR 問題的可能公式之一。
分?jǐn)?shù)直方圖可識別聚合物和冷卻速率 (A)。根據(jù)角度 ( r )將數(shù)據(jù)集投影到單個向量 ( t 12 ) 上可實現(xiàn)降維 (B