郭朝暉,蘇異才,張群亮 ,王巍,張丕軍
(寶山鋼鐵股份有限公司研究院,上?!。玻埃保梗埃埃?/span>
摘 要:熱軋帶鋼力學(xué)性能預(yù)報(bào)技術(shù)的研究已有幾十年,但應(yīng)用效果卻不理想。本文針對(duì)這種現(xiàn)象進(jìn)行了分析,認(rèn)為造成這種現(xiàn)象的主要原因是部分研究團(tuán)隊(duì)在確定研究目標(biāo)和技術(shù)線路時(shí)陷入誤區(qū),導(dǎo)致大量徒勞無益的時(shí)間浪費(fèi)。在成功規(guī)避誤區(qū)的基礎(chǔ)上,寶鋼研發(fā)出全局分布式熱軋帶鋼性能預(yù)報(bào)模型。本文介紹了其良好的實(shí)際應(yīng)用效果。
關(guān)鍵詞:熱軋帶鋼;性能預(yù)報(bào);模型;誤區(qū);有偏估計(jì)
1前言
20世紀(jì)50年代,Irvine和Pickering提出了用數(shù)學(xué)模型預(yù)測鋼材組織演變和最終力學(xué)性能的想法,20世 紀(jì)90年 代,該 研 究 成 為 世 界 熱點(diǎn)[1-3]
。目前,該技術(shù)已有商業(yè)化產(chǎn)品出現(xiàn),如熱連軋帶鋼質(zhì)量控制系統(tǒng)(VAI-Qstrip)
[4]、西門子公司的BM_MM[5]、INTEG公司的HSMM[6]等。然而,截至目前,許多研究虎頭蛇尾,各種商品化軟件也面臨尷尬。用戶普遍認(rèn)為模型可有可無,應(yīng)用價(jià)值不大。
造成這種現(xiàn)狀的原因有主客觀兩個(gè)方面??陀^原因是數(shù)據(jù)條件不具備。由于大生產(chǎn)的數(shù)據(jù)質(zhì)量不高,根據(jù)統(tǒng)計(jì)學(xué)原理推斷,要建立完整、穩(wěn)定、可靠的力學(xué)性能模型,至少需要10萬條以上的數(shù)據(jù)。主觀原因是陷入了認(rèn)識(shí)的誤區(qū),對(duì)問題的復(fù)雜性和難度估計(jì)不足,又缺乏及時(shí)、深刻的反思,制定的技術(shù)目標(biāo)和研究線路往往脫離實(shí)際。
10多年前,寶山鋼鐵股份有限公司對(duì)性能預(yù)報(bào)技術(shù)展開了研究[7]。在多次失敗和深入反思的基礎(chǔ)上認(rèn)識(shí)到,一些看似理所應(yīng)當(dāng)?shù)挠^點(diǎn)并不合理。本文將這些看似合理的錯(cuò)誤觀念稱之為“誤區(qū)”。寶鋼的實(shí)踐表明,只要避開這些誤區(qū),完全可建立實(shí)用的數(shù)學(xué)模型。
2概念辨析
2.1精度的概念
人們往往把精度作為衡量模型好壞的唯一依據(jù),把提高精度作為建模的唯一目標(biāo)。但這種觀念是有風(fēng)險(xiǎn)的。
用戶關(guān)心的精度,是模型使用時(shí)的精度;而評(píng)價(jià)模型時(shí),往往用歷史數(shù)據(jù)的平均精度。對(duì)于性能預(yù)報(bào)模型來說,這兩種精度的差異可能非常大。造成這種差異的原因很多,如建模數(shù)據(jù)分布的范圍,未必包含應(yīng)用模型時(shí)的數(shù)據(jù)范圍;以往數(shù)據(jù)的統(tǒng)計(jì)特征,未必等同于新數(shù)據(jù)的統(tǒng)計(jì)特征。因此,模型的平均精度高不等于精度均衡,而提高歷史數(shù)據(jù)的精度,未必能提高模型使用時(shí)的精度。如果僅僅試圖減少歷史數(shù)據(jù)的平均誤差,研究過程就會(huì)陷入誤區(qū)。
2.2精度的極限
模型精度不可能無限提高,對(duì)于歷史數(shù)據(jù),精度也存在著不可逾越的極限。這是由于當(dāng)模型精度達(dá)到一定水平后,誤差的主要來源不是模型的失真,而是輸入數(shù)據(jù)的誤差。不難理解,即便模型完全正確,有誤差的輸入也不可能得到精準(zhǔn)的預(yù)報(bào)結(jié)果。但很少有人意識(shí)到輸入誤差是預(yù)報(bào)誤差的主要來源。下面以鋼材伸長率為例,分析測量誤差的作用。
通常,在同一個(gè)位置取樣測量兩次,結(jié)果也會(huì)存在差異,即為檢測誤差。檢測誤差服從特定的概率分布。通過成對(duì)取樣,可以測算誤差分布的標(biāo)準(zhǔn)差,記為ó1。同時(shí),鋼材的伸長率會(huì)存在一定的波動(dòng),其標(biāo)準(zhǔn)差記為ó2。研究發(fā)現(xiàn):ó1/ó2≈0.4~0.8。
顯然,預(yù)報(bào)誤差的標(biāo)準(zhǔn)差不可能小于ó1,模型的精度不可能很高。鋼材的抗拉和屈服強(qiáng)度情況與其類似,只是誤差更多地來源于成分和工藝參數(shù)的檢測。
理論上講,成分、工藝對(duì)性能的影響是非線性的。但是,研究發(fā)現(xiàn)多元線性回歸模型非常接近性能預(yù)報(bào)模型的精度極限。這是因?yàn)?,?dāng)自變量變化范圍很小時(shí),非線性系統(tǒng)往往可以用線性模型逼近。事實(shí)上,這也是微分原理的具體體現(xiàn)。
所以,如果僅僅為了提高精度,根本沒有必要建立復(fù)雜的模型。
2.3單純追求精度的危害
過度追求模型相對(duì)歷史數(shù)據(jù)的精度,存在兩方面的危害:一是浪費(fèi)研究時(shí)間,如前所述,數(shù)據(jù)準(zhǔn)備完成后,立刻可得到多元線性回歸模型,其精度與任何高級(jí)的模型大體相當(dāng)。為提高精度而花費(fèi)多年時(shí)間研究是基本沒有價(jià)值的。二是會(huì)得到錯(cuò)誤的模型,最常見的問題是濫用神經(jīng)元方法,會(huì)導(dǎo)致模型“過擬合”,缺少泛化性。
其實(shí),即使對(duì)最簡單的一元線性模型,單純追求精度也是有害的。這可以嚴(yán)格證明,假設(shè)實(shí)際對(duì)象描述如下:
![]()
常規(guī)的做法是用最小二乘法估計(jì)參數(shù)k。假設(shè)自變量x存在檢測誤差η,則:
![]()
式(2)表明,自變量存在檢測誤差時(shí),估計(jì)值的數(shù)學(xué)期望不等于真實(shí)值。這種現(xiàn)象在統(tǒng)計(jì)學(xué)上稱為“有偏估計(jì)問題”,亦即模型輸入存在檢測誤差時(shí),如果單純追求誤差最小,則客觀規(guī)律會(huì)被扭曲。反向理解這個(gè)結(jié)論,即為當(dāng)輸入數(shù)據(jù)存在誤差時(shí),正確的模型并非誤差最小。
通常,人們往往忽視自變量的檢測誤差。但如果建模數(shù)據(jù)來自大生產(chǎn),檢測誤差的影響就會(huì)相當(dāng)大,無法忽略統(tǒng)計(jì)結(jié)果的扭曲。
2.4認(rèn)識(shí)模型的實(shí)用性
研制模型的困難在于需要在特定的條件下,滿足用戶綜合性(精度、適用范圍、穩(wěn)定可靠、算法簡單)的需求。
模型精度是重要的指標(biāo),但模型精度往往不穩(wěn)定,誤差隨工況、產(chǎn)品、時(shí)間變化。如果誤差的變化規(guī)律難以把握,模型在實(shí)踐中就難以應(yīng)用。
導(dǎo)致模型精度不穩(wěn)定的原因很多,超出模型適用范圍是常見的原因之一。多數(shù)性能預(yù)報(bào)模型只適用于特定鋼種和工藝,只要參數(shù)稍微超出正常的波動(dòng)范圍,模型誤差就會(huì)迅速增加。然而,擴(kuò)大模型的適用范圍往往是模型研制的難點(diǎn)。
另外,無論適用范圍再大,總會(huì)有失效的邊界。即便在適用范圍之內(nèi),精度也會(huì)變化;如果不清楚模型精度的變化規(guī)律以及模型的適用邊界,也難以應(yīng)用模型。提高模型的可靠度,往往是研制實(shí)用模型過程中最困難的事情。
從軟件角度看,模型的研發(fā)也存在各種困難。最典型的要求是模型要足夠簡單、計(jì)算速度足夠快、算法足夠可靠。
總之,人們對(duì)實(shí)用模型的要求是多方面的,而各個(gè)方面是存在矛盾的,現(xiàn)實(shí)條件下往往找不到各種指標(biāo)都最好的模型。
2.5指標(biāo)的矛盾
人們對(duì)性能預(yù)報(bào)模型有多方面的的要求,但各種指標(biāo)之間存在矛盾。
人們常常認(rèn)為只要提高模型的精度,就可以擴(kuò)大適用范圍、提高可靠性。但是,由于模型受數(shù)據(jù)精度和完整性的影響,模型的適用范圍、精度、可靠性之間存在矛盾。前面講到的“有偏估計(jì)”就反映了這種矛盾。
認(rèn)識(shí)到矛盾的存在,就可根據(jù)用戶具體需要適當(dāng)取舍。例如,需要模型應(yīng)用范圍大的時(shí)候,就要偏重模型的正確性而不是精度。這樣,即便得不到高精度的模型,卻能得到實(shí)用的模型。
3模型研發(fā)的誤區(qū)
3.1技術(shù)定位錯(cuò)誤
技術(shù)定位錯(cuò)誤是指沒有明確的功能目標(biāo),或制定了價(jià)值很小、無法實(shí)現(xiàn)的功能目標(biāo)。這種錯(cuò)誤可導(dǎo)致整個(gè)研究過程誤入歧途。所以, 技術(shù)定位必須在項(xiàng)目開發(fā)之前確定。
技術(shù)定位錯(cuò)誤的兩個(gè)主要方面:
(1)認(rèn)為性能預(yù)報(bào)模型的應(yīng)用前景非常廣泛,只要把模型精度提高,就不愁模型的實(shí)用性。但如前所述,顯著提高精度的夢想是無法實(shí)現(xiàn)的,故在應(yīng)用上也難以突破。
(2)選擇替代取樣作為主要的應(yīng)用點(diǎn)。這個(gè)定位的問題在于:受到貫標(biāo)和用戶需求的約束,能替代取樣的情況不多,經(jīng)濟(jì)價(jià)值不大;找不到合適的鋼種,對(duì)于性能穩(wěn)定的鋼種,線性多元模型的精度足夠了,沒必要深入研究;對(duì)性能不穩(wěn)定的鋼種,模型精度往往很低,達(dá)不到實(shí)用的程度,也不必深入研究。
寶鋼的研究結(jié)果表明,可以以鋼種優(yōu)化、新鋼種設(shè)計(jì)、性能動(dòng)態(tài)控制為目標(biāo)建立模型。而模型的外延性非常重要,以新鋼種設(shè)計(jì)尤為突出,如果模型用于從未生產(chǎn)過的鋼種,就要在訓(xùn)練前給出預(yù)報(bào)結(jié)果。這時(shí),模型的可靠性、穩(wěn)定性都會(huì)受到挑戰(zhàn)。
如上所述,模型的精度與適用范圍存在矛盾。為此,必須找到合適的建模思路,更好地平衡這對(duì)矛盾。
3.2機(jī)理還是統(tǒng)計(jì)
性能預(yù)報(bào)模型的建模方法有兩個(gè)思路:統(tǒng)計(jì)建模和機(jī)理建模。
統(tǒng)計(jì)建模簡單方便,但其缺點(diǎn)是即使模型結(jié)構(gòu)相同,系數(shù)也會(huì)相差很遠(yuǎn)。所以,統(tǒng)計(jì)模型可靠度無法保證。造成這種現(xiàn)象的原因之一是簡單的統(tǒng)計(jì)模型不足以描述冶金機(jī)理的復(fù)雜性。為此,人們試圖通過冶金機(jī)理來提高模型的可信度。
但是,機(jī)理研究也會(huì)碰到困難,如組織演變過程過于復(fù)雜、機(jī)理研究不充分等。其中,過程的復(fù)雜性表現(xiàn)在影響因素眾多、組織特征復(fù)雜。機(jī)理研究的不充分表現(xiàn)在子模型往往是統(tǒng)計(jì)模型、對(duì)模型系數(shù)的變化規(guī)律研究不深等。
從問題復(fù)雜性、數(shù)據(jù)質(zhì)量和數(shù)量上看,建立組織模型的難度遠(yuǎn)大于直接建立性能模型。故作者認(rèn)為,過度依賴組織預(yù)報(bào)的性能預(yù)報(bào)也難以成功。
3.3局部還是全局
一般認(rèn)為,模型研究應(yīng)該從個(gè)別到一般:首先研究單個(gè)鋼種,逐步擴(kuò)展到鋼種組,最后才可能研究全局模型。但是,在研究性能預(yù)報(bào)模型時(shí),這一原則受到了挑戰(zhàn)。
對(duì)單個(gè)鋼種研究成熟后再進(jìn)行多鋼種的研究,但發(fā)現(xiàn)精度往往難以顯著超越多元線性模型,這其實(shí)是數(shù)據(jù)的隨機(jī)誤差過大引起的。
事實(shí)上,針對(duì)單個(gè)鋼種的研究存在極大的弱點(diǎn),即數(shù)據(jù)的信噪比很低。由于單個(gè)鋼種的成分和工藝往往集中在某個(gè)區(qū)域附近,參數(shù)的波動(dòng)和檢測誤差常常處于同一個(gè)級(jí)別,所反映的規(guī)律是扭曲的。另外,實(shí)踐和理論推導(dǎo)都表明,對(duì)單個(gè)鋼種建模,也需要有2000~20000組數(shù)據(jù),參數(shù)估計(jì)才能穩(wěn)定。但能滿足這個(gè)要求的鋼種很少。所以,也不宜將過多的時(shí)間用于單鋼種建模。
反之,如果將多個(gè)鋼種放在一起,數(shù)據(jù)的信噪比可以顯著提升。這雖然也會(huì)帶來一些新的困難,但有成熟的理論[8]可克服困難。
4寶鋼的探索
4.1建模思路
寶鋼把鋼種優(yōu)化、新鋼種設(shè)計(jì)、性能動(dòng)態(tài)控制作為模型應(yīng)用的目標(biāo)。要實(shí)現(xiàn)這個(gè)定位,關(guān)鍵是在穩(wěn)定可靠的前提下提高模型的外延性。
具體思路是:用數(shù)據(jù)挖掘的方法發(fā)現(xiàn)基本統(tǒng)計(jì)規(guī)律;用冶金機(jī)理確定其中的因果關(guān)系;用統(tǒng)計(jì)學(xué)方法得到精確的量化關(guān)系;最后,用數(shù)據(jù)建模的技巧將量化關(guān)系合成為完整的模型。其中,精確的量化關(guān)系不能僅僅依靠統(tǒng)計(jì)回歸,要根據(jù)具體的數(shù)據(jù)特征,對(duì)統(tǒng)計(jì)的偏差進(jìn)行矯正。這樣,實(shí)現(xiàn)了冶金機(jī)理和統(tǒng)計(jì)技術(shù)的有機(jī)結(jié)合。
4.2模型特征
寶鋼的模型稱為“全局分布式性能模型”。
“全局”是相對(duì)于特定鋼種或鋼種類型而言。該模型能準(zhǔn)確預(yù)報(bào)約700個(gè)鋼種,幾乎囊括了高碳鋼以外的所有鋼種,占寶鋼近10年來生產(chǎn)熱軋鋼種的95%左右。對(duì)預(yù)報(bào)范圍內(nèi)的新鋼種,不需要重新建模;根據(jù)事先發(fā)現(xiàn)的規(guī)律,模型可補(bǔ)償季節(jié)因素引發(fā)的性能波動(dòng);預(yù)報(bào)誤差的時(shí)間穩(wěn)定性強(qiáng),不需要自學(xué)習(xí)修正;同時(shí),只要進(jìn)行簡單的基準(zhǔn)點(diǎn)調(diào)整,就可用于不同的熱軋產(chǎn)線。
“分布”是指模型預(yù)報(bào)的結(jié)果不是唯一的數(shù)值,而是性能的概率分布。如前所述,當(dāng)模型基本正確時(shí),模型誤差的來源是隨機(jī)不確定因素,如測量誤差。這樣,同樣的模型輸入,測量結(jié)果并不唯一,而是服從特定的概率分布。根據(jù)分布,可以計(jì)算出性能合格的概率。與之相比,傳統(tǒng)的預(yù)報(bào)結(jié)果相當(dāng)于分布的均值。
預(yù)報(bào)分布表明,模型誤差不僅是客觀的,而且是可以預(yù)知的。這一觀點(diǎn)的依據(jù)是對(duì)于特定的生產(chǎn)線,測量誤差的分布是相對(duì)穩(wěn)定的。由于隨機(jī)誤差在不同情況下的作用不同,不同鋼種的誤差分布會(huì)有所差異。這意味著全局誤差在本質(zhì)上就是不穩(wěn)定的,但卻是可預(yù)知的,而這恰恰是預(yù)報(bào)分布的價(jià)值所在。
4.3應(yīng)用案例
寶鋼全局分布式模型的優(yōu)點(diǎn)主要體現(xiàn)在實(shí)用性上。可廣泛地用于新鋼種設(shè)計(jì)、鋼種優(yōu)化、性能動(dòng)態(tài)控制、合同集約等多個(gè)方面。
4.3.1 新鋼種設(shè)計(jì)
表1是對(duì)某鋼種第1爐數(shù)據(jù)、11卷帶鋼的預(yù)報(bào)結(jié)果。從表1可以看出,強(qiáng)度平均值的預(yù)報(bào)相當(dāng)準(zhǔn)確。但抗拉強(qiáng)度和屈服強(qiáng)度標(biāo)準(zhǔn)差的預(yù)報(bào)與實(shí)測值相差較大。

預(yù)報(bào)標(biāo)準(zhǔn)差,是針對(duì)整個(gè)鋼種,而新鋼種的統(tǒng)計(jì)結(jié)果僅僅來源于一爐鋼水。顯然,一爐鋼的性能波動(dòng)肯定小于整個(gè)鋼種的性能波動(dòng)。對(duì)幾十萬條數(shù)據(jù)統(tǒng)計(jì)后得知,鋼種強(qiáng)度波動(dòng)的標(biāo)準(zhǔn)差大約為爐次內(nèi)部性能波動(dòng)標(biāo)準(zhǔn)差的1.5倍。這樣,如果將預(yù)報(bào)標(biāo)準(zhǔn)差換算成爐次內(nèi)部的,相應(yīng)的數(shù)值就分別變成33.2MPa和31.0MPa,和實(shí)際測量值相當(dāng)吻合。
這樣,在用戶要求給定的前提下,就能事先算出對(duì)應(yīng)的產(chǎn)品合格率,從而判斷新鋼種是否適合大生產(chǎn)。
4.3.2鋼種優(yōu)化
2011年初,某鋼種1爐鋼的10卷帶鋼中出現(xiàn)了4卷性能不合,找不出原因。
經(jīng)模型計(jì)算,該鋼種取樣合格率預(yù)測值為68%,實(shí)際檢驗(yàn)合格率為72%。故而出現(xiàn)一定比例的不合是必然的。根據(jù)模型計(jì)算建議,如果將出爐溫度提高20℃,不合格率將降至1%以下。
5結(jié)語
人類研究性能預(yù)報(bào)技術(shù)已有50年。這不僅說明它的重要性,也反映了問題的難度。從某種意義上說,研制性能預(yù)報(bào)模型不難,難的是研制出實(shí)用的模型。模型要實(shí)用,不僅需要一定的精度,還應(yīng)具有適用范圍大、可靠度高、穩(wěn)定性強(qiáng)的特點(diǎn)。本世紀(jì)以前,該項(xiàng)研究的主要約束在數(shù)據(jù)條件不足;本世紀(jì)以后,技術(shù)定位和研發(fā)思路更多地決定了工作的成敗。寶鋼的經(jīng)驗(yàn)表明,只有合理地規(guī)避認(rèn)識(shí)上的“誤區(qū)”,才能研制出真正實(shí)用的性能預(yù)報(bào)模型。
參考文獻(xiàn):
[1] Sellars C?。?,Whiteman J?。粒遥澹悖颍螅簦幔欤欤椋幔簦椋铮睢。幔睿洹。牵颍幔椋睿牵颍铮鳎簦琛。椋睢。龋铮簟。遥铮欤欤椋睿纾郏剩?/span>
.Metal?。樱悖椋澹睿悖?,1978,13(5):187-194.
[2] Siciliano?。剩颉。疲剩铮睿幔蟆。省。剩停幔簦瑁澹恚幔簦椋悖幔臁。停铮洌澹欤椋睿纭。铮妗。簦瑁濉。龋铮簦樱簦颍椋稹。遥铮欤欤椋睿纭。铮妗。停椋悖颍铮幔欤欤铮澹洹。危?,Multiply Alloyed?。茫颍停?,and?。校欤幔椋睢。?mdash;Mn?。樱簦澹澹欤螅郏剩荩停澹簦幔欤欤酰颍纾椋悖幔臁。幔睿洹。停幔簦澹颍椋幔欤螅裕颍幔睿螅幔悖簦椋铮睿蟆。?,2000,31(2):511-530.
[3] 干勇,劉正東,王國棟,等.組織 性能預(yù)報(bào) 系統(tǒng)在寶鋼2050熱軋生產(chǎn)線的在線應(yīng)用[J].鋼鐵,2006,41(3):39-43.
[4] Andorfer?。?,Hribernig?。?,Luger?。?,et?。幔欤疲铮颉。簦瑁濉。疲椋颍螅簦裕椋恚濉。牛觯澹颍海疲酰欤臁。停澹簦幔欤欤酰颍纾椋悖幔臁。茫铮睿簦颍铮臁。铮妗。簦瑁濉。停澹悖瑁幔睿椋悖幔欤校颍铮穑澹颍簦椋澹蟆。铮妗。龋铮簦颍铮欤欤澹洹。樱簦颍椋稹。祝椋簦琛。郑粒桑眩樱簦颍椋穑郏剩荩桑颍铮睿幔睿洹。樱簦澹澹?,2001,36(1):42-46.
[5] Senuma?。?,Suehiro?。停伲幔洌帷。龋停幔簦瑁澹恚幔簦椋悖幔臁。停铮洌澹欤蟆。妫铮颍校颍澹洌椋悖簦椋睿纭。停椋悖颍铮螅簦颍酰悖簦酰颍幔臁。牛觯铮欤酰簦椋铮睢。幔睿洹。停澹悖瑁幔睿椋悖幔臁。校颍铮穑澹颍簦椋澹蟆。铮妗。龋铮簟。樱簦颍椋穑螅郏剩荩桑樱桑省。桑睿簦澹颍睿幔簦椋铮睿幔?,1992,32(3):423-432.
[6] 余萬華,韓靜濤,佘廣夫,等.HSMM軟件在攀枝花鋼鐵公司熱軋板廠的應(yīng)用[
J].鋼鐵研究學(xué)報(bào),2006,l8(11):60-62.
[7] 郭朝暉,張群亮,蘇異才,等.關(guān)于熱軋帶鋼力學(xué)性能預(yù)報(bào)技術(shù)的思考[J],冶金自動(dòng)化,2009,33(2):1-6.
[8] 王濟(jì)川.多層統(tǒng)計(jì)分析模型:方法與應(yīng)用[M].北京:高等教育出版社,200.
