整個(gè)流程涉及很多技術(shù)。底層控制不做考慮。包含3D視覺,機(jī)器人規(guī)劃,抓取位置的選擇等。
機(jī)械臂抓取需要確定每段機(jī)械臂的位姿
首先,機(jī)械臂需要視覺伺服系統(tǒng),來確定物體的位置,根據(jù)末端執(zhí)行器(手)和視覺傳感器(眼)的相對位置,可分為Eye-to-Hand和Eye-in-Hand兩種系統(tǒng)。
Eye-to-Hand的分離式分布,視野固定不變,如果相機(jī)的標(biāo)定精度高的話,那么視覺定位于抓取的精度也越高。
Eye-in-Hand則將機(jī)械臂與視覺傳感器固定在一起,視野隨機(jī)械臂的移動而改變,傳感器越近時(shí)精度越高,但過于靠近時(shí)則可能使目標(biāo)超出視野范圍。
精密的視覺系統(tǒng)與靈活機(jī)械臂的配合,才能完成一次完美的抓取,而這正是當(dāng)前機(jī)器人操作中的核心難題,歸納起來就是這么一件事:找到合適的抓取點(diǎn)(或吸附點(diǎn)),抓住它。之后的轉(zhuǎn)運(yùn)執(zhí)行,則屬于運(yùn)動規(guī)劃的分支。
目前幾種主流的解決方案
Model-based(基于模型的方法)
這種方法很好理解,即知道要抓什么,事先采用實(shí)物掃描的方式,提前將模型的數(shù)據(jù)給到機(jī)器人系統(tǒng),機(jī)器在實(shí)際抓取中就只需要進(jìn)行較少的運(yùn)算:
1. 離線計(jì)算:根據(jù)搭載的末端類型,對每一個(gè)物體模型計(jì)算局部抓取點(diǎn);
2. 在線感知:通過RGB或點(diǎn)云圖,計(jì)算出每個(gè)物體的三維位姿;
3. 計(jì)算抓取點(diǎn):在真實(shí)世界的坐標(biāo)系下,根據(jù)防碰撞等要求,選取每個(gè)物體的最佳抓取點(diǎn)。
RGB顏色空間由紅綠藍(lán)三種基本色組成,疊加成任意色彩,同樣地,任意一種顏色也可以拆解為三種基本色的組合,機(jī)器人通過顏色坐標(biāo)值來理解“顏色”。這種方式與人眼識別顏色的方向相似,在顯示屏上廣泛采用。
Half-Model-based(半模型的方法)
在這種訓(xùn)練方式中,不需要完全預(yù)知抓取的物體,但是需要大量類似的物體來訓(xùn)練算法,讓算法得以在物品堆中有效對圖像進(jìn)行“分割”,識別出物體的邊緣。這種訓(xùn)練方式,需要這些流程:
1.離線訓(xùn)練圖像分割算法,即把圖片里的像素按物體區(qū)分出來,此類工作一般由專門的數(shù)據(jù)標(biāo)注員來處理,按工程師的需求,標(biāo)注出海量圖片中的不同細(xì)節(jié);
2.在線處理圖像分割,在人工標(biāo)注出的物體上,尋找合適的抓取點(diǎn)。
這是一種目前應(yīng)用較為廣泛的方式,也是機(jī)械臂抓取得以推進(jìn)的主要推力。機(jī)械臂技術(shù)發(fā)展緩慢,但計(jì)算機(jī)視覺的圖像分割則進(jìn)展迅速,也從側(cè)面撬動了機(jī)器人、無人駕駛等行業(yè)的發(fā)展。
Model-free(自由模型)
這種訓(xùn)練方式不涉及到“物體”的概念,機(jī)器直接從RGB圖像或點(diǎn)云圖上計(jì)算出合適的抓取點(diǎn),基本思路就是在圖像上找到Antipodal(對映點(diǎn)),即有可能“抓的起來”的點(diǎn),逐步訓(xùn)練出抓取策略。這種訓(xùn)練方式往往讓機(jī)器手大量嘗試不同種類的物品,進(jìn)行self-supervisedlearning,Google的Arm Farm,即為其中的代表之一。
從抓取方法上分類可以分成兩種:基于分析方法(Analytical),基于數(shù)據(jù)驅(qū)動(Data-driven)。
分析方法:主要是基于動力學(xué)及幾何學(xué)的分析,一般要求知道物體的模型(known object),集大成之作為李澤湘教授的《機(jī)器人操作的數(shù)學(xué)導(dǎo)論》。書中基于旋量理論,介紹了很多機(jī)器人manipulation的基礎(chǔ)。分析方法有助于我們理解整個(gè)抓取過程,理解哪些物理量會影響抓取的穩(wěn)定性。