最近,因為公司的收購行動下,要和一些新的部門合作,但真的不明白為何它們的檔案中總是有一些unprintable character,這些character最大的問題就係它導致Teradata的mload不能正常地運作=.=!,因為是檔案是用上delimiter的關係,這些怪獸導致TD不能正確地解讀一行data,當然最簡單的方法是叫他們處理掉那些怪獸
不過在等他們處理時,又不妨自己找Google大神問一下路,最後總算找到有用的方法
下面的command能在Unix的環境下把一些非ASCII的東西移除,而且我在cygwin下運作時,一個六百多MB的檔案也很快就cleansing 完呢!所以都算幾有用
tr -cd '\11\12\15\40-\176' < err-file > clean-file
0 回應:
Post a Comment