在ASP.NET中跟蹤和恢復大文件下載

2024-07-10 12:55:30

字體：大中小

來源：轉載

供稿：網友

在web應用程序中處理大文件下載的問題一直出了名的困難，因此對于大多數站點來說，如果用戶的下載被中斷了，它們只能說悲哀降臨到用戶的身上了。但是我們現在不必這樣了，因為你可以使自己的asp.net應用程序有能力支持可恢復（繼續）的大文件下載。使用本文提供的方法的時候，你可以跟蹤下載的過程，這樣你就可以處理動態建立的文件--而且要達到這個目標根本不需要舊式的isapi動態鏈接庫和非受控的（unmanaged）c++代碼。

　　為客戶端提供從互聯網上下載文件的服務最容易了，對嗎？僅僅只需要把可下載的文件復制到你的web應用程序目錄中，發布鏈接并讓iis完成所有相關的工作。但是，文件服務不應該比脖子上的疼痛還要多（還要麻煩），你不希望整個世界都能訪問自己的數據，你不希望服務器被數百個靜態文件塞滿了，你甚至于希望下載臨時文件--只有當客戶端開始下載后的空閑時間才建立這些文件。

　　不幸的是，使用iis對下載請求的默認的響應是不可能達到這些效果的。因此在一般情況下，為了獲得對下載過程的控制權，開發者需要鏈接到一個定制的.aspx頁面，在這個頁面中它們檢查用戶憑證（credential）、建立可以下載的文件并使用下面的代碼把該文件推送給客戶端：

response.writefile
response.end()
　　而這就是出現真正麻煩的地方。

　　有什么問題？

　　writefile方法看起來非常完美，它使文件的二進制數據流向客戶端。但是直到最近我們才知道，writefile方法是一個出名的內存占用狂，它把整個文件載入服務器的ram中來提供服務（實際上它甚至于會占用文件兩倍大小的空間）。對于大文件，這會引起服務內存問題，并且可能重復asp.net過程。但是在2004年6月微軟發布了一個補丁解決了這個問題。這個補丁現在是.net framework 1.1補丁包（sp1）的一部分。

　　這個補丁引入了transmitfile方法，它把一個磁盤文件讀入到較小的內存緩沖區之后就開始傳輸該文件。盡管這個方案解決了內存和循環的問題，但是它仍然不能令人滿意。你不能控制響應的生命周期。你無法知道下載是否正確地完成了，你沒有辦法知道下載是否被中斷了，并且（如果你建立了臨時文件）你也不知道是否應該、以及什么時候可以刪除這些文件。更糟的是，如果下載的確失敗了，transmitfile方法又從客戶端下次嘗試的文件頭部開始下載。

　　其中一種可能的解決方案--實現后臺智能傳輸服務（bits）對于多數站點來說是不可行的，因為這會毀掉維持客戶端瀏覽器和操作系統獨立性而作出的努力。

　　令人滿意的解決方案的基礎還是來自微軟用于解決writefile引起的內存混亂問題的第一次嘗試（見知識庫文章812406）。那篇文章演示了智能的大塊數據下載過程，它從文件流中讀取數據。在服務器把字節塊發送給客戶端之前，它使用response.isclientconnected屬性檢查客戶端是否仍然保持著連接。如果仍然保持連接，它就繼續發送流字節，否則就停止，以防止服務器發送不必要的數據。
這就是我們采用的方法，特別是在下載臨時文件的時候。在isclientconnected返回false的情況下，你就知道下載過程被中斷了，你應該保存文件；反之，當這個過程成功完成的時候，你就刪除臨時文件。此外，為了恢復中斷了的下載，你需要做的工作是從上次下載嘗試過程中客戶端連接失敗的文件點開始下載。

　　http協議和頭信息（header）支持

　　http協議支持可以用于處理被中斷下載的頭信息。使用少量的http頭信息，你可以增強自己的下載過程，使它完全遵循http協議規范。這個規范與ranges一起提供恢復被中斷的下載所需要的一切信息。

　　下面是它的工作方式。首先，如果服務器支持客戶端斷點續傳，它就在初始的響應中發送accept-ranges頭信息。服務器還發送一個實體標簽（entity tag）頭信息（etag），它包含一個唯一的標識字符串。

　　下面的代碼顯示了iis發送給客戶端的用于響應一個初始下載請求的一些頭信息，它向客戶端傳遞了被請求的文件的詳細信息。

http/1.1 200 ok
connection: close
date: tue, 19 oct 2004 15:11:23 gmt
accept-ranges: bytes
last-modified: sun, 26 sep 2004 15:52:45 gmt
etag: "47febb2cfd76c41:2062"
cache-control: private
content-type: application/x-zip-compressed
content-length: 2844011
　　在接收這些頭信息之后，如果下載被中斷了，ie瀏覽器在后來的下載請求中會把etag值和range頭信息發送回服務器。下面的代碼顯示了嘗試恢復被中斷下載時ie發送給服務器的一些頭信息。

get http://192.168.100.100/download.zip http/1.0
range: bytes=822603-
unless-modified-since: sun, 26 sep 2004 15:52:45 gmt
if-range: "47febb2cfd76c41:2062"
　　這些頭信息表明ie緩存了iis提供的實體標簽，并在if-range頭信息中把它發送回服務器了，這是確保下載從準確相同的文件恢復的一種途徑。不幸的是，并非所有的瀏覽器的工作方式都相同。客戶端發送的用于驗證文件的其它http頭信息可能是if-match、if-unmodified-since或者unless-modified-since。很明顯，該規范對于客戶端軟件必須支持哪些頭信息，或者必須使用哪些頭信息沒有明確的規定。因此，有些客戶端根本就沒有使用頭信息，而ie只使用if-range和unless-modified-since。你最好用代碼檢查這些信息。采用這種方式的時候，你的應用程序可以在非常高的層次遵循http規范，并可以使用多種瀏覽器。range頭信息指明了被請求的字節范圍--在例子中它是服務器應該恢復文件流的起始點。

　　當iis接收到恢復下載的請求類型時，它發回包含下面的頭信息的響應信息：

http/1.1 206 partial content
content-range: bytes 822603-2844010/2844011
accept-ranges: bytes
last-modified: sun, 26 sep 2004 15:52:45 gmt
etag: "47febb2cfd76c41:2062"
cache-control: private
content-type: application/x-zip-compressed
content-length: 2021408
　　請注意上面的代碼與最初的下載請求的http響應有點差別--恢復下載的請求是206而最初下載的請求是200。這表明通過線路傳遞進來的內容是部分文件。這一次content-range頭信息指出了被傳遞字節的精確數量和位置。

　　ie對于這些頭信息是很挑剔的。如果最初的響應沒有包含etag頭信息，ie永遠不會嘗試恢復下載。我測試過的其它客戶端不使用etag頭信息，它們簡單得依賴于文件名、請求范圍，并使用last-modified頭信息（如果它們試圖驗證該文件）。

　　深入了解http協議

　　前面的部分中顯示的頭信息對于使恢復下載的解決方案運行來說是足夠的，但是它沒有完全覆蓋http規范。

　　在單個請求中，range頭信息可以詢問多個范圍，這種特性稱為"多部分范圍（multipart ranges）"。請不要與分段下載（segmented downloading）混淆，幾乎所有的下載工具都使用分段下載來提高下載速度。這些工具聲稱通過打開兩個或多個并發的連接（每個連接請求文件的不同范圍）提高了下載速度。

　　多部分范圍的想法并沒有開啟多個連接，但是它可以使客戶端軟件可以在單個請求/響應周期中請求某個文件的最前面的十個和最后面的十個字節。

　　誠實地說，我從來都沒有找到使用這種特性軟件片斷。但是我拒絕在代碼聲明中寫入"它并不是完全的http兼容的"。略去這個特性必定會觸犯墨菲法則（murphy's law）。無論如何，多部分范圍還是被用于電子郵件傳輸中，把頭信息、普通文本和附件分開。

示例代碼

　　我們知道了客戶端和服務器如何交換頭信息以保證可恢復的下載，把這些知識與文件塊流的思想結合起來，你就可以給自己的asp.net應用程序增加可靠的下載管理能力了。

　　獲取下載過程的控制權的方法是從客戶端截取下載請求、讀取頭信息并適當地響應。在.net之前，你必須編寫isapi（internet服務器api）應用程序來實現這種功能，但是.net框架組件提供了一個ihttphandler接口，在類中實現的時候，它允許你僅僅使用.net代碼就能夠截取和處理請求。這意味著你的應用程序對于下載過程有完全控制權和響應性，再也不會涉及或使用iis的自動化函數。

　　示例代碼在httphandler.vb文件中包含了一個自定義的httphandler類（ziphandler）。ziphandler實現了ihttphandler接口，并且處理對所有.zip文件的請求。

　　為了測試示例代碼，你需要在iis中建立一個新的虛擬目錄，并把源文件復制到那兒。在該目錄中建立一個叫做download.zip的文件（請注意iis和asp.net不能處理大于2gb的下載，因此要確保你的文件沒有超過該限制）。配置你的iis虛擬目錄，通過aspnet_isapi.dll映射.zip擴展名。

　　httphandler類：ziphandler

　　在asp.net中映射了.zip擴展名之后，客戶端每次向服務器請求.zip文件的時候，iis調用ziphandler類的processrequest方法（見下載代碼）。

　　processrequest方法首先建立自定義的fileinformation類（見下載代碼）的一個實例，它封裝了下載的狀態（例如進行中、被中斷了等等）。示例把download.zip示例文件的路徑硬編碼到代碼中了。如果把這段代碼應用于你自己的應用程序，需要修改它來打開被請求的文件。

' 使用objrequest檢測請求了哪個文件，用該文件打開objfile。
' 例如objfile = new download.fileinformation(<完整文件名>)
objfile = new download.fileinformation( _
objcontext.server.mappath("~/download.zip"))
　　接下來，程序使用描述的http頭信息（如果請求提供了頭信息）執行一系列的驗證檢查。它把每種檢查都封裝在小型私有函數中，如果驗證成功的話就返回true。如果某個驗證檢查失敗了，響應會立即終止，并發送適當的statuscode值。

if not objrequest.httpmethod.equals(http_method_get) or not
objrequest.httpmethod.equals(http_method_head) then
　' 目前只支持get和head方法
　objresponse.statuscode = 501 ' 沒有執行
elseif not objfile.exists then
　' 無法找到被請求的文件
　objresponse.statuscode = 404 ' 沒有找到
elseif objfile.length > int32.maxvalue then
　' 文件太大了
　objresponse.statuscode = 413 ' 請求實體太大
elseif not parserequestheaderrange(objrequest, alrequestedrangesbegin, alrequestedrangesend, _
objfile.length, bisrangerequest) then
　' range請求中包含無用的實體
　objresponse.statuscode = 400 ' 無用的請求
elseif not checkifmodifiedsince(objrequest,objfile) then
　' 實體沒有被修改過
　objresponse.statuscode = 304 ' 沒有被修改過
elseif not checkifunmodifiedsince(objrequest,objfile) then
　' 實體在上次被請求的日期之后被修改過
　objresponse.statuscode = 412 ' 預處理失敗
elseif not checkifmatch(objrequest, objfile) then
　' 實體與請求不匹配
　objresponse.statuscode = 412 ' 預處理失敗
elseif not checkifnonematch(objrequest, objresponse,objfile) then
　' 實體的確與none-match請求匹配。
　' 響應代碼位于checkifnonematch函數中
else
　' 初步檢查成功
　　這些初步檢查的函數中的parserequestheaderrange（見下載代碼）檢查客戶端是否請求了文件范圍（這意味著是一個局部下載）。如果被請求的范圍是無效的（無效范圍指超越文件大小或包含不合理數字的范圍數值），該方法把bisrangerequest設置為true。如果請求了范圍，checkifrange方法會驗證ifrange頭信息。

　　如果被請求的范圍是有效的，代碼會計算響應信息的大小。如果客戶端請求了多個范圍，響應信息大小的數值會包含多部分頭部信息長度的數值。

　　如果不能確定某個發送的頭部信息值，程序將把這個下載請求作為最初請求而不是部分下載來處理，從文件的頂部開始發送一個新的下載流。

if bisrangerequest andalso checkifrange(objrequest, objfile) then
　' 這是范圍請求
　' 如果range數組包含多個實體，它還是一個多部分范圍請求
　bmultipart = cbool(alrequestedrangesbegin.getupperbound(0)>0)
　' 進入每個范圍來獲取整個響應長度
　for iloop = alrequestedrangesbegin.getlowerbound(0) to alrequestedrangesbegin.getupperbound(0)
　　' 內容的長度(這個范圍的)
　　iresponsecontentlength += convert.toint32(alrequestedrangesend( _
iloop) - alrequestedrangesbegin(iloop)) + 1
　　if bmultipart then
　　　' 如果是多部分范圍請求，計算出將發送的中間頭信息的長度
　　　iresponsecontentlength += multipart_boundary.length
　　　iresponsecontentlength += objfile.contenttype.length
　　　iresponsecontentlength += alrequestedrangesbegin(iloop).tostring.length
　　　iresponsecontentlength += alrequestedrangesend(iloop).tostring.length
　　　iresponsecontentlength += objfile.length.tostring.length
　　　' 49是多部分下載中換行和其它必要的字符的長度
　　　iresponsecontentlength += 49
　　end if
　next iloop

　if bmultipart then
　　' 如果是多部分范圍請求，
　　' 我們還必須計算出將發送的最后一個中間頭信息的長度
　　iresponsecontentlength +=multipart_boundary.length
　　' 8 是破折號和換行符的長度
　　iresponsecontentlength += 8
　else
　　' 不是多部分下載，因此我們必須說明初始http頭信息的響應范圍
　　objresponse.appendheader( http_header_content_range, "bytes " & _
　　alrequestedrangesbegin(0).tostring & "-" & _
　　alrequestedrangesend(0).tostring & "/" & _
　　objfile.length.tostring)
　　'end if
　　' 范圍響應
　　objresponse.statuscode = 206 ' 局部響應
　else
　　' 這不是范圍請求，或者被請求的范圍實體id與當前的實體id不匹配，
　　' 因此開始新的下載
　　' 指明文件完成部分的大小等于內容的長度
　　iresponsecontentlength =convert.toint32(objfile.length)
　　' 返回正常的ok狀態
　　objresponse.statuscode = 200
　end if
　' 接下來服務器必須發送幾個重要的響應頭信息，例如內容長度、etag、和文件的內容類型：
　' 把內容長度寫入響應
　objresponse.appendheader( http_header_content_length,iresponsecontentlength.tostring)
　' 把最后修改日期寫入響應
　objresponse.appendheader( http_header_last_modified,objfile.lastwritetimeutc.tostring("r"))
　' 告訴客戶端軟件我們接受了范圍請求
　objresponse.appendheader( http_header_accept_ranges,http_header_accept_ranges_bytes)
　' 把文件的實體標簽寫入響應（用引號括起來）
　objresponse.appendheader(http_header_entity_tag, """" & objfile.entitytag & """")
　' 把內容類型寫入響應
　if bmultipart then
　　' 多部分消息有這種特殊的類型
　　' 在例子中文件實際的mime類型在以后才寫入響應
　　objresponse.contenttype = multipart_contenttype
　else
　　' 單個部分消息擁有的文件內容類型
　　objresponse.contenttype = objfile.contenttype
end if

　　下載所需要的一切都準備好了，可以開始下載文件了。你將使用filestream對象從文件中讀取字節塊。把fileinformation實例objfile的state屬性設置為fsdownloadinprogress。只要客戶端保持連接，服務器就從文件中讀取字節塊并發送給客戶端。對于多部分下載，這段代碼會發送特定的頭信息。如果客戶端中斷連接，服務器就把文件狀態設置為fsdownloadbroken。如果服務器完成了被請求范圍的發送過程，它會把狀態設置為fsdownloadfinished（見下載代碼）。

fileinformation輔助類

　　在ziphandler部分中你會發現，fileinformation是一個輔助類，它封裝了下載狀態信息（例如下載中、中斷等等）。

　　為了建立fileinformation的實例，你需要把被請求文件的路徑傳遞給該類的構造函數：

public sub new(byval spath as string)
　m_objfile = new system.io.fileinfo(spath)
end sub
　　fileinformation使用system.io.fileinfo對象來獲取文件的信息，這些信息是作為該對象的屬性暴露的（例如文件是否存在、文件全名、大小等等）。這個類還暴露了一個downloadstate枚舉，它描述了下載請求的多種狀態：

<flags()> enum downloadstate
　' clear：沒有下載過程，文件可能在維護
　fsclear = 1
　' locked：動態建立的文件不能被更改
　fslocked = 2
　' in progress：文件被鎖定了，下載過程正在進行
　fsdownloadinprogress = 6
　' broken：文件被鎖定了，下載過程正在進行，但是被取消了
　fsdownloadbroken = 10
　' finished：文件被鎖定了，下載過程完成了
　fsdownloadfinished = 18
end enum
　　fileinformation還提供了entitytag屬性值。示例代碼中的這個值是硬編碼的，這是由于示例代碼只使用了一個下載文件，并且該文件不會被改變，但是對于實際應用程序來說，你會提供多個文件，甚至于動態地建立文件，你的代碼必須為每個文件提供一個唯一的entitytag值。此外，每次改變或修改該文件的時候，這個值也必須改變。這使客戶端軟件能夠驗證它們已經下載的字節塊是否仍然是最新的。下面是示例代碼中返回硬編碼entitytag值的部分：

public readonly property entitytag() as string
　' entitytag用于對客戶端的初始（200）響應，以及來自客戶端的恢復請求
　get
　　' 為文件建立唯一的字符串。
　　' 注意，只要文件沒有發生改變，該唯一碼就必須保留。
　　' 但是，如果文件的確改變了或者被修改了，這個碼必須改變。
　　return "myexamplefileid"
　end get
end property
　　一個簡單的和大致足夠安全的entitytag可能由文件名和文件最后被修改的日期組成。無論使用什么方法，你都必須確保這個值是真的是唯一的，不會與其它文件的entitytag混淆。我希望在自己的應用程序中按照客戶、顧客和郵編索引來動態地替被建立的文件命名，并把用作entitytag的guid存儲在數據庫中。

　　zipfilehandler類讀取和設置公共的state屬性。在完成下載以后，它把state設置為fsdownloadfinished。這個時候你就可以刪除臨時文件了。這兒一般需要調用save方法來維持狀態。

public property state() as downloadstate
　get
　　return m_nstate
　end get
　set(byval nstate as downloadstate)
　　m_nstate = nstate
　　' 可選操作：這個時候你可以自動地刪除文件。
　　' 如果狀態被設置為finished ，你就再也不需要這個文件了。
　　' if nstate =downloadstate.fsdownloadfinished then
　　　' clear()
　　' else
　　　' save()
　　' end if
　　save()
　end set
end property
　　在文件狀態發生改變的任何時候zipfilehandler都應該調用save方法，保存文件的狀態，這樣在以后才能顯示給用戶。你還可以用它來保存你自己建立的entitytag。請不要把文件的狀態和entitytag值保存在application、session或cache中--你必須跨越所有的這些這些對象的生命周期來保存信息。

private sub save()
　' 把該文件下載的狀態保存到數據庫或xml文件中。
　' 當然，如果你并沒有動態地建立文件，就不需要保存這個狀態。
end sub
　　前面提到，示例代碼只處理一個已有的文件（download.zip），但是你可以進一步增強這個程序，根據需要建立被請求的文件。

　　測試示例代碼的時候，你的本地系統或lan可能太快了，以至于無法中斷下載過程，因此我推薦你使用慢速lan連接（在iis中減少站點的帶寬是一種模擬的方法）或者把服務器放到互聯網上。

　　在客戶端上下載文件仍然很艱難。isp操作的不對的或配置錯誤的web緩沖服務器都可能使大文件下載過程失敗，包括下載狀況惡化或早期對話終結。如果文件大小超過了255mb，你就應該鼓勵顧客使用第三方下載管理軟件，盡管某些最新的瀏覽器內建了基本的下載管理器。
如果你希望進一步擴展示例代碼，查閱一下http規范是有益的。你可以為下載建立md5校驗值，使用content-md5頭信息添加它們，提供一種驗證下載文件完整性的途徑。示例代碼除了get和head之外沒有涉及到其它的http方法。

上一篇：ASP.net中用axWebBrowser中提交表單

下一篇：利用ASP.NET的三種緩存提高站點性能