reader_services.go 8.4 KB

123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858687888990919293949596979899100101102103104105106107108109110111112113114115116117118119120121122123124125126127128129130131132133134135136137138139140141142143144145146147148149150151152153154155156157158159160161162163164165166167168169170171172173174175176177178179180181182183184185186187188189190191192193194195196197198199200201202203204205206207208209210211212213214215216217218219220221222223224225226227228229230231232233234235236237238239240241242243244245246247248249250251252253254255256257258259260261262263264265266267268269270271272273274275276277278279280281282283284285
  1. package services
  2. import (
  3. "encoding/csv"
  4. "fmt"
  5. "os"
  6. "path/filepath"
  7. "runtime"
  8. "sort"
  9. "sync"
  10. "time"
  11. "regexp"
  12. "xg_fetl/internal/db_executor"
  13. "xg_fetl/internal/models"
  14. )
  15. // ReaderMain 主函数,参数化配置,使其更加灵活
  16. func ReaderMain(
  17. dbName string, // 数据库名称
  18. dirPath string, // CSV 文件所在的根目录
  19. tableInfos map[string]models.TableInfo, // 要处理的表信息
  20. delimiter rune, // CSV 文件的分隔符
  21. pageSize int, // 分页大小,每次读取的记录数
  22. mysqeExec db_executor.DBExecutor, // 数据库执行器接口
  23. ) {
  24. // 创建用于接收每个表处理结果的通道
  25. resultChan := make(chan TableResult)
  26. // 创建等待组,用于等待所有表的处理完成
  27. var wg sync.WaitGroup
  28. // 遍历每个表进行处理,使用协程
  29. for _, tableName := range sortedTableNames(tableInfos) {
  30. wg.Add(1)
  31. go func(tableName string) {
  32. defer wg.Done()
  33. // 开始处理表,记录开始时间
  34. startTime := time.Now()
  35. // 初始化 TableResult
  36. tableResult := TableResult{
  37. TableName: tableName,
  38. Success: false,
  39. GoroutineCount: 1, // 只使用一个协程
  40. Logs: []string{},
  41. }
  42. // 构建表名对应的文件夹路径,例如 dirPath/tableName
  43. tableDirPath := filepath.Join(dirPath, tableName)
  44. // 检查表名对应的文件夹是否存在
  45. if _, err := os.Stat(tableDirPath); os.IsNotExist(err) {
  46. errMsg := fmt.Sprintf("表 %s 对应的目录不存在: %v", tableName, err)
  47. tableResult.Error = fmt.Errorf(errMsg)
  48. tableResult.Logs = append(tableResult.Logs, errMsg)
  49. resultChan <- tableResult
  50. return
  51. }
  52. // 编译匹配 CSV 文件名的正则表达式,格式为 表名_[序号].csv
  53. filenamePattern := fmt.Sprintf(`^%s_\d+\.csv$`, regexp.QuoteMeta(tableName))
  54. re, err := regexp.Compile(filenamePattern)
  55. if err != nil {
  56. errMsg := fmt.Sprintf("无法编译文件名正则表达式: %v", err)
  57. tableResult.Error = fmt.Errorf(errMsg)
  58. tableResult.Logs = append(tableResult.Logs, errMsg)
  59. resultChan <- tableResult
  60. return
  61. }
  62. // 获取表目录下的所有 CSV 文件路径
  63. files, err := GetCSVFiles(tableDirPath)
  64. if err != nil {
  65. errMsg := fmt.Sprintf("无法获取 CSV 文件: %v", err)
  66. tableResult.Error = fmt.Errorf(errMsg)
  67. tableResult.Logs = append(tableResult.Logs, errMsg)
  68. resultChan <- tableResult
  69. return
  70. }
  71. // 过滤出符合命名规则的文件列表,并按文件名排序
  72. var matchedFiles []string
  73. for _, filePath := range files {
  74. filename := filepath.Base(filePath)
  75. if re.MatchString(filename) {
  76. matchedFiles = append(matchedFiles, filePath)
  77. }
  78. }
  79. if len(matchedFiles) == 0 {
  80. errMsg := fmt.Sprintf("表 %s 没有找到符合条件的 CSV 文件", tableName)
  81. tableResult.Error = fmt.Errorf(errMsg)
  82. tableResult.Logs = append(tableResult.Logs, errMsg)
  83. resultChan <- tableResult
  84. return
  85. }
  86. // 按文件名排序,确保顺序一致
  87. sort.Strings(matchedFiles)
  88. // 估算可用内存,决定一次加载多少个文件
  89. availableMemory := getAvailableMemory()
  90. var batchFiles []string
  91. var totalSize int64 = 0
  92. fmt.Println("可用内存:", availableMemory)
  93. for idx, filePath := range matchedFiles {
  94. fileInfo, err := os.Stat(filePath)
  95. if err != nil {
  96. tableResult.ErrorCount++
  97. logMsg := fmt.Sprintf("无法获取文件信息 %s: %v", filePath, err)
  98. tableResult.Logs = append(tableResult.Logs, logMsg)
  99. continue
  100. }
  101. fileSize := fileInfo.Size()
  102. // 判断是否超过可用内存
  103. if totalSize+fileSize > availableMemory && len(batchFiles) > 0 {
  104. // 处理当前批次文件
  105. fmt.Println("处理当前批次文件", batchFiles)
  106. err = processCSVFiles(batchFiles, delimiter, mysqeExec, tableName, &tableResult)
  107. if err != nil {
  108. tableResult.ErrorCount++
  109. logMsg := fmt.Sprintf("处理文件批次时出错: %v", err)
  110. tableResult.Logs = append(tableResult.Logs, logMsg)
  111. }
  112. // 重置批次
  113. batchFiles = []string{}
  114. fmt.Println("重置批次")
  115. totalSize = 0
  116. }
  117. batchFiles = append(batchFiles, filePath)
  118. totalSize += fileSize
  119. // 如果是最后一个文件,处理剩余的批次
  120. if idx == len(matchedFiles)-1 && len(batchFiles) > 0 {
  121. fmt.Println(",处理剩余的批次 ", batchFiles)
  122. err = processCSVFiles(batchFiles, delimiter, mysqeExec, tableName, &tableResult)
  123. if err != nil {
  124. tableResult.ErrorCount++
  125. logMsg := fmt.Sprintf("处理文件批次时出错: %v", err)
  126. tableResult.Logs = append(tableResult.Logs, logMsg)
  127. }
  128. }
  129. }
  130. // 计算导出持续时间
  131. tableResult.ExportDuration = time.Since(startTime)
  132. tableResult.Success = tableResult.ErrorCount == 0
  133. resultChan <- tableResult
  134. }(tableName)
  135. }
  136. // 开启一个协程来收集结果并打印
  137. go func() {
  138. wg.Wait()
  139. close(resultChan)
  140. }()
  141. // 打印结果
  142. for result := range resultChan {
  143. if result.Success {
  144. fmt.Printf("表 %s 导入成功,耗时 %v,共插入 %d 行数据。\n", result.TableName, result.ExportDuration, result.TotalRows)
  145. } else {
  146. fmt.Printf("表 %s 导入完成,存在错误,错误数量 %d,耗时 %v。\n", result.TableName, result.ErrorCount, result.ExportDuration)
  147. }
  148. // 打印详细日志
  149. for _, logMsg := range result.Logs {
  150. fmt.Println(logMsg)
  151. }
  152. }
  153. }
  154. // processCSVFiles 处理一批 CSV 文件
  155. func processCSVFiles(
  156. files []string,
  157. delimiter rune,
  158. mysqeExec db_executor.DBExecutor,
  159. tableName string,
  160. tableResult *TableResult,
  161. ) error {
  162. for _, filePath := range files {
  163. logMsg := fmt.Sprintf("开始读入文件: %s", filePath)
  164. fmt.Println(logMsg)
  165. tableResult.Logs = append(tableResult.Logs, logMsg)
  166. // 读取整个 CSV 文件到内存中
  167. headers, records, err := ReadEntireCSV(filePath, delimiter)
  168. if err != nil {
  169. tableResult.ErrorCount++
  170. logMsg = fmt.Sprintf("无法读取 CSV 文件 %s: %v", filePath, err)
  171. fmt.Println(logMsg)
  172. tableResult.Logs = append(tableResult.Logs, logMsg)
  173. continue
  174. }
  175. // 更新总行数和平均行大小
  176. tableResult.TotalRows += len(records)
  177. if len(records) > 0 {
  178. fileInfo, statErr := os.Stat(filePath)
  179. if statErr == nil && fileInfo.Size() > 0 {
  180. rowSize := fileInfo.Size() / int64(len(records))
  181. // 计算平均行大小
  182. if tableResult.AverageRowSize == 0 {
  183. tableResult.AverageRowSize = rowSize
  184. } else {
  185. tableResult.AverageRowSize = (tableResult.AverageRowSize + rowSize) / 2
  186. }
  187. }
  188. }
  189. // 插入数据到数据库
  190. err = mysqeExec.InsertRecordsToDB(tableName, headers, records)
  191. if err != nil {
  192. tableResult.ErrorCount++
  193. logMsg = fmt.Sprintf("无法将记录插入数据库: %v", err)
  194. fmt.Println(logMsg)
  195. tableResult.Logs = append(tableResult.Logs, logMsg)
  196. continue
  197. }
  198. logMsg = fmt.Sprintf("完成导入文件: %s,共插入 %d 行数据。", filePath, len(records))
  199. fmt.Println(logMsg)
  200. tableResult.Logs = append(tableResult.Logs, logMsg)
  201. }
  202. return nil
  203. }
  204. // ReadEntireCSV 读取整个 CSV 文件到内存中
  205. func ReadEntireCSV(filePath string, delimiter rune) ([]string, [][]string, error) {
  206. // 打开 CSV 文件
  207. file, err := os.Open(filePath)
  208. if err != nil {
  209. return nil, nil, fmt.Errorf("无法打开文件: %v", err)
  210. }
  211. defer file.Close()
  212. // 创建 CSV Reader,设置分隔符
  213. reader := csv.NewReader(file)
  214. reader.Comma = delimiter
  215. // 读取所有数据
  216. records, err := reader.ReadAll()
  217. if err != nil {
  218. return nil, nil, fmt.Errorf("无法读取 CSV 文件: %v", err)
  219. }
  220. if len(records) == 0 {
  221. return nil, nil, fmt.Errorf("CSV 文件为空")
  222. }
  223. // 第一个记录是表头
  224. headers := records[0]
  225. dataRecords := records[1:] // 跳过表头
  226. return headers, dataRecords, nil
  227. }
  228. // GetCSVFiles 获取指定目录下的所有 CSV 文件路径
  229. func GetCSVFiles(dirPath string) ([]string, error) {
  230. var files []string
  231. // 遍历目录,查找所有 .csv 文件
  232. entries, err := os.ReadDir(dirPath)
  233. if err != nil {
  234. return nil, fmt.Errorf("无法读取目录 %s: %v", dirPath, err)
  235. }
  236. for _, entry := range entries {
  237. if !entry.IsDir() && filepath.Ext(entry.Name()) == ".csv" {
  238. files = append(files, filepath.Join(dirPath, entry.Name()))
  239. }
  240. }
  241. return files, nil
  242. }
  243. // getAvailableMemory 获取可用的系统内存
  244. func getAvailableMemory() int64 {
  245. var m runtime.MemStats
  246. runtime.ReadMemStats(&m)
  247. // 假设使用可用内存的 80%
  248. availableMemory := int64(m.Sys - m.Alloc)
  249. return availableMemory * 80 / 100
  250. }