java实现大文本文件拆分

更新时间：2020年5月20日 07:38 点击：2095

本文实例为大家分享了java实现大文本文件拆分的具体代码，供大家参考，具体内容如下

生成大文件

public static void createBigFile() throws IOException {
  File file = new File("/Users/yangpeng/Documents/temp/big_file.csv");
  FileWriter fileWriter = new FileWriter(file);
  BufferedWriter bufferedWriter = new BufferedWriter(fileWriter);
  String str = "aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa1";
  for (int i = 0; i < 1000000; i++) {
    bufferedWriter.write(str);
    bufferedWriter.newLine();
  }
  bufferedWriter.flush();
  bufferedWriter.close();
}

文件拆分

此处没有给出根据文件大小计算需要拆分的文件数量，所以这里是给定一个拆分文件数量

思路

思路：给定带拆分数量，计算出每个文件的平均字节数，然后循环文件数进行每个文件的拆分。拆分第一个文件时，根据平均字节数往后取给定的大约行字节数的字节，然后循环字节判断是否为\r或者\n，如果字节为\r或者\n则代表到达行末尾，记录行尾字节位置。知道了开头字节位置与结束字节位置，就可以将此位置之间的数据生成子文件了。继续循环拆分下个文件，基于上个文件记录的结束字节位置继续计算当前文件的结束位置，直到到达拆分文件的数量或者大文件读取完毕。

举个栗子：

有一个3行记录的文件，假设每行记录行字节包含换行符的字节数为100，也就是说这个文件的总字节数为300。

我现在要将这个文件拆分成2个。按照上面的思路，首先我需要计算出文件的平均值300/2=150，这里计算出的平均值并不是拆分出来的子文件一定是150，因为这个数字位置的字节有可能在一行的中间，那么我要基于这个数字算出下个换行符出现的位置当做我这个子文件的结束位。

所以我给定一个行字节数100+150=250，这个150到250之间的字节我认为有换行符，所以我轮询这100字节，判断是否为换行符，结果我轮到到50的位置发现了换行。

那么我这个第一个文件的结束位置是150+50=200，然后将0到200之间的字节生成第一个文件。然后基于这个200的位置继续拆分下个文件，由于200+150已经大于了源文件的大小，所以直接将200到300的数据生成一个子文件。所以最终的结果是一二行为一个子文件，三行为第二个子文件。

代码

考虑到性能与内存占用的问题，此处实现采用NIO

public static void splitFile(String filePath, int fileCount) throws IOException {
  FileInputStream fis = new FileInputStream(filePath);
  FileChannel inputChannel = fis.getChannel();
  final long fileSize = inputChannel.size();
  long average = fileSize / fileCount;//平均值
  long bufferSize = 200; //缓存块大小，自行调整
  ByteBuffer byteBuffer = ByteBuffer.allocate(Integer.valueOf(bufferSize + "")); // 申请一个缓存区
  long startPosition = 0; //子文件开始位置
  long endPosition = average < bufferSize ? 0 : average - bufferSize;//子文件结束位置
  for (int i = 0; i < fileCount; i++) {
    if (i + 1 != fileCount) {
      int read = inputChannel.read(byteBuffer, endPosition);// 读取数据
      readW:
      while (read != -1) {
        byteBuffer.flip();//切换读模式
        byte[] array = byteBuffer.array();
        for (int j = 0; j < array.length; j++) {
          byte b = array[j];
          if (b == 10 || b == 13) { //判断\n\r
            endPosition += j;
            break readW;
          }
        }
        endPosition += bufferSize;
        byteBuffer.clear(); //重置缓存块指针
        read = inputChannel.read(byteBuffer, endPosition);
      }
    }else{
      endPosition = fileSize; //最后一个文件直接指向文件末尾
    }

    FileOutputStream fos = new FileOutputStream(filePath + (i + 1));
    FileChannel outputChannel = fos.getChannel();
    inputChannel.transferTo(startPosition, endPosition - startPosition, outputChannel);//通道传输文件数据
    outputChannel.close();
    fos.close();
    startPosition = endPosition + 1;
    endPosition += average;
  }
  inputChannel.close();
  fis.close();

}

public static void main(String[] args) throws Exception {
  Scanner scanner = new Scanner(System.in);
  scanner.nextLine();
  long startTime = System.currentTimeMillis();
  splitFile("/Users/yangpeng/Documents/temp/big_file.csv",5);
  long endTime = System.currentTimeMillis();
  System.out.println("耗费时间： " + (endTime - startTime) + " ms");
  scanner.nextLine();
}

使用NIO可以高效的实现文件拆分，我的文件为100W行大小为1.02G的文本文件，拆分成5个子文件总耗时1224ms

后如下是使用jvisualvm监控的程序内存：

可以看到拆分期间内存浮动基本在1M左右。

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持猪先飞。

[!--infotagslink--]

上一篇: Java实现按行分割大文件

下一篇: Java实现文件分割与合并

Java实现经典游戏复杂迷宫
这篇文章主要介绍了如何利用java语言实现经典《复杂迷宫》游戏，文中采用了swing技术进行了界面化处理，感兴趣的小伙伴可以动手试一试...2022-02-01
java 运行报错has been compiled by a more recent version of the Java Runtime
java 运行报错has been compiled by a more recent version of the Java Runtime (class file version 54.0)...2021-04-01
在java中获取List集合中最大的日期时间操作
这篇文章主要介绍了在java中获取List集合中最大的日期时间操作，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧...2020-08-15
教你怎么用Java获取国家法定节假日
这篇文章主要介绍了教你怎么用Java获取国家法定节假日,文中有非常详细的代码示例,对正在学习java的小伙伴们有非常好的帮助,需要的朋友可以参考下...2021-04-23
Java如何发起http请求的实现(GET/POST)
这篇文章主要介绍了Java如何发起http请求的实现，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧...2021-03-31
浅谈Java与C#的一些细微差别
说起C#和Java这两门语言（语法，数据类型等），个人以为，大概有90%以上的相似，甚至可以认为几乎一样。但是在工作中，我也发现了一些细微的差别...2020-06-25
解决Java处理HTTP请求超时的问题
这篇文章主要介绍了解决Java处理HTTP请求超时的问题，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧...2021-03-29
java 判断两个时间段是否重叠的案例
这篇文章主要介绍了java 判断两个时间段是否重叠的案例，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧...2020-08-15
java 画pdf用itext调整表格宽度、自定义各个列宽的方法
这篇文章主要介绍了java 画pdf用itext调整表格宽度、自定义各个列宽的方法，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧...2021-01-31
超简洁java实现双色球若干注随机号码生成(实例代码)
这篇文章主要介绍了超简洁java实现双色球若干注随机号码生成(实例代码),本文通过实例代码给大家介绍的非常详细，对大家的学习或工作具有一定的参考借鉴价值，需要的朋友可以参考下...2021-04-02
Java生成随机姓名、性别和年龄的实现示例
这篇文章主要介绍了Java生成随机姓名、性别和年龄的实现示例，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧...2020-10-01
java正则表达式判断前端参数修改表中另一个字段的值
这篇文章主要介绍了java正则表达式判断前端参数修改表中另一个字段的值,需要的朋友可以参考下...2021-05-07
Java使用ScriptEngine动态执行代码(附Java几种动态执行代码比较)
这篇文章主要介绍了Java使用ScriptEngine动态执行代码,并且分享Java几种动态执行代码比较,需要的朋友可以参考下...2021-04-15
Java开发实现人机猜拳游戏
这篇文章主要介绍了Java开发实现人机猜拳游戏，文中示例代码介绍的非常详细，具有一定的参考价值，感兴趣的小伙伴们可以参考一下...2020-08-03
Java List集合返回值去掉中括号('[ ]')的操作
这篇文章主要介绍了Java List集合返回值去掉中括号('[ ]')的操作，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧...2020-08-29
Java 8 Stream 的终极技巧——Collectors 功能与操作方法详解
这篇文章主要介绍了Java 8 Stream Collectors 功能与操作方法,结合实例形式详细分析了Java 8 Stream Collectors 功能、操作方法及相关注意事项,需要的朋友可以参考下...2020-05-20
Java中lombok的@Builder注解的解析与简单使用详解
这篇文章主要介绍了Java中lombok的@Builder注解的解析与简单使用，本文给大家介绍的非常详细，对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下...2021-01-06
java中String类型变量的赋值问题介绍
下面小编就为大家带来一篇java中String类型变量的赋值问题介绍。小编觉得挺不错的。现在分享给大家，给大家一个参考。...2016-03-28
Java线程池中的各个参数如何合理设置
这篇文章主要介绍了Java线程池中的各个参数如何合理设置操作，具有很好的参考价值，希望对大家有所帮助。如有错误或未考虑完全的地方，望不吝赐教...2021-06-19
详解Java后端优雅验证参数合法性
这篇文章主要介绍了详解Java后端优雅验证参数合法性，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧...2021-02-18

java实现大文本文件拆分

相关文章

阁下可能感兴趣的内容

推荐阅读