The big data era is upon us: data are being generated, analyzed, and used at an unprecedented scale, and data-driven decision making is sweeping through all aspects of society. Since the value of data explodes when it can be linked and fused with other data, addressing the big data integration (BDI) challenge is critical to realizing the promise of big data. BDI differs from traditional data integration along the dimensions of volume, velocity, variety, and veracity. First, not only can data sources contain a huge volume of data, but also the number of data sources is now in the millions. Second, because of the rate at which newly collected data are made available, many of the data sources are very dynamic, and the number of data sources is also rapidly exploding. Third, data sources are extremely heterogeneous in their structure and content, exhibiting considerable variety even for substantially similar entities. Fourth, the data sources are of widely differing qualities, with significant differences in the coverage, accuracy and timeliness of data provided. This book explores the progress that has been made by the data integration community on the topics of schema alignment, record linkage and data fusion in addressing these novel challenges faced by big data integration. Each of these topics is covered in a systematic way: first starting with a quick tour of the topic in the context of traditional data integration, followed by a detailed, example-driven exposition of recent innovative techniques that have been proposed to address the BDI challenges of volume, velocity, variety, and veracity. Finally, it presents merging topics and opportunities that are specific to BDI, identifying promising directions for the data integration community.
ترجمه فارسی (ترجمه ماشینی)
عصر کلان داده در راه است: دادهها در مقیاسی بیسابقه تولید، تجزیه و تحلیل و استفاده میشوند و تصمیمگیری مبتنی بر دادهها در تمام جنبههای جامعه گسترده است. از آنجایی که ارزش دادهها وقتی میتوانند با دادههای دیگر مرتبط و ترکیب شوند منفجر میشود، پرداختن به چالش یکپارچهسازی کلان داده (BDI) برای تحقق وعده دادههای بزرگ حیاتی است. BDI با ادغام داده های سنتی در ابعاد حجم، سرعت، تنوع و صحت متفاوت است. اولاً، نه تنها منابع داده می توانند حجم عظیمی از داده ها را در بر گیرند، بلکه تعداد منابع داده در حال حاضر به میلیون ها نفر می رسد. دوم، به دلیل سرعتی که داده های جمع آوری شده جدید در دسترس قرار می گیرند، بسیاری از منابع داده بسیار پویا هستند و تعداد منابع داده نیز به سرعت در حال افزایش است. سوم، منابع داده در ساختار و محتوای خود بسیار ناهمگن هستند و تنوع قابل توجهی را حتی برای موجودیتهای تقریباً مشابه نشان میدهند. چهارم، منابع داده دارای کیفیت های بسیار متفاوتی هستند، با تفاوت های قابل توجهی در پوشش، دقت و به موقع بودن داده های ارائه شده. این کتاب پیشرفتهایی را که توسط جامعه یکپارچهسازی دادهها در موضوعات همترازی طرحواره، پیوند رکورد و ادغام دادهها در پرداختن به این چالشهای جدید با ادغام کلان دادهها انجام شده است، بررسی میکند. هر یک از این موضوعات به روشی سیستماتیک پوشش داده شده است: ابتدا با یک گشت و گذار سریع از موضوع در زمینه یکپارچه سازی داده های سنتی شروع می شود، سپس با توضیح مفصل و نمونه محور از تکنیک های نوآورانه اخیر که برای رسیدگی به چالش های BDI پیشنهاد شده است. حجم، سرعت، تنوع و صحت. در نهایت، موضوعات و فرصتهایی را که مختص BDI هستند، ادغام میکند و مسیرهای امیدوارکنندهای را برای جامعه یکپارچهسازی دادهها شناسایی میکند.
نقد و بررسیها
هنوز بررسیای ثبت نشده است.